盡管我們已經知道 NSA 依靠指紋和面部圖像來識別目標,但是根據 2008 年的一份機構文件,聲紋才是“NSA 的統(tǒng)治地位所在”。
在美蘇冷戰(zhàn)最嚴峻的時期,那是 1980 年的冬天,美國聯邦調查局(FBI)的特工人員記錄到了一次通話——一名男子被安排與在華盛頓特區(qū)的蘇聯大使進行秘密會晤。然而,在約定的那天,調查局的特工們沒能看到究竟是誰進入了大使館。當時,特工們沒有辦法僅根據他的通話聲音就查出他的名字,所以這個間諜得以繼續(xù)藏匿自己的身份,并在隨后的五年中,將一些美國機密項目的細節(jié)賣給了蘇聯。
直到 1985 年,根據一名俄羅斯叛逃者提供的情報,FBI 才最終確定了當時那名通話者為前美國國家安全局(NSA)分析員 Ronald Pelton。次年,Ronald Pelton 被判處間諜罪。

這種技術的原理在于分析個人聲音中獨特的物理和行為特征來區(qū)分不同人的聲音,例如發(fā)聲的音高、嘴型、咽部長度等。算法隨后會創(chuàng)建個人聲音特征的動態(tài)計算機模型,也就是通常所說的“聲紋”模型。整個過程——捕捉所說的單詞、將單詞轉化為聲紋、并將這種表示與數據庫中其他的“聲紋”進行對比——都可以在瞬間完成。盡管我們已經知道 NSA 依靠指紋和面部圖像來識別目標,但是根據 2008 年的一份機構文件,聲紋才是“NSA 的統(tǒng)治地位所在”。
我們不難看出原因。NSA,無論獲得許可與否,截取了數以百萬計的美國公民的電話,甚至包括越洋電話、視頻電話和互聯網電話,從而建立了一個無可比擬的聲紋庫。來自斯諾登提供的文件顯示,分析人員將部分人的錄音提供給聲紋識別算法之后,即使這些人在其他通話中使用未知的號碼、秘密代碼亦或是不同語言,算法都可以將其與已有的音頻相匹配。
早在伊拉克自由行動時,分析人員就使用聲紋識別技術,證實了那些“疑似被廢黜的領導人薩達姆的錄音”確實是薩達姆本人,而不像公眾以為的那樣是偽造的。NSA 的備忘錄進一步表明,NSA 分析員為本·***也構建了聲紋,“在幾次放送中,他的聲音都十分明顯且一致”;與基地組織的現任領導人 Ayman al-Zawahri 以及基地組織的三把手 Abu Musab al-Zarqawi 有顯著不同。他們也使用 Zarqawi 的聲紋從幾份網上發(fā)布的音頻中找到了他。
據 2004 年至 2012 年間的機密文件顯示,NSA 對其聲紋識別技術進行了愈發(fā)復雜的迭代。文件證實了聲紋識別在反恐行動和緝毒行動中均獲使用。文件還建議更多國家機構部署這項技術,不僅僅是為了追溯像 Pelton 這樣的間諜,還為了防止像斯諾登這樣的舉報人出現。
永遠在聽的算法
一些民權專家擔心聲紋識別技術和該技術的擴展應用將會侵害公民隱私。白宮前國家情報局局長顧問 Timothy Edgar 解釋說,“聲紋識別技術即創(chuàng)建了一種新的情報能力,一種容易被濫用的能力。”“我們的聲音代替我們本人穿越各種渠道完成溝通。在大眾監(jiān)控的時代,這種能力對我們所有人的隱私都有深遠的影響?!?/p>
Edgar 和其他專家指出,相比于姓名、地址、密碼、電話號碼和個人識別碼,人聲的相對穩(wěn)定性使得其難以被改變或偽裝。電子前線基金會(Electronic Frontier Foundation)的律師 Jamie Williams 表示,這讓追蹤變得“容易的多”?!爸灰隳茏R別出某個人的聲音,”她表示,“你就能在監(jiān)聽記錄或錄音中找到他們?!?/p>
聲音是一種獨特且易于獲取的生物特征:與 DNA 不同,它可以被動地被收集,且不受距離的限制,不需要目標知悉或者征得他們的同意。雖然識別的準確度受到收音條件的相似性,但是在受控的環(huán)境中——低底噪、熟悉的聲學環(huán)境和良好的通信質量——這種技術可以用寥寥幾句話就精確地匹配到個人。計算機模型擁有的同一個人的不同聲音樣本越多,模型就愈發(fā)強大,愈發(fā)“成熟”。
在商業(yè)環(huán)境中,聲紋識別技術與呼叫中心欺詐審查、與 Siri 等語音助理交談以及個人銀行業(yè)務密碼驗證等任務關聯密切。并且這種技術的用途正在逐漸增長,根據市場研究公司 Tractica 的報告,到 2024 年,語音生物識別技術產業(yè)的收入預計將達到每年 50 億美元,其用途將擴展至邊境檢查站、醫(yī)療、信用卡支付和可穿戴設備中。

一位前國防情報官員,因政策所限無法對機密文件進行討論,匿名對 The Intercept 表示,他相信這種技術一直隱而不漏絕非偶然。“政府避免討論這種技術,正是因為它提出了一些嚴峻的問題,而這些問題政府不愿意回答,”這位官員如是說道?!斑@是自 911 事件發(fā)生以來,對于我們個人及我們的權利的一項重要轉變。”而想要進入技術監(jiān)控范圍,官員指出,“你什么都不用做,張嘴說話就行了?!?/p>
民權主義者擔心,如果沒有針對政府秘密收集我們的語音模式這一事項的公開討論以及監(jiān)督,我們可能會進入一個越來越沉默的世界。
新型聲音工具
2013 年開始,美國人就已經知道 NSA 在大量收集國內外的電話數據,但如何將原始數據轉化為有用情報這一技術仍然鮮為人知。2015 年,據 The Intercept 報道,NSA 為處理政府收集的大量音頻建立了一系列“人類語言技術”。通過開發(fā)程序自動將語音翻譯成文本——分析員稱之為“語音版 Google”——政府部門可以使用關鍵詞和“選擇器”來搜索、閱讀和索引錄音而不是派人親自去聽,從而節(jié)省了大量的人力。
從語音轉寫文字項目衍生的聲紋識別技術為分析員提供了一種額外的工具,使其可以將不計其數的戰(zhàn)區(qū)音頻進行攔截與分類。NSA 和國防部斥巨資發(fā)展此技術并增加其可靠性。數字時代之前,聲紋識別隸屬于法庭科學。二戰(zhàn)期間,人類分析員對來自無線電的聲音頻率的可視化輸出進行比較。根據《法庭聲紋識別》的作者 Harry Hollien 的說法,這些可以“閱讀語音”的機器——即語譜圖技術——甚至用來駁斥阿道夫?希特勒被暗殺并被人取代的謠言。
作為法庭聲紋識別標準化事宜的聯邦領導者,首席聲紋識別專家 James Wayman 解釋道:“聲紋可以被看到,”他指出,雖然“聲紋”這個詞已經被商業(yè)公司用爛了,但其實有一定的誤導性。因為“紋”意味著所捕獲的信息是物理的,而不是行為的。他說:“其實你所擁有的是軟件程序里的一個方程,能夠輸出不同的數字。”
這些方程已經從簡單的求均值演變?yōu)閯討B(tài)算法模型。自 1996 年依賴,NSA 資助了美國國家標準與技術研究院語音研究所(NIST),培養(yǎng)和測試“解決聲紋識別問題的最具主導性和前途的算法”。與 NIST 一起測試系統(tǒng)的還有,領先的生物識別公司和研究人員,其中有一些人獲得了 NSA 和國防部高級研究計劃局(DARPA)的資助。

11 月,根據國際刑警組織發(fā)布的新聞,由歐盟資助的一個國際聲紋識別的項目通過了最后的測試。來自 50 多個國家的 100 多名情報分析員、研究人員和執(zhí)法人員(其中包括國際刑警組織的探員,英國大都會警察局和葡萄牙司法系統(tǒng)的警察們)都來到了展示現場,研究人員證明他們的方案可以識別“社交媒體上或合法截獲的音頻中說不同語言的未知發(fā)言者”。
The Intercept 查閱的 NSA 文件中描繪了一個類似地正在發(fā)展的系統(tǒng)的輪廓——在 9/11 事件之后的幾年里,這個系統(tǒng)的發(fā)展使得“語音分析員能夠在幾秒鐘內對數百小時的語音剪輯進行篩選,基于關鍵詞或說話者聲紋識別篩選出有用的信息?!?/p>
“戲劇性”結果

但 NSA 的系統(tǒng)的功能遠遠不止回答“是”或者“不是”。在 2006 年的一系列通訊中,報道了一個名為“實時語音”(Voice RT)的項目,這個系統(tǒng)不僅能在語音攔截中自動識別說話者身份,還能識別他們的語言、性別和口音。分析員可以對攔截按上述類別進行分類,通過關鍵字進行實時搜索,并設置自動警報,在傳入的攔截符合某些標簽的條件時通知他們。一份 NSA 的 PPT 進一步證實,Voice RT 程序將其“攝入”的伊拉克語音數據轉換為了聲紋。
斯諾登提供的 NSA 備忘錄并沒有說明 Voice RT 的部署范圍,而 GCHQ 的語音/傳真用戶組的會議記錄中提到了這一點。英國機構的備忘錄中的詳細說明了 NSA 的聲紋識別計劃是如何針對外國目標進行部署的。2007 年秋季,當其語音/傳真用戶組在與 NSA 代表會面時,NSA 成員們介紹了一個高效的 Voice RT 系統(tǒng),可以為語言學家和分析員提供說話者識別和語言類別識別能力,可以將語音轉換為文本和并搜索語音?!皩嵸|上,”會議記錄將 Voice RT 描述為,“一個一站式商店……他們?yōu)榱颂岣呦到y(tǒng)的可部署性付出了大量的努力?!钡?2010 年,NSA 的 Voice RT 程序可以處理超過 25 種外語的音頻。在阿富汗,NSA 將語音分析和地圖軟件配合使用,定位那些講阿拉伯語的信號塔集群——用來發(fā)現新的基地組織訓練營。
GCHQ 則使用了一個名為 Broad Oak 的項目,根據聲音來識別目標者。英國政府在中東地區(qū)建立了聲紋識別系統(tǒng),識別對象不乏沙特、巴基斯坦、格魯吉亞和伊拉克的領導人。GCHQ 的會議記錄稱:“如果您認為我們可以幫助您在海量信息流中找到您感興趣的目標,請隨時與我們聯系,我們很樂意與您討論您的需求,并希望能夠提供一個迅速準確的解決方案?!?/p>
這不是一張空頭支票。2009 年,在識別伊拉克副總統(tǒng)之一 Adil Abdul Mahdi 時,GCHQ 吹噓說他們比對手 NSA 做得要好?!坝捎谖覀円恢币员人麄兏斓乃俣葓蟾嫠ǜ笨偨y(tǒng))的相關消息,NSA 已經放棄參與其中 …… 此項良好的表現也提高了我們在 NSA 的聲譽。“2010 年,GCHQ 的研究概述顯示,兩個機構就聲紋分析項目的聯合實驗進行了廣泛的合作。
但聲紋識別工具的發(fā)展并非一帆風順。在其早期階段,這項技術遠不如今天那么強大有效。前國防情報官員回憶說,雖然分析員能夠在他們的工作站播放語音樣本,但由于音頻沒有編入索引,搜索重要的樣本是一個很大的挑戰(zhàn)。在 SIDtoday 發(fā)表的一封 2006 年的寫給編輯者的信中,一位分析員抱怨說語音工具的引入使其非常崩潰,并將其初始速度比作“流淌在一月的糖漿”。
然而到了 2007 年,聲紋識別技術已經明顯成熟。NSA 專門為伊朗總統(tǒng) Mahmoud Ahmadinejad 的紐約市聯合國大會之行建立的備忘錄中詳細列舉了該技術的實際功用。在獲得合法授權后,分析員配置了一個專門的系統(tǒng),盡可能多的跟蹤 143 名伊朗代表的電話。在所有的這些傳入流量上,他們運行了語音活動檢測算法,以避免目標在沒有說話的時候分析員浪費時間跟蹤; 通過關鍵字來搜索“電子郵件地址的傳遞和重要人物的討論”;以及根據說話者聲紋識別來成功定位“包括伊朗外交大臣在內的重要人士”的對話。

2010 年,機構的技術人員制定出了一個應對這些調制聲音的解決方案——應用 HLT Lite——一個用來搜索修改過或異常的聲音的軟件。SIDtoday 稱,該方案在掃描了 100 多萬條音頻后,在也門發(fā)現至少 80 個經過修改的語音的例子。據報道,這使機構發(fā)現了同時使用幾個新電話號碼的目標人物。
隨著系統(tǒng)能力的提升,他們的監(jiān)控范圍也在擴大。2010 年 9 月的一則通訊詳細介紹了墨西哥城升級的聲紋識別系統(tǒng)的“戲劇性”發(fā)展——網站的負責人稱,堪比相當于一臺額外的掃描儀。通過在音頻攔截中搜索“bomba”這個詞,分析員可以分離和檢測有關炸彈威脅的對話。
聲紋識別系統(tǒng)也可以很容易地通過重新配置,用在別的地方。GCHQ 2008 年 10 月的會議記錄描述了一個“涉及阿富汗毒品交易的高層人員網絡”的建立過程,這個網絡后來被“投入到意想不到的應用之中”。分析員甚至“在毒品流量較大的區(qū)域進行了一次地毯式搜索”來識別更多的目標。
從戰(zhàn)場上到機構中
NSA 很快意識到,他們的錄音處理能力可以用來識別 NSA 內部的員工。正如 2006 年 1 月那篇討論 Ronald Pelton 的音頻的備忘錄所解釋的那樣,“聲音匹配技術正被應用到新提出的內部威脅(Insider Threat)計劃中,企圖捉住『我們中的間諜』?!?/p>
在美國軍方告密者 Chelsea Manning 泄密之后,該計劃由奧巴馬政府公開宣布,其內容是密切監(jiān)視政府雇員的生活。但這份文件似乎表明,該舉措在 2011 年奧巴馬頒發(fā)行政命令之前就已經開始實行了。
據新聞自由基金會的 Trevor Timm 的分析,NSA 將用于檢測外部威脅人員的生物技術運用到檢測內部成員中的異見人士身上這一手段并不新鮮?!霸谶^去 15 年中,我們已經看到了一連串這樣的例子:執(zhí)法機構把那些侵犯式的、本來作用于恐怖分子身上的工具——無論是定位跟蹤還是人臉識別,或者是像這種聲紋識別技術——用于其它各種犯罪調查中。”
Timm 指出,在過去幾年中,告密者,情報人員以及記者都采取了更嚴密的安全措施來避免暴露身份。但是,“如果記者使用的電話號碼并未與其身份關聯,那么政府就會通過許可證等方式來掃描他們通話,這項技術也將潛在被用于抑制新聞業(yè)的發(fā)展?!?/p>
對于情報圈的民權律師第一人 Timothy Edgar 來說,這些“風險”可以歸為這樣一個問題:“他們是在尋找正當目標,還是在濫用權力?比如試圖監(jiān)控記者或告密者這樣的做法?”
Edgar 說,在某些方面,聲紋識別或有助于保護個人隱私。這項技術允許分析員來篩選電話,這樣他們就可以專注于目標人物的聲音,從而剔除掉其他人的聲音。一份 2010 年度的 SIDtoday 備忘錄強調,通過確保“該名說話人是某國領導人而非甜甜圈店的某個服務員,”該技術可以降低情報人員所需監(jiān)聽的通話量。
“事實上,”這一級別的精確度,成為了“NSA 解釋當初大量收集元數據的做法的擋箭牌”,Edgar 解釋說?!八麄?yōu)轫椖窟M行辯護的手段之一,就是自稱沒有收集所有的數據,而是通過篩選器來收集信息?!?/p>
同時,從大量數據中識別特定個體的目標,常常證明了繼續(xù)收集更多數據的必要性。識別可以幫助分析人員縮小電話接聽的范圍,但這項技術似乎會鼓勵他們在更大范圍內進行搜索,因為本質上這項任務的目標是監(jiān)聽目標聲音出現的對話,無論他用什么號碼撥出。或如 Pelton 備忘錄所指出的那樣,這項技術使得分析員能夠“在任何地方辨別出那個聲音。”
雖然這些文件表明,該機構確實試圖在其員工身上運用這項技術,但 The Intercept 所查閱的文件并沒有明確表明,該機構是否已經在美國普通公民的對話數據中進行聲紋創(chuàng)建。
外國人情報監(jiān)視法案(Foreign Intelligence Surveillance Act,FISA)規(guī)定,機構可以自由收集在國外服務器和基礎設施上傳輸的音頻數據,以及美國人與外國人的語音交流數據。因為項規(guī)定,Edgar 稱,越洋電話“基本上”是被系統(tǒng)錄過聲紋了?!叭绻麄儧]對越洋電話使用這些技術手段,我才會感到驚訝。在某種程度上,這就是他們的工作內容?!?/p>
然而專家們對“NSA 是否有權利在沒有許可的情況下掃描美國公民在美國領土上進行的通話并制作聲紋”這一議題表現出了分歧的態(tài)度。這種分歧部分源自監(jiān)督相關法律的不完備,這方面的法律未能跟上聲紋與語音識別等數字技術的發(fā)展。
雖然美國已經制定了嚴格的法律,禁止在沒有許可證的情況下對美國領土上進行的電話內容進行記錄,但也沒有任何聯邦機構負責監(jiān)管聲音數據的采集和處理事宜。
監(jiān)管缺失的部分原因是,雖然政府需要許可才能獲得“內容”,但聲紋應該被歸類為“內容”嗎?或者像 NSA 聲稱的那樣,聲紋不過是“元數據”——這部分信息所受的法律保護就少多了。在這個問題上,法律基本上沒有做對這部分信息做任何具體的規(guī)定,這導致一些專家推測,NSA 正在利用這一法律灰色地帶實行聲紋建立。
針對一系列詳細的問題,NSA 給出了如下的回應:“根據長期政策,NSA 將不確認也不否認該文所指的涉及的美國政府信息的準確性?!?/p>
無所不用其極
星期四,參議院投票通過擴大外國人情報監(jiān)視法案(FISA)的 702 條,這使得 NSA 有權對那些與外國人溝通的美國人進行暗中監(jiān)視,且不需要許可證。這種再授權行為,與上周在眾議院的行動類似,證實了那些評論家的觀點,他們認為 NSA 對其法律權力的解釋整日益強硬——同時日益模糊。
計算機科學家和監(jiān)控研究專家 Andrew Clement 在斯諾登披露相關信息之前就已經在調查 NSA 的無許可竊聽活動。他堅信,該機構對美國公民的聲紋識別的利用并未收到任何限制。他解釋說,該機構經常選擇將收集到的所有信息進行分類,直到達到人類分析員能夠將其作為元數據來進行聽或讀為止?!澳侵皇且粋€巨大的漏洞,”他解釋說,“看來,他們會把通過算法方式從內容中獲取到的任何信息,都簡單地歸類為元數據?!?/p>
Clement 類比了 NSA 對待電話號碼和電子郵件地址的方式,來類比 NSA 會如何將建立聲紋的行為合法化。斯諾登在 2013 年披露的 XKeyscore 項目,就允許工作人員從截獲的電郵中提取出電郵地址(它們被歸類為元數據)。這些工作人員還可以對關鍵字進行全文搜索,它們同樣被歸類為上下文信息而不是內容。
然而 Edgar 認為,如果政府把我們的聲音也算作元數據,那么他會大吃一驚?!澳憧梢栽囍q解說,聲音特點不等于說話內容,”Edgar 說,“但是為了做聲紋識別,你還是得收集一通國內電話的內容,并對其進行分析以便提取出聲音?!?/p>
目前還不知道 NSA 收集、取樣或保留了多少國內的通話內容。但 EFF 的 Jamie Williams 指出,NSA 不一定非得通過收集美國人的電話錄音來制作美國人的聲紋庫,因為民營企業(yè)就一直在記錄我們的聲音。他們正擁有越來越多的音頻資源。汽車、恒溫器、冰箱、電燈泡,甚至是垃圾桶,都已變成了“智能的”(即互聯網化的)語音設備。Gartner 預測,今年有三分之一的人機交互將通過與語音系統(tǒng)的對話來進行。最近,Google 和亞馬遜的“智能音箱”都推出了聲紋識別系統(tǒng),用以區(qū)分家庭成員的聲音?!耙坏┕緭碛羞@些聲音數據,”Williams 說,“在理論上,執(zhí)法機構就能拿到它,只要他們有一個有效的法律程序?!?/p>
這位前政府官員指出,原始語音數據可以存儲在民營企業(yè)那里,并供 NSA 通過秘密協(xié)議進行訪問。比如在 Fairview 計劃中,該機構與 AT&T 是合作伙伴關系。盡管美國國會試圖控制 NSA 對國內電話記錄的收集行為,但該機構一直在尋求獲得我們提供給企業(yè)數據庫的原始數據。(例如與 Verizon 和 AT&T 的合作伙伴關系,對 Xbox 游戲系統(tǒng)的滲透,以及對萬千網友的在線元數據的暗中收集,這些只是幾個最近的例子。)“電信公司持有數據,而沒有什么可以阻止他們運行一個算法,”這位前官員說。
Clement 想知道的是,對于 NSA 而言,可能聲紋識別能力比其內容識別能力更為重要?!斑@可以讓他們把你和你自己的其他身份聯系起來,并確定你和其他人的關系,”他說。
這似乎才是 NSA 的最終目標。在 2010 年的一次關于“一次前所未有的機會,了解 NSA 如何將其創(chuàng)造性的能量用于個人跟蹤”的會議上,NSA 的高層領導談到如何將“全生活(whole life)”戰(zhàn)略納入他們的目標。他們描述了將生物特征數據(比如聲紋)與傳記資料(如社交網絡和個人歷史)進行整合的需求。用該機構自己的話說,“一切都是關于在空間和時間上進行個人定位、跟蹤和維護的連續(xù)性。我們不局限于傳統(tǒng)的通訊方式——我們無所不用其極。”
-
指紋識別
+關注
關注
43文章
1752瀏覽量
104233 -
面部識別
+關注
關注
1文章
375瀏覽量
27577 -
聲紋識別
+關注
關注
3文章
142瀏覽量
22233 -
NSA
+關注
關注
4文章
108瀏覽量
18996
原文標題:如何將聲紋識別技術用到極致
文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
NSA2302iic通訊地址
為什么 C 語言仍然占據統(tǒng)治地位?
為什么 C 語言仍然占據統(tǒng)治地位?
半導體行業(yè)協(xié)會:300mm晶圓已經占據統(tǒng)治地位
聲紋識別技術應用及關鍵問題
三星AMOLED屏幕統(tǒng)治地位2019年將遭遇中國廠商挑戰(zhàn)
如何將聲紋識別技術用到極致
京東方65寸液晶面板售價自降20%,占領65寸面板的統(tǒng)治地位
讓你看看什么才是科技!SpeakIn聲紋技術驚艷GMIC
AI專用芯片將挑戰(zhàn)GPU的絕對統(tǒng)治地位
小米電視占據統(tǒng)治地位 包攬各項第一
科技巨頭亞馬遜借定制芯片挑戰(zhàn)英特爾統(tǒng)治地位
智能電力聲紋監(jiān)測系統(tǒng):守護電網安全的“聲紋衛(wèi)士”

聲紋才是“NSA 的統(tǒng)治地位所在”
評論