人工智慧正在迅速發展,幾乎任何人都可以在家中製作高品質的深度偽造錄音。人類和生物辨識系統都無法可靠地區分人工語音和真實語音。布爾諾理工大學 (BUT) 的研究人員與商業系統開發人員現在希望設計更可靠的測試和更準確的深度偽造檢測。
來自 FIT BUT 的 Anton Firc 首先在他的碩士論文中開始討論 Deepfakes 問題,他在論文中研究了語音生物辨識技術對 Deepfakes 的抵抗力。
Daniel Prudky 的研究隨後跟進了同樣的問題,該研究向 31 名受訪者發送語音訊息,並調查他們在普通對話中檢測深度偽造的能力。「人們被告知有關正在測試的語音郵件的用戶友好性的封面故事。他在測試對話中加入了一段深度偽造的錄音,並監控受訪者的反應。結果表明,他們中沒有人能發現欺詐性的深度偽造訊息。」Firc 解釋道。
然而,在同一個實驗中,當受訪者被告知其中一封語音郵件是假的時,他們能夠以近 80% 的準確率識別它。 「但研究表明,雖然深度偽造的錄音很容易與真實錄音區分開來,但沒有人可以在正常對話中檢測到它,」Firc補充道。他說,部分原因是訪談者在上下文中沒有預料到這一點,而這正是深度偽造錄音的創作者在現實中可以利用的。
「人們不會想到會遇到深度偽造的聲音,因此會忽略錯誤或質量較差的錄音。所有電話和社交網絡用戶都面臨風險,這開啟了語音釣魚攻擊的可能性,這是深度偽造的組合。」研究人員補充道,提高普遍意識可能是一種合適的保護措施。
他說,任何使用手機、電腦或擁有社群媒體帳號的人都面臨風險。社交工程攻擊的一個常見例子是透過電話洩漏公司內部資訊。 「電話響了,你接到另一個辦公室的同事打來的電話。他知道正確的措辭和用詞,並假裝他的電腦無法工作,他需要你幫他查看系統,也許可以給他讀取數據的權限。」Firc說。
Deepfakes 擴大了這些社交工程攻擊的可能性。即使沒有太多技術知識的人現在也可以在家中創建高品質的合成錄音。驗證銀行或呼叫中心的語音生物辨識系統無法可靠地區分合成錄音和真實人類語音。 「我測試了兩種商用語音生物辨識系統,並證實即使它們也無法區分真實錄音和合成錄音,」研究人員說。
他說,最大的問題是,即使是生物辨識系統的開發人員也沒有方法來測試系統對深度偽造攻擊的抵抗力。「有一些基於神經網路的模型,深度偽造偵測器,能夠偵測錄音中是否存在正常語音中未發現的異常,並評估它是真實的還是合成的。但解釋這些模型的含義非常具有挑戰性。人員指出,到目前為止,專家們發現的唯一一件事是,深度偽造錄音在較高頻率下具有更多能量,而在人類語言中,這種能量分佈更加線性。」測試Deepfakes 仍處於起步階段。
雖然銀行和私人企業目前是主要的攻擊目標,但未來一般民眾也可能遭受網路安全漏洞的困擾。
一家斯洛伐克銀行願意向您發放僅基於語音驗證的信用卡,由於資料外洩很常見,而且購買某人的個人資訊也沒有問題,因此使用深度偽造的語音記錄以他人的名義申請信用卡將變得非常容易。更重要的是,人工智慧發展得如此之快,我們很快就能夠自動化這些攻擊並整合像 ChatGPT 這樣的語言模型。在最壞的情況下,這可能會產生一支人工電話推銷員大軍,他們會打電話給老年人,並假裝他們是家庭成員,例如遭遇車禍並需要立即匯款。
捷克內政部也開始關注網路安全中的深度造假問題,並呼籲進行安全研究,Anton Firc(Security@FIT 小組)正在與 Speech@FIT 和 Phonexia 合作進行安全研究。目的是開發能夠可靠識別人工創建的錄音的工具。