2019.07.06 06:51 臺北時間

未來靠AI抓詐騙? 聽聲音重建人類臉孔

mm-logo
(來源:unsplash)
(來源:unsplash)
不少人都擁有「偽聲」的天賦,再通過練習,可以輕易偽裝成老人、孩子,哪怕是與自己性別不符的聲音,更有甚者可以模仿動物、昆蟲,十分逼真,只憑耳朵根本無法分辨。
上網時,如果突然收到一位陌生美女的好友申請,你會不會同意?假如你添加對方為好友,她要求和你通話,你聽到她的聲音也是甜甜的。她向你尋求幫助,索要錢財,你貪圖「美色」同意了,卻不料對方真實身份是一名成年男子……
這種網路騙術層出不窮。不少人都擁有「偽聲」的天賦,再通過練習,可以輕易偽裝成老人、孩子,哪怕是與自己性別不符的聲音,更有甚者可以模仿動物、昆蟲,十分逼真,只憑耳朵根本無法分辨。
我們能從一個人說話的方式來大致推斷出他的長相?你無法辨別螢幕背後的人「是男還是女,是人還是狗」,但AI可以。
近日,來自康奈爾大學的科學家們,利用互聯網上數百萬人的線上視頻資料,設計並訓練了一個深度神經網路。模型在訓練過程中學習了視聽、音像、聲音和面部的關聯性,從而根據聲音來推測面部特徵。它可以通過一個簡短的音訊片段來重建一個人的臉部圖像,捕捉語言、口音、速度和發音等,從而推測年齡、性別、族裔、嘴唇形狀、嘴唇大小、骨骼結構等等。目前此模型只接受輸入音訊波形。
研究者提醒道,他們的目標不是重建一個準確的人的圖像,而是恢復與輸入語音片段相關的物理特徵。
此項研究成果發表在2019年的CVPR(IEEE Conference on Computer Vision and Pattern Recognition)上。其實,在2018年的大會上,就有過類似的研究了。不過當時的AI是做選擇題,在「聽」完音訊後,只能從提供的2張人臉圖片中選出說話者,並不能自主模擬。今年可謂是大大的進步。
不過,由於這個AI只接受了捕捉許多個體共有的視覺特徵(與年齡、性別等相關)的訓練,有一定的局限性。因此,他只能生成長相平平的面孔,擁有與輸入語音片段相關的視覺特徵。它無法生成特定個體的圖像。也就是說,合成的圖片看起來會有點兒「大眾臉」,沒有太鮮明的個人特徵。
一些成功範例。(左)原始圖像,即,從視頻中截取的有代表性的演講者的臉;(中)從原始圖像中提取人臉特徵,進行人臉正前方化、光照歸一化;(右)語音人臉重構,通過解碼音訊中預測的人臉特徵計算得出。
可以看出,重建的臉部圖像與真實的長相還是有一定的差距。雖然可以還原部分的特徵,但卻無法準確到看起來像「一個模子裡刻出來的」。
從同一視頻中(a)從不同視頻中(b)提取同一個人的語音片段進行人臉重建。
即便是同一個人,在不同的場合說話,語調、語氣也會有細微的差別。所以AI類比出來的臉部圖像也有些許的差異。
部分失敗案例(a)高音調的男性聲音,例如孩子的聲音,可能會獲得具有女性特徵的面部圖像。(b)口語與種族不符。(c、d)與實際年齡不匹配。
此種AI提升的空間還很大。如果可以進一步提高捕捉聲音特徵的敏感性,將研究範圍擴展到胸腔的發聲,聲帶的震動頻率、方式,氣息的運用,語癖等,相信會得到更精準的面部重建圖像。
也有不少人提出了自己的疑惑。「聲音和外貌真的有關聯性嗎?」「頭部的三維結構編碼到一維的聲音之中,這個過程中會損失很多資訊,準確度上升到一定程度就無法再提高了吧?」「對受過專業訓練的播音員能起作用嗎?」「能從聲音感知到身高及體重嗎?」希望科學家們在今後的研究中逐步解決這些問題。
有網友評論:「如果能準確重建出配音演員的臉,這個AI就真的逆天了。」 這句話背後,是配音演員都有極強的聲音塑造能力,能夠掩蓋本來的聲音特質。
相信到了那個時候,這個AI用來對付犯罪分子早已不在話下。
本文係由DeepTech深科技授權刊登。原文連結:“火眼金睛”的 AI:透过声音看到脸
更新時間|2023.09.12 20:30 臺北時間
延伸閱讀

支持鏡週刊

小心意大意義
小額贊助鏡週刊!

每月 $79 元全站看到飽
暢享無廣告閱讀體驗

更多內容,歡迎 鏡週刊紙本雜誌鏡週刊數位訂閱了解內容授權資訊

月費、年費會員免費線上閱讀動態雜誌

線上閱讀

更多內容,歡迎 鏡週刊紙本雜誌鏡週刊數位訂閱了解內容授權資訊

月費、年費會員免費線上閱讀動態雜誌

線上閱讀