至於深度偽造(Deepfake)的來源為何?刑事局預防科長林書立向本刊表示,深度偽造一詞,取自深度學習(Deep learning)和偽造(Fake)2字,實務上是指利用AI人工智慧(Artificial Intelligence)結合電腦製作虛假影音,像之前台灣網紅小玉利用深偽技術販賣假名人不雅片就是實例。
他進一步指出,全世界第1個深偽技術,源於1961年IBM工程師製作的電腦語音合成系統,當時是先錄下人說話的聲音,再分類成語音片段,透過語音模式組合成完整的單字或句子,但仍容易聽出差異且成本偏高。
不過,自ChatGPT引爆生成式AI以來,不論是影片、文字、圖像、聲音類的AI技術都隨著加速進步,美國亞馬遜公司就曾在2022年發表一款智慧音箱,僅需錄製一段不到1分鐘的聲音,就能複製出說話者的聲紋語調,還在示範影片中代替1名已故的女性唸她生前未讀完的故事給孫子聽,只不過如此先進的深偽技術,卻也成為犯罪集團作案的工具。
美國《華爾街日報》就曾報導,英國1間公司職員接到假冒德國母公司執行長聲音的電話,匯出約新台幣757萬元的歐元,事後才懷疑是被AI所騙;加拿大1對七旬夫妻也因接到利用AI假冒兒子聲音的電話,跑了好幾家銀行將錢轉給詐騙集團。
林書立表示,深偽技術的進步已讓一般民眾無從辨識真偽,尤其是深偽音訊(Deepvoice)從過去AI需要1個半小時以上的聲紋學習,到現在視不同軟體的品質需求,僅需約1分半到3秒的聲紋就能做出不同的數位假聲音,或是合成足以令人混淆的目標人聲,費用僅需區區數十美元。