機器語音系統一直有點令人失望:即使是最好的文本語音轉換系統也擺脫不了機械的特性,缺乏人類說話時的基本語調變化。斯蒂芬·霍金使用的語音系統就是一個很好的例子。
但近年來,機器學習取得了巨大進步,也改善了機器語音系統的一些缺點。
最近,Facebook 人工智慧研究中心的 Sean Vasquez 和 Mike Lewis 發現了一種可以克服從文本到語音系統轉換限制,完全由機器生成而且音訊片段極其逼真的方法。這一系統被稱為 MelNet,它不僅可以複製人類的語調,而且可以用與真人相同的聲音。於是,研究小組開始訓練該系統,讓它模仿出比爾·蓋茨等人的說話。這項工作讓人類和電腦之間更真實的互動成為可能,不僅如此,它的逼真程度,很可能引發虛假音訊內容騙術的新問題。
現實中的文本—語音轉換系統進展緩慢並非是因為缺乏嘗試。許多團隊一直在嘗試訓練深度學習演算法,利用大型音訊資料庫重現真實的語音模式。
Vasquez 和 Lewis 說,這種方法的問題在於使用的資料類型。到目前為止,大多數工作都集中在音訊波形記錄上。這些音訊波形顯示了聲音的振幅如何隨時間而變化,它每秒記錄的音訊包含數萬個時間步長。
這些波形能在許多不同的尺度上顯示出特定模式。例如,在幾秒鐘的講話中,波形反映了與單詞序列相關的特徵模式。但是在微秒級的片段中,波形顯示了與聲音的音高和音色相關的特徵。在其他尺度上,波形反映了說話人的語調、音素結構等。
另一種方法是將波形在一個時間步長和下一個時間步長之間的關聯性考慮進來。所以,在給定的時間範圍內,一個單詞開頭的聲音與後面的聲音是有關聯的。
深度學習系統理應善於學習這些類型的關聯性,並對它們進行複製。但問題出在不同時間尺度的關聯性上,深度學習系統只能在有限的時間尺度上研究這些關聯性。這是因為深度學習使用了一種叫做反向傳播的學習過程,這種學習過程不斷地重新連接網路,根據所看到的示例改進其性能。
重複率限制了系統學習關聯性的時間尺度。因此,深度學習網路可以學習長時間或短時間內音訊波形的關聯性,但不能同時兼顧兩者。這就是為什麼它們在複製語音方面表現如此糟糕的原因。
Vasquez 和 Lewis 則有不同的方法。他們使用聲譜圖而不是音訊波形來訓練他們的深度學習網路。聲譜圖記錄了整個音頻頻譜及其隨時間的變化。所以當波形捕捉到隨時間變化的一個參數,例如振幅時,光譜圖則捕捉到了不同頻率範圍內的振幅變化。
這意味著音訊資訊被更密集地打包到了這種類型的資料中。研究者認為:聲譜圖的時間軸比波形的時間軸緊湊幾個數量級,這意味著在波形中跨越數萬個時間步長的依賴關係只跨越聲譜圖中的數百個時間步長。
這使得深度學習系統更容易獲得關聯性。他們說:「這使得我們的聲譜模型能夠在數秒內產生一致的無條件語音和音樂樣本。」
最後的結果令人印象深刻。通過使用 TED 演講中的普通語音訓練系統,MelNet 能夠在幾秒鐘內複製 TED 演講者的聲音,或多或少地說出一些內容。Facebook 的研究人員利用比爾·蓋茨的 TED 演講來訓練 MelNet,然後用比爾·蓋茨的聲音說出一系列隨機的短語,以此展示了 MelNet 的靈活性。
當然,該方法也有一些限制。普通言語包含了更長時間尺度上的相關性。例如,在幾十秒或幾分鐘的演講進程中,人們會使用語調的變化來表示主題或情緒的變化。Facebook 的機器系統似乎還無法做到這一點。
因此,儘管 MelNet 可以創造出非常逼真的短語,但團隊還不能讓機器完成較長的句子、段落或整個故事。這個目標似乎不是很快就能實現。
然而,這項工作可能會對人機交互產生重大影響。人機交互中許多對話只包含簡短的短語。電話接線員和服務台尤其可以使用一系列相對簡短的短語。因此,這項技術可以用一種比當前系統更接近人類的方式來優化這些交互。
不過,目前 Vasquez 和 Lewis 對潛在的應用前景守口如瓶。
當然,自然發聲的機器也存在潛在的問題,尤其是那些能夠逼真模仿人類的機器。很容易想像,這種技術可能被用於惡作劇的場景。正因為如此,這是人工智慧的又一進步,它提出的倫理問題比它所能回答的問題要更多。
本文係由DeepTech深科技授權刊登。原文連結:Facebook 的 AI,已经可以用比尔·盖茨的声音说话