今年6月國科會公開「台版ChatGPT」第一階段測試,專案模型組召集人蔡宗翰和一群平均年齡不到25歲的工程師緊盯黑壓壓的對話模型框,當模型一字一句吐出中文,卻不見ChatGPT系統常出現、台灣人不會使用的「總的來說」「人工智能」等中國用語,蔡宗翰開心笑了,「很像在教一個從美國回台灣的ABC,我們說一句,他說一句,當他終於可以講得很流利,而不是怪裡怪氣的字句,那應該是我的AI時刻吧。」
餵養台灣素材 打造語言模型
ChatGPT問世一年,矽谷科技巨頭微軟、Google相互較勁,各國軍備戰也開打,中國推自產的「悟道」「文心一言」,法國有「Bloom」可理解46國語言。台灣產官學各單位也動起來,試圖打造台灣的大型語言模型,商用如聯發科的BLOOM-zh、台智雲的福爾摩沙,官方有如國科會的「可信任人工智慧對話引擎」(Trustworthy AI Dialogue Engine,簡稱TAIDE),另外,直接以台灣為名的「Taiwan-LLM」,由台大資工系博士生林彥廷與台大資工系指導教授陳縕儂獨立開發、開源釋出,11月釋出的2.0版,包括數位部已嵌入內部工作流程,台積電、聯發科也來探詢。
「去年看到ChatGPT出來,想說:哇,『這東西也太厲害了!』又支援中文,直覺那是美國、矽谷、大公司才能做的事,沒想過我們也能做,」大學念資管系的林彥廷,因大三修習機器學習的課,對自然語言產生興趣,改攻資工博士,今年5月到亞馬遜實習時,剛好也在相關開發小組,7月,當他看到海外一些社群運用Meta開源模型LLaMA2開發出落地版的大型語言模型,立刻向指導教授、台大資工系副教授陳縕儂提案並得到支持。
「每個時代都有科技的buzzword(流行語),但語言模型不一樣,之後會被大量應用,尤其在教育、法律與醫療領域…它可能變成私人家教,取代部分學習的功能,當它牽涉很多價值觀,卻滲透到小孩的學習,做底層模型的源頭管控很重要,」林彥廷說,Taiwan-LLM的初衷是讓語言模型能流暢說台灣人會說的繁體中文,下一步則是調教成能提供在地知識的對話機器人。然而,初步篩選資料就遇到困難。
第一版他們採用包含由國際非營利組織Common Crawl自動抓取的中文網站檔案,即便已排除簡體字來源,甚至要求網站只要有一個簡體字,整筆資料刪除,訓練出來的語言模型還是會給出「台灣是中國」的答案。「中國有大量的內容農場網站翻成繁體,因為廉價,又很好爬(程式自動抓取),即便篩選過,資料仍充斥大量中國大陸的文本。」林彥廷推估。
國家專案計畫 資料授權謹慎
第一版結束後,他們四處談合作,最終由日商優必達與亞馬遜協助提供算力;資料集的部分,他排除第一版的網路公開資料,選擇餵入台灣新聞、社群網站、維基百科、司法院、法典、法學資料庫等,約300億繁體中文字,「很意外,第二版不用特別過濾,也不會產生國籍錯誤。」 他另外寫了100多題問答訓練,確保語言模型在穩定情況下,不會在敏感的政治議題出錯,包括準確解釋戒嚴、避免政黨偏好,現在若問它「NTU」,答案也不再是通用大型語言模型會跑出的南洋理工大學(Nanyang Technological University),而是台大。
國科會的TAIDE計畫也建立在開源模型。同時是中央資工系教授、中研院人社中心研究員的蔡宗翰說,關於台灣是否要開發自己的大型語言模型,一直有爭論。畢竟從頭開發一個大型語言模型,除了需要一兆字元的基礎訓練,成本也過於高昂,但他認為,台灣已錯過一個世代的網路發展,「我們沒有自己的搜尋引擎、社群網站,人才沒辦法拿到最好的資料,也不能確保資料隱私。」2月,當國科會主委吳政忠宣布,台灣應該要有自己的ChatGPT,避免被大量簡體中文資料主導,他很快被計畫主持人、資通安全專題中心執行長李育杰找來負責模型訓練組。
因為是國家專案計畫,第二階段又希望商用,資料集的來源、授權,需比學界獨立試驗開發的計畫來得謹慎。蔡宗翰和團隊老師、30多位工程師,除了蒐集包括中央社、維基、學術會議論文摘要等十多種資料,整理成一段一段乾淨的字條,餵入模型,展開文字接龍的中文基礎教育,科政中心也跨部門調取政府公開資訊與學術論文,同時與新聞媒體、出版社等機構洽談。「品質好的內容,才能訓練好的內容。」蔡宗翰也提到,當中資料屬性平衡、個資隱私訊息都要另外處理。
資料庫打地基 守住本土文化
TAIDE在六月中公開初代測試模型,截至12月初,第二階段的模型在自動摘要、翻譯文本、寫信、寫文章等任務表現能力,已超過去年底的ChatGPT 3.5,但因安全性評測未建立完成,申請才能使用,目前有包括勞動部等3、40個單位簽署合作備忘錄。
蔡宗翰笑說,短時間要完成這麼大的任務,除了30多位工程師日夜趕工,他們也運用一些機巧,譬如LLaMA的模型說的是英文,他們先做一個翻譯機,訓練初始便問模型Meta當時怎麼訓練它,結果模型吐出30多萬條提問,再讓模型自己回答達成訓練。TAIDE也利用做好的中文模型,發展台語、客語模型,已完備的台語模型,招呼語就是「你好!真歡喜看著你」,12月初在新加坡,Meta主管和科學家都表示出興趣。只是少數語種的資料量,落差更明顯,英文一T,繁中一B,台語只有一M,原住民語言模型,其他團隊還在開發努力。
無論是Taiwan-LLM或TAIDE,未來如何擴大提升繁體中文語料、算力及法律,步步是挑戰。但就像吳政忠表明的,台灣不能萬事問ChatGPT,建置大型語言模型像「打地基」,未來除了提供公私部門加值應用,也是守住台灣珍貴的語料和文化。