2024.04.10 16:46 臺北時間

【叫板ChatGPT 2】輝達超級電腦助攻運算 聯發科繁體中文LLM技壓GPT3.5

mm-logo
財經理財
聯發科旗下聯發創新基地打造的大語言模型,在繁體中文測試項目中大勝GPT3.5模型。
聯發科旗下聯發創新基地打造的大語言模型,在繁體中文測試項目中大勝GPT3.5模型。
聯發科推出生成式AI(人工智慧)服務平台支援各大模型,而在其中的一個由聯發創新基地最新釋出的繁體中文大語言模型「MR BreeXe」,內有450億個參數,在中文知識上明顯超越GPT-3.5。同時,這套大語言模型(LLM)在輝達(NVIDIA)的Taipei -1 GPU超級電腦DGX H100上進行訓練,支援多種雲端、地端的應用服務。
聯發創新基地負責人許大山表示,MediaTek Research BreeXe(後簡稱MR BreeXe)繁體中文大型語言模型是聯發創新基地在大模型發展上最新的里程碑,提供優異語文理解能力和雲、地兩端的彈性,為現今繁體中文能力最強的語言模型,加上與聯發科生成式AI服務平台的搭配,相信能更貼近在地需求,激發更多在地的生成式AI應用。
為了有效因應企業用戶的使用需求,許大山指出,MR BreeXe模型在使用時,能支援四萬字的文本處理,同時,該模型是以Mixtral 8x7B模型為基礎開發,繼承Mixtral多專家模型特有的節省運算資源、提升速度優勢,再加上聯發創新基地的預訓練(pre-training)之後,不但在繁體中文測試項目(TMMLU+、MT Bench TW)超越GPT-3.5,並對台灣常見之地端應用特別進行優化,提升產業界使用生成式AI 與檢索增強生成(RAG)的體驗。
「2個月前,聯發基地開放給部分合作夥伴試用MR BreeXe模型的訓練資料,效果很令人驚豔,不會有卡頓問題,可以用在即時(Real-time)應用之中。」許大山說道。
說起聯發科投入生成式AI,也不過快2年時間。許大山坦言,當時甚麼都不會,但「不會做、更要做」,特別是大語言模型的技術,是生成式AI的基礎。歷經不斷的摸索,才打造出2款為繁中打造的大語言模型。
許大山接著表示,有些客戶在還沒有這套模型之前,往往不能提供語言、知識相關服務,甚至無法支援一些全封閉環境(如公司內部、部門內部)使用,即便要用,可能要自己下載模型DIY做得頭破血流。而MR BreeXe這套有450億參數的模型,表現即可能幫助企業解決這些現況。
值得一提的是,聯發創新基地資深技術經理陳宜昌強調,MR BreeXe針對中文特殊情境優化,加入中文常用詞彙,速度可以提升1倍,布建成本還能下降一半。
MR BreeXe是在輝達(NVIDIA)的Taipei -1 GPU超級電腦DGX H100上進行訓練,透過MediaTek Davinci,支援全地端與部分地端的佈設場景,並可依需求進行多樣本學習(few-shot learning)甚至微調(fine-tuning)的客製化。
許大山指出,目前聯發科開源模型下載已經達8千多次,功能受到各界肯定,未來將持續更新模型,朝繁中GPT4邁進,期望技術力能跟世界最強的生成式AI一樣強。
更新時間|2024.04.10 16:46 臺北時間
延伸閱讀

支持鏡週刊

小心意大意義
小額贊助鏡週刊!

每月 $79 元全站看到飽
暢享無廣告閱讀體驗

更多內容,歡迎 鏡週刊紙本雜誌鏡週刊數位訂閱了解內容授權資訊

月費、年費會員免費線上閱讀動態雜誌

線上閱讀

更多內容,歡迎 鏡週刊紙本雜誌鏡週刊數位訂閱了解內容授權資訊

月費、年費會員免費線上閱讀動態雜誌

線上閱讀