跳到主要內容
:::

打破大型語言模型隔閡,讓 AI學會跨平台對話

如同不同國家的人說著不同語言,人工智慧模型也說著所謂的內部語言,這種內部語言是由該模型理解的獨特符號所構成的語言,因此僅能在自身模型中使用。截至今日,依舊缺乏能讓不同公司開發的模型直接交流、協作以及結合各自優勢來提升效能的方法。近日在加拿大溫哥華舉行的國際機器學習大會(ICML)上,以色列魏茲曼科學研究院與 Intel Labs 的科學家們合作開發出一種新型演算法,成功突破大型語言模型之間的溝通障礙,該演算法幫助全球開發者得以整合運用不同人工智慧模型,使其如同一個大型協作系統般運作,使用者們將能同時利用多個人工智慧模型共同運算的強大效能。根據研究成果顯示,該方法平均可將大型語言模型效能提升 1.5 倍。

 

ChatGPT 與 Gemini 等大型語言模型雖然功能強大,但也面臨著速度緩慢與耗費龐大運算資源成本等缺點。2022 年,科技巨頭意識到人工智慧模型如同人類,可從分工合作中獲益,因此催生出「推測解碼」(speculative decoding)方法。藉由一個小型快速但知識庫有限的模型先提供初步回答,再由更大型緩慢但知識庫龐大的模型進行審核與修正。該方法能夠在不犧牲輸出品質的型況下,保持 100% 的準確率,因此成為廣泛使用的方法。然而,該方法依舊存在著一大限制,那就是兩個模型必須使用完全相同的數位語言,因此不同公司開發大型語言模型無法適用。

 

以色列魏茲曼科學研究院電腦科學暨應用數學系 David Harel 教授團隊的博士生 Nadav Timor 表示:「科技巨頭公司能藉由採用推測解碼獲得更快效能,並且節省下數十億美元運算成本,但也只有他們能夠使用語言架構一致的小模型與大模型。相較之下,若有一家新創公司也想使用推測解碼方法,必須自行訓練一個與大模型語言相符的小模型,而這需要龐大的專業知識且需投資大量昂貴的運算資源。」

 

此研究提出的新型演算法,允許開發者能將任意小模型與大模型配對,進行協作運作。為了克服不同模型間的語言障礙,研究人員提出兩階段解法。首先設計演算法將大型語言模型內部部符號語言輸出轉換成所有模型都能理解的共享格式。隨後設計另一個演算法,讓這些模型進行協作時,能運用跨模型之間具備相同意義的符號,就像是「香蕉」或「網路」等這些在不同語言中幾乎相同的詞彙。

 

Timor 補充表示:「起初我們擔心翻譯過程會造成資訊流失,使得不同模型間無法有效協作。但結果證明我們錯了,新型演算法能將大型語言模型的效能最高提升至 2.8 倍,大幅節省運算成本。」

 

此研究成果獲得 ICML 主辦方的高度肯定,並入選公開發表( 一萬五千篇投稿中僅有 1% 獲選)。Intel Labs 資深研究員暨共同作者 Oren Pereg 表示:「我們解決了生成式人工智慧的核心低效率問題。其不僅是理論上的進展,同時也幫助開發者打造出更快、更聰明的實用工具。這項新研究成果對手機、無人機與自駕車等裝置尤其重要,因為這些裝置在無網路環境下,必須依靠有限的運算資源。想像一下,一輛由人工智慧模型驅動的自駕車,在這個情況下,一個更快速的高效模型可能就是正確決策與錯誤判定的差別。」

 

過去幾個月,研究團隊已將演算法釋出於開源人工智慧平台 Hugging Face Transformers,免費提供全球開發者使用。這些演算法目前成為高效運行人工智慧的標準工具之一。

 

 

資料來源:
https://wis-wander.weizmann.ac.il/math-computer-science/faster-smarter-more-open-new-way-accelerate-ai-models

原始論文:https://arxiv.org/abs/2502.05202

 

 

更新日期 : 2025/10/24