跳到主要內容
:::

人工智慧發展躍進:波蘭研究人員突破強化學習瓶頸|2025年12月21日

2025年12月21日

一組計算機科學家團隊,其中包括兩名來自波蘭的研究人員,開發了一種新方法,使強化學習(RL)模型可以使用多達數千層的神經網絡,這在此前被認為是不可能的規模。
 這項研究在頂尖人工智慧會議 NeurIPS 上獲得高度認可,並榮獲會議的最佳論文獎之一。

研究團隊包括華沙理工大學的博士生 Michał Bortkiewicz 和教授 Tomasz Trzciński,研究由普林斯頓大學的 Benjamin Eysenbach 教授領導。該研究被選為 Neural Information Processing Systems(NeurIPS)會議五篇獲獎論文之一,該會議被廣泛認為是人工智慧領域最具聲望的科學盛會。
 今年的會議收到了超過 20,000 篇論文投稿,其中約 5,000 篇被接受。

強化學習的挑戰
 強化學習是機器學習的主要方法之一,與監督學習、非監督學習和自監督學習並列。RL 系統透過與環境互動並獲得獎勵或懲罰來學習。這種方法已被應用於 AlphaGo(擊敗人類圍棋冠軍)、複雜的電子遊戲以及藥物發現、蛋白質設計和經濟決策支援等應用中。

直到目前為止,強化學習模型通常依賴非常淺的神經網絡,通常只有幾層。大幅增加層數的嘗試一直以來都失敗,因為訓練會變得不穩定且效率低下。國際研究團隊現在證明,RL 模型可以擴展至多達 1,024 層,開啟了更複雜內部表徵和學習能力的新途徑。

人工智慧發展躍進:突破迷宮牆的限制

在實驗任務中,研究人員展示了使用新方法訓練的深層 RL 模型,比先前系統的表現顯著提升。利用 對比強化學習(Contrastive Reinforcement Learning, CRL 方法,模型在模擬導航環境中的任務完成率提高了超過 50 倍。

在一個例子中,一個具有 256 層的模型學會了一種策略,使其能夠直接跳過迷宮牆而不是繞行,更高效地達到目標。作者指出,這種行為展示了深層模型發現淺層架構無法觸及的解決方案的能力。

研究人員指出,即使是相對簡單的 RL 模型,也已經在複雜遊戲中超越人類,並促進了科學發現。將這些系統擴展到更深的層數,則可能帶來更強大的應用潛力。CRL 演算法已經公開提供。

洋蔥有層嗎?RL 模型有層嗎?

Tomasz Trzciński 教授向波蘭新聞社(PAP)表示,層是神經網絡架構的核心部分,使資訊處理能分階段進行。增加層數可以讓模型在做出行動或決策前表示更複雜的關聯。

「層數越多,輸入到最終結果之間可以發生的操作就越複雜。透過增加層數,也就是網絡深度,模型能夠學習更複雜的概念,並在採取行動前建立更豐富的世界表徵。」
 —— Trzciński 教授

在迷宮任務中,模型的自由度不僅限於左右移動——它可以跳、彎、伸展。這些附加能力使它能找到新的創意解決方案。

儘管在其他機器學習領域(例如大型語言模型 GPT)已成功實現網絡深度擴展,但在強化學習中,模型歷來僅限於兩到五層的淺層網絡。

「過去嘗試增加層數時,算法會迷失,模型停止訓練。共識認為 RL 模型必須保持淺層,無法改變。」
 —— Trzciński 教授

自監督學習突破限制

作為博士研究的一部分,Bortkiewicz 展示了這一限制可以通過引入自監督學習(SSL)技術克服。SSL 常用於預訓練大型語言模型,它依賴輔助任務讓模型在優化最終目標前學習數據的內部結構。

研究人員得出結論:強化學習和自監督學習可以在單一框架中結合,而非互為競爭方法。Trzciński 教授指出:

「我們發現的這個相對小的改變,帶來了如此巨大的突破性成就。」

即使網絡深度增加,模型每次輸出的能耗並未增加,因為改進的表徵使它們更高效地達到解決方案。

「我們的研究表明,質疑既有路徑、跳出框框思考是有益的。即使在波蘭,科學和基礎研究資金不足且不如其他發達國家,也可以提出關鍵問題、挑戰現狀,去改變世界、發現前所未有的事物。」
 —— Trzciński 教授

展望未來,他表示這種方法可能支持新醫療療法的開發,以及更具適應性的人工智慧系統。

「我也希望看到這些方法如何促進 AI 模型自我提升,例如創造性生成新想法,推動科學發展進入下一階段。」
 —— Tomasz Trzciński 教授(PAP)

Source: https://scienceinpoland.pl/en/news/news%2C110836%2Cleap-ai-development-polish-researchers-break-impasse-reinforcement-learning.html

更新日期 : 2025/12/31