課程名稱:強化學習原理
領域:人工智慧小組
師資:謝秉均
作者:Ren Jyun Huang、Kuan Yen Liu
強化學習在訓練初期的主要挑戰是有效探索行為空間,尤其是在獎勵稀疏或延遲的情況下更為困難。受到 KALM 的啟發——該研究顯示大型語言模型(LLM)擁有可泛化的世界知識,可用於生成有意義的虛擬軌跡——我們假設 LLM 同樣能生成合理的真實世界動作,進而引導策略的探索。本報告提出的方法 MyGO(Model Your Guidance Objectives)將觀察與動作的歷史序列進行 tokenizer 化,並利用 LLM 自回歸地預測可能的下一個動作。這些由 LLM 產生的動作預測會透過 KL divergence 搭配 RL 策略進行正則化,使探索行為能與結構化的先驗知識對齊。
在實驗部分,我們同時在連續控制任務(Meta World)與離散環境(Mini Grid)中評估模型。結果顯示,LLM 作為探索先驗能加速早期訓練,並提升最終表現,不論是訓練過的任務(seen tasks)或未見過的任務(unseen tasks)。整體來說,LLM 引導的 agent 在收斂速度與泛化能力兩者上都有所提升,展現大型語言模型作為強化學習通用先驗的潛力。