結合大型語言模型先驗的連續控制方法

課程名稱：強化學習原理

領域：人工智慧小組

師資：謝秉均

作者：Ren Jyun Huang、Kuan Yen Liu

強化學習在訓練初期的主要挑戰是有效探索行為空間，尤其是在獎勵稀疏或延遲的情況下更為困難。受到 KALM 的啟發——該研究顯示大型語言模型（LLM）擁有可泛化的世界知識，可用於生成有意義的虛擬軌跡——我們假設 LLM 同樣能生成合理的真實世界動作，進而引導策略的探索。本報告提出的方法 MyGO（Model Your Guidance Objectives）將觀察與動作的歷史序列進行 tokenizer 化，並利用 LLM 自回歸地預測可能的下一個動作。這些由 LLM 產生的動作預測會透過 KL divergence 搭配 RL 策略進行正則化，使探索行為能與結構化的先驗知識對齊。
在實驗部分，我們同時在連續控制任務（Meta World）與離散環境（Mini Grid）中評估模型。結果顯示，LLM 作為探索先驗能加速早期訓練，並提升最終表現，不論是訓練過的任務（seen tasks）或未見過的任務（unseen tasks）。整體來說，LLM 引導的 agent 在收斂速度與泛化能力兩者上都有所提升，展現大型語言模型作為強化學習通用先驗的潛力。

結合大型語言模型先驗的連續控制方法

指導單位

教育部高等教育深耕計畫、國立陽明交通大學教務處

主辦單位

國立陽明交通大學教學發展中心創創工坊

聯繫窗口

聯絡電話｜ 03-5712121#50146 林小姐

電子信箱｜ ict@nycu.edu.tw

Instagram

Facebook

官方網站

選課系統