課程名稱:強化學習原理
領域:人工智慧小組
師資:謝秉均
作者:Li-Yi Chang、Bo-Wei Lin、Kui-Yuan Chen
RvS(Reinforcement learning via Supervised learning)是一種將強化學習訓練問題轉化為回歸或分類問題的框架。RvS 的吸引力在於它概念簡潔,並將 RL 統一於監督式學習之中。多目標強化學習(MORL)是 RL 的一個子領域,旨在同時優化多個具有競爭性的目標。常見作法包含基於效用函數的方法(需要先驗假設)與基於族群的訓練(需要維護大量策略)。本專案提出以 RvS 解決 MORL 的簡潔框架,不需假設效用函數,也不需特殊資料集,且所有偏好對應的策略統一由同一套 policy 表示。
本研究進一步探討是否可能移除對外部偏好的依賴,藉此簡化現有方法——例如 PEDA(Zhu et al., 2023)。為了公平比較,我們也研究了相反方向:移除目標回報、僅使用偏好條件。結果發現,相較於目標回報,偏好資訊對於引導 agent 行為可能扮演更關鍵的角色。此結果挑戰了傳統 RvS 框架,因為在 RvS 中目標回報通常被視為核心條件變數。