以監督式學習實現多目標強化學習

課程名稱：強化學習原理

領域：人工智慧小組

師資：謝秉均

作者：Li-Yi Chang、Bo-Wei Lin、Kui-Yuan Chen

RvS（Reinforcement learning via Supervised learning）是一種將強化學習訓練問題轉化為回歸或分類問題的框架。RvS 的吸引力在於它概念簡潔，並將 RL 統一於監督式學習之中。多目標強化學習（MORL）是 RL 的一個子領域，旨在同時優化多個具有競爭性的目標。常見作法包含基於效用函數的方法（需要先驗假設）與基於族群的訓練（需要維護大量策略）。本專案提出以 RvS 解決 MORL 的簡潔框架，不需假設效用函數，也不需特殊資料集，且所有偏好對應的策略統一由同一套 policy 表示。
本研究進一步探討是否可能移除對外部偏好的依賴，藉此簡化現有方法——例如 PEDA（Zhu et al., 2023）。為了公平比較，我們也研究了相反方向：移除目標回報、僅使用偏好條件。結果發現，相較於目標回報，偏好資訊對於引導 agent 行為可能扮演更關鍵的角色。此結果挑戰了傳統 RvS 框架，因為在 RvS 中目標回報通常被視為核心條件變數。

以監督式學習實現多目標強化學習

指導單位

教育部高等教育深耕計畫、國立陽明交通大學教務處

主辦單位

國立陽明交通大學教學發展中心創創工坊

聯繫窗口

聯絡電話｜ 03-5712121#50146 林小姐

電子信箱｜ ict@nycu.edu.tw

Instagram

Facebook

官方網站

選課系統