在 Unity 桌球環境中的強化學習實作

課程名稱：強化學習原理

領域：人工智慧小組

師資：謝秉均

作者：Yi-An Wang、Chun-Liang Chen、Shao-Sen Wu

桌球是一個節奏快速的連續控制問題，需要毫秒級的反應速度、精準的球拍位置控制以及策略性的判斷能力。我們提出將 Unity 排球模擬中成功的兩階段訓練流程遷移至桌球環境。第一階段為「合作回球訓練」，agent 在 PPO 的對稱設定下進行訓練，兩個 agent 共享同一個策略，並透過維持回球來獲得正向獎勵。這個階段強調時機掌握、站位與穩定回擊，而不涉及競爭。
第二階段為「Self-Play 對戰訓練」，環境轉換成多智能體設定，agent 會與過往版本的自身策略競爭。獎勵改為反映是否贏得回合，以鼓勵 agent 發展更具策略性的行為，提升勝率。最終成果預期為一個樣本效率高、表現穩定且可公開使用的 Unity 桌球強化學習策略模型。

在 Unity 桌球環境中的強化學習實作

指導單位

教育部高等教育深耕計畫、國立陽明交通大學教務處

主辦單位

國立陽明交通大學教學發展中心創創工坊

聯繫窗口

聯絡電話｜ 03-5712121#50146 林小姐

電子信箱｜ ict@nycu.edu.tw

Instagram

Facebook

官方網站

選課系統