Exhibited Works
展出作品

在 Unity 桌球環境中的強化學習實作

課程名稱:強化學習原理

領域:人工智慧小組

師資:謝秉均

作者:Yi-An Wang、Chun-Liang Chen、Shao-Sen Wu

桌球是一個節奏快速的連續控制問題,需要毫秒級的反應速度、精準的球拍位置控制以及策略性的判斷能力。我們提出將 Unity 排球模擬中成功的兩階段訓練流程遷移至桌球環境。第一階段為「合作回球訓練」,agent 在 PPO 的對稱設定下進行訓練,兩個 agent 共享同一個策略,並透過維持回球來獲得正向獎勵。這個階段強調時機掌握、站位與穩定回擊,而不涉及競爭。
第二階段為「Self-Play 對戰訓練」,環境轉換成多智能體設定,agent 會與過往版本的自身策略競爭。獎勵改為反映是否贏得回合,以鼓勵 agent 發展更具策略性的行為,提升勝率。最終成果預期為一個樣本效率高、表現穩定且可公開使用的 Unity 桌球強化學習策略模型。