前回の記事に引き続き、今回も仮想通貨botの開発状況をまとめていきます。 今日はPPO。 pic.twitter.com/bZsAYpmrIx— よだか(夜鷹/yodaka) (@yodakablog) October 22, 2024 PPOとは PPO(Proximal Policy Optimization)は、強化学習のアルゴリズムの一つであり、特に連続的なアクションスペースを持つ問題に適用されることが多いポリシー勾配法の一種です。2017年にOpenAIによって導入されたこの手法は、 ...