前回の記事に引き続き、今回も仮想通貨botの開発状況をまとめていきます。
今回は「MLbot開発のネタ集め」についてまとめます。
MLbot開発を進める過程で学んだことの備忘録です。
個人的に重要ポイントだと感じたのは"欠損値の補完"。動画の中ではサラッと言及しているが、この部分の丁寧さは戦う領域を問わず強いbot作りに直結すると思う。
恐怖指数「極度の恐怖」では価格は反発するのか?【暗号資産×データ分析】 https://t.co/MVg3BuoURu @YouTubeより
— よだか(夜鷹/yodaka) (@yodakablog) September 23, 2024
動画の中で、欠損値の補完について言及されていました。私自身もこの点を丁寧に扱うことが強いbot作りに繋がるという実感があるので、今回改めてその定義などから学習に取り組むことにしました。
解決したいこと
・機械学習を使って価格予測をするbotを作りたい
・機械学習を使って戦略そのものを強くしていくbotを作りたい
・データ分析における欠損値の処理や外れ値の扱いを正しく理解したい
必要なことをピンポイントに学びながら、bot開発を進めていきます。
参考
恐怖指数「極度の恐怖」では価格は反発するのか?【暗号資産×データ分析】
→本記事を書くきっかけになった動画。
ディープラーニング入門 Chainer Tutorial
→手を動かしながら段階的に学べる教材。
スタビジ【誰でもAIデータサイエンス】byウマたん
YouTubeの動画。項目ごとにまとめられているので隙間時間に学ぶのにも適している。
欠損値とは
欠損値には3パターンある。
・MACR(完全に無作為な欠損)
・MAR(条件付きで無作為な欠損)
→欠損が存在するサンプルを削除して分析をすると推定結果が偏ることがある
・MNAR(無作為ではない欠損)
欠損値の処理方法は"削除"と"補完"がある。
補完には単一代入法と多重代入法がある。
外れ値とは
外れ値の定義とは測定された中で他の値とはかけ離れている値のこと。
まずは、シンプルに分布を見て判断する(データとビジネスの両面から判断する)
外れ値の検出方法(箱ヒゲ図で見やすくする、±3σルールを使う)
→±3σルールを用いる場合はデータが正規分布に従っていることが前提
異常値(物理的にあり得ない値、入力や測定のミスで生じる)との違いを検討する
外れ値を除去して良い場合といけない場合がある
→ビジネス的に重要な意味を持つ場合は、外れ値も含めて分析する
まとめ
今回は「欠損値の補完と外れ値の処理」について簡単にまとめました。
今後のMLbot開発の基礎固めとしてこの領域の学習と開発を進めます。
今後もこの調子で開発の経過を発信していきます。
"ブックマーク数"が"いいね数"を上回っているポストを大事にしている。
恐らくその場では"いいね"したものの内容のヘビーさに多くの人が脱落して、価値ある内容であるにも関わらずブクマ止まりで放置されているってことだから、そういうものに本気で取り組むと本当の実力が付く可能性が高い。— よだか(夜鷹/yodaka) (@yodakablog) September 22, 2024