Bot 機械学習・データサイエンス

仮想通貨botの開発記録#106(2024/9/24)「MLbot開発のネタ集め・データ分析【欠損値の補完と外れ値の処理】」

2024年9月24日

前回の記事に引き続き、今回も仮想通貨botの開発状況をまとめていきます。

今回は「MLbot開発のネタ集め」についてまとめます。

Yodaka

MLbot開発を進める過程で学んだことの備忘録です。

動画の中で、欠損値の補完について言及されていました。私自身もこの点を丁寧に扱うことが強いbot作りに繋がるという実感があるので、今回改めてその定義などから学習に取り組むことにしました。

解決したいこと

・機械学習を使って価格予測をするbotを作りたい

・機械学習を使って戦略そのものを強くしていくbotを作りたい

・データ分析における欠損値の処理や外れ値の扱いを正しく理解したい

Yodaka

必要なことをピンポイントに学びながら、bot開発を進めていきます。

参考

恐怖指数「極度の恐怖」では価格は反発するのか?【暗号資産×データ分析】
→本記事を書くきっかけになった動画。

ディープラーニング入門 Chainer Tutorial
→手を動かしながら段階的に学べる教材。

スタビジ【誰でもAIデータサイエンス】byウマたん
YouTubeの動画。項目ごとにまとめられているので隙間時間に学ぶのにも適している。

欠損値とは

欠損値には3パターンある。

・MACR(完全に無作為な欠損)
・MAR(条件付きで無作為な欠損)
 →欠損が存在するサンプルを削除して分析をすると推定結果が偏ることがある
・MNAR(無作為ではない欠損)

欠損値の処理方法は"削除"と"補完"がある。

補完には単一代入法と多重代入法がある。

外れ値とは

外れ値の定義とは測定された中で他の値とはかけ離れている値のこと。

まずは、シンプルに分布を見て判断する(データとビジネスの両面から判断する)

外れ値の検出方法(箱ヒゲ図で見やすくする、±3σルールを使う)
→±3σルールを用いる場合はデータが正規分布に従っていることが前提

異常値(物理的にあり得ない値、入力や測定のミスで生じる)との違いを検討する

外れ値を除去して良い場合といけない場合がある
→ビジネス的に重要な意味を持つ場合は、外れ値も含めて分析する

まとめ

今回は「欠損値の補完と外れ値の処理」について簡単にまとめました。

Yodaka

今後のMLbot開発の基礎固めとしてこの領域の学習と開発を進めます。

今後もこの調子で開発の経過を発信していきます。

-Bot, 機械学習・データサイエンス