仮想通貨botの開発記録#44(2024/1/11)「データサイエンスの学習③回帰分析の基本」

2024年1月11日 2024年8月29日

前回の記事に引き続き、今回も仮想通貨botの開発状況をまとめていきます。

こちらの動画「80分で学ぶ！Pythonによる回帰分析の基本【Pythonデータサイエンス超入門】」を参考に「回帰分析の基本」の学習をしました。

ここから分からないことが飛躍的に増えるので一つずつ丁寧に進めていきます。

80分で学ぶ！Pythonによる回帰分析の基本【Pythonデータサイエンス超入門】 https://t.co/SPA7lc0M6C @YouTubeより

— よだか(夜鷹/yodaka) (@yodakablog) January 8, 2024

本記事を理解するデータサイエンスの学習についてはこちらの記事でまとめています。

【回帰分析】

散らばったデータから一定の法則を見つける方法。例えば、気温とアイスの売り上げの相関。目的変数と説明変数と切片。説明変数が一つの場合は「単回帰分析」。目的変数が複数ある場合は「重回帰分析」。一般的に目的変数には複数の説明変数が絡むため「重回帰分析」が多く用いられる。

準備

ダミー変数の作成。予めpandasを使って空のデータの空白を埋める処理をしておく。例えば「○(まる)or空白」などの変数に代入できないものなどは「1or2」などと編集しておくことで、使えるデータとして認識されるようになる。

出力されたデータから切片をむやみに取り除かないこと。切片の値が高いからといって不必要だとは限らない。基本的に切片は入れておく。切片を除いてuncenteredというメッセージが付随されたら注意。 Adjusted R-Squaredの値を見て、モデルの良さを確認する。一般的にこの値が高いほうが良いとされる。

formulaを使うと良い。操作が分かりやすくてラク。交互作用(説明変数の掛け合わせ)や対数変換(log)にも対応しやすい。+,:,*の使い分けがポイント。

ラッソ回帰(L1正則化)

変数が膨大な時に使う。変数選択の自動化ができる。 alphaの値を大きくすると基準が緩まる。最適なalphaの求め方がある。

リッジ回帰(L2正則化)

多重共線性(マルチコ)の問題への対処。説明変数間で強い相関を持つペアがあると良くない(雨と湿度とか) ウェイト(wtを0にする)

Elastic Net

ラッソとリッジの良いとこどり。wtの値を0に寄せるとリッジ、1に寄せるとラッソ。最適なパラメータは最終的に人間が決めることになる。

【ここまでの雑感】

線形回帰が基本。この部分を徹底的に理解することが重要。一目見ただけでは分からないことが増えてきている。分からないことから逃げない。

【ロジスティック回帰分析】

曲線を使った回帰分析。0or1のデータを扱う場合に有効。ここでもFormuraAPIを使った方法が便利。

【ポアソン回帰分析】

「1年あたりの大型台風の回数とその時期」や「訪問回数と制約数の関係」などのように回数が少ないもの。ポアソン分布の考え方が土台(回数が少なくてある程度の傾向が見えているもの)データによってどんな分析手法が適切なのかが異なる。それを人が決める。

【宿題】

①線形回帰分析の理解を深めるために別の角度(読書・実際のコーディング・実際のデータで分析)から学習する。

②FormuraAPIを使って自前のデータでアウトプットする。

【雑感】

一気に学習しないと理解につながらない。今回は間を開けて3日間かけてゆるゆると学習したので、浅い理解にとどまっている。データ分析の方法を選ぶのは人間だが、分析手法の選択過程自体を機械学習に落とし込めば、作業工程をもっと簡略化できる。どこまで機械に任せることができるか。

機械に任せたいのなら「機械にやらせていること」を深く理解することが重要。やり方をきちんと理解すれば、再現性を担保できる。その上で機械に任せる。過程の言語化は再現性の発掘につながる。言語化は私の得意分野。今後も力を入れて学習を進めていきたい。まとまった時間で一気に学習を進める。

まとめ

これらの分析手法がBot開発においてどのように使用されるのか理解することが必要です。

今後は、自前のデータから線形回帰分析を行うことや具体的なユースケースを一つずつインプットすることで、回帰分析の手法を自分なりに理解していくことを目標にします。

Yodaka

結局、自分で使ってみることが理解を深めるいちばんの近道です。

このまま学習と実践を続けていきます。

-Bot, 機械学習・データサイエンス

comment コメントをキャンセル

Bot DeFi bot DEX トレードロジック開発ログ

2025/8/8

🛠️開発記録#272(2025/8/8)清算スナイプ実装録：仕様誤読からの脱出とパイプライン再設計

清算スナイプBotは、作るのも回すのも錯覚との戦いです。ログは派手に流れるし、WebSocketは安定してつながるし、たまに「でかいクラスター推定！」なんて出力も見える。──でも、/metrics が 0 のままなら、それはただの雰囲気運転。検証も再現も改善もできません。この記事は、私が “動いてるっぽいbot” から “正しく動くbot” に寄せるためにやったことを、観測設計を軸にまとめた実録です。対象は、Hyperliquid をはじめとする公開フィード前提の市場。つまり、他人の userEvent ...

Bot 開発ログ

2025/6/6

🛠️週次報告(2025/6/6)5/31 – 6/6 の Bot 開発トピックまとめ

今週は「システム周りの細々したことをさわりつつ、必要なものだけを最小構成で取り入れた」一週間でした。 1. 今週のハイライト 🔦 日付キーワードざっくり出来事5/31v2 基盤リファクタ.env 分離, docker-compose 再配線を完了。270 file の大掃除コミットでレガシー CI 設定・不要 GitHub files を一斉削除。6/1再起動体制完成restart: unless-stopped で Docker 自律再起動を組み込み、watchdog.sh を DRY-RUN/Sla ...

Bot mmbot Rust 開発ログ

2025/8/11

🛠️開発記録#279(2025/8/11)Ember流レイテンシ分解で作るMM Bot——実測p99とA/B実験で磨く本番運用

最終更新: 2025-08-11 (JST) / 対象: Binance Japan 現物 / 実装言語: Python 3.12 + Rust はじめに——この記事で伝えること／背景と狙い本記事は、Ember流のレイテンシ分解を中心に、MM（マーケットメイキング）Botを「設計→計測→実験→本番拡大」のサイクルで育てる実践知をまとめた技術記事です。以下をカバーします。レイテンシ分解（md→decide→prelat→request→ack）と段階別p99バジェットの設計観測・ダッシュボード（Pro ...

Bot トレードロジック書籍・論文・web記事

2025/3/20

開発記録#133(2025/3/9)「取引による価格への一時的な影響を考慮に入れた最適な取引戦略についての分析」

前回の記事に引き続き、今回も仮想通貨botの開発状況をまとめていきます。・取引による価格への一時的な影響を考慮に入れた最適な取引戦略についての分析https://t.co/7RUoJ5eGdQ— よだか(夜鷹/yodaka) (@yodakablog) March 9, 2025 参考 Fredholm Approach to Nonlinear Propagator Models 論文の要約「Fredholm Approach to Nonlinear Propagator Models ...

Bot mmbot

2025/5/4

🛠️開発記録#201(2025/4/26)MMBot開発ログ 9 ── “安全ローンチ直前” の総点検

前回の記事に引き続き、今回も仮想通貨botの開発状況をまとめていきます。どこまで進んだ？4/22 時点（v1.7 安全ガード実装）から 4/26 までの 4 日間で到達した “本番直前” 状態をまとめました。※ API キーやサーバー情報など機微データは含めていません。 1. 4/23 – 4/26 作業タイムライン＆主なトピック日付時刻帯取組内容キーアウトカム / 学び4/23 (水)午前v1.7 本番スモークテスト– lot 0.001 / max_cycles 1 で Market 発注Slac ...

仮想通貨botの開発記録#43(2024/1/9)「データサイエンスの学習②ChatGPTでチャートとヒートマップの作成をする」

仮想通貨botの開発記録#45(2024/1/13)「データサイエンスの学習④機械学習編：教師なし学習をPythonで実装する」