Bot 機械学習・データサイエンス

仮想通貨botの開発記録#109(2024/9/30)「機械学習ライブラリscikit-learnとTensorFlow/Keras」

2024年9月30日

前回の記事に引き続き、今回も仮想通貨botの開発状況をまとめていきます。

今回は「機械学習ライブラリのscikit-learnTensorFlow/Keras」について大まかにまとめました。

Yodaka

機械学習を用いた価格予測botを作る際の備忘録です。

解決したかったこと

・scikit-learnとTensorFlow/Kerasの特徴を理解する

・機械学習ライブラリの概要を理解して、bot開発に転用できるようになる

・必要な学習リソースを知る

Scikit-learnについて

Scikit-learnは、Pythonで利用される機械学習ライブラリの一つで、シンプルかつ効率的なツール群を提供しています。特に、回帰分析分類クラスタリング次元削減など、幅広いアルゴリズムをサポートしており、プロトタイプの作成から実際のモデル構築まで、非常に使い勝手が良いです。

特徴

  • 簡便なインターフェース: Scikit-learnのAPIは一貫しており、同様の方法で異なるアルゴリズムを利用できるため、学習が容易です。
  • データの前処理: 標準化、正規化、ラベルエンコーディング、欠損値補完などの前処理機能を提供します。
  • モデル評価: 交差検証、グリッドサーチ、ROC曲線など、モデルの性能を評価するためのツールが豊富です。
  • 各種機械学習アルゴリズム: 線形回帰、サポートベクターマシン、決定木、ランダムフォレスト、K近傍法、ロジスティック回帰、クラスタリング手法などをサポートしています。

基本的な流れ

  1. データの前処理: 欠損値処理や特徴量のスケーリングを行う。
  2. モデルの訓練: 訓練データを用いてモデルを学習させる。
  3. モデルの評価: テストデータを用いて予測を行い、評価指標(精度、F1スコアなど)を計算する。
  4. ハイパーパラメータのチューニング: グリッドサーチなどを用いて最適なパラメータを見つける。

例: 線形回帰

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# データの読み込みと分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# モデルの構築と訓練
model = LinearRegression()
model.fit(X_train, y_train)

# 予測と評価
predictions = model.predict(X_test)
mse = mean_squared_error(y_test, predictions)
print(f'MSE: {mse}')

TensorFlow/Kerasについて

TensorFlowは、Googleが開発したオープンソースの機械学習フレームワークで、深層学習モデルの構築と実行に特化しています。Kerasは、その上に構築された高レベルAPIで、使いやすいインターフェースを提供し、複雑なニューラルネットワークの設計を簡単にします。

特徴

  • 強力な深層学習モデル: TensorFlowはディープニューラルネットワークや生成モデル、強化学習など、高度な機械学習モデルをサポートします。
  • 大規模データとGPUサポート: TensorFlowはGPUやTPU(Tensor Processing Unit)を活用して、モデルのトレーニングを高速化します。
  • 分散学習: 複数のデバイスやクラスタにまたがって学習を分散させることが可能です。
  • 柔軟性とパフォーマンス: 高レベルのKeras APIから、低レベルのTensorFlow APIまで、柔軟にカスタマイズできます。

Kerasの構造

  1. Sequentialモデル: 順次的に層を重ねていくシンプルなモデル設計。
  2. Functional API: より複雑なモデル(共有レイヤー、分岐ネットワークなど)の設計が可能。
  3. カスタムレイヤーやモデル: より高度なニューラルネットワーク構造を定義可能。

基本的な流れ

  1. データの前処理: データのスケーリングや変換を行う。
  2. モデルの構築: SequentialモデルやFunctional APIでニューラルネットワークを設計する。
  3. コンパイル: オプティマイザ、損失関数、評価指標を設定し、モデルをコンパイルする。
  4. 訓練: トレーニングデータでモデルを訓練する。
  5. 評価: テストデータでモデルの性能を評価する。

例: シンプルなニューラルネットワーク

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# モデルの構築
model = Sequential([
    Dense(64, activation='relu', input_shape=(X_train.shape[1],)),
    Dense(32, activation='relu'),
    Dense(1)  # 出力層
])

# コンパイル
model.compile(optimizer='adam', loss='mean_squared_error')

# 訓練
model.fit(X_train, y_train, epochs=10, batch_size=32, validation_data=(X_test, y_test))

# 評価
model.evaluate(X_test, y_test)

Scikit-learnとTensorFlow/Kerasの使い分け

  • Scikit-learnは、一般的な機械学習アルゴリズムや前処理に優れており、シンプルなモデルや小~中規模データに適しています。特に、高速なプロトタイプ作成に向いています。
  • TensorFlow/Kerasは、ディープラーニングモデルや大量のデータを扱う際に強力です。複雑なニューラルネットワークや高パフォーマンスが必要な場面ではTensorFlow/Kerasが適しています。

その他の機械学習ライブラリ

Yodaka

Scikit-learnやTensorFlow/Keras以外にもさまざまな機械学習ライブラリが存在します。

それぞれ特徴や用途が異なるため、プロジェクトの目的やデータの種類に応じて適切なライブラリを選ぶことが重要です。以下は、代表的な機械学習ライブラリです。

1. PyTorch

  • 概要: PyTorchはFacebookが開発したディープラーニングフレームワークで、動的計算グラフを採用しているため、デバッグやカスタマイズがしやすいのが特徴です。特に研究用途や自然言語処理、画像認識に広く使われています。
  • 特徴:
    • 動的グラフ: 計算グラフが動的に構築されるため、柔軟で直感的にコードを書ける。
    • GPUサポート: GPU上での高速な計算が可能。
    • コミュニティ: 大規模なオープンソースコミュニティがあり、豊富なドキュメントやチュートリアルが用意されています。

例:

import torch
import torch.nn as nn
import torch.optim as optim

# シンプルなニューラルネットワークの定義
class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.fc1 = nn.Linear(10, 50)
        self.fc2 = nn.Linear(50, 1)
    
    def forward(self, x):
        x = torch.relu(self.fc1(x))
        return self.fc2(x)

model = SimpleModel()

2. XGBoost

  • 概要: XGBoostは、決定木ベースの勾配ブースティングアルゴリズムの実装です。特に構造化データに対するパフォーマンスが高く、Kaggleなどの機械学習コンペで人気です。
  • 特徴:
    • 高速な訓練: 分散学習や並列化に対応しているため、大規模データに対しても効率的。
    • 高い精度: 勾配ブースティングの手法により、過学習を防ぎながら高い予測精度を達成可能。
    • 柔軟なモデル: 回帰、分類、ランキングタスクなど様々なタスクに対応。

例:

import xgboost as xgb

# DMatrix形式に変換
dtrain = xgb.DMatrix(X_train, label=y_train)
dtest = xgb.DMatrix(X_test, label=y_test)

# モデルの訓練
param = {'max_depth': 3, 'eta': 0.1, 'objective': 'reg:squarederror'}
model = xgb.train(param, dtrain, num_boost_round=100)

3. LightGBM

  • 概要: LightGBMはMicrosoftが開発した勾配ブースティングライブラリで、XGBoostと同様に決定木ベースのアルゴリズムです。高速で軽量な学習が可能で、特に大規模データに対して有効です。
  • 特徴:
    • 高速な訓練: Leaf-wiseの木成長手法を採用しており、XGBoostよりも高速。
    • メモリ効率: 大量のデータを扱う際でも少ないメモリ消費で済む。
    • 高い精度: 特に特徴量が多い場合や疎なデータに対して効果的。

例:

import lightgbm as lgb

# データの準備
train_data = lgb.Dataset(X_train, label=y_train)
test_data = lgb.Dataset(X_test, label=y_test)

# モデルの訓練
param = {'num_leaves': 31, 'objective': 'regression', 'metric': 'l2'}
model = lgb.train(param, train_data, valid_sets=[test_data], num_boost_round=100)

4. CatBoost

  • 概要: CatBoostはYandexが開発した勾配ブースティングライブラリで、カテゴリカルデータに対して特に強力な性能を発揮します。カテゴリデータをそのまま扱うことができ、前処理の手間が少ないのが特徴です。
  • 特徴:
    • カテゴリカルデータの自動処理: カテゴリデータをエンコードすることなくそのまま使用できる。
    • 高速なトレーニング: 多くのデータに対して高速に学習可能。
    • 高精度: カテゴリデータの処理に特化しており、他のブースティング手法と比較して優れた精度を発揮。

例:

from catboost import CatBoostRegressor

# モデルの構築
model = CatBoostRegressor(iterations=1000, depth=10, learning_rate=0.1, loss_function='RMSE')

# 訓練
model.fit(X_train, y_train, cat_features=[0, 1, 2])  # カテゴリ特徴量を指定

# 予測
predictions = model.predict(X_test)

5. H2O.ai

  • 概要: H2O.aiは分散コンピューティングに特化したオープンソースの機械学習プラットフォームで、特に大規模なデータセットに対して非常に効率的な学習が可能です。自動機械学習(AutoML)機能もサポートしています。
  • 特徴:
    • 分散学習: クラスタ環境での分散トレーニングが可能。
    • AutoMLサポート: モデルの選択やチューニングを自動化し、初心者でも高性能なモデルを構築可能。
    • 幅広いアルゴリズム: 回帰、分類、クラスタリングなど、多種多様なアルゴリズムを提供。

例:

import h2o
from h2o.automl import H2OAutoML

h2o.init()

# データをH2OFrameに変換
train = h2o.H2OFrame(pandas_df)

# 自動機械学習の実行
aml = H2OAutoML(max_runtime_secs=600)
aml.train(y='target', training_frame=train)

# ベストモデルを表示
print(aml.leader)

6. Fastai

  • 概要: Fastaiは、ディープラーニングの最適化ライブラリで、PyTorchを基盤にしているため、PyTorchの上位ラッパーとしても利用できます。シンプルなAPIで迅速にプロトタイプを作成でき、学習済みモデルを使ったファインチューニングも容易です。
  • 特徴:
    • 直感的なAPI: 複雑なモデルを数行のコードで実装可能。
    • 転移学習のサポート: 学習済みモデルを使った転移学習が簡単に行える。
    • 大量のチュートリアルと教材: 初学者から上級者まで使える豊富なドキュメントがある。

例:

from fastai.vision.all import *

# データの読み込みとモデルの訓練
dls = ImageDataLoaders.from_folder(path)
learn = cnn_learner(dls, resnet34, metrics=accuracy)
learn.fine_tune(1)

まとめ

  • Scikit-learnは一般的な機械学習アルゴリズムを簡単に使いたい場合に最適。
  • TensorFlow/KerasPyTorchはディープラーニングや大規模データセットでの学習に強みがある。
  • XGBoostLightGBMCatBoostは決定木ベースの勾配ブースティングを利用する場合に非常に効果的で、特に構造化データで高精度な予測が可能。
  • H2O.aiFastaiは大規模データや自動化されたモデル構築を考えている場合に最適。
Yodaka

これらのライブラリを使い分けることで、プロジェクトのニーズに合った最適な機械学習モデルを構築できます。

まとめ

今回は「機械学習ライブラリのscikit-learnTensorFlow/Keras」についてまとめました。

Yodaka

今回まとめたことを実際に開発に使いながらそれぞれの特徴をより深く理解する土台にします。

今後もこの調子で開発の状況を発信していきます。

-Bot, 機械学習・データサイエンス