データ分析

◎ブログに書いた「データ分析」関係の記事一覧
(身近になったAI、自然言語処理、強化学習は、別ページに纏めてあります。)

2021年12月15日水曜日
タイタニック号データも球面SOMで分析してみる
以前、MLB投球の機械学習に関して、球面SOMを用いた分析を行いました。今回は、タイタニック号の乗客データについて、同様に球面SOMで分析しました。技術的なことは別として、SOMの素晴らしさを改めて感じられると思います。

2021年11月30日火曜日
MLB主審が誤審したと思われる「ストライク」の球面SOMでの表示
前回の記事では、MLB投球の球種分析を球面SOM(自己組織化マップ)[1]で行いました。今回は、主審が誤審して「ストライク」コールしたと思われる投球について、球面SOMで可視化して眺めてみました。(信憑性に欠けるか、誤った論述になっている部分があると思いますが、後日、自分のための何らかのヒントになり得ると考えて書き留めます。)

2021年11月29日月曜日
MLBでの7,000投球の球種の機械学習と球面SOMによる可視化
MLBでの投球に関する機械学習の続編です。今回は、投球7,000球のそれぞれに球種ラベル(2-seam, 4-seam, sinker, など7種)が付与されたデータを機械学習させ、その結果を使って、テスト用に用意された700投球で球種を予測させました。さらに、その700球の球種を、球面SOM(自己組織化マップ)で可視化してみました。

2021年11月18日木曜日
MLB(メジャーリーグ)主審の判定結果を学習してストライク判定(3)
MLB(前回記事(2)で示したアプリにより、メジャーリーグ主審のストライク/ボールの判定状況を観察しました。その結果、学習をもとに作成されたAI主審の判定を利用すれば、メジャーリーグ主審の誤審がある程度分かるのではないかと考え、検討しました。

2021年11月15日月曜日
MLB(メジャーリーグ)主審の判定結果を学習してストライク判定(2)
MLB(前回記事(1)では、メジャーリーグ)の主審によるストライク/ボールの判定結果(5,000投球)を学習させて、約90%以上は同じ判定をするニューラルネットワーク(AI主審)を構成できました。今回は、これをスマホで楽しみながら、判定確認するためのアプリを作りました。「ストライクゾーン」の縦方向の範囲は、打者によって変化するわけですから、その即時の見極めの難しさ(というか醍醐味)が少し分かった気がします。

2021年11月12日金曜日
MLB(メジャーリーグ)主審の判定結果を学習してストライク判定(1)
MLBの主審(アンパイア)によるストライク/ボールの判定結果が公開されています。これを学習させれば、MLBの平均的な主審と同じ能力を持つ判定ロボットが作れそうです。実際、5,000投球のデータを学習させた結果、人間の主審と比べて、約95%は同じ判定をするニューラルネットワークができました。これは、多次元データの2値分類問題ですので、技術的には特に新鮮味は無いのですが、MLBの実際のデータを使った結果なので現実感があります。

2021年5月15日土曜日
トランザクションデータのグループ化(JavaとPython)
トランザクションデータなど、複数のカラム(キー)からなるデータを、特定のいくつかのカラムについて、階層的にグループ化したい場合があります。JavaとPythonを使って、簡単な例で試してみます。