データソース
当ブログでは、以下の公的統計・オープンデータを主に使用しています。すべてのデータの出典は各記事内に明記しています。
スポーツ
Baseball Savant (Statcast): MLB公式のピッチレベル・打球データ。球速、回転数、打球速度、打球角度等を含む。
FanGraphs: WAR、Stuff+、xERA等の先進指標。
Baseball Reference: 歴史的な成績データ、賞の投票結果。
日本の公的統計
e-Stat (https://www.e-stat.go.jp/): 日本政府統計のポータルサイト。700以上の統計調査をCSV/API提供。
RESAS (https://resas.go.jp/): 地域経済分析システム。人口、産業、観光等の地域データ。
総務省統計局: 国勢調査、家計調査、消費者物価指数等。
国際データ
Our World in Data: 297トピック、CC-BYライセンスで利用可能。
World Bank Open Data: 200カ国以上、2,000指標。
OECD Data Explorer: 先進国の比較データ。
分析手法
分析にはPython(pandas, matplotlib, seaborn, scikit-learn, plotly)を使用しています。可視化にはDatawrapper、Flourish、matplotlib等を使い分けています。統計モデルの詳細は各記事内で説明しています。
データの正確性について
当ブログでは、データの正確性と分析の透明性を最重視しています。すべての記事でデータの出典を明記し、分析の前提条件と限界を示します。誤りが発覚した場合は、記事冒頭に訂正箇所と日付を明記し、SNSでも訂正を発信します。