主要競技プラットフォーム
世界中のデータサイエンティストが参加する競技プラットフォームで、実践的なスキルを身につけられます。
Kaggle
Google傘下の世界最大級のデータサイエンス競技プラットフォーム。企業の実課題に取り組めます。
- 豊富な競技とデータセット
- 無料のGPU/TPU環境(Kaggle Notebooks)
- 活発なディスカッション
- Learn機能で基礎学習
DrivenData
社会的意義のある課題に特化したデータサイエンス競技プラットフォームです。
- 社会課題解決に焦点
- 環境、医療、教育分野
- 実世界への影響
- 詳細な問題設定
AtCoder
日本発のプログラミング競技プラットフォーム。アルゴリズム力向上に最適です。
- 定期的なプログラミングコンテスト
- 日本語対応
- レベル別問題設定
- 教育的解説
AIチャレンジ
AI分野に特化した日本の競技プラットフォーム。産業界との連携が特徴です。
- AI特化の競技設計
- 企業との協力
- 実務に近い課題
- 日本語サポート
画像・視覚データセット
コンピュータビジョンや画像認識の学習に適したデータセットです。
ImageNet
1400万枚以上の画像から構成される大規模視覚認識データセット。画像分類の標準ベンチマークです。
- 1000カテゴリ、14M画像
- 画像分類の標準
- 事前学習モデルの基盤
- ILSVRC競技で使用
CIFAR-10/100
32×32ピクセルの小さなカラー画像データセット。学習・研究の入門に最適です。
- CIFAR-10: 10クラス、60,000画像
- CIFAR-100: 100クラス、60,000画像
- 軽量で扱いやすい
- アルゴリズム評価の標準
MNIST
手書き数字(0-9)のグレースケール画像データセット。機械学習の「Hello World」的存在です。
- 60,000枚の訓練画像
- 10,000枚のテスト画像
- 28×28ピクセル
- 初心者に最適
COCO Dataset
物体検出、セグメンテーション、キャプション生成などの複合タスクに対応した包括的データセットです。
- 330,000画像、200万インスタンス
- 80カテゴリの物体
- 境界ボックス、セグメンテーション
- キャプション付き
自然言語処理データセット
テキスト処理や自然言語理解のタスクに適したデータセットです。
IMDb Movie Reviews
映画レビューの感情分析に適したバイナリ分類データセット。NLP入門に最適です。
- 50,000レビュー(positive/negative)
- 感情分析の標準ベンチマーク
- バランスの取れたデータ
- 英語テキスト処理の基礎
SQuAD
スタンフォード大学の質問応答データセット。読解タスクの標準ベンチマークです。
- 100,000+の質問応答ペア
- Wikipedia記事ベース
- SQuAD 1.1と2.0
- BERT等の評価に使用
Common Crawl
ウェブ全体から収集されたテキストデータ。大規模言語モデルの事前学習に使用されます。
- 数十億のウェブページ
- 多言語対応
- 定期的な更新
- 大規模モデル学習用
Twitter API
リアルタイムソーシャルメディアデータを取得できるAPI。感情分析やトレンド分析に活用できます。
- リアルタイムデータ
- 感情分析・トレンド分析
- API経由でアクセス
- 研究・教育利用可
構造化データ・表形式データ
機械学習の基礎を学ぶのに適した表形式のクリーンなデータセットです。
Boston Housing
ボストンの住宅価格予測データセット。回帰問題の入門に最適な古典的データセットです。
- 506サンプル、13特徴量
- 回帰問題の基礎
- 特徴量エンジニアリング学習
- 教育目的に最適
Iris Dataset
アヤメの花のデータセット。機械学習の「Hello World」として広く使用されています。
- 150サンプル、4特徴量、3クラス
- 分類問題の基礎
- 完璧にクリーンなデータ
- 可視化に適している
Titanic Dataset
タイタニック号の乗客生存予測データセット。Kaggleの入門競技として有名です。
- 891サンプル、12特徴量
- バイナリ分類問題
- カテゴリカル/数値データ混在
- 欠損値処理の学習
Wine Quality
ワインの品質予測データセット。化学的特性から品質を予測する回帰・分類問題です。
- 6,497サンプル、12特徴量
- 回帰・分類両方で利用可
- 不均衡データの処理
- 実世界の問題設定
専門分野データセット
特定の応用分野に特化したデータセットです。
医療・ヘルスケア
医療画像、診断データ、生体信号など、ヘルスケアAIの開発に使用されるデータセットです。
- MIMIC-III(集中治療室データ)
- NIH Chest X-ray(胸部X線画像)
- PhysioNet(生理学データ)
- 厳格な利用規約
金融・経済
株価、為替、クレジットリスクなど、金融分野のAI開発に使用されるデータセットです。
- Yahoo Finance API
- FRED(米経済データ)
- Quandl(金融データ)
- クレジットカード不正検知
ロボティクス
ロボットの動作制御、SLAM、センサーフュージョンなどのロボティクス研究用データセットです。
- KITTI(自動運転データ)
- ROS Bag Files
- OpenAI Gym環境
- MuJoCo シミュレーション
音声・音楽
音声認識、音楽分析、感情認識などの音響AI開発に使用されるデータセットです。
- LibriSpeech(音声認識)
- Mozilla Common Voice
- Million Song Dataset
- Google AudioSet
データセット活用のコツ
目的に応じた選択
学習したい技術や解決したい問題に適したデータセットを選びましょう。まずは小規模なデータから始めることをおすすめします。
ライセンスの確認
データセットの利用規約やライセンスを必ず確認し、商用利用や再配布の可否を理解してから使用しましょう。
データの品質確認
データを使用する前に、欠損値、外れ値、ラベルエラーなどを確認し、必要に応じて前処理を行いましょう。
競技への参加
Kaggleなどの競技プラットフォームに参加することで、実践的なスキルと他の参加者からの学びを得ることができます。