データセット・競技 - AI学習リソース - AI入門

主要競技プラットフォーム

世界中のデータサイエンティストが参加する競技プラットフォームで、実践的なスキルを身につけられます。

Kaggle

中級英語無料

Google傘下の世界最大級のデータサイエンス競技プラットフォーム。企業の実課題に取り組めます。

豊富な競技とデータセット
無料のGPU/TPU環境（Kaggle Notebooks）
活発なディスカッション
Learn機能で基礎学習

Kaggle Kaggle Learn

DrivenData

中級英語無料

社会的意義のある課題に特化したデータサイエンス競技プラットフォームです。

社会課題解決に焦点
環境、医療、教育分野
実世界への影響
詳細な問題設定

DrivenData 競技一覧

AtCoder

初級日本語無料

日本発のプログラミング競技プラットフォーム。アルゴリズム力向上に最適です。

定期的なプログラミングコンテスト
日本語対応
レベル別問題設定
教育的解説

AtCoder コンテスト

AIチャレンジ

中級日本語無料

AI分野に特化した日本の競技プラットフォーム。産業界との連携が特徴です。

AI特化の競技設計
企業との協力
実務に近い課題
日本語サポート

AIチャレンジ競技情報

画像・視覚データセット

コンピュータビジョンや画像認識の学習に適したデータセットです。

ImageNet

中級大規模無料

1400万枚以上の画像から構成される大規模視覚認識データセット。画像分類の標準ベンチマークです。

1000カテゴリ、14M画像
画像分類の標準
事前学習モデルの基盤
ILSVRC競技で使用

ImageNet ダウンロード

CIFAR-10/100

初級小規模無料

32×32ピクセルの小さなカラー画像データセット。学習・研究の入門に最適です。

CIFAR-10: 10クラス、60,000画像
CIFAR-100: 100クラス、60,000画像
軽量で扱いやすい
アルゴリズム評価の標準

CIFAR CIFAR-10 DL

MNIST

初級小規模無料

手書き数字（0-9）のグレースケール画像データセット。機械学習の「Hello World」的存在です。

60,000枚の訓練画像
10,000枚のテスト画像
28×28ピクセル
初心者に最適

MNIST データ取得

COCO Dataset

上級大規模無料

物体検出、セグメンテーション、キャプション生成などの複合タスクに対応した包括的データセットです。

330,000画像、200万インスタンス
80カテゴリの物体
境界ボックス、セグメンテーション
キャプション付き

COCO ダウンロード

自然言語処理データセット

テキスト処理や自然言語理解のタスクに適したデータセットです。

IMDb Movie Reviews

初級英語無料

映画レビューの感情分析に適したバイナリ分類データセット。NLP入門に最適です。

50,000レビュー（positive/negative）
感情分析の標準ベンチマーク
バランスの取れたデータ
英語テキスト処理の基礎

IMDb Dataset ダウンロード

SQuAD

中級英語無料

スタンフォード大学の質問応答データセット。読解タスクの標準ベンチマークです。

100,000+の質問応答ペア
Wikipedia記事ベース
SQuAD 1.1と2.0
BERT等の評価に使用

SQuAD データセット

Common Crawl

上級超大規模無料

ウェブ全体から収集されたテキストデータ。大規模言語モデルの事前学習に使用されます。

数十億のウェブページ
多言語対応
定期的な更新
大規模モデル学習用

Common Crawl 利用開始

Twitter API

中級多言語制限付き無料

リアルタイムソーシャルメディアデータを取得できるAPI。感情分析やトレンド分析に活用できます。

リアルタイムデータ
感情分析・トレンド分析
API経由でアクセス
研究・教育利用可

Twitter Developer API Docs

構造化データ・表形式データ

機械学習の基礎を学ぶのに適した表形式のクリーンなデータセットです。

Boston Housing

初級小規模無料

ボストンの住宅価格予測データセット。回帰問題の入門に最適な古典的データセットです。

506サンプル、13特徴量
回帰問題の基礎
特徴量エンジニアリング学習
教育目的に最適

UCI Repository sklearn

Iris Dataset

初級超小規模無料

アヤメの花のデータセット。機械学習の「Hello World」として広く使用されています。

150サンプル、4特徴量、3クラス
分類問題の基礎
完璧にクリーンなデータ
可視化に適している

UCI Repository sklearn

Titanic Dataset

初級小規模無料

タイタニック号の乗客生存予測データセット。Kaggleの入門競技として有名です。

891サンプル、12特徴量
バイナリ分類問題
カテゴリカル/数値データ混在
欠損値処理の学習

Kaggle Titanic データ取得

Wine Quality

中級中規模無料

ワインの品質予測データセット。化学的特性から品質を予測する回帰・分類問題です。

6,497サンプル、12特徴量
回帰・分類両方で利用可
不均衡データの処理
実世界の問題設定

UCI Repository データ取得

専門分野データセット

特定の応用分野に特化したデータセットです。

医療・ヘルスケア

上級英語制限あり

医療画像、診断データ、生体信号など、ヘルスケアAIの開発に使用されるデータセットです。

MIMIC-III（集中治療室データ）
NIH Chest X-ray（胸部X線画像）
PhysioNet（生理学データ）
厳格な利用規約

PhysioNet NIH Chest X-ray

金融・経済

中級英語一部有料

株価、為替、クレジットリスクなど、金融分野のAI開発に使用されるデータセットです。

Yahoo Finance API
FRED（米経済データ）
Quandl（金融データ）
クレジットカード不正検知

Yahoo Finance FRED

ロボティクス

上級英語無料

ロボットの動作制御、SLAM、センサーフュージョンなどのロボティクス研究用データセットです。

KITTI（自動運転データ）
ROS Bag Files
OpenAI Gym環境
MuJoCo シミュレーション

KITTI OpenAI Gym

音声・音楽

中級多言語無料

音声認識、音楽分析、感情認識などの音響AI開発に使用されるデータセットです。

LibriSpeech（音声認識）
Mozilla Common Voice
Million Song Dataset
Google AudioSet

LibriSpeech Common Voice

データセット活用のコツ

目的に応じた選択

学習したい技術や解決したい問題に適したデータセットを選びましょう。まずは小規模なデータから始めることをおすすめします。

ライセンスの確認

データセットの利用規約やライセンスを必ず確認し、商用利用や再配布の可否を理解してから使用しましょう。

データの品質確認

データを使用する前に、欠損値、外れ値、ラベルエラーなどを確認し、必要に応じて前処理を行いましょう。

競技への参加

Kaggleなどの競技プラットフォームに参加することで、実践的なスキルと他の参加者からの学びを得ることができます。