コーパスとは？わかりやすく解説

コーパスとは

コーパス（Corpus、複数形：Corpora）とは、自然言語処理の研究や開発のために体系的に収集・整理されたテキストデータの集合です。言語学的な分析や機械学習モデルの学習・評価に使用される基盤的なリソースであり、NLPの発展に不可欠な存在です。

コーパスの種類

生コーパスはアノテーション（注釈）がない素のテキストデータで、言語モデルの事前学習に使用されます。アノテーション付きコーパスは品詞タグ、構文構造、固有表現、感情ラベルなどの言語学的情報が付与されており、教師あり学習に使用されます。対訳コーパスは2つの言語で対応するテキストのペアを含み、機械翻訳の学習に使用されます。

代表的なコーパス

英語ではPenn Treebank（構文解析）、SQuAD（質問応答）、GLUE/SuperGLUE（言語理解ベンチマーク）、Common Crawl（大規模Webテキスト）などが有名です。日本語では京都大学テキストコーパス、BCCWJ（現代日本語書き言葉均衡コーパス）、日本語Wikipediaなどが広く利用されています。

コーパスの品質

モデルの性能はコーパスの品質に大きく依存します。データのバイアス、ノイズ、著作権、プライバシーなどの問題に注意が必要で、高品質なコーパスの構築は大きなコストがかかる重要な作業です。