コーパス

Corpus

コーパスとは

コーパス(Corpus、複数形:Corpora)とは、自然言語処理の研究や開発のために体系的に収集・整理されたテキストデータの集合です。言語学的な分析や機械学習モデルの学習・評価に使用される基盤的なリソースであり、NLPの発展に不可欠な存在です。

コーパスの種類

生コーパスはアノテーション(注釈)がない素のテキストデータで、言語モデルの事前学習に使用されます。アノテーション付きコーパスは品詞タグ、構文構造、固有表現、感情ラベルなどの言語学的情報が付与されており、教師あり学習に使用されます。対訳コーパスは2つの言語で対応するテキストのペアを含み、機械翻訳の学習に使用されます。

代表的なコーパス

英語ではPenn Treebank(構文解析)、SQuAD(質問応答)、GLUE/SuperGLUE(言語理解ベンチマーク)、Common Crawl(大規模Webテキスト)などが有名です。日本語では京都大学テキストコーパス、BCCWJ(現代日本語書き言葉均衡コーパス)、日本語Wikipediaなどが広く利用されています。

コーパスの品質

モデルの性能はコーパスの品質に大きく依存します。データのバイアス、ノイズ、著作権、プライバシーなどの問題に注意が必要で、高品質なコーパスの構築は大きなコストがかかる重要な作業です。