文書要約

Text Summarization

文書要約とは

文書要約(Text Summarization)とは、長い文書の重要な情報を維持しつつ、より短いテキストに圧縮する自然言語処理タスクです。情報過多の現代において、大量の文書を効率的に把握するための重要な技術です。

抽出型要約と生成型要約

抽出型要約(Extractive Summarization)は、元の文書から重要な文をそのまま抽出して要約を構成します。手法はシンプルで忠実性が高い一方、冗長になりやすく自然な文章になりにくい課題があります。生成型要約(Abstractive Summarization)は、元の文書の内容を理解した上で新しい文章として要約を生成します。より自然な要約が可能ですが、事実と異なる内容を生成するリスクがあります。

文書要約の技術

抽出型ではTextRank、LexRankなどのグラフベースの手法が古典的です。生成型ではSeq2Seqモデル、Transformer、BART、T5、PEGASUSなどのモデルが使われています。大規模言語モデル(GPT、Claudeなど)は、プロンプトを与えるだけで高品質な要約を生成できます。

要約の評価

要約の品質評価にはROUGEスコアが広く使用されています。ただし、自動評価指標は人間の判断と必ずしも一致しないため、人間による評価も重要です。