固有表現認識(NER)

Named Entity Recognition

固有表現認識とは

固有表現認識(NER: Named Entity Recognition)とは、テキスト中から人名、組織名、地名、日付、金額などの固有表現(Named Entity)を自動的に検出し分類する自然言語処理タスクです。情報抽出の基盤技術として、多くのNLPアプリケーションで活用されています。

固有表現の種類

一般的に認識される固有表現には、人名(PERSON)、組織名(ORGANIZATION)、地名(LOCATION)、日付(DATE)、時間(TIME)、金額(MONEY)、パーセンテージ(PERCENT)などがあります。ドメインによっては、製品名、疾患名、化学物質名などの専門的なエンティティも対象となります。

NERの手法

NERは系列ラベリング問題として定式化されます。各トークンにBIO(Begin, Inside, Outside)タグを付与する方式が標準的です。手法はルールベース、辞書ベース、CRFなどの統計モデル、BiLSTM-CRF、BERTベースのモデルへと発展してきました。現在はBERTなどの事前学習モデルのファインチューニングが主流です。

NERの活用例

ニュース記事からの情報抽出、知識グラフの構築、検索エンジンのクエリ理解、医療文書からの疾患名抽出、法律文書の分析など、幅広い分野で活用されています。