オントロジー(Ontology)
Ontology
概要
オントロジー(Ontology)とは、ある領域における概念やその関係を体系的・形式的に記述したものです。もともと哲学における「存在論」を意味する用語でしたが、AI・情報科学の分野では「概念の体系的な記述」「共有可能な概念化の明示的・形式的な仕様」として用いられています。
AI分野でのオントロジーは、知識の共有と再利用を可能にするための枠組みです。異なるシステム間で共通の概念定義を持つことで、知識の相互運用性(interoperability)が実現されます。セマンティックWebの基盤技術としても重要であり、Webページの意味をコンピュータが理解できるようにするための技術的基盤を提供しています。
詳細解説
オントロジーの定義
AI分野におけるオントロジーの最も広く引用される定義は、トム・グルーバー(Tom Gruber)による「共有された概念化(shared conceptualization)の明示的・形式的な仕様」です。この定義のポイントは以下の通りです。
- 共有された:個人ではなく、コミュニティで合意された概念体系である
- 概念化:ある領域をどのような概念で捉えるかという枠組み
- 明示的:暗黙的ではなく、明文化されている
- 形式的:コンピュータが処理できる形式で記述されている
ヘビーウェイトオントロジーとライトウェイトオントロジー
オントロジーは、その厳密性の度合いによって大きく2種類に分類されます。
| 種類 | 特徴 | 例 |
|---|---|---|
| ヘビーウェイトオントロジー | 概念の定義に厳密な公理や制約を含む。形式的な論理(記述論理など)に基づいて定義される。推論や整合性の検証が可能 | 医療オントロジー(SNOMED CT)、Cyc |
| ライトウェイトオントロジー | 概念間の階層関係(is-a関係など)を中心とした比較的緩やかな構造。構築が容易で実用的 | WordNet、Wikipediaのカテゴリ構造、RDFスキーマ |
ヘビーウェイトオントロジーは厳密な知識表現が可能ですが、構築に多大なコストがかかります。一方、ライトウェイトオントロジーは構築が比較的容易ですが、推論能力は限定的です。
オントロジーの構成要素
オントロジーは、一般的に以下の要素で構成されます。
- クラス(概念):対象領域の概念を表す。例:「動物」「車両」「疾患」
- インスタンス(個体):クラスに属する具体的な存在。例:「ポチ」「東京タワー」
- プロパティ(属性・関係):クラスの属性や、クラス間の関係。例:「色」「重さ」「is-a」「part-of」
- 公理(制約):概念や関係に対する制約条件。例:「すべての哺乳類は脊椎動物である」
セマンティックWebとオントロジー
セマンティックWeb(Semantic Web)は、Webの発明者ティム・バーナーズ=リーが2001年に提唱した概念で、Web上の情報にコンピュータが理解できる意味(セマンティクス)を付与する構想です。オントロジーはセマンティックWebの中核技術として位置づけられています。
セマンティックWebの技術スタックには以下のものが含まれます。
- RDF(Resource Description Framework):主語-述語-目的語のトリプルで情報を記述する枠組み
- RDFS(RDF Schema):RDFのクラスやプロパティの定義
- OWL(Web Ontology Language):より表現力の高いオントロジー記述言語
- SPARQL:RDFデータに対するクエリ言語
歴史・背景
オントロジーという用語はもともと哲学の分野で使われていた用語で、古代ギリシャのアリストテレスによる「存在とは何か」を問う学問に遡ります。「ontology」はギリシャ語の「ontos(存在)」と「logos(学問)」を組み合わせた言葉です。
AI分野でオントロジーの重要性が認識されたのは1990年代です。1993年にトム・グルーバーが前述の定義を提示し、知識の共有と再利用のための形式的な枠組みとしてのオントロジーの概念が確立されました。
日本では、大阪大学の溝口理一郎教授がオントロジー工学の研究をリードしてきました。溝口教授は、知識の体系化と共有のためのオントロジーの構築方法論を提案し、オントロジーの工学的な応用を推進しました。彼の研究は、医療、製造業、教育など様々な分野でのオントロジー応用に貢献しています。
2001年にティム・バーナーズ=リーがセマンティックWebの構想を発表すると、オントロジーはWeb技術の文脈で大きな注目を集めました。W3C(World Wide Web Consortium)によってOWLが標準化され、現在もLinked Data、知識グラフなどの形でオントロジーの概念は発展を続けています。
具体的な事例
医療分野のオントロジー
医療分野では、SNOMED CT(Systematized Nomenclature of Medicine -- Clinical Terms)やGene Ontology(遺伝子オントロジー)などの大規模なオントロジーが構築・運用されています。これらは疾患、症状、薬剤、遺伝子などの概念を体系化し、異なる医療システム間での知識共有を可能にしています。
DBpedia
DBpediaは、Wikipediaの構造化されたデータを抽出し、RDF形式でLinked Dataとして公開するプロジェクトです。数百万のエンティティとその間の関係がオントロジーとして記述されており、セマンティックWebの主要なハブとして機能しています。
Schema.org
Schema.orgは、Google、Microsoft、Yahoo!などの検索エンジン企業が共同で策定したWebページのための共通語彙です。ライトウェイトオントロジーの一種であり、Webページに構造化データを埋め込むことで、検索エンジンがコンテンツの意味を理解しやすくなります。リッチスニペットの表示などに活用されています。
溝口理一郎の法造(HOZO)
溝口理一郎教授が開発したHOZO(法造)は、オントロジーを構築・管理するためのツールです。オントロジーの概念を視覚的に編集でき、is-a関係やpart-of関係を含む概念体系を効率的に構築することが可能です。日本のオントロジー研究の代表的な成果の一つです。
G検定での出題ポイント
- オントロジーは「概念とその関係を体系的・形式的に記述したもの」であることを理解する
- 哲学の「存在論」に由来する用語であることを知っておく
- ヘビーウェイトオントロジー(厳密な公理を含む)とライトウェイトオントロジー(階層関係中心)の違いを区別する
- セマンティックWebの基盤技術としてのオントロジーの役割を理解する
- 知識の共有と再利用を可能にするための枠組みであることを押さえる
- 溝口理一郎教授がオントロジー工学の研究で著名であることを知っておく
- 構成要素(クラス、インスタンス、プロパティ、公理)を覚える
関連キーワード
- 意味ネットワーク - ノードとリンクによる知識表現
- 概念間の関係(is-a と part-of) - オントロジーの基本的な関係
- 知識ベースと知識獲得のボトルネック - 知識の体系的な管理
- エキスパートシステム - 知識ベースを用いた推論システム
- 人工無脳 - 知識を持たない会話プログラム