知識ベースと知識獲得のボトルネック
Knowledge Base / Knowledge Acquisition Bottleneck
概要
知識ベース(Knowledge Base)とは、特定の分野に関する知識を体系的に蓄積・管理するデータベースのことです。エキスパートシステムにおいては、専門家の知識をif-thenルール(プロダクションルール)の形式で蓄積した知識の集合体を指します。
知識獲得のボトルネック(Knowledge Acquisition Bottleneck)とは、専門家の知識をコンピュータが処理できる形式(ルールやフレームなど)に変換する作業が極めて困難であり、エキスパートシステムの開発と運用における最大の障壁となっている問題のことです。この問題は第2次AIブーム(1980年代)の衰退の主要な原因の一つとなりました。
詳細解説
知識ベースの構造
知識ベースは、以下のような形式で知識を格納します。
- プロダクションルール:if-then形式のルール。「もし条件Aが成り立つならば、結論Bを導く」という形式
- フレーム:対象の属性(スロット)とその値(フィラー)を構造化して表現する形式。オブジェクト指向の原型
- 意味ネットワーク:概念をノード、関係をリンクとして表現するネットワーク構造
- 論理式:述語論理を用いた形式的な知識表現
知識獲得のボトルネックの本質
知識獲得のボトルネックが生じる原因は、以下のような要因が複合的に絡んでいます。
- 暗黙知の言語化の困難さ:専門家が無意識に使っている知識(暗黙知)を明示的なルールとして表現することは極めて難しい。例えば、熟練の医師が「何となく怪しい」と感じる直感的判断をルール化することは困難である
- 知識の膨大さ:一つの専門分野の知識だけでも、ルール化すべき知識は膨大な量に上る。さらに、背景にある常識的知識まで含めると、ルールの数は爆発的に増加する
- 知識の変化:専門知識は時間とともに更新される。知識ベースを最新の状態に保つには、継続的なメンテナンスが必要
- ルール間の矛盾:ルール数が増えると、ルール同士が矛盾する場合が発生しやすくなり、整合性の維持が困難になる
- 知識エンジニアの不足:専門家から知識を聞き出してルール化する「知識エンジニア」は、専門分野とAI技術の両方の理解が必要であり、人材が限られている
暗黙知と形式知
知識獲得のボトルネックを理解する上で重要な概念が、暗黙知と形式知の区別です。
| 知識の種類 | 定義 | 特徴 | 例 |
|---|---|---|---|
| 形式知(Explicit Knowledge) | 言語や数式で明示的に表現できる知識 | ルール化・共有が容易 | 教科書の内容、マニュアル、数式 |
| 暗黙知(Tacit Knowledge) | 言語化しにくい、経験や勘に基づく知識 | ルール化が困難、個人に依存 | 職人の技能、医師の直感、料理の「加減」 |
エキスパートシステムが扱えるのは主に形式知であり、暗黙知をルール化することの困難さが知識獲得のボトルネックの核心です。マイケル・ポランニーが提唱した暗黙知の概念は、AI研究においても重要な意味を持っています。
Cycプロジェクト
知識獲得のボトルネックを正面から解決しようとした最大の試みが、Cycプロジェクト(サイクプロジェクト)です。1984年にダグラス・レナートが開始したこのプロジェクトは、人間の常識的知識をすべて形式化してコンピュータに入力するという壮大な計画でした。
- 目標:人間が持つ一般的な常識(約1億件の事実とルール)をデータベース化する
- 方法:知識エンジニアが手作業で常識知識を入力し続ける
- 現状:40年以上にわたって開発が続いているが、当初の目標には到達していない
- 教訓:常識知識の量と複雑さが予想をはるかに上回ることが明らかになった
歴史・背景
知識ベースの概念は、1960年代のエキスパートシステムの研究から発展しました。DENDRALやMYCINの開発を通じて、専門家の知識を体系化してコンピュータに格納する手法が確立されました。
1980年代の第2次AIブームでは、エキスパートシステムの商用化が進み、多くの企業が知識ベースの構築に取り組みました。しかし、知識獲得のボトルネックが深刻な問題として顕在化し、多くのプロジェクトが期待通りの成果を上げることができませんでした。
この経験から、「知識を人手で入力する」アプローチの限界が広く認識され、第3次AIブーム(2010年代~)では、機械学習やディープラーニングによる「データから知識を自動的に獲得する」アプローチが主流となりました。つまり、知識獲得のボトルネックは、AIの研究パラダイムの転換を促す契機となったと言えます。
具体的な事例
医療分野での知識ベース
医療診断のエキスパートシステムでは、疾患と症状の関係、薬剤の適応と禁忌、検査値の解釈など、膨大な医学知識をルール化する必要があります。しかし、「患者の顔色が何となくおかしい」といった医師の暗黙知をルール化することは困難であり、知識獲得のボトルネックの典型的な例です。
Cycプロジェクトの常識知識
Cycプロジェクトでは、「水は下に流れる」「人間は食事をしなければ死ぬ」「物を手放すと落ちる」といった、人間には当たり前すぎて意識すらしない常識的知識を一つ一つ形式化する作業が行われています。このような知識の数は膨大であり、なおかつ例外や文脈依存性が多いため、完全な形式化は極めて困難です。
現代の知識グラフ
知識ベースの現代的な発展形として、Google Knowledge Graph、Wikidata、DBpediaなどの知識グラフ(Knowledge Graph)があります。これらは、Webからの自動抽出と人手による編集を組み合わせて大規模な知識ベースを構築しています。知識獲得のボトルネックをある程度緩和するアプローチと言えます。
G検定での出題ポイント
- 知識ベースはエキスパートシステムの中核であり、専門家の知識をルール等の形式で蓄積したものであることを理解する
- 知識獲得のボトルネックが第2次AIブーム衰退の主因であったことを覚える
- 暗黙知(言語化しにくい知識)と形式知(言語化できる知識)の違いを理解する
- Cycプロジェクト(1984年~、ダグラス・レナート)の概要と目的を押さえる
- 知識獲得のボトルネックが、機械学習・ディープラーニングへのパラダイムシフトの契機となったことを理解する
- 知識ベースの表現形式(プロダクションルール、フレーム、意味ネットワーク、論理式)を区別できるようにする
関連キーワード
- エキスパートシステム - 知識ベースを用いた推論システム
- 意味ネットワーク - 知識表現の手法
- オントロジー - 概念体系の記述方法
- 概念間の関係(is-a と part-of) - 知識表現の基礎的な関係
- 人工無脳 - 知識を持たない会話プログラム