PR

議事録生成〜Geminiに音声ファイルをアップロードしてみる

Gemで議事録を作成してみる

議事録作成にはPlaudを使っています

PlaudのPinを買って腕時計のようにつけています。すぐ録音できて、打合せが終わり次第で、アップロードしてくれて、事前に用意しておいたプロンプトで、打ち合わせやセミナーの内容に合わせて要約してもらっています。とても便利。ただ、ハードが2.7万円でしたし、維持費は、年間1.68万円で、月20時間までの要約です。だから会議10数本程度ですね。そのため、全ての打合せでONにはしておらず、初回訪問などヒアリング内容が多いときだけ使っています。

Googleで議事録を起こしてみる 〜Gemini、Gemの活用

ということで、録音したデータをGeminiにアップロードして試してみます。とりあえあずセミナの前半の1時間をアップロードしてみます。Plaudからデータをダウンロードしました。62分のデータで、15MB弱でした。

Gemの作成

GemはあらかじめGeminiのプロンプトを登録しておけるサービスです。ChatGPTではGPTsですが、GPTsは有料プランしか使えませんが、Gemは無料でも使えます。(私は有料契約してます)

登録したプロンプト

・アップロードされた音声ファイルを読み込みます。
・全文を文字起こします。えー、や、あーといったフィラー(つなぎ言葉)は削除します。
・文字起こしされた内容の次に、以下の要約を生成します。
 1. 200文字程度でサマリーを作る
 2. 重要なポイントを箇条書きでまとめる
 3. 講師が話した内容をテーマごとに整理する
 4.    参加者向けの学び・示唆する

・出力条件
話し言葉は書き言葉に修正
重複表現・不要な相づちは削除
日本語で出力

Gemを実行

ファイルをアップロードして、何も書かずに実行しました。

出力結果

時間がかかるのかな、と思いましたが、1分くらいで以下の内容が出力されました

ーーーーーーーーーーーーーーーーーーーーー

全文文字起こし(フィラー削除・整文済み) →全文じゃない!

62分あるはずなのに、全文にはなりませんでしたね。

【冒頭・導入】 改めまして、こんにちは。村上です。本日はよろしくお願いいたします。 全体で「SNS活用セミナー」というタイトルが付いていますが、今日はあまりSNSの話はせず、AIを使って販売促進や業務効率化を行う方法についてお話しします。もちろん、会社規模によっては「あまりAIを使う場面がない」という方もいらっしゃるでしょうし、個人だからこそ活用できるという部分もあるかと思います。本日は様々なツールを紹介しますので、興味があるものがあれば、ぜひ登録して使ってみていただければと思います。

基本的にAI、例えばChatGPTなどは無料で利用できます。ただし、回数制限があり、例えば画像生成を4〜5回行うと「今日は終わり」と言われることもあります。本格的に業務で活用する場合は有料版が必要になるかもしれませんが、本日の内容は無料版でも体験できるものがほとんどです。現在ではChatGPTやGeminiを使っている方が多いかと思いますし、資料作成が多い企業ではNotebookLMなどがよく使われているのではないでしょうか。

【AIによるコンテンツ作成の実演】 少し雑談から入りますが、「鎌倉幕府は何年にできたか」と習いましたでしょうか。「イイクニ(1192年)作ろう」と習った方が多いと思いますが、ここ10年ほどは教科書の記載が変わり、「イイハコ(1185年)作ろう」になっているそうです。歴史の解釈や教科書の内容も時代とともに変わるという一例ですが、このニュースを見て面白いなと思い、新幹線での移動中に動画を作ってみました。

Canvaなどのツールを使うと、テンプレートを選んで文字や画像を入れるだけで動画が作れます。源頼朝の写真はネット検索したものですが、女の子のイラストなどはAIで生成しました。これらを使って、「いい国作ろう鎌倉幕府、復権か?」といったブログ記事もAIに書かせました。ブログのサムネイル画像も「鎌倉幕府のご家人が集まっているイラスト」と指示してAIに描かせ、記事本文もAIに生成させました。 さらに、AIに対して「1185年説と1192年説、どちらが優勢なのか比較して調べて」と指示し、その結果を貼り付ければ記事が完成します。動画作成、YouTubeへのアップロード、記事執筆を含めても30分程度で完了します。このように、コンテンツ作成においてAIは非常に強力なツールとなります。

【AIの歴史と進化】 少し歴史を振り返りますと、現在のAIブームは2022年11月のChatGPT登場からですが、その起点は2012年頃のGoogleによる「猫の画像認識(ディープラーニング)」でした。以前はコンピュータに「猫」を定義することが困難でしたが、大量の画像を学習させることで、AIが「なんとなく猫」を認識できるようになったのです。これが2012年の出来事で、そこから画像認識が進み、現在の生成AIへと繋がっています。 その後、2023年にはマルチモーダル化が進み、文字だけでなく、画像、Excel、動画など様々なファイルを扱えるようになりました。

【画像生成と著作権・リスク】 AIの進化により、例えば「イオンのチラシ」を読み込ませて、「これに基づいた献立を考えて(酒のつまみ、アスパラガス使用)」と指示すれば、メニューを提案してくれるようになりました。 一方で、画像認識や生成にはリスクもあります。例えば、有名キャラクターに似せたイラストを生成することは技術的に可能ですが、著作権的には問題になる可能性があります。「ジブリ風」と指示して生成した画像が商用利用できるかというと、非常にグレー、あるいはアウトな領域です。類似性が高ければ著作権侵害となりますし、特定の画風に依拠している場合は「依拠性」の問題も出てきます。 また、実在の人物の画像をAIに学習させて動画を作るディープフェイク技術や、AI生成楽曲の著作権問題など、法整備が追いついていない部分もあります。企業で利用する場合は、商用利用が明確に許可されているモデル(Adobe Fireflyなど)を使うか、権利侵害のリスクを十分に考慮する必要があります。

【プロンプト設計と活用】 AI、特にChatGPTを活用する際は、指示の出し方(プロンプト)が重要です。単に「イラストを描いて」と言うだけでは意図しないものが生成されます。「ジブリ風で」と指定すればそれに近づきますが、著作権リスクがあります。 業務で使う場合、AIに「役割(ロール)」を与えることが有効です。「あなたは優秀なマーケティング担当者です」や「プロの編集者です」と定義することで、回答の精度が変わります。 また、AIは「文脈」を読むのが得意ですが、曖昧な指示では一般的な回答しか返ってきません。「ターゲットは小学生」「新人社員にもわかるように」といった具体的な制約条件を加えることで、より実用的なアウトプットが得られます。

【業務への具体的活用】 業務での活用例としては、以下のようなものがあります。

  • 要約・ドラフト作成: 長文の資料やニュースを要約させる。メールの返信案を作成させる。
  • アイデア出し: 新商品のネーミングやキャッチコピーの案を大量に出させる。
  • データ分析・整理: エクセルデータを読み込ませて分析させる。
  • プログラミング: Excelのマクロや簡単なコードを書かせる。

ただし、セキュリティには十分注意が必要です。無料のチャットツールなどに顧客情報や機密データを入力すると、それがAIの学習データとして使われてしまうリスクがあります。企業で導入する場合は、学習データとして利用されない設定(オプトアウト)にするか、Microsoft Copilotのようなセキュアな環境を利用することが推奨されます。

【まとめ・未来】 AIはあくまで「道具」です。最終的な責任は人間が持ちます。AIが作ったものをそのまま出すのではなく、人間がチェックし、修正を加えるプロセスが不可欠です。しかし、下書きやアイデア出しの段階では劇的な効率化をもたらします。 今後は「AIエージェント」と呼ばれる、複数のAIが連携して自律的にタスクをこなす時代が来ると言われています。まずは身近な業務からAIを取り入れ、その特性とリスクを理解しながら活用していくことが重要です。

セミナーの要約

1. サマリー(200文字程度)

本セミナーでは、生成AIの歴史的変遷から最新のマルチモーダル化、業務への具体的活用法までを解説しました。実演を交え、短時間での動画・記事作成の効率性を示す一方、著作権侵害や情報漏洩などのリスク管理の重要性を強調。プロンプトエンジニアリングの基礎や、要約・アイデア出しといった実務での利用シーンを紹介し、AIはあくまで人間の業務を補完する「道具」として活用すべきであると結論付けました。

2. 重要なポイント(箇条書き)

  • AIの進化と現状: 2012年の画像認識から始まり、現在は文字・画像・データを統合的に扱うマルチモーダル化が進展している。
  • 業務効率化: 動画作成、ブログ執筆、メール返信案の作成など、AIを活用することで作業時間を大幅に短縮可能。
  • リスク管理: 「ジブリ風」などの指示による著作権侵害リスクや、機密情報の入力による情報漏洩リスクへの対策が必須。
  • プロンプトのコツ: AIに「役割(ロール)」を与え、ターゲットや前提条件を具体的に指示することで回答精度が向上する。
  • ツールの使い分け: 簡易な利用には無料版ChatGPT、資料分析にはNotebookLM、画像生成には著作権に配慮されたモデルなど、目的に応じた選定が重要。

3. テーマ別整理

テーマ内容
AIの基礎と歴史2012年の猫の画像認識(ディープラーニング)が起点。2022年のChatGPT登場以降、急速に普及。現在はテキスト、画像、音声を扱えるマルチモーダルへ進化。
コンテンツ作成CanvaやAIツールを組み合わせることで、動画やブログ記事を短時間(30分程度)で作成可能。サムネイル生成や記事構成案もAIが担当。
セキュリティと権利特定の画風やキャラクターに似せた生成物は著作権侵害のリスクがある。また、無料AIツールへの機密情報入力は学習データ流出のリスクがあるため、オプトアウト設定やセキュアな環境の利用が推奨される。
活用テクニックプロンプトでは「役割定義(あなたはマーケターです等)」と「具体的制約(小学生向けに等)」が重要。一度で完璧な回答を求めず、対話形式でブラッシュアップする手法が有効。

4. 参加者への学び・示唆

  • AIは「下書き」のパートナー: ゼロから作成するのではなく、AIにドラフトやアイデア出しをさせることで、人間は「判断・修正・仕上げ」に集中でき、生産性が向上します。
  • リスクリテラシーの必要性: 便利さの裏にある「著作権」や「データプライバシー」の問題を理解し、社内ルール(機密情報を入れない等)を遵守した上での活用が求められます。
  • まずは触ってみる: 無料版でも多くの機能が利用可能です。日常のメール作成や調べ物など、リスクの低い業務からAI利用を習慣化することが、将来的な「AIエージェント時代」への適応に繋がります。

やってみた感想

全文文字起こしにはなりませんでした。まあ、もっと一言一句逃さずとか指示したらやってくれるのかな。ただ別に全文文字起こしが必要なわけではありません。話した内容を要約してくれればいいので、ぼちぼちサマリーはいい感じな気がします。

次は打合せの議事録で試してみようと思います。

打合せ用プロンプト(コンサルティングセッション)

プロンプトは以下のようにしました。

・アップロードされた音声ファイルを読み込みます。
・全文を文字起こします。えー、や、あーといったフィラー(つなぎ言葉)は削除します。
・発言者を明確に分けます。
・文字起こしされた内容の次に、以下の要約を生成します。
 1. 200文字程度でサマリーを作る
 2. 相談社の現状をまとまとめる
 3. 重要なポイントを箇条書きでまとめる
 4.    今後やっていくべきことをタスクとしてまとめる

・出力条件
話し言葉は書き言葉に修正
重複表現・不要な相づちは削除
日本語で出力

打合せの内容なので、結果はここに掲載できませんが、いい感じにまとめてくれました。

そんなところで

PVアクセスランキング にほんブログ村

AI

Posted by tomoyamurakami