PR

スクレイピングツールはもう終わりか〜生成AIにて

名簿を作っている女性

スクレイピングツールとは

インターネットから一覧でデータを取ってきたいことがあります。顧客リストなんて買わずにネットで作れたらなあという時にスクレイピングツールを使っていたわけです。

3年前の動画ですね。Octoparseでデータ取得しています。

生成AIのツールでデータ取得する

GensparkでもAIシートという項目ができています。”企業、人、論文、商品”などを自動で見つけるということで、ターゲットを絞った顧客リストを作ることができそうですね。

商工会議所の一覧を取得してみます。

商工会議所の住所や電話番号は、日本商工会議所のWebサイトにあります。ただ残念ながら一覧であるわけではないです。500箇所もあるので、地域別に分けて掲載されています。

商工会議所の一覧 https://www5.cin.or.jp/ccilist

日本地図で北海道をクリックすると、北海道の商工会議所の一覧が出てきます。

まだここでも会議所名の一覧だけで、住所等は出てきません。

最終的に、一つの商工会議所のページを開くと個別のデータが表示されます。

これを手動でコピペして集めようとすると、クリック数がかさんで大変そうですね。

Gensparkで

それぞれのAIに以下のプロンプトでおねがいしてみました。全国のデータを取得すると時間がかかって、なかなか戻ってこなかったので、北海道に絞ってみました。

プロンプト →以下のURL配下にある北海道の商工会議所の会議署名、郵便番号、住所、電話番号を一覧でCSVダウンロードして https://www5.cin.or.jp/ccilist/prefecture/1

数分かかりましたが、CSVダウンロードできました。全部で42件です。

リストには最後の43番目に連合会さんのデータもあったのですが、それは省いて出力してくれました。

Claudeで

同様にClaudeでもやってみました。

デスクトップにダウンロードまで自動にやってくれました。

42会議所といっていますが、こっちは連合会さんのデータもとってきましたね。

Gemini(PRO)で

1回目は失敗しました。17件とってきて終わってますね。処理終わってないのに完了を装われました。

ただ全データを取得してください、と言えば全部取れました。

ChatGPT (PLUS)で

ChatGPTも最初は失敗というか、あえて途中で止めたんでしょうかね。上位の10件を取ってきましたと。命令無視だー!

全データ取得してくださいでできました。

取得したデータが文字化けしていたら

エクセルで開くと文字化けしていることがあります。文字コード指定して実行すればクリアできそうですが。

テキストファイルで開けば文字化けしていません。

文字コードはUnicode(UTF-8)でした。

Shift-JISに変換してみます。

そうするとエクセルでも開きました。CSV

そんなところで

PVアクセスランキング にほんブログ村

AI

Posted by tomoyamurakami