技術ノート ウェブ Chrome で画像からテキストをスクレイピングする方法

Chrome で画像からテキストをスクレイピングする方法

通常、画像からテキストを抽出するには光学式文字認識 (OCR) ソフトウェアを使用します。ただし、Google Chrome 76 以降では、追加のソフトウェアを必要とせずに、実験的な機能を使用して画像からテキストをスクレイピングすることができます。

Chrome で画像からテキストをスクレイピングする方法

OCR を使用してテキストを検出すると、計算コストが高くなります。ただし、ハードウェア メーカーはかなり長い間形状検出をサポートしてきました。

「形状検出 API」 と入力します。これは、実行されるデバイスのハードウェア アクセラレーションに依存します。 API では、QR コードなどのバーコード検出、顔やテキストの検出が可能です。このプロジェクトの詳細については、 開発者の Web サイト で読むことができます。そこでは、API の仕組みについて詳しく説明されています。テキスト検出の詳細については、 Web Incubator Community Group Web サイト を参照してください。

この機能を使用するには、Chrome で実験的フラグを有効にする必要があります。以下のものを有効にすると、

 chrome: //flags
Chrome で画像からテキストをスクレイピングする方法

、すべてのデバイスでテストされていない未完成の機能を使用しているため、誤動作する可能性があります。いくつかのバグに遭遇する可能性があるため、利用可能なフラグを試すときは注意してください。

このガイドでは Windows PC を使用していますが、モバイル デバイスを含む他のすべてのプラットフォームでも同様に動作するはずです。

まず、Chrome を起動し、次のように入力します。

 chrome: //flags
Chrome で画像からテキストをスクレイピングする方法

オムニボックスに入力し、Enter キーを押し、検索バーに「実験的 Web プラットフォーム」と入力します。

または、貼り付けることもできます

chrome: //flags/#enable-experimental-web-platform-features

アドレスバーに入力し、Enter キーを押してフラグに直接移動します。

Chrome で画像からテキストをスクレイピングする方法

次に、「実験的 Web プラットフォーム」フラグの横にあるドロップダウン ボックスをクリックし、「有効」をクリックします。

変更を有効にするには、Chrome を再起動する必要があります。ページの下部にある青い「今すぐ再起動」ボタンをクリックします。

Chrome が再起動したら、 https://copy-image-text.glitch.me/ にアクセスして、抽出するテキストを含む画像をアップロードします。 「ファイルを選択」をクリックします。

Chrome で画像からテキストをスクレイピングする方法

パソコンから画像ファイルを選択し、「開く」をクリックします。

画像をサイトに「アップロード」していますが、このツールはオフラインでも使用できます。サイトに移動するとすぐに、すべてのリソースがキャッシュに保存されます。

ファイルがアップロードされたら、「送信」をクリックします。

Chrome で画像からテキストをスクレイピングする方法

抽出されたテキストを含むページが再ロードされます。これで、Web ページからテキストをコピーし、任意のテキスト エディターまたはワード プロセッサに貼り付けることができます。

この記事を書いている時点では、この機能には少しバグがあります。上の画像からわかるように、ドキュメントの約半分だけがアップロードされてスキャンされました。ただし、これらの問題は時間内に解決する必要があります。

「 Chrome で画像からテキストをスクレイピングする方法」に関するベスト動画選定!

【Python × スクレイピング入門⑬】自動で画像保存の準備!画像URLを取得しよう!
Ui_vision(無料)でChromeからスクレイピング