無料でPDFやJPEGなど画像ファイル内のテキストを抽出して編集・活用したい。

OCR

「PDFやJPEGなど画像ファイル内の文字を文字情報として認識させ、活用したい」

といったケースは多くあると思います。

ですが、文字情報が含まれていない画像ファイル※内の文字は、画像情報になりますので、そのままでは文字(テキスト)情報として抽出、コピーをしたり、検索をかけるなど再利用・活用することは出来ません。

※画像ファイルでも文字情報が含まれているものもございます。

画像ファイル内の文字

文字情報を含んでいる場合には下のように文字列を選択することができる状態になっています。

認識PDF1

文字として認識していますので文字列で検索をかけることも可能です。

検索PDF

これに対して、文字情報が含まれていない場合は、文字列の選択や検索を行うことが出来ません。

OCRについて

画像情報としての文字を文字情報として扱えるようにするには、OCR(光学文字認識)という技術を使用する必要があります。

OCRは有償や無償のソフトやツールもたくさんありそれらを使う方法もありますが、こちらのページでは比較的身近でなじみ深く費用も掛からない方法としてGoogleドライブの機能を使った方法を紹介しています。

Googleドライブで文字認識(OCR)

Googleドライブとは

Googleドライブとは、Google(グーグル)社が提供しているオンラインストレージで、Googleアカウントがあれば、15GBまで無料(追加容量の購入も可)で利用することが出来ます。

文書ファイルや画像ファイル、音楽ファイルなどをアップロードしておけばいろいろな場所からいろいろな端末でアクセスできるオンラインストレージで、他のGoogleアプリとの連携など他にも便利な機能が備わっています。

その便利な機能の一つとして、Googleドライブに画像ファイルをアップロードして簡単な手順を行うと、画像ファイルをOCR(光学文字認識)処理してくれるという機能があるのです。

Googleドライブで画像ファイルにOCR(文字認識)処理をかける方法

今回は、文字情報が含まれていないPDFファイルを扱っています。

また、Windows® 10 のPCで、ブラウザ(Google Chrome)から Googleドライブ を利用してOCR処理を行う場合の手順になります。

条件や注意点

こちらの手順が利用できるファイルの形式は

  • PDF(複数ページ可)
  • JPEG
  • PNG
  • GIF

で、2MB以下のものになります。

ファイルをアップロードする際は、テキストの高さを10ピクセル以上とすることや、ファイルの向きに注意して下さい。

フォントや画像の品質・内容によって精度が異なり、上手く認識・反映できない場合もございますのでご了承ください。

事前準備

Googleアカウントの作成やとChromeのインストールがまだの場合は最初に準備していただき、Chrome より Googleドライブ にアクセスできる状態にします。

手順

1、Google Chrome を立ち上げ、赤いマークの箇所から Googleドライブ にアクセス、ログインします。

googledrive1

2、マイドライブ画面の左上赤いマークの「新規」をクリックします。

googledrive2

3、「ファイルのアップロード」を選択します。

googledrive3

4、今回はTEST1.pdfという文字情報が含まれていないPDFファイルをアップロードします。

googledrive4

アップロードの際にはファイルの向きにご注意ください。

マイドライブ内にファイルが追加されています。

5、4で追加した目的のファイルを右クリックします。

googledrive5

アプリで開く」→「Googleドキュメント」と進めます。

6、少し待つとGoogleドキュメントが立ち上がります。

googledrive6

PDF上では、画像情報でしかなかった文字部分がOCRによって編集可能なテキストとして抽出されています。

こちらのファイルでは、画像や記号の一部以外ほぼ正しく認識されています。

このままGoogleドキュメント内で修正や編集作業を行うこともできますし、文字情報として選択できますので Word など使い慣れたソフトにコピーアンドペーストして作業することも可能です。

例、Word

googledrive7

手順は以上です。

総括

こちらのページでは、画像ファイル内にあるそのままでは文字として編集したり出来ない部分を文字情報として認識させ取り扱えるようにする無料の方法として、Googleドライブの機能を使う方法を記載させていただきました。

用途に合うと無料なのにかなり使える方法だと思いますが、Googleドライブは利用しているがこういった機能があることはそこまで知られていないのかもしれません。

もちろんオンラインストレージ自体もデータの共有や保管・バックアップなどに有効ですし、是非一度利用してみてはいかがでしょうか?

作業の頻度が高かったり、さらに高機能なOCRや編集の機能が必要と感じられた場合には有償のソフト等もあります。

用途や予算、頻度などに合わせて最適な方法を見つけていただくのに少しでも参考となれば幸いです。

スポンサーリンク