PDFやJPEGなど画像データの文字を文字認識(OCR)させる無料の方法。
※当サイトには広告やプロモーションが含まれています。
無料でPDFやJPEGなど画像ファイル内のテキストを抽出して編集・活用したい。
「PDFやJPEGなど画像ファイル内の文字を文字情報として認識させ、活用したい」
「ある程度精度の高いOCRをコストをかけずに(できれば無料で)利用したい」
といった声をよく耳にします。
文字情報が含まれていない画像ファイル※内の文字は、画像情報になりますので、そのままでは文字(テキスト)情報として抽出、コピーをしたり、検索をかけるなど再利用・活用することは出来ません。
※画像ファイルでも文字情報が含まれているものもございます。
画像ファイル内の文字
文字情報を含んでいる場合には下のように文字列を選択することができる状態になっています。
文字として認識していますので文字列で検索をかけることも可能です。
これに対して、文字情報が含まれていない場合は、文字列の選択や検索を行うことが出来ません。
OCRについて
画像情報としての文字を文字情報として扱えるようにするには、OCR(光学文字認識)という技術を使用する必要があります。
またOCRという技術やソフトウェアの存在は知っているが、識字率や費用が気になられる方も多いのではないでしょうか?
OCRは有償や無償のソフトやツールもたくさんありますが、こちらのページでは比較的身近でなじみ深く費用も掛からない方法としてGoogleドライブ(Google ドキュメント)の機能を使った方法を紹介しています。
また別のページでは、iPhone と Google レンズを使ってテキスト抽出する方法などについて記載させていただいているページもございます。iPhone 上でカメラや画像ファイルを使って文字抽出されたい場合には以下のページもご参考になさってください。
⇨ PCやスマホ上で文字が選択(文字認識)できず、抽出や翻訳できない場合の対処法。
Googleドライブで文字認識(OCR)
Googleドライブとは
Googleドライブとは、Google(グーグル)社が提供しているオンラインストレージで、Googleアカウントがあれば、15GBまで無料(追加容量の購入も可)で利用することが出来ます。
文書ファイルや画像ファイル、音楽ファイルなどをアップロードしておけばいろいろな場所からいろいろな端末でアクセスできるオンラインストレージで、他のGoogleアプリとの連携など他にも便利な機能が備わっています。
その便利な機能の一つとして、Googleドライブに画像ファイルをアップロードして簡単な手順を行うと、画像ファイルをOCR(光学文字認識)処理してくれるという機能があるのです。
Googleドライブで画像ファイルにOCR(文字認識)処理をかける方法
今回は、文字情報が含まれていないPDFファイルを扱っています。
また Windows 10 のPCで、ブラウザ(Google Chrome)から Googleドライブ を利用してOCR処理を行う場合の手順になります。
条件や注意点
こちらの手順が利用できるファイルの形式は
- PDF(複数ページ可)
- JPEG
- PNG
- GIF
で、2MB以下のものになります。
ファイルをアップロードする際は、テキストの高さを10ピクセル以上とすることや、ファイルの向きに注意して下さい。
フォントや画像の品質・内容によって精度が異なり、上手く認識・反映できない場合もございますのでご了承ください。
事前準備
Googleアカウントの作成やとChromeのインストールがまだの場合は最初に準備していただき、Chrome より Googleドライブ にアクセスできる状態にします。
手順
1.Google Chrome を立ち上げ、赤いマークの箇所から Googleドライブ にアクセス、ログインします。
↓
2.マイドライブ画面の左上赤いマークの「新規」をクリックします。
↓
3.「ファイルのアップロード」を選択します。
↓
4.今回は「TEST1.pdf」という文字情報が含まれていないPDFファイルをアップロードします。
アップロードの際にはファイルの向きにご注意ください。
マイドライブ内にファイルが追加されています。
↓
5.4で追加した目的のファイルを右クリックします。
「アプリで開く」→「Googleドキュメント」と進めます。
↓
6.少し待つとGoogleドキュメントが立ち上がります。
PDF上では、画像情報でしかなかった文字部分がOCRによって編集可能なテキストとして抽出されています。
こちらのファイルでは、画像や記号の一部以外ほぼ正しく認識されています。
このままGoogleドキュメント内で修正や編集作業を行うこともできますし、文字情報として選択することができますので Word など使い慣れたソフトにコピーアンドペーストして作業することも可能です。
例.Word
手順は以上です。
総括
こちらのページでは、画像ファイル内にあるそのままでは文字として編集したり出来ない部分を文字情報として認識させ取り扱えるようにする無料の方法として、Googleドライブ( Google ドキュメント)の機能を使う方法を記載させていただきました。
Googleドライブは利用しているがこういった機能があることはそこまで知られていないのかもしれません。
また Googleドライブ はもちろんオンラインストレージとしてもデータの共有や保管・バックアップなどに有効ですし、他にも便利なアプリや機能がございます。
今まであまり利用されていなかった方は、是非一度ご利用になられてみてはいかがでしょうか?
⇨ Google Workspace を、14日間無料でお試しいただけます。
作業の頻度が高かったり、さらに高機能なOCRや編集の機能が必要と感じられた場合には Adobe Acrobat DC など有償のソフトやサービスを利用する方法もございます。
Adobe Acrobat DC では、PDF を Word , Excel , PowerPoint などの形式に簡単に変換することが可能です。
用途や予算、頻度などに合わせて最適な方法を見つけていただくために少しでも参考となれば幸いです。
こちらのページは以上となります。ここまでご覧いただきありがとうございました。