これらの最高のOCRソフトウェアで画像からテキストを抽出する

2019

最近では、ほとんどすべて（写真、音楽、ビデオなど）がデジタル化されています（デジタルコンテンツは便利に管理、編集、共有できるので、これは理にかなっています）。それでは、テキスト文書はどのようにして遅れるのでしょう。光学式文字認識（OCR）技術の進歩のおかげで、印刷された/手書きの文書のテキストの問題をデジタル化することが今まで以上に簡単になり、ワープロプログラムで編集できるようになりました。

さて、そのためには、本当に優れたOCRソフトウェアアプリケーションがいくつか必要です。それがまさにこの記事のすべてです。これらのソフトウェアは、スキャンしたデバイスからソースとして印刷された文書を画像として取得することも、独自の文書画像を入力して編集可能なテキストに変換することもできます。興味がありますか？それでは、ブッシュを回避して、 5つの最高のOCRソフトウェアを入手しましょう。

1. ABBYYファインリーダー

光学式文字認識に関しては、ABBYY FineReaderに近いものはほとんどありません。 ABBYY FineReaderは、 非常に多くの強力な機能が満載されているため、あらゆる種類の画像からテキストを簡単に抽出できます。

ABBYY FineReaderは、機能の充実したリストにもかかわらず、使い方がとても簡単です。 PNG、JPG、BMP、TIFFなど、ほとんどすべての一般的な画像形式からテキストを抽出できます。そしてそれだけではありません。 ABBYY FineReaderはPDFおよびDJVUファイルからテキストを抽出することもできます。（最適な走査のために、好ましくは少なくとも３００ｄｐｉの解像度を有するべきである）ソースファイルまたは画像がロードされると、プログラムはそれを分析し、抽出可能なテキストを有するファイルの異なる部分を自動的に決定する。すべてのテキストを抽出することも、特定のセクションだけを選択することもできます。その後、あなたがする必要があるのは出力フォーマットを選択するために保存オプションを使用することだけです、そしてABBYY FIneReaderは残りの面倒を見るでしょう。 TXT、PDF、RTF、さらにはEPUBなど、サポートされている多数の出力フォーマットがあります。

出力テキストは完全に編集可能で、最もコンテンツ集約的なドキュメント（例えば、複数の列と複雑なレイアウトを持つもの）からのテキストも完璧に抽出されます。その他の機能には、広範な言語サポート、多数のフォントスタイル/サイズ、およびスキャナやカメラから供給されたファイル用の画像補正ツールがあります。

一言で言えば、あなたがそこに絶対的な最高のOCRソフトウェアを望むならば、広範囲の入力/出力フォーマットと処理サポートを完備して、ABBYY FineReaderに行きなさい。

プラットフォームの可用性： Windows 10、8、7 、Vista、およびXP。 Mac OS X 10.6以降

価格：有償版は$ 169.99から、30日間無料トライアルあり

ダウンロード

2. Readiris

機能が重い、非常に強力なOCRソフトウェアを探していますが、実際に作業を始めようとしてもそれほど努力を要しませんか。それがちょうどあなたが必要とするものであるかもしれないので、 Readirisを見てください。

プロフェッショナルレベルのアプリケーションであるReadirisには、前述のABBYY FineReaderとほぼ同じ広範な機能セットがあります。 BMPからPNG、そしてPCXからTIFFまで、Readirisはかなりの数の画像フォーマットをサポートしています。それ以外は、PDFやDJVUファイルも同様に処理することができます。画像はスキャナーデバイスから取得することができ、アプリケーションでは、分析する前に、スムージングやDPI調整などのカスタム処理パラメータをソースファイル/画像に設定することもできます。 Readirisは低解像度の画像でも問題なく処理できますが、最適な解像度は少なくとも300 dpiです。分析が完了すると、Readirisはテキストセクション（またはゾーン）を決定し、テキストは特定のゾーンまたはファイル全体から抽出できます。抽出されたテキストは編集可能で、PDF、DOCX、TXT、CSV、HTMなどのさまざまな形式で保存できます。

さらに、Readiris Proのクラウド保存機能を使用すると、抽出したテキストをDropbox、OneDrive、GoogleDriveなどのさまざまなクラウドストレージサービスに直接保存できます。テキスト編集/処理機能の健全な数も同様にあり、バーコードさえもスキャンすることができます。

結局のところ、強力なテキスト抽出/編集機能を使いやすいパッケージにまとめたい場合は、Readirisを使用する必要があります。これには、広範な入出力フォーマットのサポートが備わっています。しかし、Readirisは、複数の列、表などの複雑なレイアウトを持つ文書を処理することに関しては、少しばかり気を狂わせます。

プラットフォームの可用性： Windows 10、8、7 、Vista、およびXP。 Mac OS X 10.7以降

価格：有料版は99ドルから始まり、10日間の無料トライアルが利用可能

ダウンロード

3. FreeOCR

きちんとしたテキスト認識機能を備えたシンプルで手間のかからないOCRソフトウェアを探しているなら、 FreeOCR以外にはありません。すべての種類の派手な機能で過負荷になるとは限りませんが、それはまだそれが何であるかのために非常にうまく機能します。

FreeOCRは、非常に人気の高い、GoogleがサポートするTesseract OCRエンジンをベースにしています。スキャナーを介してスキャンされた印刷文書を入手することができ、テキストの内容を含む画像をアップロードすることもできます。それだけでなく、大きくフォーマットされた複数ページの文書からテキストを抽出することもできます。アプリケーションに入力PDF /画像からすべてのテキストを抽出させることも、特定のテキストの塊を定義させることもできます。変換速度はかなり良く、変換されたテキストはTXTやRTFのようなフォーマットで保存することも、Microsoft Wordに直接エクスポートすることもできます。 FreeOCRはPNG、JPG、TIFFのようなすべての主要な画像フォーマットをサポートしています。

そうは言っても、FreeOCRにはいくつかの欠点があります。それはあまりにも基本的で、そしてテキスト後処理機能を持っていません。さらに、抽出されたテキストのレイアウトは、行と列が重なって、混乱することがよくあります。時折使用するためにOCRの基本機能が必要な場合にのみ使用してください。

プラットフォームの可用性： Windows 10、8、7 、Vista、およびXP

価格：無料

ダウンロード

4. Microsoft OneNote

OneNoteは、同様に使い始めるのが簡単で印象的な機能豊富なメモ作成アプリケーションです。しかし、メモ書きだけが得意なことではありません。ワークフローの一部としてOneNoteを使用する場合は、OCRの優れた機能により、OneNoteを使用して基本的なテキスト抽出を実行できます。

OneNoteを使用して画像からテキストを抽出するのはばかげて簡単です。デスクトップアプリケーションを使用している場合は、[ 挿入 ]オプションを使用して画像を任意のノートブックまたはセクションに挿入するだけです。それが完了したら、単に画像を右クリックして、[画像からテキストをコピー ]オプションを選択します。画像のテキストコンテンツ全体がクリップボードにコピーされ、必要に応じてどこにでも貼り付ける（したがって編集する）ことができます。 PNG、JPG、BMP、TIFFのいずれであっても、OneNoteはほぼすべての主要な画像フォーマットをサポートしています。

ただし、OneNoteのテキスト抽出機能は非常に限られており、テーブルやサブセクションなどの複雑なテキストコンテンツレイアウトを持つ画像を扱うことはできません。だからそれはあなたが心に留めておくべきものです。

プラットフォームの可用性： Windows 10、8、7 、およびVista。 Mac OS X 10.10以降

価格：無料

ダウンロード

5. GOCR

注：始める前に、GOCRがPNGやJPGなどの通常の画像フォーマットをサポートしていても、テスト中に認識できなかったことを知っておくことは重要です（Windows 10を実行しているWindows 10上で実行）。 Linuxマシンでこれらのフォーマットで動作する可能性は非常に高いですが、Windowsを使用している場合は、ソースイメージをPNMフォーマットに変換する必要があります。これは、このような多数のオンラインファイル変換ツールを介して行うことができます。

GOCRを他とは一線を画しているのは、グラフィカルユーザーインターフェース（GUI）のフロントエンドが実際にはないということです。これはコマンドラインベースのツールなので、実際には最も使いやすいツールではありません。しかし、基本に慣れてしまえば、GOCRは画像からのテキスト抽出に非常に役立ちます。 GOCRが正しく機能するためには、ユーティリティが実際には複雑なソースファイルでは機能しないため、ソース画像にはっきりと見えるテキストコンテンツ、できれば白い背景が必要です。 GOCRは画像からテキストを抽出し、それらをTXTフォーマットで保存します。それはかなりの数の引数と関数をサポートしていますが、始めるために知られている必要があるのは少数だけです。たとえば、サンプルのPNMイメージからテキストを抽出するには、コマンドプロンプトで次のように入力します。

X：\ sampleフォルダ\ gocr049 -i file.pnm -o file.txt

ここで、 X：\ sampleフォルダはGOCRのコマンドラインツールがある場所、 file.pnmとfile.txtはそれぞれ入力ファイルと出力ファイルです（両方ともGOCRと同じ場所にあり、場所が異なる場合）。完全なパスを指定する必要があります。また、画像のグレースケールレベルを変更したい場合は、引数として-lとともに数値を指定できます。使い方の詳細についてはここをクリックしてください。

まとめると、GOCRはかなり優れたOCRユーティリティであり、単純な画像からのテキスト抽出に関しては非常にうまく機能します。ただし、機能が大幅に制限されており、機能するにはかなりの努力が必要です。

プラットフォームの可用性： Windows 10、8、7 、Vista、およびXP。 Linux OS / 2

価格：無料

ダウンロード

すべての画像をテキストに変換するように設定？

印刷（および手書き）されたテキストコンテンツをデジタル化することは、テキストの保存、編集、および共有を非常に簡単にするため、非常に便利です。そして、上で論じたOCRソフトウェアは、あなたのテキスト抽出ニーズがどれほど基本的なものであれ高度なものであれ、それだけで素早く作業できます。最高の後処理ツールを備えたプロフェッショナルレベルのテキスト抽出機能が必要ですか。 ABBYY FineReaderまたはReadirisにアクセスしてください。基本的なことを終えた単純なOCRソフトウェアをお勧めしますか？ OneNoteまたはFreeOCRを使用してください。試してみて、どのように機能するかを確認してください。上記のリストに含まれている可能性のある他のOCRソフトウェアを知っていますか？以下のコメントで叫んでください。