OCR とは、(optical character recognition とか optical character reader)のことで、画像データから、光学的に文字を読取ることです。 スキャナを買うと、たいていは 付属の OCRソフトの性能に不満があったり、スキャナを持っていない人は、下記を試してみましょう。 新聞など、薄い紙からOCRする場合は、裏に黒い紙を当ててスキャンすると、裏の文字の透けが邪魔にならず、うまく文字認識できます。 また、OCRソフトで、縦書き、横書きの読み込み指定ができる場合は、明示的に方向を指定したほうが、より正しく認識できます。 私は、スキャンの解像度は、白黒300dpi以上のテキスト読み込みを使っています。ブライトネス(明るさ)は、50〜40程度で調整しています。 白黒化の方法を指定できる場合は、単純2値の、スレッショルド(threshold 閾)法を選択します。ディザモード(誤差拡散法)など、中間調まで取り込む擬似階調画像にすると、文字認識率は、低下してしまいます。 カラー画像からOCRしたい場合は、XnView を使って、「画像」→「モノクロに変換」→「Floyd-Steinberg型(Floyd-Steinberg 誤差拡散法 ディザリング (減色) )」を使うと、OCR 読み取り率が良いようです。 Google OCR![]() 文字データを抽出したい PDFファイルや画像ファイルなどを Googleドライブにアップロードします。そして Googleドキュメントで開くだけで、日本語の手書き縦書き文書なども、それなりに文字抽出できます。 Google OCRの回数制限(10ページ/24時間) アップロード可能なPDFページ数(10ページ)、ファイル容量(10MB/回)の制限 https://digibibo.com/entry-1998 https://blog.mc-copy.jp/pdf/pdf-character-recognition-google/ 文字抽出の仕方: パソコンで Google ドライブにアクセスします。 Google ドライブ内のファイルを右クリックします。 [アプリで開く] 次に [Google ドキュメント] をクリックします。 Google ドキュメントの画像の下に、文字抽出したものが表示されます。 Google ドキュメントの「ファイル」→「ダウンロード」で Word 形式などに変換します。 右の例は Word で抽出文字のフォント・サイズを変更したものです。 認識対象のファイル形式: PDF(マルチページ ドキュメント)、写真ファイル(.jpeg、.png、.gif) ファイルサイズ: ファイルは 2 MB 以下。 解像度: テキストの高さは 10 ピクセル以上。 文字の向き: ドキュメントは正しい向きにします。画像の向きが正しくない場合は、回転させてから Google ドライブにアップロードします。 言語: Google ドライブはドキュメントの言語を検出します。 フォントと文字セット: Arial や Times New Roman などの一般的なフォントを使います。 画質: 明るさが均一でコントラストがはっきりしたシャープな画像だと良好な結果が得られます。 Online OCR日本語認識率が極めて高い WEB サービスです。5MB までなら、登録なしで、PDF, JPG, BMP, TIFF, GIF の単一ファイルを読み込むことができます。 縦書き、横書きを、自動認識します。 もう、市販のOCRソフトの時代は終わった、と感じます。 https://www.onlineocr.net/ 使い方の紹介 http://ryus.co.jp/blog/online-ocr/ https://nelog.jp/online-ocr 主な手順は以下です。 1.Upload file で、Select file ボタンを使って、パソコンのフォルダにある画像をアップロード 2.Select language and output format で、言語と出力形式を選択 3.右下の確認用の数字を入力(無登録の場合) 4.Convert ボタンを押す i2OCR「i2OCR」は、画像内に含まれるテキストを OCR 抽出できるウエブ・サービスです。アプリではないので、ソフトをダウンロードしたりインストールする必要はありません。 日本語を含む33カ国語に対応しており、このサービスを使って画像内の文字列をテキストデータに変換できます。 日本語認識は、上の「Online OCR」の方が優れています。 http://www.i2ocr.com/free-online-japanese-ocr 使い方の紹介 http://japan.cnet.com/news/society/35007245/ Softi FreeOCR横文字専用の、OCRソフトです。freeocr26.exe例えば、学校の外国語のテキストを、スキャン→OCR→機械翻訳、して予習して行けば、学習効果が上がり、成績もアップするでしょう。 この OCR は、スキャンで、300 DPI のグレースケールを推奨しています。 Softi FreeOCR バージョン2.6では、PDF 文書をそのまま読み込んで、OCR できます。これはすごいです。 Softi FreeOCR バージョン3.0では、PDF の読み込みエラーが無くなりました。 バージョン3.0では、インストールのときに、ツール・バーのインストールを聞かれます。私はチェックを外して、FreeOCR のみ、インストールしました。 v5.0.2 では、RegClean Pro のインストールを聞かれます。私は、decline (お断わり)しました。 ![]() ![]() "The quick brown fox jumps over a lazy dog" という句は、アルファベットのすべての文字を使っています。
ダウンロード http://www.paperfile.net/ http://code.google.com/p/tesseract-ocr/ http://www.brothersoft.com/freeocr-download-59672.html 窓の杜の紹介 http://www.forest.impress.co.jp/article/2007/07/30/softifreeocr.html 日本語のOCRソフトは、「バイリンガル」と銘打っているものでも、英文判読が苦手です。 下の例は、同一のスキャン画像を使って、私が持っている、某有償ソフトと読み取り比較したものです。Softi FreeOCR が優れていることが、分かります。 -Softi .某市販ソフト -Product Specification Information Management System .Product SpecincHon IIubrmHon Managemem System←i,f,nを判読できていない -Confirming Contents of` Design alteration .coInrming Contents ofDesign aIteration←小文字のlと大文字のIを誤認 -Altering Sales Unit Name for.Each Model and Type .Altering sales Unit Name fbnEach ModeI and Type←Sの大文字と小文字を誤認 ![]() SmartOCR Lite Editionこのサイトでは、SmartOCRについての、様々な情報を提供しています。http://ocr.rossa.cc/ 窓の杜の紹介 http://www.forest.impress.co.jp/article/2005/11/29/smartocrlite.html http://www.forest.impress.co.jp/article/2006/04/25/smartreading.html 今なら、最終版 SmartOCRLite107.zip (26,947KB)をダウンロードできるので、お急ぎを。 (SmartOCRLite106.zip の方が良い、という記事を見たことがあるので、ブロードバンドなら両方ダウンロードしてみるとか。) http://www.4shared.com/dir/1006463/575b200b/public.html http://www.4shared.com/file/4511298/d62b2347←ダウンロードのリンクが表示されるまで、数十秒待ちます。 上の掲載場所を教えていただいたブログ Tool is Over http://xxxleastxxx.blog28.fc2.com/ http://xxxleastxxx.blog28.fc2.com/index.php?q=SmartOCR 下記に、SmartOCR 1.0 ヘルプもありました。 http://ocr.rossa.cc/ http://ocr.rossa.cc/index.htm 必要な方は、Website Explorer などを使って、ダウンロードしておきましょう。 |
![]() |
![]() |
![]() |
![]() |
![]() |
メーカ | Deolux | Deolux | Transcend:良 | Kingston |
種類 | SDXC | SDXC | microSDXC | microSDXC |
容量 | 64GB Class10 | 64GB Class10 | 64GB Class10 UHS-I対応 | 64GB Class10 SDCX10/64GB KF-C2264-4S |
パソコン | NF70 | NF70 | Miix2 | T100TA |
OS | Win7 | Win7 | Win8.1 | Win8.1 |
使用状況 | [H: 75.9% (45.8/60.4 GB)] | [F: 53.8% (32.3/60.0 GB)] | [D: 15.6% (9.2/59.0 GB)] | [D: 15.6% (9.2/59.0 GB)] |
備考 | USB経由 | USB経由 | ||
Sequential Read | 19.361 MB/s | 19.221 MB/s | 23.406 MB/s | 23.316 MB/s |
Sequential Write | 13.150 MB/s | 12.570 MB/s | 16.351 MB/s | 10.442 MB/s |
Random Read 512KB | 18.958 MB/s | 18.884 MB/s | 22.693 MB/s | 22.838 MB/s |
Random Write 512KB | 6.838 MB/s | 2.454 MB/s | 12.023 MB/s | 1.714 MB/s |
Random Read 4KB (QD=1) | 2.635 MB/s [ 643.4 IOPS] | 2.999 MB/s [ 732.3 IOPS] | 4.867 MB/s [1188.1 IOPS] | 5.428 MB/s [1325.2 IOPS] |
Random Write 4KB (QD=1) | 0.746 MB/s [ 182.2 IOPS] | 0.025 MB/s [ 6.0 IOPS] | 1.152 MB/s [ 281.2 IOPS] | 0.278 MB/s [ 68.0 IOPS] |
Random Read 4KB (QD=32) | 3.102 MB/s [ 757.3 IOPS] | 3.314 MB/s [ 809.0 IOPS] | 5.111 MB/s [1247.9 IOPS] | 5.769 MB/s [1408.4 IOPS] |
Random Write 4KB (QD=32) | 1.061 MB/s [ 259.0 IOPS] | 0.028 MB/s [ 6.7 IOPS] | 1.296 MB/s [ 316.4 IOPS] | 0.233 MB/s [ 56.9 IOPS] |
メーカ | Deolux | Deolux | Transcend:良 | Kingston |
Checking file system on J: The type of the file system is FAT. One of your disks needs to be checked for consistency. You may cancel the disk check, but it is strongly recommended that you continue. Windows will now check the disk. Volume Serial Number is 9349-A63E More than one DCIM entry in folder \. Renamed to DCIM.--0. More than one DCIM entry in folder \. Renamed to DCIM.--0. More than one DCIM entry in folder \. Renamed to DCIM.--1. More than one DCIM entry in folder \. Renamed to DCIM.--1. Windows has made corrections to the file system. 128352256 bytes total disk space. 393216 bytes in 17 folders. 57344000 bytes in 261 files. 70615040 bytes available on disk.
![]() |
![]() |
ソフト名 | 累計ダウンロード数 | 使い方など |
KaZaA | 18,200万 | http://www.getjoho.com/info/KaZaA.html http://www.itmedia.co.jp/news/ 0205/21/ne00_benjamin.html クライアントソフト http://www.kazaalite.tk/(オランダのサイト) |
Morpheus | 10,900万 | http://www.getjoho.com/info/Morpheus.html http://www.itmedia.co.jp/news/ 0203/06/e_morpheus_m.html |
iMesh | 4,300万 | http://www.hotwired.co.jp/ news/news/20010215105.html |
Audiogalaxy | 3,100万 | http://www.itmedia.co.jp/ news/0106/15/e_audio.html http://storm.prohosting.com/ you4get/audiogalaxy.htm |
BearShare | 1,800万 | http://www.jnutella.org/review/ bearshare206_review.shtml http://members.jcom.home.ne.jp/ bearshare/ |
LimeWire | 1,500万 | |
Grokster | 600万 | |
WinMX | 500万 | |
Blubster | 300万 | |
Qtraxmax | 200万 |