文字情報を抽出

 これは、PDF文書の文字データを、テキスト・ファイルとして出力する、簡単なツールです。

Split pages tool screenshot

 ページ範囲 の欄で、テキスト抽出するページを指定します。すべてから抽出する場合は、この欄は空白でかまいません。

 改ページ文字 は、出力テキストファイルの改ページのしるしに使われる文字列です。
 ページ番号を表示したい場合には、コントロール文字[p]を入れてください。総ページ数を挿入したい場合には、コントロール文字[P]を使います。

 出力フォルダ の枠で、作成されたテキスト・ファイルを出力するフォルダーを指定します。

 エンコード・オプションは、テキスト・ファイルをコード化するために使う「文字コード」を指定します。ANSI、UTF8、および UNICODE から選択してください。

コマンド・ライン・インタフェース:

関数名: TextExtract
オプション: [] は、任意のパラメータを意味します。
[PageRange=] - テキストを抽出する、文書のページ範囲を定めます。指定しないと、すべてのページから抽出します。上の画面で、指定方法を参照下さい。
[PageBreak=] - ページの区切りを示す文字列を、定めます。[p]を挿入するとページ番号を、[P]を挿入すると、総頁数を書き出します。
[Encoding=] - 出力するテキストの、符号化方法を指定します。
  0 - ANSI
  1 - UTF8
  2 - Unicode
[OutputPath=] - テキスト・ファイルを作成する先の、フルパス。指定しないと、元のPDFファイルのパスが、使われます。
[-s] - サイレント・モード。メッセージを表示せずに実行します。(ライセンス・ユーザのみ使えます)
FilesList - 文字データを抽出する PDF のリスト。セミコロン ";" を使って、ファイル名を並べて下さい。パラメータの最後に書きます。
 
例:
Rundll32 "c:\Program Files\PDF-ShellTools\PDFShellTools.dll",TextExtract "pagerange=1,3-5" encoding=0 "pagebreak=-- [p]/[P]--" "c:\somefolder\file1.pdf;c:\somefolder\file2.pdf"
Copyright © 2006-2014 RTT, Makoto WATANABE. All rights reserved.