文字情報を抽出 PDF-ShellTools マニュアル

　これは、PDF文書の文字データを、テキスト・ファイルとして出力する、簡単なツールです。

Split pages tool screenshot

　ページ範囲 の欄で、テキスト抽出するページを指定します。すべてから抽出する場合は、この欄は空白でかまいません。

　改ページ文字 は、出力テキストファイルの改ページのしるしに使われる文字列です。
　ページ番号を表示したい場合には、コントロール文字[p]を入れてください。総ページ数を挿入したい場合には、コントロール文字[P]を使います。

　出力フォルダ の枠で、作成されたテキスト・ファイルを出力するフォルダーを指定します。

　エンコード・オプションは、テキスト・ファイルをコード化するために使う「文字コード」を指定します。ANSI、UTF8、および UNICODE から選択してください。

コマンド・ライン・インタフェース:

関数名:	TextExtract
オプション:	[] は、任意のパラメータを意味します。
[PageRange=]	- テキストを抽出する、文書のページ範囲を定めます。指定しないと、すべてのページから抽出します。上の画面で、指定方法を参照下さい。
[PageBreak=]	- ページの区切りを示す文字列を、定めます。［p］を挿入するとページ番号を、［P］を挿入すると、総頁数を書き出します。
[Encoding=]	- 出力するテキストの、符号化方法を指定します。 0 - ANSI 1 - UTF8 2 - Unicode
[OutputPath=]	- テキスト・ファイルを作成する先の、フルパス。指定しないと、元のPDFファイルのパスが、使われます。
[-s]	- サイレント・モード。メッセージを表示せずに実行します。(ライセンス・ユーザのみ使えます)
FilesList	- 文字データを抽出する PDF のリスト。セミコロン ";" を使って、ファイル名を並べて下さい。パラメータの最後に書きます。

例: Rundll32 "c:\Program Files\PDF-ShellTools\PDFShellTools.dll",TextExtract "pagerange=1,3-5" encoding=0 "pagebreak=-- [p]/[P]--" "c:\somefolder\file1.pdf;c:\somefolder\file2.pdf"