html から ePub を作成
平野啓一郎 さんに、新聞連載小説「本心」という作品があります。
近未来を舞台にして、「バーチャル・フィギュア」や「リアル・アバターという職業」が登場する、興味深い心理小説です。
この小説は、バックナンバーを含めて、4日遅れで、「東京新聞」のニュースサイトで読むことができます。
ここで、この小説を、個人使用の範囲で、オフラインで読めるように ePub に変換する方法を紹介します。
このサイトで紹介しているツールの使い方の、具体的な事例になっています。
注:6月に「東京新聞」の形式が変更になったので、これに合わせて変更しました。
Excel VBA 目次
索引
ePub 作成手順
1.Website Explorer を使って、記事一覧からページ内容を一括ダウンロードする。
スタートアドレス:
https://www.tokyo-np.co.jp/f/series/honshin
サイトに含めるアドレスのキーワード:
=honshin
フィルタ
フォルダ階層を 3 (4 以上にしても画像は直接取得できない (^^ゞ)
ダウンロードする対象
本文:article フォルダに
www.tokyo-np.co.jp/article/
2.article フォルダで「honshin_imageURLvba02.xls」を使って jpg のURLを取得
3.「ルビUTF8」フォルダを作成し、その下に「image」フォルダを作成する。
4.「Free Download Manager」に、 2 で取得した jpg のURLをクリップボード貼付けして、 jpg ファイルを取得して「image」フォルダに登録する。
例:
https://static.tokyo-np.co.jp/image/article/size1/1/f/2/1/1f2183416cbc2b0871947a07ee03c97e_1.jpg
5.「作業」フォルダを作成し、article フォルダの html をコピーする。
6.「作業」フォルダで、「DelScriptHeaderFooterUTF8vba01.xls」を使って、
HTML から、本文以外(ヘッダーとフッターなど)を削除する。
7.html のファイル名を昇順にならべられるように、ChangeFileNameByTitleVBA**.xls を使って、html の Titleタグから番号を取得して、ファイル名の頭に付加する。
8.RubyTagFromParenthesesUTF8vba**.xls を使って、ルビUTF8 フォルダの HTML を、ルビ・タグに変換する。 *_Ruby.html が作成される。
たとえば、言い果(おお)せる を、果 に変換
9.「ルビUTF8」フォルダに、作成した *_Ruby.html を移動する。
10.Sigil を使って、ルビUTF8 フォルダのファイルを ePub にする。
UTF8 html から jpg のパスを取得
UTF8 html から、本文以外(ヘッダーとフッターなど)を削除
HTMLの Titleタグの内容をファイル名に付加する(UTF8)
ファイル名置換対象の html ファイルと同じフォルダに登録します。
文中の()を、HTMLのルビ・タグに変更する(UTF8)
「青空文庫」のルビを、HTMLのルビ・タグに変更する(UTF8版) を微修正したものです。
置換対象の html ファイルと同じフォルダに登録します。
文中の()を、HTMLのルビ・タグに変更する(Shift JIS)
「青空文庫」のルビを、HTMLのルビ・タグに変更する を微修正したものです。
置換対象の html ファイルと同じフォルダに登録します。