本の自炊（裁断→OCR→透明テキストPDF）　*2022.5.5修正 - 新興国株式投資信託とジーエヌアイグループを見守るブログ

アレキサンダー・エルダーの投資苑の改訂版が出てることを知り購入

ザ・トレーディング──心理分析・トレード戦略・リスク管理・記録管理

f:id:hasito64:20200102181736p:plain

https://www.fpo.jp/the-trading/

問題は電子書籍版が出ていないこと。

今はもうすっかり電子書籍で買うようになっていたが、久方ぶりの自炊をした。

透明テキストのPDFにするのが最終目的。

正月休みで時間もあったのでじっくりと行ったのでその記録。

①裁断

　これは裁断機でざっくりやるだけ。

……以前買ったブック40を使ったけど、調べたら今はもう廃盤みたい。安くてアフターケアがしっかりしてるというから買ったのに。

②スキャン

Scansnap1500で読取り。

基本は、300dpi、ファイルサイズ1、JPEG形式。読取りモードのオプションは全てチェックしない。アプリの選択は「起動しません（ファイルの保存のみ）」

(1) 本文をグレーで読み取る。

「保存先」の「ファイル名の設定」では

「自分で名前を付けます」で先頭文字列に「c」以外の文字を入れる。

100ページ（50枚）ずつスキャン。

次の100ページを読ませる前にスキャンの読取り面をアルコールで拭く。

そうやってスキャン時にゴミが付いて縦線が出るのをできるだけ防ぐ。

(2) 表紙などのカラーページをカラーで読み取る。

カラーで読み取ったのは識別しやすいようにファイル名の設定で「c_」を入れる。

(3) 保存したファイルをLeeyesで開く。

「イメージ」→「フィルタ」→「レベル補正」でゴミを見つけやすくして、

おかしなモノが無いか、一枚ずつ目視で確認。変なのがあれば再スキャン。

③OCR通す前の下ごしらえ

　ChainLPで調整する。これをやるかやらないかでOCRの認識精度が大きく変わる。

f:id:hasito64:20200102105408p:plain — ChainLP設定

以前自炊用に作った設定を利用。（最終的にこの設定だと上手くいかず、あとで変更する）

f:id:hasito64:20200102130410p:plain

Scansnapのスキャン設定に合わせてカラーファイル文字に「c」と入れておけば、カラーページを挿絵として認識してくれる。

ちなみに今回は表紙だけでなく本文にもカラーページがあるので、そのページのみ色深度を24bitにして再度ChainLPを通した（カラーファイル文字は「z」に変えて挿絵として認識されないようにした）。

④OCR

　e.Typistを使用。

１．画像読み込み

ChainLPで下降した画像のあるフォルダをe.typistへドラッグアンドドロップ

その時に、傾いて登録される画像がある場合は、傾いた画像をリストから削除して

「ツール」→「操作設定」→「ファイル読込」で

画像の微小傾き補正を「補正無し」に。

その後に該当する画像を改めて読込。そして画像リストを右クリックして「画像名でソート」する。

＊ChainLPで傾き補正をしているので常に「補正無し」でも良いのかと思ったが、ChainLPの方で画像が傾いているときもあるので、通常は「全体の補正」にチェックを入れる。

２．図領域の設定

表紙など文字認識する必要の無いページは全体を図としてレイアウト枠を作成（自動に任せて文字認識させると傾いたり、最終出力時に汚くなる可能性有り）。

図領域を選んだあと、該当する画像で上にあるレイアウトボタンを押せば全体を図として認識する。

終わったら認識属性を自動判定に戻すのを忘れないように！

f:id:hasito64:20200102112734p:plain

３．レイアウト枠の設定（ノンブルも認識させる場合は不要なので４へ）

そのほかのページのレイアウト枠の認識を行う。

　ちなみに今回の作業の中ででレイアウト枠をあらかじめ指定できることに気付いた。ノンブルやページ番号なんて認識しても邪魔なだけなので、これを利用する。やり方は

　(1)「文字認識」→「範囲指定モード」→「テンプレート解析」　

f:id:hasito64:20200102112623p:plain

　(2)本文の位置を広めに指定（認識時にキチンとページごとに本文の位置に縮小される）。

　(3)「文字認識」→「認識テンプレート」→「登録」。

　　　このとき「位置調整しない」にチェック（位置調整ありだと表などの横線の位置を認識してズレを調整する機能のようだが、本文の節の境目の横線に反応してズレまくる）

f:id:hasito64:20200102113124p:plain

　(4)「ツール」→「操作設定」→「レイアウト」で「テンプレート読み込み」を選択

f:id:hasito64:20200102114201p:plain

４．文字認識

(1)「ツール」→「操作設定」→「認識」で「認識解析を行う」にチェックが入ってるのを確認。

f:id:hasito64:20200102114409p:plain

(2) 文章のある画像を開き、上部の認識ボタンを押す。

　左に元原稿、右に認識結果が表示される。

　上で認識終了後に誤認識解析を行うように設定したので、認識結果で誤認識が疑われているところは赤で表示される。その周辺に誤認識がないか確認。誤認識があれば右クリックで修正（直接文字を打ち込んで修正も出来るが、その場合透明テキストPDFにすると位置が反映されない）。

　誤認識でないのに赤くなってるのは辞書に登録されていない単語なので「解析」→「単語登録検索」で辞書に登録する。

f:id:hasito64:20200102120402p:plain

f:id:hasito64:20200102121704p:plain

単語登録したらもう一度誤認識解析をして（下のアイコンかF7キー）、修正を確認する。

f:id:hasito64:20200102122400p:plain

(3) ある程度、良く出る誤認識の修正が済んだら、画像リストで「すべて選択」。

その後に上にある「認識」ボタンを押す。

f:id:hasito64:20200102113310p:plain

(4) 認識結果を確認し問題なければ、右側の文字が認識されたウィンドウをクリックしてから、「保存」ボタン。

　ファイルの種類には「高圧縮PDF画像（透明テキスト付き）（*.pdf）」を選択（PC上だとそこまでキレイに見えないが、iPad上だとクッキリして見やすい）。

⑤PDFファイルの加工

作成したPDFを開き、章ごとにしおりを付ける。

f:id:hasito64:20200102123636p:plain

1を選択しページごとの表示にしたあと、2のボタンで1ページずつ移動し、章や節の始まりのページで3のボタンを押して、しおりを付ける。

「ファイル」→「プロパティ」の読み上げオプションで閉じ方と言語を選択。

f:id:hasito64:20200102123956p:plain

保存して完成！

【今回の問題点】

①今回、最初に問題になったのはOCRの文字認識精度が低すぎた点。これは今回の本が他の本より文字が小さく、漢字の横棒部分がOCR時にかすれてしまっているのが原因だった。そのため黒を濃くするためにChainLPの設定を変えた。

f:id:hasito64:20200102124413p:plain

ようはレベル調整を変えてかすれが無くなるように白を出来るだけ残し、黒をよりハッキリさせた（文字をボールド化するのも試したが、閲覧時に文字がガタガタしていて気になった）。OCRの精度はかなり上がった。

弊害として白飛ばししていた紙面の汚れが出てくるページがあった（全体がグレーで影が出来やすいページだったから仕方ない面もあるが）。

②透明テキストPDFにすると英文字など半角出力にするとPDF上の表示と文字の位置が合わず、範囲選択すると間に空白が入る。e.TypistのQ&A見るとPDF側の問題らしい。

③箇条書きになってる部分で文字選択時に選択順が横に行かず縦に広がってしまうところが有った。レイアウト枠を細分化するしかないかな。

　以前はすべて選択した状態で自動でレイアウト枠も文字も認識させて特に修正せずPDF化するだけだったけど、今回は時間があったためじっくり取り組んでみた。レイアウトのテンプレートとか新しい発見もあったので今後のために記録に残す。結局は最初から電子書籍で出してくれるのが一番なんだけど。