アウトライナ―【10】

自炊書籍を分離したい。

わかりやすい本として「Q&A300問」という本がある。約700頁ある。自炊目次は、章立てとなって2階層となっている。

 第1章  総則
  1問 ***  …〇〇頁
  2問 ***  …〇〇頁

 第2章  各論1
  3問 ***  …〇〇頁
  4問 ***  …〇〇頁
 300問 ***  …〇〇頁

この***タイトル毎に分割し、且つこのタイトルをファイル名にしたい。

(分割後のファイル名を「しおり」にする方法がわからない)


私が推測するには、1「既存の目次からしおりを生成する」が頼りになる。2だから、この既存の目次が正確でなければならない。そこで、既存の目次をOCRしたものをワードに落として丁寧にチェックして差し替えるほうがいい。3その際頁番号は無関係。

うまくいかない。

★その他
スキャンしてOCR化しているので、テキスト化は完全ではない。

バラバラにして検索が目的であるから、はしがき・索引・あとがきは削除している。
また、N章の末紙の白紙には頁数が書かれているが邪魔だから削除している。

頁番号は、ほとんど100%フッター中央にある。

目次に頁番号が振られ、本文にもその連続した頁番号が振られている書籍がある。
 例 目次1・2・2、本文4・5・5…
いっぽう、本文に独立した頁番号振られることもあり、これが多い。

自炊目次を置き換え・はしがき等を削除すると、1ワード目次と、2自炊本文の2つになる。
1ワード目次には頁番号を無視しているし、自炊本文は連続していない場合がある。