2017年12月23日土曜日

自炊したPDFファイルをEvernoteでDB管理②<ファイル分割とEvernoteの活用>


前回の記事『自炊したPDFファイルをEvernoteでDB管理<①自炊手順とファイル名>』では、次のことが実現できることをご紹介しました。

①自炊したPDFファイルにISBNコードをつけてExcelツールで変換することで、タイトルや著者名などファイル名が情報盛りだくさんのものに変更できる

②Excelツール変換したファイルの履歴が残るので蔵書の情報が一覧化できる

③Mediamakerのサービスを用いて、Evernoteに各本の表紙のイメージを連携できる


今回は後編となり、Evernoteに自炊したPDFファイルを取り込んで、ナレッジデータベースで活用していく手順をご紹介します。


記事タイトル
メニュー
概要
①自炊手順とファイル名本の裁断カッター、ゴムマット、裁断機で本を分割
スキャンEPSON DS530で取込
※表紙は取り込まない
データ保存OCRはせずに、PDFファイルで保存。ファイル名はISBNコード
ファイル名を自動変換ISBNコードをもとに、Excelツールでファイル名を自動変換
MediaMarkerに登録表紙イメージをEvernoteへ自動連係
②ファイル分割とEvernoteの活用
EvernoteのOCRのルール1ファイルが100ページ未満、25MB未満である必要があるため、自作した自動分割ツールの紹介
ファイル内検索の現状英語ではできるが日本語にはバグあり

EvernoteでのOCR機能について

プレミアム会員になっていてもOCRされない場合がある

Evernote プレミアム会員の場合、ノートの上限サイズは、1ファイルあたり200MBとなっていますが、そのままEvernoteに取り込んでもOCR対象になりません。

なぜなら、1ファイルが100ページ未満、25MB未満である必要があるためです。

ブログやニュースサイトで、「プレミアム会員なればOCRの機能を使ってPDF・Office 文書・各種ファイル内の文字検索をすることができるよ。」と紹介している記事があっても、この注意事項が書かれていないパターンが多いです。

私も1か月の容量分(10GB)をEvernoteに取り込んだ後、ファイル内の文字で検索しても、引っかからないのでおかしいと調べていたら、気づきました。Evernoteの公式ページには次のように書かれています。

スキャンした PDF のうち、どういった種類の PDF が検索可能になりますか?
  • 印字がはっきりしているスキャンした PDF(PDF 内の手書き文字は検索されません)
  • 選択またはコピーが可能なテキストを含んでいない PDF
  • 少なくとも 1 ページに小さなサイズの画像(1025 ピクセルまでの画像データ)1 つが含まれている PDF ファイル
  • ページ数が100 ページ未満の PDF ファイル
  • ファイルサイズが 25MB 未満の PDF ファイル
  • パスワードで保護されていない PDF ファイル
  • 文字化けしていたり、判読不能だったりしない PDF ファイル


OCRの日本語検索するには事前設定が必要

また日本語のOCR検索が機能しない場合は、Web版のEvernoteにログインして、設定を確認してください。

「文字認識に使用する言語」が英語のみになっている可能性があります。

私の場合は英語のみになっていました。日本でサービスを提供するなら、デフォルトで「日本語+English」に設定しておいてほしいものです。


■手順はこちらのソースネクスト社のページに書かれています。

http://www.sourcenext.com/support/qa/?faq=IOS-06871&amp;c=a7b59eb0-6bd9-4f8c-b3fb-05edb27f58ae

image

PDFファイルを分割する

Powershellを用いてPDFファイルを分割するツールを自作しました。

こちらのページで公開しています。

https://it-setsuyaku.blogspot.jp/p/1.html


【事前準備①】pdftkのインストール


PDFファイルを99ページか24MB単位で分割する仕様であり、ソフトとしては、pdftkという無料ツールも利用しますので、先にインストールしてください。pdftkマンドラインで実行できるので便利です。

Windowsバッチ・コマンドで,大量のPDFを一括で結合・分割し,各ページ数を調べて一定サイズにまとめよう (pdftkをコマンドプロンプトやWSHから使う方法)

【事前準備②】フォルダの作成

任意のフォルダ配下に次の5つのフォルダ(00~40)を作成します。
また上記自作ツールのバッチファイルとPowershellのファイルを同様に格納します。

|-- 00_List
|-- 10_moto_pdf
|-- 20_new_pdf
|-- 30_hennkannzumi_pdf
|-- 40_Log_folder
|-- BDフォルダサイズチェックと仕訳.bat
|-- BDフォルダサイズチェックと仕訳.ps1


自作ツールによるPDFファイルの分割処理の実行


ツールの概要

・EvernoteでOCR処理をさせるには、1つのPDFファイルが100ページ未満、25MB未満である必要があるため、本ツールを使って分割する。
・「10_moto_pdf」フォルダ配下に分割対象のPDFファイルを格納する。サブフォルダがあってもOK
・「PDFの分割.bat」を実行すると、1つのファイルが99ページ以内、24MB以内になるように分割

 <分割処理の流れ>
   (1)すべてのPDFファイルの「タイトル」、「フルパス」、「サイズ」、「ページ数」、「ページ数を99で割った数」を調べてリスト化
   (2)リストファイルをもとに順番に処理を実施
  ①99ページ毎に分割
   1つ目(0ページから99ページ)      「元ファイル名 + 【OCR_0】.pdf」 22MB
   2つ目(100ページから198ページ)   「元ファイル名 + 【OCR_1】.pdf」 18MB
   3つ目(199ページから297ページ)   「元ファイル名 + 【OCR_2】.pdf」 25MB → サイズが大きいため、分割処理実施
  ②ファイルサイズが24MBより大きい場合は、さらに分割
   3つ目の1(199ページから249ページ) 「元ファイル名 + 【OCR_2-1】.pdf」 12.5MB
   3つ目の2(250ページから297ページ) 「元ファイル名 + 【OCR_2-2】.pdf」 12.5MB

■フォルダについて

00_List → バッチ起動のタイミングで、対象一覧のリスト(list.txt)を新規作成。完成時に、list_yyyymmdd_hhmmss.txtとして自動でバックアップされる
10_moto_pdf → 変換対象のPDFファイルを格納するフォルダ。サブフォルダも対象となる
20_new_pdf → 分割したファイルが保存される。ファイル名は、サブフォルダも同じ構成で作成される。
30_hennkannzumi_pdf → 変換処理が終わった元PDFファイルをこのフォルダ配下に移動
40_Log_folder → 処理のログが格納される

注意点

改変は自由にして頂いて構いませんが、ご利用は自己責任でお願いします。


Evernoteへのインポート


分割したらEvernoteにインポート

Windowsインポートフォルダの機能を用いて、Evernoteにインポートします。

私は、「10_moto_pdf」にファイルを格納する際に、次の9つのサブフォルダに分類してから、変換処理を行っています。変換後は、Evernoteに、この9つのサブフォルダと紐づくノートブックを作って、 インポートフォルダの機能で9つのルールもつくり、Evernoteに一括インポートするようにしています。

<分類の例>
1_漫画 →  コミック・アニメ
2_小説・評論・人文 → 文学・評論、人文・思想
3_エンタメ・雑誌 →  エンターテインメント、芸能、ゲーム、雑誌、音楽
4_教養・歴史・資格 → 語学・辞事典・年間、教育・学参・受験、歴史・地理、資格・検定
5_ビジネス・政治 → ビジネス・経済・キャリア、投資・金融・経営、社会・政治
6_趣味・スポーツ・IT → 実用・スポーツ・ホビー、科学・テクノロジー、コンピュータ・インターネット、旅行
7_グルメ・医療・こども → 医学・薬学、アート・建築・デザイン、暮らし・健康・子育て
8_ハウツー・ノウハウ
9_その他 → ISBNコードがないもの


EvernoteでOCRが付加されたかの確認

EvernoteにPDFファイルをアップロードすると、OCR化の処理が自動で行われます。(遅くとも翌日には完了)

ページ上に表示されているPDFファイルを右クリックして、「検索可能はPDFファイルを保存」という文字が表示されれば、OCRが付加されたかどうかが確認できます。

image

「検索可能なPDFを保存」を保存すると、次のようなイメージになっています。画像の上に文字が置かれている感じです。

image


元のPDFファイルとは別になるので、OCRの文字を用いた検索ができるのは、Evernote上でのみとなります。

なお、Evernoteの問合せ先に、「検索可能はPDFファイルを保存」と表示されるノートだけを、検索する構文があるかを確認しましたが、残念ながらいまのところないそうです。


OCRの検索精度

検索精度はまあまあといった感じで、過度な期待はしないほうがいいです。

私は、できないよりかはいいかなといったぐらいにとらえています。


ページ内検索

ページを開いて、「Ctrl+F」を押し、PDF内に含まれる文字を検索すると、ページ内検索ができて、該当する箇所が黄色でハイライトされるはずですが、いまは正しく動作しません。Evernoteの問合せ先に確認したところ、開発チームで対応中とのことでした。

いずれ使えるようになると思います。


まとめ

ここまでの手順ににより、ナレッジデータベースの完成となります。

自炊した本を電子化した状態で死蔵させてしまうのはもったいないと思うので、Evernoteに取り込んで活用してみてください。


以上、参考になれば幸いです。