2017年12月23日土曜日

自炊したPDFファイルをEvernoteでDB管理②<ファイル分割とEvernoteの活用>


前回の記事『自炊したPDFファイルをEvernoteでDB管理<①自炊手順とファイル名>』では、次のことが実現できることをご紹介しました。

①自炊したPDFファイルにISBNコードをつけてExcelツールで変換することで、タイトルや著者名などファイル名が情報盛りだくさんのものに変更できる

②Excelツール変換したファイルの履歴が残るので蔵書の情報が一覧化できる

③Mediamakerのサービスを用いて、Evernoteに各本の表紙のイメージを連携できる


今回は後編となり、Evernoteに自炊したPDFファイルを取り込んで、ナレッジデータベースで活用していく手順をご紹介します。


記事タイトル
メニュー
概要
①自炊手順とファイル名本の裁断カッター、ゴムマット、裁断機で本を分割
スキャンEPSON DS530で取込
※表紙は取り込まない
データ保存OCRはせずに、PDFファイルで保存。ファイル名はISBNコード
ファイル名を自動変換ISBNコードをもとに、Excelツールでファイル名を自動変換
MediaMarkerに登録表紙イメージをEvernoteへ自動連係
②ファイル分割とEvernoteの活用
EvernoteのOCRのルール1ファイルが100ページ未満、25MB未満である必要があるため、自作した自動分割ツールの紹介
ファイル内検索の現状英語ではできるが日本語にはバグあり

EvernoteでのOCR機能について

プレミアム会員になっていてもOCRされない場合がある

Evernote プレミアム会員の場合、ノートの上限サイズは、1ファイルあたり200MBとなっていますが、そのままEvernoteに取り込んでもOCR対象になりません。

なぜなら、1ファイルが100ページ未満、25MB未満である必要があるためです。

ブログやニュースサイトで、「プレミアム会員なればOCRの機能を使ってPDF・Office 文書・各種ファイル内の文字検索をすることができるよ。」と紹介している記事があっても、この注意事項が書かれていないパターンが多いです。

私も1か月の容量分(10GB)をEvernoteに取り込んだ後、ファイル内の文字で検索しても、引っかからないのでおかしいと調べていたら、気づきました。Evernoteの公式ページには次のように書かれています。

スキャンした PDF のうち、どういった種類の PDF が検索可能になりますか?
  • 印字がはっきりしているスキャンした PDF(PDF 内の手書き文字は検索されません)
  • 選択またはコピーが可能なテキストを含んでいない PDF
  • 少なくとも 1 ページに小さなサイズの画像(1025 ピクセルまでの画像データ)1 つが含まれている PDF ファイル
  • ページ数が100 ページ未満の PDF ファイル
  • ファイルサイズが 25MB 未満の PDF ファイル
  • パスワードで保護されていない PDF ファイル
  • 文字化けしていたり、判読不能だったりしない PDF ファイル


OCRの日本語検索するには事前設定が必要

また日本語のOCR検索が機能しない場合は、Web版のEvernoteにログインして、設定を確認してください。

「文字認識に使用する言語」が英語のみになっている可能性があります。

私の場合は英語のみになっていました。日本でサービスを提供するなら、デフォルトで「日本語+English」に設定しておいてほしいものです。


■手順はこちらのソースネクスト社のページに書かれています。

http://www.sourcenext.com/support/qa/?faq=IOS-06871&amp;c=a7b59eb0-6bd9-4f8c-b3fb-05edb27f58ae

image

PDFファイルを分割する

Powershellを用いてPDFファイルを分割するツールを自作しました。

こちらのページで公開しています。

https://it-setsuyaku.blogspot.jp/p/1.html


【事前準備①】pdftkのインストール


PDFファイルを99ページか24MB単位で分割する仕様であり、ソフトとしては、pdftkという無料ツールも利用しますので、先にインストールしてください。pdftkマンドラインで実行できるので便利です。

Windowsバッチ・コマンドで,大量のPDFを一括で結合・分割し,各ページ数を調べて一定サイズにまとめよう (pdftkをコマンドプロンプトやWSHから使う方法)

【事前準備②】フォルダの作成

任意のフォルダ配下に次の5つのフォルダ(00~40)を作成します。
また上記自作ツールのバッチファイルとPowershellのファイルを同様に格納します。

|-- 00_List
|-- 10_moto_pdf
|-- 20_new_pdf
|-- 30_hennkannzumi_pdf
|-- 40_Log_folder
|-- BDフォルダサイズチェックと仕訳.bat
|-- BDフォルダサイズチェックと仕訳.ps1


自作ツールによるPDFファイルの分割処理の実行


ツールの概要

・EvernoteでOCR処理をさせるには、1つのPDFファイルが100ページ未満、25MB未満である必要があるため、本ツールを使って分割する。
・「10_moto_pdf」フォルダ配下に分割対象のPDFファイルを格納する。サブフォルダがあってもOK
・「PDFの分割.bat」を実行すると、1つのファイルが99ページ以内、24MB以内になるように分割

 <分割処理の流れ>
   (1)すべてのPDFファイルの「タイトル」、「フルパス」、「サイズ」、「ページ数」、「ページ数を99で割った数」を調べてリスト化
   (2)リストファイルをもとに順番に処理を実施
  ①99ページ毎に分割
   1つ目(0ページから99ページ)      「元ファイル名 + 【OCR_0】.pdf」 22MB
   2つ目(100ページから198ページ)   「元ファイル名 + 【OCR_1】.pdf」 18MB
   3つ目(199ページから297ページ)   「元ファイル名 + 【OCR_2】.pdf」 25MB → サイズが大きいため、分割処理実施
  ②ファイルサイズが24MBより大きい場合は、さらに分割
   3つ目の1(199ページから249ページ) 「元ファイル名 + 【OCR_2-1】.pdf」 12.5MB
   3つ目の2(250ページから297ページ) 「元ファイル名 + 【OCR_2-2】.pdf」 12.5MB

■フォルダについて

00_List → バッチ起動のタイミングで、対象一覧のリスト(list.txt)を新規作成。完成時に、list_yyyymmdd_hhmmss.txtとして自動でバックアップされる
10_moto_pdf → 変換対象のPDFファイルを格納するフォルダ。サブフォルダも対象となる
20_new_pdf → 分割したファイルが保存される。ファイル名は、サブフォルダも同じ構成で作成される。
30_hennkannzumi_pdf → 変換処理が終わった元PDFファイルをこのフォルダ配下に移動
40_Log_folder → 処理のログが格納される

注意点

改変は自由にして頂いて構いませんが、ご利用は自己責任でお願いします。


Evernoteへのインポート


分割したらEvernoteにインポート

Windowsインポートフォルダの機能を用いて、Evernoteにインポートします。

私は、「10_moto_pdf」にファイルを格納する際に、次の9つのサブフォルダに分類してから、変換処理を行っています。変換後は、Evernoteに、この9つのサブフォルダと紐づくノートブックを作って、 インポートフォルダの機能で9つのルールもつくり、Evernoteに一括インポートするようにしています。

<分類の例>
1_漫画 →  コミック・アニメ
2_小説・評論・人文 → 文学・評論、人文・思想
3_エンタメ・雑誌 →  エンターテインメント、芸能、ゲーム、雑誌、音楽
4_教養・歴史・資格 → 語学・辞事典・年間、教育・学参・受験、歴史・地理、資格・検定
5_ビジネス・政治 → ビジネス・経済・キャリア、投資・金融・経営、社会・政治
6_趣味・スポーツ・IT → 実用・スポーツ・ホビー、科学・テクノロジー、コンピュータ・インターネット、旅行
7_グルメ・医療・こども → 医学・薬学、アート・建築・デザイン、暮らし・健康・子育て
8_ハウツー・ノウハウ
9_その他 → ISBNコードがないもの


EvernoteでOCRが付加されたかの確認

EvernoteにPDFファイルをアップロードすると、OCR化の処理が自動で行われます。(遅くとも翌日には完了)

ページ上に表示されているPDFファイルを右クリックして、「検索可能はPDFファイルを保存」という文字が表示されれば、OCRが付加されたかどうかが確認できます。

image

「検索可能なPDFを保存」を保存すると、次のようなイメージになっています。画像の上に文字が置かれている感じです。

image


元のPDFファイルとは別になるので、OCRの文字を用いた検索ができるのは、Evernote上でのみとなります。

なお、Evernoteの問合せ先に、「検索可能はPDFファイルを保存」と表示されるノートだけを、検索する構文があるかを確認しましたが、残念ながらいまのところないそうです。


OCRの検索精度

検索精度はまあまあといった感じで、過度な期待はしないほうがいいです。

私は、できないよりかはいいかなといったぐらいにとらえています。


ページ内検索

ページを開いて、「Ctrl+F」を押し、PDF内に含まれる文字を検索すると、ページ内検索ができて、該当する箇所が黄色でハイライトされるはずですが、いまは正しく動作しません。Evernoteの問合せ先に確認したところ、開発チームで対応中とのことでした。

いずれ使えるようになると思います。


まとめ

ここまでの手順ににより、ナレッジデータベースの完成となります。

自炊した本を電子化した状態で死蔵させてしまうのはもったいないと思うので、Evernoteに取り込んで活用してみてください。


以上、参考になれば幸いです。



2017年12月5日火曜日

自炊したPDFファイルをEvernoteでDB管理<①自炊手順とファイル名>



本をスキャンしてデジタルデータで保管する、いわゆる自炊をしています。

定年退職した親に協力してもらって、実家にある本を1年間で約2000冊ぐらい対応しました。

効率化のために文字情報(OCR)を含まないPDFファイルに変換していますが、それらをEvernoteに取り込むことで、文字検索を可能にして、データベースのように一括管理しています。本に含まれる文字で検索すれば、候補が検索結果となって表示されるので大変便利です。

本をばらしたり、スキャンするのも大変なのですが、PDFファイルにいちいち名前をつけたり、EvernoteでOCR機能を使うには1ファイルあたりのページとサイズに上限があって分割しなければならなかったりと、最初はかなり手間がかかりましたが、いまでは効率的にやる方法を見い出して、スムーズに対応できています。

その他いろいろとノウハウがたまったので、次のように2回に分けて紹介したいと思います。

記事タイトル

メニュー

概要
①自炊手順とファイル名本の裁断

カッター、ゴムマット、裁断機で本を分割

スキャンEPSON DS530で取込
※表紙は取り込まない

データ保存OCRはせずに、PDFファイルで保存。ファイル名はISBNコード
ファイル名を自動変換ISBNコードをもとに、Excelツールでファイル名を自動変換
MediaMarkerに登録表紙イメージをEvernoteへ自動連係

②ファイル分割とEvernoteの活用

OCRのルール 1ファイルが100ページ未満、25MB未満である必要があるため、自作した自動分割ツールの紹介
ファイル内検索の現状 英語ではできるが日本語にはバグあり


まず著作権の問題について

著作権法第30条1項に「個人的に又は家庭内その他これに準ずる限られた範囲内で使用することを目的とするときは、基本的にその使用する者が複製することができる」とあり、お金を払って代行業者にスキャンしてもらうことは、最高裁で違法の判決が確定しています。

「自炊」代行は著作権侵害 最高裁で確定  2016年3月

一方で第三者ではなく、家族がスキャン作業を行ったり、家族のみアクセスできる環境でデータを共有することは、問題ないようです。
(次のサイトを参考にさせて頂きました。ありがとうございました。)

・6-2-1.私的複製/Webで著作権法講義 http://copyright.watson.jp/private_use.shtml

「使用者」とは、私的複製によって作成された複製物を利用する本人のことです。

ただし、本人と同一視できる者による複製は認められます。たとえば、親の言い付けに従って子どもが複製する場合や、社長の命令に従って秘書が複製する場合、身体障害者が家族に頼んで複製する場合などです。

・自炊代行Q&A http://life-jp-01.com/1densi.html
スキャンしたデータを家族や数人のグループ内で共有することも適法です。そのためのスキャンも私的複製に含まれます。

スキャンしたデータを家族のみアクセスできる自宅内のサーバーにアップロードし、家族内で共有可能にする行為も適法と見なされます。


1.本の裁断

裁断機、カッター、マットを用意して本を裁断


・裁断機は、「カール事務器 裁断機 ペーパーカッター A3対応 40枚裁断 DC-230N」が値段が手ごろでお勧めです。
 背表紙の糊がついているところを切り落として、ページがばらばらになるようにします。

※普通の本のサイズだと厚すぎて、裁断機の隙間に入らないため、あらかじめロータリーカッター等を使って、本を2~3つに分けておく必要があります。


   

表紙はスキャンしないため、裁断せずに廃棄

・カラー表紙を切ったり、スキャンしようとすると効率が落ちるため、表紙はスキャン対象外とします。

・メディアマーカーというサービスで、本の情報を登録すると、自動的にEvernoteに表紙のイメージが連携されるので、私はそれで代用しています。後程、詳細を記載します。


【メディアマーカー】を用いてEvernoteに表紙のイメージを連携させた例

image

2.スキャン

スキャナはEPSON のDS-530を購入

・ドキュメントスキャナは、最初はscansnap S1500を使っていましたが、ページの給紙がうまくできずにスキャンが止まってしまうことが多かったので、EPSONのDS-530を購入しました。

・FUJITSU ScanSnap iX500 でもよかったのですが、価格も安くて、性能もよかったので、EPSONのDS-530に決めました。

(比較の際には次のサイトを参考にさせて頂きました。)

比較2017' 自炊向きの最新スキャナー9製品の性能とおすすめ:各社のドキュメントスキャナーの選び方(document Scanner-1)

DS-530に紙をセットしてスキャン開始

・スキャンソフトの『Document Caputure Pro』では、両面・文字くっきり・傾き補正・白紙ページ除去・カラー自動認識・サイズ自動認識などの設定にしていました。

・scansnap S1500 よりも高速にジャムすることなく、読み取ってくれます。

image


DS-530の詳細

・EPSONのホームページをご参照ください

https://www.epson.jp/products/scanner/ds530/

image



3.データ保存

データはPDF形式でISBNコード名をつけて保存

この記事で一番伝えたいのは、スキャンデータを保存した際に、10桁や13桁のISBNコードでファイル名を付けて保存することです。

例えば、『スラムダンク  31巻』であれば、『9784088718392.pdf』というファイル名で保存します。ハイフンは不要です。

これでかなりファイル名を入力する手間が省かれます。

ISBNコードは、カラー表紙の裏側や最終ページに書いてあるのですぐに見つけられます。

ISBNコードでファイル名を設定したPDFファイルがたまってきたら、後述の手順でファイル名を変換します。


PDFファイルに文字認識(OCR)は無し

・ドキュメントスキャナの付属ソフトによっては、PDFファイルに文字認識(OCR)を付加することができますが、一回の処理にかなり時間がかかって効率が落ちてしまうため、OCRの付加はお勧めしません。

・この代用策として、Evernoteに取り込むことで自動的にOCRを付加させます。これは次の記事でご説明します。

4.ファイル名を自動変換

『BookTitler』というExcelマクロツールを用いてタイトルの自動変換

・こちらのブログで公開されている『BookTitler』というツールがすごく便利です。

http://booktitler.web.fc2.com

・このツールでISBNコードで命名したファイルを読み込むと、自動的に本を扱うサイトで検索をして、PDFファイル名を『タイトル_著者名_ISBNコード_出版社_発売年月.pdf』といった形に変換してくれます。ファイル名で用いる情報の組み合わせは自由に変えられます。

・変換した内容は次のように、Excelに記録されるので、蔵書管理も一緒にできます。

image

・ツール内の検索サイトを『NDL-OPAC - 国立国会図書館』や『オンライン書店Honya Club.com』にしておくと、かなり高速でファイル名を変換できます。

マウスクリックとEnterキーの操作も自動化する

・ツールの扱いになれてくると、PDFファイルを1つずつ選択して、Enterキーを押す作業がちょっと面倒くさいと感じてきます。

・私は大量のPDFファイルのファイル名を変換する場合は、『HiMacroEx』というツールを用いて、マウスクリックとEnterキーの操作を自動化させています。検索に失敗すると、自動操作が空振りし続けますが、うまくいくと100冊ぐらい自動的に変換してくれます。

http://fefnir.com/soft/himacroex00.htm


5.メディアマーカー(MediaMarker)に登録

メディアマーカーの事前設定

メディアマーカーというサービスでは、アカウント作成後にMyバインダーにISBNコードなどの情報を登録すると、自動的に表紙イメージやタイトル、ISBNコードなどの情報をEvernoteに連携してくれます。

・Evernoteの登録用メールアドレスを使用するため、プラス会員やプレミアム会員の必要があり、1日200件の上限があります。

・指定のノートブック、タグ、表紙イメージの大きさを設定できます。

・メディアマーカーにおけるEvernoteの設定例は次の通りです。
image

ISBNコードの一括登録


・メディアマーカーには一括登録の機能があり、Excelに記録されているISBNコードをまとめてコピーして、一括登録画面に貼り付けて登録を行うと、いっきに表紙イメージをEvernoteに連携させることができます。

・200件以上の本を登録する場合は、1日200件まででひと区切りとして、翌日に作業すればOKです。

image

  まとめ

ここまでの作業で次の3点が実現できます

①自炊したPDFファイルにISBNコードをつけてExcelツールで変換することで、タイトルや著者名などファイル名が情報盛りだくさんのものに変更できる

②Excelツール変換したファイルの履歴が残るので蔵書の情報が一覧化できる

③Mediamakerのサービスを用いて、Evernoteに各本の表紙のイメージを連携できる


<次回記事>EvernoteにPDFファイルを取り込む

・次はいよいよPDFファイルをEvernoteに取り込むことになりますが、プレミアム会員だから1ファイル200MBまで大丈夫と思って、PDFファイルをEvernoteに取り込んでもOCRの処理がされず、検索しても本の中身の情報で検索ができません。

・それは1つのPDFファイルあたり、100ページ未満で25MB未満の制限があり、それを超えるとOCRの対象にならないためです。

・PDFファイルを100ページ未満かつ25MB未満に自動的に分割するツールを自作しましたので、それを次の記事でご紹介します。

・この状態でEvernoteにPDFファイルをインポートすれば、自分だけのナレッジデータベースが完成します。


■次の記事

自炊したPDFファイルをEvernoteでDB管理②<ファイル分割とEvernoteの活用>



以上、参考になれば幸いです。