2017年12月5日火曜日

自炊したPDFファイルをEvernoteでDB管理<①自炊手順とファイル名>



本をスキャンしてデジタルデータで保管する、いわゆる自炊をしています。

定年退職した親に協力してもらって、実家にある本を1年間で約2000冊ぐらい対応しました。

効率化のために文字情報(OCR)を含まないPDFファイルに変換していますが、それらをEvernoteに取り込むことで、文字検索を可能にして、データベースのように一括管理しています。本に含まれる文字で検索すれば、候補が検索結果となって表示されるので大変便利です。

本をばらしたり、スキャンするのも大変なのですが、PDFファイルにいちいち名前をつけたり、EvernoteでOCR機能を使うには1ファイルあたりのページとサイズに上限があって分割しなければならなかったりと、最初はかなり手間がかかりましたが、いまでは効率的にやる方法を見い出して、スムーズに対応できています。

その他いろいろとノウハウがたまったので、次のように2回に分けて紹介したいと思います。

記事タイトル

メニュー

概要
①自炊手順とファイル名本の裁断

カッター、ゴムマット、裁断機で本を分割

スキャンEPSON DS530で取込
※表紙は取り込まない

データ保存OCRはせずに、PDFファイルで保存。ファイル名はISBNコード
ファイル名を自動変換ISBNコードをもとに、Excelツールでファイル名を自動変換
MediaMarkerに登録表紙イメージをEvernoteへ自動連係

②ファイル分割とEvernoteの活用

OCRのルール 1ファイルが100ページ未満、25MB未満である必要があるため、自作した自動分割ツールの紹介
ファイル内検索の現状 英語ではできるが日本語にはバグあり


まず著作権の問題について

著作権法第30条1項に「個人的に又は家庭内その他これに準ずる限られた範囲内で使用することを目的とするときは、基本的にその使用する者が複製することができる」とあり、お金を払って代行業者にスキャンしてもらうことは、最高裁で違法の判決が確定しています。

「自炊」代行は著作権侵害 最高裁で確定  2016年3月

一方で第三者ではなく、家族がスキャン作業を行ったり、家族のみアクセスできる環境でデータを共有することは、問題ないようです。
(次のサイトを参考にさせて頂きました。ありがとうございました。)

・6-2-1.私的複製/Webで著作権法講義 http://copyright.watson.jp/private_use.shtml

「使用者」とは、私的複製によって作成された複製物を利用する本人のことです。

ただし、本人と同一視できる者による複製は認められます。たとえば、親の言い付けに従って子どもが複製する場合や、社長の命令に従って秘書が複製する場合、身体障害者が家族に頼んで複製する場合などです。

・自炊代行Q&A http://life-jp-01.com/1densi.html
スキャンしたデータを家族や数人のグループ内で共有することも適法です。そのためのスキャンも私的複製に含まれます。

スキャンしたデータを家族のみアクセスできる自宅内のサーバーにアップロードし、家族内で共有可能にする行為も適法と見なされます。


1.本の裁断

裁断機、カッター、マットを用意して本を裁断


・裁断機は、「カール事務器 裁断機 ペーパーカッター A3対応 40枚裁断 DC-230N」が値段が手ごろでお勧めです。
 背表紙の糊がついているところを切り落として、ページがばらばらになるようにします。

※普通の本のサイズだと厚すぎて、裁断機の隙間に入らないため、あらかじめロータリーカッター等を使って、本を2~3つに分けておく必要があります。


   

表紙はスキャンしないため、裁断せずに廃棄

・カラー表紙を切ったり、スキャンしようとすると効率が落ちるため、表紙はスキャン対象外とします。

・メディアマーカーというサービスで、本の情報を登録すると、自動的にEvernoteに表紙のイメージが連携されるので、私はそれで代用しています。後程、詳細を記載します。


【メディアマーカー】を用いてEvernoteに表紙のイメージを連携させた例

image

2.スキャン

スキャナはEPSON のDS-530を購入

・ドキュメントスキャナは、最初はscansnap S1500を使っていましたが、ページの給紙がうまくできずにスキャンが止まってしまうことが多かったので、EPSONのDS-530を購入しました。

・FUJITSU ScanSnap iX500 でもよかったのですが、価格も安くて、性能もよかったので、EPSONのDS-530に決めました。

(比較の際には次のサイトを参考にさせて頂きました。)

比較2017' 自炊向きの最新スキャナー9製品の性能とおすすめ:各社のドキュメントスキャナーの選び方(document Scanner-1)

DS-530に紙をセットしてスキャン開始

・スキャンソフトの『Document Caputure Pro』では、両面・文字くっきり・傾き補正・白紙ページ除去・カラー自動認識・サイズ自動認識などの設定にしていました。

・scansnap S1500 よりも高速にジャムすることなく、読み取ってくれます。

image


DS-530の詳細

・EPSONのホームページをご参照ください

https://www.epson.jp/products/scanner/ds530/

image



3.データ保存

データはPDF形式でISBNコード名をつけて保存

この記事で一番伝えたいのは、スキャンデータを保存した際に、10桁や13桁のISBNコードでファイル名を付けて保存することです。

例えば、『スラムダンク  31巻』であれば、『9784088718392.pdf』というファイル名で保存します。ハイフンは不要です。

これでかなりファイル名を入力する手間が省かれます。

ISBNコードは、カラー表紙の裏側や最終ページに書いてあるのですぐに見つけられます。

ISBNコードでファイル名を設定したPDFファイルがたまってきたら、後述の手順でファイル名を変換します。


PDFファイルに文字認識(OCR)は無し

・ドキュメントスキャナの付属ソフトによっては、PDFファイルに文字認識(OCR)を付加することができますが、一回の処理にかなり時間がかかって効率が落ちてしまうため、OCRの付加はお勧めしません。

・この代用策として、Evernoteに取り込むことで自動的にOCRを付加させます。これは次の記事でご説明します。

4.ファイル名を自動変換

『BookTitler』というExcelマクロツールを用いてタイトルの自動変換

・こちらのブログで公開されている『BookTitler』というツールがすごく便利です。

http://booktitler.web.fc2.com

・このツールでISBNコードで命名したファイルを読み込むと、自動的に本を扱うサイトで検索をして、PDFファイル名を『タイトル_著者名_ISBNコード_出版社_発売年月.pdf』といった形に変換してくれます。ファイル名で用いる情報の組み合わせは自由に変えられます。

・変換した内容は次のように、Excelに記録されるので、蔵書管理も一緒にできます。

image

・ツール内の検索サイトを『NDL-OPAC - 国立国会図書館』や『オンライン書店Honya Club.com』にしておくと、かなり高速でファイル名を変換できます。

マウスクリックとEnterキーの操作も自動化する

・ツールの扱いになれてくると、PDFファイルを1つずつ選択して、Enterキーを押す作業がちょっと面倒くさいと感じてきます。

・私は大量のPDFファイルのファイル名を変換する場合は、『HiMacroEx』というツールを用いて、マウスクリックとEnterキーの操作を自動化させています。検索に失敗すると、自動操作が空振りし続けますが、うまくいくと100冊ぐらい自動的に変換してくれます。

http://fefnir.com/soft/himacroex00.htm


5.メディアマーカー(MediaMarker)に登録

メディアマーカーの事前設定

メディアマーカーというサービスでは、アカウント作成後にMyバインダーにISBNコードなどの情報を登録すると、自動的に表紙イメージやタイトル、ISBNコードなどの情報をEvernoteに連携してくれます。

・Evernoteの登録用メールアドレスを使用するため、プラス会員やプレミアム会員の必要があり、1日200件の上限があります。

・指定のノートブック、タグ、表紙イメージの大きさを設定できます。

・メディアマーカーにおけるEvernoteの設定例は次の通りです。
image

ISBNコードの一括登録


・メディアマーカーには一括登録の機能があり、Excelに記録されているISBNコードをまとめてコピーして、一括登録画面に貼り付けて登録を行うと、いっきに表紙イメージをEvernoteに連携させることができます。

・200件以上の本を登録する場合は、1日200件まででひと区切りとして、翌日に作業すればOKです。

image

  まとめ

ここまでの作業で次の3点が実現できます

①自炊したPDFファイルにISBNコードをつけてExcelツールで変換することで、タイトルや著者名などファイル名が情報盛りだくさんのものに変更できる

②Excelツール変換したファイルの履歴が残るので蔵書の情報が一覧化できる

③Mediamakerのサービスを用いて、Evernoteに各本の表紙のイメージを連携できる


<次回記事>EvernoteにPDFファイルを取り込む

・次はいよいよPDFファイルをEvernoteに取り込むことになりますが、プレミアム会員だから1ファイル200MBまで大丈夫と思って、PDFファイルをEvernoteに取り込んでもOCRの処理がされず、検索しても本の中身の情報で検索ができません。

・それは1つのPDFファイルあたり、100ページ未満で25MB未満の制限があり、それを超えるとOCRの対象にならないためです。

・PDFファイルを100ページ未満かつ25MB未満に自動的に分割するツールを自作しましたので、それを次の記事でご紹介します。

・この状態でEvernoteにPDFファイルをインポートすれば、自分だけのナレッジデータベースが完成します。


■次の記事

自炊したPDFファイルをEvernoteでDB管理②<ファイル分割とEvernoteの活用>



以上、参考になれば幸いです。