今日のScanSnapの成果

本日もScanSnap曜日。まあ、24日まではScanSnapで雑誌類をやっつけるのが仕事の一つになります。

さて、本日は取り込みは8冊。あと以前取り込んだ3冊を含め、合計8冊にOCRをかけました。OCRAdobe Acrobat Professionalの機能を使って取り込んでいますが、何とか実用的な時間の範囲内で収まっているのではないかなと思います。まあ、本当は取り込みと同時にOCRが終わっている、ぐらいが望ましいんですが、さすがにそこまでは無理でしょう。

本当は「目次だけOCR」というのをやっていたのですが、なぜか全体に対してOCRをかけた方が、ファイルの容量が減るんです。これはおそらくどこかで圧縮されているので、画質とかが心配ではあるのですが、容量が半分以下に落ちる場合も多いので、「まあいいか」と思って余り深く考えないことにしています。


DesignOffice01.pdf
DesignOffice02.pdf
Note&DiaryStylebook01.pdf
Note&DiaryStylebook02.pdf
Note&DiaryStylebook03.pdf
STATIONERYmagazine_01.pdf
STATIONERYmagazine_02.pdf
STATIONERYmagazine_03.pdf

と、「木世」(本当は一文字で「えい」)出版社の、デザイン系文具系のムックばかりをOCRかけた訳ですが、これでSpotlightから「ステッドラー」とか検索かけた時に、さらっとファイルが出て来てくれることになります。やっぱり雑誌の情報も資産ですから、今後は出来るだけ全部OCRにかけていくべきかなと思っています。時間はかかるし、夜寝てる間にやってくれる、って訳でもないのが微妙なところなんですが。フォルダ全てのPDFに対して、順次OCRをかけていくようなツールとかがあれば嬉しいんですけどね。Windowsでは一般的(?)なのに、なんでMacではOCRがそんなに目立たないんだろう?重要だと思うんですけどね。まあ、この作業専用にWindowsを一台導入したいくらいなんですが、それも場所を食うしなあ、ということでやっていません。気が向いたらBootCampで参戦するかもしれませんが、今のところこれでいいかな。

そもそも出版社の方で、オンライン販売してくれるとか、買ったらPDFを付録していてくれないかなと思ったりもします。印刷不可とかでもいいですよ。PDFが付録されるならこんな手間かけなくて良いんだしねえ。OCRなんて、便利なようで微妙に不便なものだなと思います。