スキャンして作ったPDFの文字を認識させる方法

自宅に本棚がなく、購入した書籍を積んでいると、昔読んだ本や、頻繁に読まない本などは下の方に埋もれていってしましまう。

そうなってしまうと、「たしか、あんな本あったよな~」と思って探すも発見できず、読みたいときに読めないことが多いため、すこしずつ本をスキャンして取り込むことにしています。

こうして作成したPDFをDropBoxなどに保管しておくと、iPhoneなどで通勤中や外出先でも読めるので、重宝しているのです。

さて、その作成したPDFにOCR(光学文字認識)をかけると、いくつかの利点があります。

・もともとスキャンした本は画像として保存されるので、そのままでは文章のコピー&ペーストができないが、OCRを書けると、本の中の文字をコピーすることができる。さらに、文字として認識されるということは「検索ができる」ということが一番便利ですね。

・共通の文字(フォント)をまとめてデータに埋め込むので、たいていの場合(とくに、文字の多い白黒の本)、PDFファイル自体も小さく(軽量に)なる。私の経験ですが、大体2割は軽量化されるようです。10MのPDFファイルは8Mくらいになります。

 

さて、肝心のPDFファイルにOCRをかける方法ですが、PDFファイルを開くときに一般的に使われているAdobeのAcrobatで簡単にできます。無料で文字認識の精度も良いので、助かりますよ。

image

PDFファイルにOCRをかける手順

①最初に、OCRをかけたいファイルをAdobeAcrobatで開きます。

②ファイルを開いたら、「文書」⇒「OCRテキスト認識」⇒「OCRを使用してテキストを認識」を選択します。

image

 

③選択すると、以下のようなダイアログが表示されますので、OCRを適用する対象のページを指定します。「編集」ボタンを押すと、細かい設定を行うこともできますが、あまりいじらなくても良いと思います。

image

 

④設定ボタンを押すと以下のような設定が可能です。「OCRの言語」は、対象の言語をきちんと指定した方が文字認識の精度が良くなります。多くの場合は日本語なので、特に変更する必要はありませんね。「画像のダウンサンプリング」は、画像の解像度を減らせ(ダウン)ます。当然、600dpiが一番高解像ですが、その分ファイルの大きさも大きくなります。白黒の本でしたら、300dpiくらいでも、特に不自由はしないのではないかと思います。

image

 

⑤指定が終われば、あとは、「OK」ボタンを押して、OCR適用が終わるのを待ちましょう。

 

以上がOCR適用の手順です。

「文書」⇒「OCRテキスト認識」⇒「OCRを使用して複数のファイルのテキストを認識」を選択すると、複数のPDFファイルを連続して処理できますから、夜寝る前にやると、朝には終わっています。

こんな記事も関係あるかも。読んでみてね。

コメントを残す

サブコンテンツ

このページの先頭へ