こんにちは,しまさん(@shimasan0x00)です.
皆さんは「PDF」使われてますでしょうか??
私の場合は課題を提出する際にPowerPointからpdfに変換して提出したり,LaTeXで文章を書いてpdfにコンパイルしたり,arXivやその他電子アーカイブに公開されているpdf形式の論文を読んだりしています.
そう考えると私の生活には「PDF」というの存在は浸透しているといえます.
なのに私はPDFを見るのはブラウザかMac標準装備のプレビューのみ….
作成したPDFファイルを直接編集できたり文字埋め込みがされていない極悪PDFファイル(スキャンされてるだけのものなど含)から文字認識できるソフトがあれば便利なのだが…と思ったら今回紹介する「PDFelement」がわが願望を叶えてくれるようです.
特に文字認識してくれるなら極悪PDFファイルからテキストを取り出せる!!!嬉しい!!!!
ということで今回はPDF編集,変換,OCRツールである「PDFelement」について紹介したいと思います.
(PDF直接編集も生成元ファイルをいじらずに編集できるということなので嬉しい)
※今回PRO版を使用しています
環境
・MacBook Pro 2015
・macOS 10.14.4 (Mojave)
PDFelementって何??
PDFelementは一言でいうと「PDF編集,変換,OCRツール」です.
UIがWordライクでWord(というか文章編集ソフト)に馴染みがある人は直感で操作できるというのがありがたいですね.
新規ソフトウェアの場合,操作を覚えるというのが面倒であまり手を出すのは…なんて人には導入しやすいでしょう.
PDFelementのダウンロード・インストール
何はともあれ,まずはPDFelementをインストールしていきましょう.
上記サイトから「無料ダウンロード」を選択しましょう.

zip形式でインストーラをダウンロードします.
約900KBと軽量です.解凍したらインストーラを起動しましょう.

インストールが完了したら無事pdfelementが起動しています!!!

インストールが完了するとブラウザで案内がでます.
困ったら「ヘルプ>ユーザーガイド」は覚えたほうがよさそうですね!

上記の通り試用版には制限があるので注意してください.
PDFに透かしが入ったりOCR周りでデメリットがあります.
製品版の違い
PDFelementには標準版とプロ版があります.
違いについては公式のものが非常にわかりやすいです.

PRO版だとOCRによる文字認識やバッチ処理,PDF圧縮ができるのは熱い!!!
さっそくPDFファイルを直接編集する
ではこの前作成したAltmetricsに関する紹介PDFを編集してみます.

基本的には左側にあるメニュー部分から自分のしたい編集作業を行います.
- テキスト:テキスト追加・編集
- 画像:画像追加・編集
- リンク:リンク追加・編集
- >別ページへの遷移
- >WEBサイトへの遷移
- フォーム:PDFフォームの追加・編集
- >テキストフィールド
- >チェックボックス
- >ラジオボタン
- >ドロップダウン
- >リストボックス
- >ボタン
- >電子署名
- 注釈:コメントの追加・編集
- ツール
- >透かし
- >OCR
- >背景
- >ヘッダー・フッター
- >バッチ処理
テキスト,画像,リンクで遊んでみた結果が下の画像です.

メニューを選択すると上の部分にWord等でおなじみの設定一覧が表示されます.
そこからテキストを追加したり画像を簡単に追加することができます.
PDF編集ソフトでよくある注釈機能などももちろん完璧です.
左メニューから「注釈」を選択してノートや鉛筆(手書き),ハイライト,図形の描画,テキストコメント,スタンプなど機能盛りだくさん!

手書きもできます.線の太さや透明度,色も選べるので柔軟にメモすることができます.
現在表示されているのは6色ですが自分でカスタマイズすることができるのでデフォルトの色が気に入らなくても大丈夫です.


消す操作の際に強調してくれるのはわかりやすくて嬉しいです.
メニュー内の遷移やメニュー間の遷移が直感的でわかりすく,すぐに編集することができます.
ただ,機能がいっぱいあって完璧に!使いこなすとなるとそれなりに使い続けなきゃいけないなって印象です.
OCR使ってみる
さて,次はOCRを使ってみましょう.
左のツール->OCRテキスト認識で行えますが,最初はプラグインのダウンロードが必要です(400MB程度).

ダウンロードができている場合,設定することができます.

文書の言語を設定することができるので「日本語」,「英語」にはチェックをしておきます.

では実際にこのスライドにかけてみようと思います.

ふむ,ちゃんと文字認識してくれたようですね.
ですがやはりOCRは万能ではないので以下のように一部誤認識していますね.
そもそもプレゼンをOCRかける人は殆どいないと思うので問題ないかなと思います.

写真の部分に文字が載っててそこを認識させたい!!!なんて人には良い機能ですね.
画像+テキストで構成されている文書には有効だと思います.
スクリーンショットから文字取り出せる???
PDFから文字取り出しができるのはわかりましたがスクリーンショット(画像)はどうなんだろうかと思い,私のブログから一部切り抜いて持ってきました.
そうするとなんと!ドラッグ・アンド・ドロップしたら認識してくれました!

このスクリーンショットにはテキスト+画像が含まれていたのですが,OCRかけると画像部分も文字として認識してくれました.
これは助かる.

バッチ処理
pdfelementではバッチ処理(複数ファイルをまとめて処理)があります.

ファイル変換や先程紹介したOCR,PDF統合などまとめてやってしまいたい処理を行えるのはありがたいですね.
ファイル変換先も我々が普段必要とする形式は殆ど抑えられているので安心ですね.

Word,Excel,PowerPointの三種の神器に対応しているのは学生にとってはありがたいです.
さいごに
今回は「PDF編集,変換,OCRツール」であるPDFelement Proを紹介しました.
PDFを直接編集できるし,OCRかけれるし,デザインもいいし使いたくなるソフトでした.
私はMacを使用しているのでMacOS版でしたが多くの方が使われているWindowsでもあるのでぜひ試してみてください.