最終更新日:2025-12-16
PDFをOCR処理する方法
光学文字認識(OCR)を使うと、画像やスキャンしたPDFから編集可能なテキストを抽出できます。Tenorshare PDNobを使えば、PDFファイルに簡単にOCRを実行し、検索や編集が可能な形式に変換できます。本ガイドでは、OCR機能のインストール方法とPDFへの使い方を、わかりやすくステップごとに解説します。
1. OCRとは
OCR(光学文字認識)は、スキャンした画像や画像ベースのPDFを編集可能で検索可能なテキストに変換する技術です。スキャン文書や印刷物をデジタル形式で扱う際に特に便利です。
2. OCRのダウンロードとインストール
- パソコンで Tenorshare PDNob を起動します。
- メイン画面で、「OCR PDF」 ボタンをクリックします。
- パソコンから処理したいファイルを選択し、「開く」 をクリックしてPDNobに読み込みます。
- 表示された場合は、「ダウンロード」 ボタンをクリックしてOCR機能をダウンロードします。
3. PDFをOCR処理する方法
- OCR機能がインストールされたら、上部ツールバーの 「OCR」 ボタンをクリックして、OCR処理を開始します。
- 設定ウィンドウが表示されます。必要に応じて設定を確認し、「OCRを実行」 ボタンをクリックして認識処理を開始します。
- OCR処理が完了したら、PDFから抽出されたテキストを コピーして利用 できるようになります。
4. OCRの詳細設定(PDNob 2.0対応)
PDNob 2.0では、新たに「OCRの詳細設定」が追加され、文字認識結果を最適化できるようになりました。これらの設定を有効にすると認識精度が向上する場合がありますが、OCR処理速度が低下する可能性があります。
これらのオプションにアクセスするには、OCR設定パネルを開き、「詳細設定」をクリックしてください。そこから、画像処理や文字検出に関する各機能を有効・無効に切り替えることができます。設定項目の正確な位置については、以下のスクリーンショットをご参照ください。
これらの設定については、このセクションで詳しく解説します。
- ページを自動トリミング – 画像内の有効なコンテンツ領域を自動検出し、不要な余白を削除します。ページをよりコンパクトにし、OCR認識精度の向上に役立ちます。
- ページの傾きを自動補正 – 画像内の文字方向を基準に、傾いたページを自動的に補正します。文字を水平に整え、OCR認識の精度を高めます。
- ローカルコントラスト強化 – 画像の一部領域のコントラストやシャープさを強化し、ぼやけた文字の視認性を向上させ、OCR成功率を高めます。元の色味にわずかな影響を与える場合があります。
- 黒い斑点を除去 – 画像内の小さな黒いノイズを自動検出して除去し、ページをよりクリーンにし、OCR結果の見やすさを向上させます。
- ノイズを除去 – 白い斑点などのノイズを除去し、不要な干渉を減らして文字の輪郭を明確にし、OCR認識品質を向上させます。
- 画像内の文字を検出 – 有効にすると、画像領域内の文字も認識・抽出され、写真や図に含まれるテキストもOCR対象になります。