最終更新日: 2026-04-02
PDFにOCRを適用する方法
OCR(光学文字認識)を使用すると、画像やスキャンされたPDFから編集可能なテキストを抽出できます。PDNobを使えば、PDFを簡単に検索可能かつ編集可能な状態に変換できます。本ガイドでは、OCR機能のインストール方法とPDFへの適用手順を分かりやすく解説します。
1. OCRとは
OCR(光学文字認識)は、スキャン画像や画像ベースのPDFを、編集可能かつ検索可能なテキストに変換する技術です。紙の書類やスキャンデータをデジタル化したファイルを扱う際に非常に便利です。
2. OCRのダウンロードとインストール
- パソコンでPDNobを起動します。
- メイン画面で「OCR PDF」ボタンをクリックします。
- パソコンから対象ファイルを選択し、「開く」をクリックしてPDNobに読み込みます。
- 必要に応じて、「ダウンロード」ボタンをクリックし、OCR機能をインストールします。
3. PDFにOCRをかける方法
- OCR機能のインストール後、上部ツールバーの「OCR」ボタンをクリックして処理を開始します。
- 設定画面が表示されるので、用途に応じてOCRモードを選択します:
-
編集可能なテキストに変換
スキャンされた文字を完全に編集可能なテキストへ変換します。OCR後は、通常の文書のようにテキストの編集・移動・コピー・削除が可能です。 -
画像内検索可能テキストに変換
元の画像レイアウトを保持したまま、テキストを検索・選択可能にします。レイアウトを崩さずに内容を検索したい場合に最適です。 - 適切なオプションを選択後、「OCRを実行」をクリックして文字認識を開始します。
- OCR完了後、認識されたテキストは検索・コピーが可能になります。「編集可能なテキストに変換」を選択した場合は、PDF上で直接編集も行えます。
4. OCRの詳細設定(PDNob 2.0対応)
PDNob 2.0(3月中旬〜下旬リリース予定)では、OCRの詳細設定が追加され、認識精度をさらに最適化できるようになります。これらのオプションを有効にすると精度が向上しますが、処理速度がやや低下する場合があります。
これらの設定を利用するには、OCR設定画面を開き、詳細設定をクリックします。画像処理やテキスト検出に関する各種機能をオン/オフで切り替えることができます。設定画面の位置は以下の画像をご参照ください。
各設定の概要は以下の通りです:
- ページの自動トリミング – コンテンツ領域を自動検出し、不要な余白を削除することで、ページを最適化しOCR精度を向上させます。
- ページの傾き補正 – 傾いたページを補正し、テキストを水平に整えて認識精度を高めます。
- 局所コントラストの強調 – 画像のコントラストを強化し、不鮮明な文字を見やすくします(元の色味が若干変化する場合があります)。
- 黒い斑点の除去 – 小さなノイズや黒い点を取り除き、ページをきれいに整えます。
- ノイズ除去 – 白い点や干渉ノイズを除去し、文字の輪郭をはっきりさせます。
- 画像内テキストの検出 – 画像領域内のテキストも認識・抽出し、より完全なOCR処理を実現します。