PDF・画像OCRオンライン

Tesseract.jsでブラウザ内のPDFや画像からテキストを抽出。サーバーへのアップロードなし。高解像度レンダリング、コピー可能な結果。

PDFやスキャンからテキストを抽出

Tesseract.js + pdf.js — すべてブラウザ内で実行。

ファイル内テキストの言語

英語だけのOCRではキリル文字やアルメニア文字の多くが読み取れません。スキャンに合う言語を選んでください。初回実行時に言語パックをダウンロードします（数MB程度のことが多いです）。

英・露・アルメニア・アラビア・主要欧州・日・韓・中国語（簡体字）など複数モデルを同時に読み込みます。別の言語判定器ではなく、Tesseract が一括で使う方式のため、初回はダウンロード量とメモリ使用量が大きくなります。

OCR

PDFやスキャンからテキストを抽出

ローカルのみ

Tesseract.js + pdf.js — すべてブラウザ内で実行。

ここにファイルをドロップ•またはクリックして参照

待機中

OmniPDFはコンピューターの処理能力（WebAssembly）を使用してファイルをローカルで処理するため、アップロード時間はゼロです。大きなファイルに対してクラウドベースのコンバーターより5倍高速です。

PDFまたは画像（PNG、JPEG、WebP、GIFなど）を選びます。ファイルはタブ内で読み込まれ、リモートクラスタへ送られません。pdf.jsがWebワーカーで各ページをデコードします。
各ページは高解像度でラスタ化され、小さな文字も読み取りやすくなります。キャンバス前処理（グレースケール・コントラスト）でスキャンや写真を補正します。
Tesseract.jsは専用ワーカーで動作し、進行状況にページとパーセントが表示されます。
プレーンテキストが編集エリアに表示され、コピーできます。空白や図だけのページは警告で示されます。
「最初から」で状態を消して別ファイルを選べます。タブを閉じると抽出テキストは揮発性メモリから消えます。

従来のOCRは機密スキャンを第三者GPUへ送りがちでした。ここではpdf.jsとTesseractがローカルで動き、契約書や身分証はブラウザ内に留まります。

サーバーがピクセルを読む必要がないためアカウントは不要です。端末の衛生状態とクリップボード運用を整え、規制データにはDLPを重ねてください。

いいえ。ファイルはデバイスに保存されます。PDFから画像、画像からPDFへの変換はブラウザ上で行われます。