PDF 및 이미지 OCR 온라인

Tesseract.js로 브라우저에서 PDF나 이미지의 텍스트를 추출합니다 — 서버 업로드 없음. 고해상도 렌더링, 복사 준비 완료.

PDF나 스캔에서 텍스트 추출

Tesseract.js + pdf.js — 모두 브라우저에서 실행됩니다.

파일 속 텍스트 언어

영어만 사용하는 OCR은 키릴 문자·아르메니아 문자를 대부분 건너뜁니다. 스캔과 같은 언어를 고르세요. 처음 실행 시 언어 팩을 내려받습니다(보통 수 MB).

영·러·아르메니아·아랍·주요 유럽 문자·일·한·중국어(간체) 등 여러 모델을 한꺼번에 불러옵니다. 별도 언어 감지기가 아니라 Tesseract가 한 번에 모든 모델을 쓰는 방식이며, 첫 실행은 다운로드와 메모리 사용이 큽니다.

OCR

PDF나 스캔에서 텍스트 추출

로컬 전용

Tesseract.js + pdf.js — 모두 브라우저에서 실행됩니다.

파일을 여기에 놓으세요•또는 클릭하여 찾아보기

대기

OmniPDF는 컴퓨터의 성능(WebAssembly)을 사용하여 파일을 로컬에서 처리하므로 업로드 시간이 전혀 없습니다. 대용량 파일의 경우 클라우드 기반 변환기보다 5배 빠릅니다.

PDF나 이미지(PNG, JPEG, WebP, GIF 등)를 선택합니다. 파일은 탭 안에서만 읽히며 원격 클러스터로 전송되지 않습니다. pdf.js가 Web Worker에서 각 페이지를 디코딩합니다.
페이지는 고해상도로 래스터화되어 작은 글자도 인식하기 좋습니다. 캔버스 전처리(그레이스케일, 대비)로 스캔·사진 품질을 개선합니다.
Tesseract.js는 전용 worker에서 실행되고 진행률에 페이지와 퍼센트가 표시됩니다.
일반 텍스트가 편집 영역에 나타나 복사·붙여넣기 할 수 있습니다. 빈 페이지나 그래픽 위주 페이지는 경고로 알립니다.
«다시 시작»으로 상태를 비우고 다른 문서를 고릅니다. 탭을 닫으면 추출 텍스트는 휘발성 메모리에서 사라집니다.

전통적 OCR은 민감 스캔을 외부 GPU로 보냈습니다. 여기서는 pdf.js와 Tesseract가 로컬에서 실행되고 계약·신분 자료는 브라우저 경계 안에 머뭅니다.

서버가 픽셀을 읽을 필요가 없어 계정이 필요 없습니다. 기기 보안·클립보드 정책과 함께 사용하고 규제 데이터에는 DLP를 더하세요.

아니요. 파일은 기기에 유지됩니다. PDF에서 이미지로, 이미지에서 PDF로의 변환은 브라우저에서 실행됩니다.