PDF 및 이미지 OCR 온라인
Tesseract.js로 브라우저에서 PDF나 이미지의 텍스트를 추출합니다 — 서버 업로드 없음. 고해상도 렌더링, 복사 준비 완료.
PDF나 이미지에서 OCR로 텍스트 추출하기(무료·비공개)
- OCR 페이지를 열고 PNG, JPEG, WebP, GIF 또는 PDF 파일을 놓거나 선택합니다.
- PDF 각 페이지는 로컬에서 고해상도로 렌더링되고 Tesseract.js는 웹 워커에서 실행됩니다. 진행률을 확인하세요.
- 텍스트를 복사하거나 «다시 시작»으로 초기화한 뒤 다른 파일을 선택하세요. 이 인식 단계에서 OmniPDF로 문서가 업로드되지 않습니다.
자주 묻는 질문
- 파일이 업로드되나요?
- 아니요. pdf.js와 Tesseract.js가 브라우저에서 동작하며 데이터는 기기에 남습니다.
- OCR이 항상 완벽한가요?
- 스캔 품질, 글꼴, 기울기, 언어 팩에 따라 다릅니다. 계약·규정 문서는 반드시 검토하세요.
- 모바일에서 되나요?
- 최신 모바일 브라우저에서 가능합니다. 큰 PDF는 시간이 더 걸리거나 메모리를 많이 쓸 수 있습니다.
성능
OmniPDF는 컴퓨터의 성능(WebAssembly)을 사용하여 파일을 로컬에서 처리하므로 업로드 시간이 전혀 없습니다. 대용량 파일의 경우 클라우드 기반 변환기보다 5배 빠릅니다.
PDF 및 이미지 OCR에 대해 알아야 할 것
브라우저에서 비공개로 OCR이 동작하는 방식
- PDF나 이미지(PNG, JPEG, WebP, GIF 등)를 선택합니다. 파일은 탭 안에서만 읽히며 원격 클러스터로 전송되지 않습니다. pdf.js가 Web Worker에서 각 페이지를 디코딩합니다.
- 페이지는 고해상도로 래스터화되어 작은 글자도 인식하기 좋습니다. 캔버스 전처리(그레이스케일, 대비)로 스캔·사진 품질을 개선합니다.
- Tesseract.js는 전용 worker에서 실행되고 진행률에 페이지와 퍼센트가 표시됩니다.
- 일반 텍스트가 편집 영역에 나타나 복사·붙여넣기 할 수 있습니다. 빈 페이지나 그래픽 위주 페이지는 경고로 알립니다.
- «다시 시작»으로 상태를 비우고 다른 문서를 고릅니다. 탭을 닫으면 추출 텍스트는 휘발성 메모리에서 사라집니다.
기술적 보안, 개인정보, 계정 불필요
전통적 OCR은 민감 스캔을 외부 GPU로 보냈습니다. 여기서는 pdf.js와 Tesseract가 로컬에서 실행되고 계약·신분 자료는 브라우저 경계 안에 머뭅니다.
서버가 픽셀을 읽을 필요가 없어 계정이 필요 없습니다. 기기 보안·클립보드 정책과 함께 사용하고 규제 데이터에는 DLP를 더하세요.
로컬 OCR이 유용한 다섯 가지
- 연구자가 스캔 학술 PDF에서 인용을 뽑을 때 외부 OCR API 없이.
- 휴대 스캐너가 멈췄을 때 배송 라벨 사진을 처리.
- 학생이 강의 슬라이드 PDF에서 문단 추출.
- 법무 인턴이 인증 도구 전에 키워드 탐색.
- 데스크톱 OCR이 잠긴 상태에서 다국어 스캔 양식 처리.
이 도구 공유하기
아니요. 파일은 기기에 유지됩니다. PDF에서 이미지로, 이미지에서 PDF로의 변환은 브라우저에서 실행됩니다.