PDF 与图片 OCR 在线
使用 Tesseract.js 在浏览器中从 PDF 或图片提取文字——不上传服务器。高分辨率渲染,文本可直接复制。
如何从 PDF 或图片中免费、私密地提取文字(OCR)
- 打开 OCR 页面,拖放文件或浏览选择 PNG、JPEG、WebP、GIF 或 PDF。
- 每一页在本地高分辨率渲染;Tesseract.js 在 Web Worker 中运行,可查看页码与百分比进度。
- 复制文本框中的内容,或点击「重新开始」以清空并选择新文件。此识别步骤不会将文档上传到 OmniPDF。
常见问题
- 文件会上传吗?
- 不会。pdf.js 解码 PDF,Tesseract.js 在浏览器中完成 OCR,数据留在您的设备上。
- 识别一定准确吗?
- 取决于扫描质量、字体和语言包。合同或合规文本请务必人工核对。
- 手机能用吗?
- 可以,现代移动浏览器支持。大文件可能更慢或占用更多内存。
性能
由于OmniPDF使用您的计算机性能(WebAssembly)在本地处理文件,因此上传时间为零。对于大文件,比基于云端的转换器快5倍。
关于 PDF 与图片 OCR 的说明
浏览器内私密完成 OCR 的方式
- 选择 PDF 或图片(PNG、JPEG、WebP、GIF 等)。文件在标签页中读取,不会上传到远程集群。pdf.js 在 Web Worker 中解码每一页。
- 每页以高分辨率栅格化,便于 Tesseract 识别小字。画布预处理(灰度、对比度)可改善扫描件与照片。
- Tesseract.js 在独立 Worker 中运行,进度显示当前页与百分比。
- 纯文本显示在编辑区,可复制或粘贴。警告会提示空白页或纯图形页,重要内容请人工核对。
- 使用「重新开始」可清空并选择新文档。关闭标签页后,提取的文本不再保留在内存中。
技术安全、隐私与无需注册
传统 OCR 常把敏感扫描传到第三方 GPU。此处 pdf.js 与 Tesseract 在本地运行,合同与证件留在浏览器进程内,模型与语言数据通过 HTTPS 加载。
无需账户,因为服务器不必读取您的像素。请在粘贴个人信息前注意设备与剪贴板安全;受监管环境请叠加 DLP 与留存策略。
五种适合本地 OCR 的场景
- 研究人员从扫描期刊 PDF 摘引而不走外部 OCR API。
- 手持扫描器故障时用照片录入运单标签。
- 学生从讲义 PDF 抽取段落做笔记。
- 法务实习生在进入认证工具前做关键词筛查。
- 前台在桌面 OCR 被锁时处理多语言表格扫描。
分享此工具
不会。您的文件保存在您的设备上。PDF转图片和图片转PDF的转换在您的浏览器中运行。