OmniPDFPDF 与图片 OCR 在线

完全在浏览器中快速转换。

客户端无上传

客户端无上传

PDF 与图片 OCR 在线

使用 Tesseract.js 在浏览器中从 PDF 或图片提取文字——不上传服务器。高分辨率渲染，文本可直接复制。

从 PDF 或扫描件提取文字

Tesseract.js + pdf.js — 全部在浏览器中运行。

文件中的文字语言

仅使用英文 OCR 会漏掉大部分西里尔文与亚美尼亚文字。请选择与扫描件一致的语言；首次运行会下载语言包（通常数 MB）。

会同时加载多种语言模型（英、俄、亚美尼亚、阿拉伯、主要欧洲文字、日、韩、简体中文）。并非单独的语言识别器：Tesseract 在一次识别中使用全部模型；首次运行下载量更大、占用内存更高。

OCR

从 PDF 或扫描件提取文字

仅本地

Tesseract.js + pdf.js — 全部在浏览器中运行。

将文件拖放到此处•或点击浏览

空闲

x

打开 OCR 页面，拖放文件或浏览选择 PNG、JPEG、WebP、GIF 或 PDF。
每一页在本地高分辨率渲染；Tesseract.js 在 Web Worker 中运行，可查看页码与百分比进度。
复制文本框中的内容，或点击「重新开始」以清空并选择新文件。此识别步骤不会将文档上传到 OmniPDF。

常见问题

文件会上传吗？: 不会。pdf.js 解码 PDF，Tesseract.js 在浏览器中完成 OCR，数据留在您的设备上。
识别一定准确吗？: 取决于扫描质量、字体和语言包。合同或合规文本请务必人工核对。
手机能用吗？: 可以，现代移动浏览器支持。大文件可能更慢或占用更多内存。

性能

由于OmniPDF使用您的计算机性能（WebAssembly）在本地处理文件，因此上传时间为零。对于大文件，比基于云端的转换器快5倍。

关于 PDF 与图片 OCR 的说明

浏览器内私密完成 OCR 的方式

选择 PDF 或图片（PNG、JPEG、WebP、GIF 等）。文件在标签页中读取，不会上传到远程集群。pdf.js 在 Web Worker 中解码每一页。
每页以高分辨率栅格化，便于 Tesseract 识别小字。画布预处理（灰度、对比度）可改善扫描件与照片。
Tesseract.js 在独立 Worker 中运行，进度显示当前页与百分比。
纯文本显示在编辑区，可复制或粘贴。警告会提示空白页或纯图形页，重要内容请人工核对。
使用「重新开始」可清空并选择新文档。关闭标签页后，提取的文本不再保留在内存中。

技术安全、隐私与无需注册

传统 OCR 常把敏感扫描传到第三方 GPU。此处 pdf.js 与 Tesseract 在本地运行，合同与证件留在浏览器进程内，模型与语言数据通过 HTTPS 加载。

无需账户，因为服务器不必读取您的像素。请在粘贴个人信息前注意设备与剪贴板安全；受监管环境请叠加 DLP 与留存策略。

五种适合本地 OCR 的场景

研究人员从扫描期刊 PDF 摘引而不走外部 OCR API。
手持扫描器故障时用照片录入运单标签。
学生从讲义 PDF 抽取段落做笔记。
法务实习生在进入认证工具前做关键词筛查。
前台在桌面 OCR 被锁时处理多语言表格扫描。

分享此工具

不会。您的文件保存在您的设备上。PDF转图片和图片转PDF的转换在您的浏览器中运行。