OmniPDFPDF 与图片 OCR 在线

完全在浏览器中快速转换。

客户端无上传

PDF 与图片 OCR 在线

使用 Tesseract.js 在浏览器中从 PDF 或图片提取文字——不上传服务器。高分辨率渲染,文本可直接复制。

从 PDF 或扫描件提取文字
Tesseract.js + pdf.js — 全部在浏览器中运行。

空闲

x

如何从 PDF 或图片中免费、私密地提取文字(OCR)

  1. 打开 OCR 页面,拖放文件或浏览选择 PNG、JPEG、WebP、GIF 或 PDF。
  2. 每一页在本地高分辨率渲染;Tesseract.js 在 Web Worker 中运行,可查看页码与百分比进度。
  3. 复制文本框中的内容,或点击「重新开始」以清空并选择新文件。此识别步骤不会将文档上传到 OmniPDF。

常见问题

文件会上传吗?
不会。pdf.js 解码 PDF,Tesseract.js 在浏览器中完成 OCR,数据留在您的设备上。
识别一定准确吗?
取决于扫描质量、字体和语言包。合同或合规文本请务必人工核对。
手机能用吗?
可以,现代移动浏览器支持。大文件可能更慢或占用更多内存。

性能

由于OmniPDF使用您的计算机性能(WebAssembly)在本地处理文件,因此上传时间为零。对于大文件,比基于云端的转换器快5倍。

关于 PDF 与图片 OCR 的说明

浏览器内私密完成 OCR 的方式

  1. 选择 PDF 或图片(PNG、JPEG、WebP、GIF 等)。文件在标签页中读取,不会上传到远程集群。pdf.js 在 Web Worker 中解码每一页。
  2. 每页以高分辨率栅格化,便于 Tesseract 识别小字。画布预处理(灰度、对比度)可改善扫描件与照片。
  3. Tesseract.js 在独立 Worker 中运行,进度显示当前页与百分比。
  4. 纯文本显示在编辑区,可复制或粘贴。警告会提示空白页或纯图形页,重要内容请人工核对。
  5. 使用「重新开始」可清空并选择新文档。关闭标签页后,提取的文本不再保留在内存中。

技术安全、隐私与无需注册

传统 OCR 常把敏感扫描传到第三方 GPU。此处 pdf.js 与 Tesseract 在本地运行,合同与证件留在浏览器进程内,模型与语言数据通过 HTTPS 加载。

无需账户,因为服务器不必读取您的像素。请在粘贴个人信息前注意设备与剪贴板安全;受监管环境请叠加 DLP 与留存策略。

五种适合本地 OCR 的场景

  • 研究人员从扫描期刊 PDF 摘引而不走外部 OCR API。
  • 手持扫描器故障时用照片录入运单标签。
  • 学生从讲义 PDF 抽取段落做笔记。
  • 法务实习生在进入认证工具前做关键词筛查。
  • 前台在桌面 OCR 被锁时处理多语言表格扫描。

分享此工具

不会。您的文件保存在您的设备上。PDF转图片和图片转PDF的转换在您的浏览器中运行。