OCR de PDF e imagem online

Extraia texto de PDFs ou imagens com Tesseract.js no navegador — sem envio ao servidor. Renderização em alta resolução, texto pronto a copiar.

Extrair texto de PDFs ou digitalizações

Tesseract.js + pdf.js — tudo corre no seu navegador.

Idioma do texto no ficheiro

OCR só em inglês ignora a maior parte do cirílico e do arménio. Escolha o idioma do digitalizado; na primeira execução é descarregado um pacote de idioma (muitas vezes alguns MB).

Carrega vários modelos de uma vez (inglês, russo, arménio, árabe, europeus, japonês, coreano e chinês simplificado). Não é um detetor de idioma separado — uma passagem do Tesseract com todos; a primeira execução exige mais dados e memória.

OCR

Extrair texto de PDFs ou digitalizações

apenas local

Tesseract.js + pdf.js — tudo corre no seu navegador.

Largue ficheiros aqui•ou clique para procurar

Em espera

Abra a página de OCR e largue um ficheiro ou escolha PNG, JPEG, WebP, GIF ou PDF.
Cada página é renderizada localmente em alta resolução; o Tesseract.js corre num worker web. Acompanhe o progresso.
Copie o texto ou use « Começar de novo ». A OmniPDF não envia o seu documento para este passo de OCR.

FAQ

O ficheiro é enviado?: Não. pdf.js e Tesseract.js correm no navegador; os bytes ficam no seu dispositivo.
O OCR será perfeito?: Depende da qualidade do digitalizado, tipos de letra e idioma. Revise resultados críticos.
Funciona no telemóvel?: Sim em navegadores modernos. PDFs grandes podem demorar ou usar mais memória.

Desempenho

Como o OmniPDF processa ficheiros localmente usando o poder do seu computador (WebAssembly), não há tempo de envio. É 5x mais rápido do que os conversores baseados na nuvem para ficheiros grandes.

Tudo sobre OCR de PDF e imagem

Como o OCR corre em privado no navegador

Escolha um PDF ou imagem (PNG, JPEG, WebP, GIF, etc.). O ficheiro é lido no separador — sem envio para um cluster remoto. O pdf.js descodifica cada página num Web Worker.
Cada página é rasterizada em alta resolução. Pré-processamento em canvas (tons de cinza, contraste) melhora digitalizações e fotos.
O Tesseract.js corre num worker dedicado. O progresso mostra a página e a percentagem.
O texto simples aparece na área de edição; copie ou cole. Avisos assinalam páginas vazias ou zonas só gráficas.
Use « Começar de novo » para limpar e escolher outro documento. Ao fechar o separador, o texto deixa a memória volátil.

Segurança técnica, privacidade e sem registo

O OCR clássico enviava digitalizações para GPU de terceiros. Aqui pdf.js e Tesseract correm localmente; contratos e documentos ficam no browser enquanto modelos carregam por HTTPS.

Sem conta porque os nossos servidores não precisam de ler os seus pixéis. Una o processamento local a boas práticas no dispositivo e DLP para dados regulados.

Cinco cenários de OCR local

Investigadores a citar PDFs digitalizados sem API externa.
Operações com fotos de etiquetas quando scanners falham.
Estudantes a extrair texto de PDF de diapositivos.
Estagiários jurídicos a procurar palavras-chave antes de ferramentas certificadas.
Receção com formulários multilingues quando o OCR de secretária está bloqueado.

Partilhar esta ferramenta

Não. Os seus ficheiros ficam no seu dispositivo. A conversão de PDF para imagem e de imagem para PDF é executada no seu navegador.

OCR de PDF e imagem online

Extrair texto de PDFs ou digitalizações

Como extrair texto de PDF ou imagem com OCR (grátis e privado)

FAQ

Desempenho

Tudo sobre OCR de PDF e imagem

Como o OCR corre em privado no navegador

Segurança técnica, privacidade e sem registo

Cinco cenários de OCR local

Partilhar esta ferramenta