OCR de PDF e imagem online
Extraia texto de PDFs ou imagens com Tesseract.js no navegador — sem envio ao servidor. Renderização em alta resolução, texto pronto a copiar.
Como extrair texto de PDF ou imagem com OCR (grátis e privado)
- Abra a página de OCR e largue um ficheiro ou escolha PNG, JPEG, WebP, GIF ou PDF.
- Cada página é renderizada localmente em alta resolução; o Tesseract.js corre num worker web. Acompanhe o progresso.
- Copie o texto ou use « Começar de novo ». A OmniPDF não envia o seu documento para este passo de OCR.
FAQ
- O ficheiro é enviado?
- Não. pdf.js e Tesseract.js correm no navegador; os bytes ficam no seu dispositivo.
- O OCR será perfeito?
- Depende da qualidade do digitalizado, tipos de letra e idioma. Revise resultados críticos.
- Funciona no telemóvel?
- Sim em navegadores modernos. PDFs grandes podem demorar ou usar mais memória.
Desempenho
Como o OmniPDF processa ficheiros localmente usando o poder do seu computador (WebAssembly), não há tempo de envio. É 5x mais rápido do que os conversores baseados na nuvem para ficheiros grandes.
Tudo sobre OCR de PDF e imagem
Como o OCR corre em privado no navegador
- Escolha um PDF ou imagem (PNG, JPEG, WebP, GIF, etc.). O ficheiro é lido no separador — sem envio para um cluster remoto. O pdf.js descodifica cada página num Web Worker.
- Cada página é rasterizada em alta resolução. Pré-processamento em canvas (tons de cinza, contraste) melhora digitalizações e fotos.
- O Tesseract.js corre num worker dedicado. O progresso mostra a página e a percentagem.
- O texto simples aparece na área de edição; copie ou cole. Avisos assinalam páginas vazias ou zonas só gráficas.
- Use « Começar de novo » para limpar e escolher outro documento. Ao fechar o separador, o texto deixa a memória volátil.
Segurança técnica, privacidade e sem registo
O OCR clássico enviava digitalizações para GPU de terceiros. Aqui pdf.js e Tesseract correm localmente; contratos e documentos ficam no browser enquanto modelos carregam por HTTPS.
Sem conta porque os nossos servidores não precisam de ler os seus pixéis. Una o processamento local a boas práticas no dispositivo e DLP para dados regulados.
Cinco cenários de OCR local
- Investigadores a citar PDFs digitalizados sem API externa.
- Operações com fotos de etiquetas quando scanners falham.
- Estudantes a extrair texto de PDF de diapositivos.
- Estagiários jurídicos a procurar palavras-chave antes de ferramentas certificadas.
- Receção com formulários multilingues quando o OCR de secretária está bloqueado.
Partilhar esta ferramenta
Não. Os seus ficheiros ficam no seu dispositivo. A conversão de PDF para imagem e de imagem para PDF é executada no seu navegador.