← Back to Blog

OCR para documentos manuscritos antigos: o que funciona

Iuri Madeira

Qualquer software de OCR lê um documento digitado em fonte Times New Roman. A questão muda quando o documento é um registro de 1958 escrito em cursiva com tinta nanquim, num papel que amarelou e manchou em seis décadas de arquivo. A maioria das ferramentas de OCR simplesmente falha. Este artigo explica por que, e o que realmente funciona para documentos manuscritos antigos.

Por que OCR tradicional não funciona em manuscritos

O OCR convencional — o que vem em scanners, no Adobe Acrobat, no Google Drive — foi projetado para reconhecer caracteres tipográficos. Fontes padronizadas, alinhamento regular, contraste nítido entre tinta e papel. Funciona perfeitamente para documentos impressos.

Documentos manuscritos antigos são o oposto:

Variação de caligrafia. Cada pessoa escreve de forma diferente. Dentro do mesmo livro de registro, pode haver três ou quatro caligrafias distintas — escreventes diferentes ao longo dos anos.

Cursiva conectada. As letras não são separadas como em texto impresso. Elas se conectam em traços contínuos, com ligaduras que mudam conforme a combinação de letras.

Tinta degradada. Tinta ferrogálica — comum em documentos do século XIX e primeira metade do XX — oxida com o tempo. A tinta que era preta vira marrom, às vezes quase invisível. Em alguns trechos, a oxidação perfurou o papel.

Papel deteriorado. Amarelecimento, manchas de umidade, foxing (pontos acastanhados de fungos), rasgos reparados com fita adesiva que escureceu. O contraste entre tinta e papel, que o OCR precisa para funcionar, praticamente desaparece.

Anotações marginais e sobreposições. Carimbos sobre texto, anotações em margens, correções entre linhas. Ruído visual que confunde algoritmos convencionais.

Quando você passa um documento assim pelo OCR do scanner, o resultado é lixo: caracteres aleatórios, palavras cortadas, linhas inteiras ignoradas. Não serve para indexação nem para busca.

O que mudou nos últimos anos

A revolução não veio de OCR melhor. Veio de uma mudança de abordagem: em vez de reconhecer caracteres individuais, modelos de inteligência artificial aprenderam a reconhecer padrões de escrita como um todo.

Modelos de linguagem visual

Os modelos atuais não olham letra por letra. Eles analisam a imagem do documento como contexto: a forma da palavra inteira, a linha completa, a estrutura da frase. Isso permite:

  • Inferir letras ambíguas pelo contexto da palavra
  • Reconhecer padrões de caligrafia após poucas linhas
  • Adaptar-se a diferentes estilos dentro do mesmo documento
  • Distinguir texto de ruído visual (manchas, carimbos, dobras)

Pré-processamento inteligente

Antes do reconhecimento, algoritmos de pré-processamento melhoram a imagem:

  • Binarização adaptativa — separa tinta de fundo mesmo com contraste baixo, ajustando o limiar pixel a pixel
  • Remoção de ruído — elimina manchas e artefatos sem apagar traços finos da caligrafia
  • Correção de inclinação — alinha o texto mesmo quando o papel foi escaneado torto
  • Normalização de contraste — equaliza áreas com iluminação desigual

Exemplos reais: o que funciona e o que não funciona

Funciona bem

  • Caligrafia cursiva clara em papel conservado — reconhecimento acima de 90% de precisão
  • Caligrafia cursiva em papel amarelado, tinta marrom — reconhecimento entre 75-90%, suficiente para indexação e busca
  • Livros de registro com caligrafia regular — escreventes treinados, que mantinham padrão, têm ótima taxa de reconhecimento
  • Documentos com carimbo sobre texto — o modelo geralmente consegue separar as camadas

Funciona parcialmente

  • Tinta muito desbotada — trechos podem ser perdidos, mas o contexto geral é preservado
  • Múltiplas caligrafias no mesmo documento — o modelo se adapta, mas transições bruscas podem gerar erros pontuais
  • Papel com manchas de umidade sobre texto — áreas afetadas podem ser ilegíveis até para humanos

Não funciona

  • Texto completamente apagado — se um humano não consegue ler, a IA também não
  • Papel carbonizado ou gravemente danificado — perda física do suporte inviabiliza qualquer OCR
  • Caligrafia intencionalmente ilegível — assinaturas estilizadas, por exemplo, não são texto legível

Como o Notoria trata manuscritos antigos

O OCR do Notoria foi projetado especificamente para o desafio dos acervos brasileiros. Na prática, o fluxo funciona assim:

1. Captura. O documento é escaneado ou fotografado. Recomendação: 300 DPI mínimo para manuscritos, 400 DPI para documentos muito deteriorados. Câmeras de celular modernas, com boa iluminação, já produzem resultados utilizáveis.

2. Pré-processamento automático. O Notoria aplica binarização adaptativa, remoção de ruído e correção de inclinação automaticamente. Não é necessário tratar a imagem antes do upload.

3. Reconhecimento contextual. O modelo analisa o documento inteiro, não letra por letra. Isso permite reconhecer palavras parcialmente legíveis pelo contexto — se o documento é uma escritura e a palavra parece "comp_a e ve_da", o modelo infere "compra e venda".

4. Texto pesquisável. O conteúdo extraído é indexado para busca. Mesmo com taxa de reconhecimento de 80%, o documento se torna localizável por termos relevantes.

Dicas práticas para digitalização de manuscritos

Se você está planejando digitalizar acervos manuscritos, alguns cuidados melhoram significativamente os resultados:

Iluminação uniforme. Sombras são o maior inimigo do OCR. Use iluminação difusa, sem pontos de luz direta que criem reflexos no papel.

Resolução adequada. 300 DPI é o mínimo para manuscritos. Para documentos muito deteriorados ou com caligrafia miúda, 400 DPI faz diferença.

Abertura do livro. Livros encadernados que não abrem completamente geram distorção nas margens internas. Scanners planetários (com câmera sobre o livro) são melhores que scanners de mesa para livros antigos.

Não tente limpar o documento antes. Limpeza manual pode causar mais dano. O pré-processamento digital resolve melhor do que borracha ou solvente.

O resultado que importa

O objetivo não é 100% de precisão em cada caractere. É tornar o documento localizável. Um livro de registro de 1960 que antes exigia abrir o volume físico, folhear manualmente e ler cada página pode agora ser encontrado por uma busca como "escritura de compra e venda do imóvel na Rua São João, 1962".

Isso muda a operação de uma serventia. Muda o tempo de atendimento. Muda a capacidade de cumprir os provimentos do CNJ. E preserva o acervo — porque quanto menos o livro físico é manuseado, mais ele dura.

Conheça o OCR do Notoria para cartórios e teste com documentos do seu próprio acervo.