Início do conteúdo

Ferramentas OCR – entenda o que são e sua relação com a acessibilidade


ícone com o texto OCR

As ferramentas de Reconhecimento Óptico de Caracteres (Optical Character Recognition), popularmente conhecidas pela sigla OCR, permitem converter tipos diferentes de documentos digitalizados em dados pesquisáveis ou editáveis, ou seja, convertem imagens de texto em texto real.

Para entender melhor o funcionamento de uma ferramenta OCR, imagine que você deseja digitalizar algumas páginas de um livro. Para realizar essa tarefa, podemos utilizar um scanner ou até mesmo a câmera de um celular. Pronto, as páginas já estão disponíveis em um arquivo digital no formato PDF ou de imagem.

Agora, suponha que essas páginas digitalizadas serão enviadas por e-mail para um grupo de usuários que necessitará editar as informações. Entre os destinatários existe uma pessoa cega que utiliza um leitor de tela. Ao receber o arquivo, nenhum dos destinatários conseguirá editar o documento e, o usuário cego, em especial, não conseguirá nem ao menos ler o seu conteúdo, pois o material é uma imagem ou um PDF de imagem, e seu leitor de tela não conseguirá interpretar tal formato, existindo assim uma grave barreira de acessibilidade ao conteúdo.

Essa situação ocorre porque a simples digitalização de um documento não é suficiente para disponibilizar as informações em um formato editável, ou seja, em formato textual, que poderia ser facilmente editado e também interpretado por um leitor de tela. Por isso, após digitalizar qualquer documento que contenha texto, necessitaremos de um software OCR que irá extrair o conteúdo da imagem, transformando-a em texto e permitindo o acesso ao conteúdo original do documento por qualquer usuário.

A ferramenta OCR funciona analisando o documento e comparando seus caracteres com fontes armazenadas em seu banco de dados e/ou reconhece características típicas de determinado caractere. De maneira bem simples, um OCR é um programa que reconhece caracteres, transformando imagens de texto em texto puro.

Mas onde encontramos ferramentas OCR? Ao falar de OCR, uma das dúvidas mais frequentes é como encontrar essa ferramenta e se existem opções gratuitas.

Primeiramente, ao digitalizar um documento em uma impressora, devemos verificar se ela já oferece uma opção de OCR. Algumas impressoras por padrão já possuem essa ferramenta, permitindo que, ao digitalizar um documento, o mesmo já passe pelo reconhecimento de caracteres e seja gerado um arquivo em formato de texto editável.

Se sua impressora não possuir OCR essa não é a única maneira de tornar um documento digitalizado mais acessível. Abaixo seguem algumas opções gratuitas de OCR:

Existem também ferramentas OCR pagas para os que desejam investir e ter disponível um maior número de funcionalidades. Alguns exemplos são:

Além das opções para desktop e serviços de OCR online, também existem ferramentas para serem utilizadas em tablets e smartphones, como:

Por fim, é importante entender que essas ferramentas nem sempre realizam o reconhecimento de forma correta. Assim, quando o documento original não tiver uma boa resolução, contiver imagens de fundo, apresentar um tamanho de fonte muito pequeno ou um tipo de fonte cursiva, em itálico ou decorada, por exemplo, é provável que a ferramenta OCR se “engane”, trocando alguns ou muitos caracteres. Por isso, é essencial realizarmos uma revisão em todo o documento uma vez que ele tenha sido transformado em texto. Além disso, caso o arquivo contenha imagens que transmitam conteúdo, será necessário descrevê-las para fornecer um maior nível de acessibilidade ao documento – veja boas práticas para a descrição de imagens.

Fim do conteúdo