OCR E A SEGURANÇA DOS DADOS por Marcelo Araújo

20.02.2024 16:00

Há tempos somos surpreendidos pelas facilidades proporcionadas pela Inteligência Artificial. Uma pesquisa realizada pela KPMG Australia e pela Universidade de Queensland indicou que o Brasil está entre os países que mais confiam nessa tecnologia, atrás apenas da Índia, China e África do Sul – não por coincidência, todos países emergentes. Todos os dias, são lançadas inovações capazes de impressionar os próprios entusiastas da IA.

Dentro desse contexto, a tecnologia OCR (sigla para “Optical Character Recognition” – reconhecimento óptico de caracteres, em português), vem encontrando uma larga avenida para crescer ao reconhecer e extrair textos de arquivos de diferentes origens. Aqui no Brasil e em todo o mundo, ela vem sendo amplamente utilizada como recurso para analisar as imagens e identificar os caracteres, transformando os dados em um formato que pode ser lido e pesquisado por softwares de texto.

Um exemplo de utilização é quando alguém tira fotos de um livro físico. O OCR é a tecnologia que possibilita transcrever o texto presente nas imagens para o Microsoft Word ou para o Google Docs, tornando prático um trabalho que antes era operacional e extremamente maçante. Todos os dias, vemos uma nova utilização para esta tecnologia, afinal, ela já faz parte da rotina dos mais diversos segmentos, como financeiro, varejo, e-commerce e marketplace, transportes e entregas, seguros, mobilidade urbana, telecom, entre outros setores. Se antes um dado levava dias para ser validado, hoje são apenas segundos ou minutos.

A OCR está sendo aplicada nos processos de cadastro de usuários, sejam colaboradores, clientes ou fornecedores, por meio de uma foto do seu documento de identidade ou cartão de crédito, por exemplo. Assim, é possível fazer a extração de dados e a verificação de documentos. Ou ainda, na gestão financeira, administrativa e até contábil, identificando as informações presentes em documentos, boletos, notas fiscais, comprovantes de pagamento, balancetes, etc.

A grande pergunta que o público leigo faz é se elas são, de fato, seguras, principalmente no que diz respeito aos dados coletados. A resposta é: claro que sim.

As ferramentas de OCR devem seguir regras e padrões de formatação válidos em todo o país, incluindo conformidade com a LGPD. Com a extração feita em tempo real, é definida a tipificação do documento e os dados contidos nele podem ser comparados com uma base confiável para avaliar discrepâncias. Essa é mais uma das camadas de prevenção mais importantes e capazes de barrar a ação de eventuais fraudadores.

Entre as possíveis ações que podem ocorrer após a extração OCR, está o armazenamento de dados (já que as informações extraídas podem ser guardadas para fácil acesso e referência futura). Elas também podem ser indexadas para facilitar a pesquisa e a recuperação rápida de informações específicas, o que é especialmente útil em grandes conjuntos de dados. Também existe a possibilidade de os dados extraídos serem analisados para obter insights, incluindo identificação de padrões, análise de tendências ou geração de relatórios estatísticos.

A OCR, no futuro, terá uma integração ainda mais abrangente com outras tecnologias além da IA, como Cloud Computing e Machine Learning. Essa junção permitirá a obtenção de resultados muito mais precisos e uma possibilidade de automação ainda maior. A expectativa é que as soluções de Reconhecimento Óptico de Caracteres desenvolvidas na nuvem possibilitem ainda mais fluidez com outras tecnologias, sobretudo por meio de APIs. Com isso, um grande número de tarefas diárias serão automatizadas, com alto índice de precisão, aumento da agilidade nos processos e significativa redução de custos.

—

*Marcelo Araújo é Diretor Comercial na Ebox Digital. Tem mais de 35 anos de experiência na área comercial com foco em vendas de produtos de tecnologia e serviços, executivo com atuação em clientes de médio e grande porte, destacando vivência em empresas de software, BPO, gestão eletrônica de documentos , ECM e BPM.