Ciência & Tecnologia

Foto: Divulgação Tela mostrando um reCaptcha, que usa o mecanismo de segurança para decifrar palavras não entendidas pelo OCR Tela mostrando um reCaptcha, que usa o mecanismo de segurança para decifrar palavras não entendidas pelo OCR

Milhões de usuários de computadores estão digitalizando o equivalente a 160 livros diariamente com uma precisão superior a 99%, ainda que a maioria deles não saiba que está ajudando nesta tarefa gigantesca.

Captcha útil

O trabalho começou há cerca de um ano, quando pesquisadores da Universidade Carnegie Mellon, nos Estados Unidos, colocaram no ar o reCAPTCHA. CAPTCHA é o nome daquele monte de letras e números embaralhados que se deve digitar para se cadastrar em um site ou para confirmar o envio de um correio eletrônico.

Em vez de ser uma mera medida de segurança que os sites utilizam para evitar a ação de spammers, o reCAPTCHA mostra palavras de verdade capturadas de livros por meio de scanners e que não puderam ser interpretadas pelas ferramentas de reconhecimento de caracteres, os chamados OCR (Optical Character Recognition).

Reconhecimento de palavras

Mas como o programa sabe que o usuário digitou a palavra correta? O sistema funciona assim: o software do reCAPTCHA pega uma palavra conhecida e outra que não foi reconhecida pelo OCR, e apresenta ambas ao usuário. Se o usuário interpretou corretamente a primeira, o programa assume que a segunda também foi interpretada corretamente. O mesmo conjunto é apresentado seguidamente a vários usuários, até que, estatisticamente, ele tenha certeza de que a palavra foi mesmo reconhecida.

Milhares de sites ao redor do mundo já adotaram o reCAPTCHA, que é gratuito. Durante seu primeiro ano de funcionamento, 1,2 bilhão de captchas foram resolvidos e mais de 440 milhões de palavras foram corretamente decifradas. Isso equivale à digitalização de 17.600 livros.

 

Fonte: Inovação Tecnológica

 

Por: Redação

Tags: Digitalização, E-book, Mundo Digital