sábado, 23 de agosto de 2008

Usuários de computadores estão digitalizando livros sem saber

Milhões de usuários de computadores estão digitalizando o equivalente a 160 livros diariamente com uma precisão superior a 99%, ainda que a maioria deles não saiba que está ajudando nesta tarefa.
O trabalho começou há cerca de um ano, quando pesquisadores da Universidade Carnegie Mellon, nos Estados Unidos, colocaram no ar o reCAPTCHA.
CAPTCHA é o nome daquele monte de letras e números embaralhados que se deve digitar para se cadastrar em um site ou para confirmar o envio de um correio eletrônico.
Em vez de ser uma mera medida de segurança que os sites utilizam para evitar a ação de spammers, o reCAPTCHA mostra palavras de verdade capturadas de livros por meio de scanners e que não puderam ser interpretadas pelas ferramentas de reconhecimento de caracteres, os chamados OCR (Optical Character Recognition).
Reconhecimento de palavras
Mas como o programa sabe que o usuário digitou a palavra correta? O sistema funciona assim: o software do reCAPTCHA pega uma palavra conhecida e outra que não foi reconhecida pelo OCR, e apresenta ambas ao usuário. Se o usuário interpretou corretamente a primeira, o programa assume que a segunda também foi interpretada corretamente. O mesmo conjunto é apresentado seguidamente a vários usuários, até que, estatisticamente, ele tenha certeza de que a palavra foi mesmo reconhecida.
Milhares de sites ao redor do mundo já adotaram o reCAPTCHA, que é gratuito. Durante seu primeiro ano de funcionamento, 1,2 bilhão de captchas foram resolvidos e mais de 440 milhões de palavras foram corretamente decifradas. Isso equivale à digitalização de 17.600 livros.

Fonte:http://www.clicrbs.com.br/especiais/jsp/default.jsp?template=2095.dwt&newsID=a2133259.htm&tab=00052&order=datepublished&espid=56&section=Not%EDcias&subTab=04439

Nenhum comentário: