Un CAPTCHA es una de esas imágenes de palabras distorsionadas que muchas webs y blogs nos piden que descifremos para registrarnos o escribir un comentario. Su finalidad es distinguir si el usuario es humano o una máquina, para evitar los “bots”, los programas que generan spam de forma automática.
Cada día se “resuelven” unos 60 millones de CAPTCHAs. Si sumamos los segundos que cada uno de nosotros empleamos en ello, resulta que entre todos consumimos unas 150.000 horas diarias descifrando CAPTCHAs.
reCAPTCHA es un proyecto de la School of Computer Science (Carnegie Mellon University) que canaliza todo ese esfuerzo humano para corregir los errores de digitalización de los textos escaneados con OCR.
OCR (Optical Character Recognition) es un programa que convierte en texto lasimágenes escaneadas de las páginas de un libro. Pero no es perfecto, y muchas veces confunde los caracteres, introduciendo errores. En estos casos, el programa lanza una alerta cuando no puede leer una palabra, y es aquí cuando empieza la labor de corrección de reCAPTCHA.
reCAPTCHA ayuda a a mejorar la digitalización de libros enviando a la web estas palabras ilegibles en forma de CAPTCHAs, para que los humanos las descifren.
Sin embargo, si OCR no sabe cómo leer las palabras que luego se convierten en CAPTCHAs, ¿cómo sabe el sistema si el usuario ha dado la respuesta acertada? Las palabras son dadas al usuario en conjunción con otras que el sistema sí conoce. Si el usuario descifra correctamente ésta, el programa asume que también es correcta la otra. Para verificarlo, esta imagen se envía de nuevo a un número indeterminado de personas, y si sus respuestas coinciden el sistema validará la palabra sobre la que OCR dudaba.
reCAPTCHA colabora habitualmente con Internet Archive, que lleva a cabo una importante tarea de digitalización de libros. La ayuda de los usuarios es fundamental para poder llevar a cabo su objetivo, por lo que pide a todos aquellos que estén interesados en colaborar que instalen sus plugins de reCAPTCHA en sus webs o que utilicen su sistema Mailhide como método para reducir el spam.
reCaptcha, un sistema que te involucra en la digitalización de libros…
Un CAPTCHA es una de esas imágenes de palabras distorsionadas que muchas webs y blogs nos piden que descifremos para registrarnos o escribir un comentario. reCAPTCHA ayuda a a mejorar la digitalización de libros enviando a la web estas palabras ilegi…