reCAPTCHA, una nueva forma de combatir el SPAM

recaptcha_logo.jpgEn muchas ocasiones cuando te registras en algún servicio en internet, el formulario de registro lleva incorporado un sistema que permite determinar si el que está rellenando el formulario es una persona o una máquina. El sistema es muy simple: introducir una serie de letras o números que se ven en una imagen. Los CAPTCHAs (que es nombre que recibe este sistema) es utilizado por muchos sitios web para prevenir abuso de “bots” o de programas automatizados escritos generalmente para generar el SPAM.

Hasta aquí la teoría de los CAPTCHAs, pero ¿que és reCAPTCHA? reCAPTCHA es un sistema que nos permitirá hacer lo mismo que un CAPTCHA pero con la diferencia de que contribuiremos a digitalizar libros de texto.

Mas teoría: para archivar el conocimiento y para que la información sea accesible por todo el mundo, existen proyectos que están digitalizando libros de texto (los cuales no tienen una versión digital). Las páginas son escaneadas y un sistema de reconocimiento óptico de caracteres (llamado OCR) interpreta la imagen de las palabras y la transforma en texto digital, de esta forma se puede almacenar e indexar mejor (a diferencia de guardar una imagen que requiere mas espacio y además no permite realizar búsqueda por texto). El problema es que el OCR no es perfecto y en ocasiones no es capaz de reconocer una palabra, es entonces donde entra en marcha el proyecto de reCAPTCHA.

reCAPTCHA te mostrará dos palabras que se extraen del sistema de digitalización: una de ellas es reconocida por el OCR y la otra no, entonces si eres capaz de introducir correctamente la palabra reconocida, se asume que la otra palabra la has escrito bien, de esta forma contribuyes a reconocer la palabra que el OCR no ha sido capaz de hacerlo. La palabra no reconocida es mostrada a varios usuarios para verificar y contrastar el resultado.

Lo bueno de este sistema es que es gratuito y puedes registrarte en su web.