reCAPTCHA, un concepto muy ingenioso

Un CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) es un pequeño programa diseñado para distinguir a un ser humano de un robot informático. Se utiliza principalmente como medida de seguridad en procesos de registro online, por ejemplo cuando creas una cuenta de correo electrónico o te registras en un foro, y seguramente los habrás visto en multitud de ocasiones sin prestarle demasiada atención. La filosofía detrás del CAPTCHA es que ningún programa informático o robot es capaz de reconocer y descifrar fragmentos de texto distorsionados, pero sí los seres humanos.

reCAPTCHA es, digamos, la “reBomba” dentro del mundo de los CAPTCHA y quien ha ido más allá en su aplicación. Los responsables de este servicio gratuito, que partió de un proyecto de investigación de la universidad Carnegie Mellon, se dieron cuenta del enorme potencial que tenía disponer de millones de personas en todo el mundo resolviendo CAPTCHAs. De hecho, cada día se resuelven aproximadamente 200 millones de estos puzzles en todo el mundo. Cada código requiere una media de 10 segundos en ser descifrado, lo que genera en aproximadamente 150,000 horas de trabajo gratuito cada día… reCAPTCHA utiliza este impresionante potencial humano para «leer libros».

Existen en el mundo numerosos proyectos basados en la digitalización de millones de libros y documentos con el objetivo – al menos en teoría – de hacer toda esta información accesible a más gente. Los documentos se escanean digitalmente, y posteriormente se aplica un sistema de reconocimiento óptico de caracteres (OCR) para transformar las imágenes digitalizadas en texto. El problema es que la tecnología actual de reconocimiento óptico de caracteres no es perfecta, y de hecho falla con mucha frecuencia. Y aquí es donde entra reCAPTCHA; cuando el sistema de reconocimiento falla, es el ser humano – a través de los CAPTCHA – quien lo descifra. Piénsalo; cada vez que estás resolviendo un CAPTCHA para registrarte en algún sitio, realmente estás traduciendo un fragmento de un documento que las máquinas no han sabido descifrar por cualquier motivo. ¿Bastante ingenioso verdad?

Precisamente Google anunciaba ayer en su blog oficial la adquisición de reCAPTCHA por un importe que no ha sido hecho público. Sin duda esta compra contribuirá a la lucha contra el fraude, el correo basura y demás procesos nocivos automatizados en la red, pero también será una piedra angular en la cruzada que mantiene Google para digitalizar todo el conocimiento humano.

También resulta curioso pensar que cuando un usuario descifra un CAPTCHA para suscribirse, por ejemplo, al Financial Times realmente puede estar contribuyendo a digitalizar ediciones pasadas del periódico que algún día aparecerán en Internet. Genial.

Si quieres aprender más sobre este tema, recomiendo la lectura de este interesante artículo publicado en la revista Science.