Google detiene el proyecto News Archive de digitalización de periódicos

Por Beat.cat el 25.05.2011
0 Comentarios

Portada del diario L'Abeille Canadienne, Québec, del 7 de diciembre de 1833

Google ha enviado (19/05/2011) un correo electrónico a los periódicos estadounidenses con los que se había asociado -entre ellos el Boston Phoenix- informando que detienen el proyecto News Archive y que a partir de ahora ya no aceptarán microfilmes ni otros documentos provenientes de hemerotecas de diarios para ser escaneados e indexados.

El proyecto News Archive nació con el objetivo de crear un servicio de búsqueda de noticias históricas digitalizadas e indexadas publicadas en los diarios, de manera similar al proyecto de digitalización de libros Google Books. Se iniciaba en 2006 con la digitalización del New York Times y del Washington Post, y dos años más tarde se expandió e incorporaba importantes mejoras como la búsqueda a los textos originales digitalizados a partir de su formato original y una línea del tiempo que muestra toda la información relevante sobre un tema publicada a lo largo del tiempo. Los usuarios podrán seguir consultando el archivo de periódicos digitalizados, pero Google no tiene intención de introducir nuevas funcionalidades al contenido digitalizado, y no está claro si continuarán con el proceso de indexación de los textos de los diarios digitalizados.

Google, que había llegado a un acuerdo para digitalizar los fondos de más de 2.000 diarios, lleva digitalizados 60 millones de páginas que cubren un periodo de 250 años. Eventualmente los periódicos y Google se tenían que repartir los beneficios para la visualización de páginas de los archivos. Esta asociación era especialmente interesante para periódicos pequeños y medianos, con presupuesto limitado para escanear e indexar su hemeroteca.

Aunque según los acuerdos los diarios pueden disponer de sus contenidos digitalizados, lo cierto es que el proceso más costoso no es tanto el escaneo en sí, sino convertir las imágenes en texto, indexar el contenido (distinguir entre lo que son titulares, textos, pies de foto, etc), unir artículos e historias que quedan separadas en páginas diferentes, solucionar cuestiones de copyright, y otras complicaciones inherentes al contenido periodístico que requieren supervisión humana.

Google indica que dedicará sus energías en otros nuevos proyectos relacionados con la industria de la prensa, como Google One Pass, una plataforma que permite a los editores de periódico vender contenido directamente desde las propias webs. Para más información sobre Google One Pass, os remitimos a este post.

Iolanda Bethencourt
Google atura el projecte News Archive de digitalització de diaris