Wikipedia en el Aula
Al fin llegó a mis manos una copia de los DVDs que educ.ar editó usando CDPedia, el proyecto de software libre que comprime lo máximo posible de Wikipedia en un disco.
Gracias a la gestión de Jimmy Wales y Martín Varsavsky estos DVDs de 8.5Gb están siendo distribuidos a todas y cada una de las escuelas de Argentina, y contienen el 100% de los artículos de la Wikipedia en Español y el 100% de sus imágenes respectivas (algunas en tamaño reducido), y vale la pena aclarar, tienen también cualquier error o vandalismo que pueda haber habido en Wikipedia al momento en que bajamos cada página.
Este post es para festejar que se completa el círculo, asi que voy a contar la historia de como se llevó a cabo, y voy a terminar con algunas ideas que tenemos para la próxima etapa.
Historia del proyecto
Nuestro proyecto CDPedia nació cerca del 2006, con la idea de llevar el conocimiento acumulado en Wikipedia a las escuelas más remotas del país: aquellas donde no llega Internet.
Entre varios colaboradores del grupo de usuarios de Python de Argentina nos juntamos en varios sprints ocasionales tras algun evento de software libre, donde trabajamos para mejorar el código. Como todo proyecto amateur que arranca, CDPedia fue desarrollada en el tiempo libre de cada colaborador, y lanzamos una primera versión 0.5 en 2009, durante la primera conferencia PyCon en Argentina, que fue realizada justo una semana después de Wikimanía en Buenos Aires.
Algo muy raro sucedió a fines de 2009: recibí un mail de Jimmy Wales, que venía a Buenos Aires al mes siguiente y quería conocer más sobre nuestro proyecto. Nos reunimos con él, le mostramos la versión 0.6 en la que estabamos trabajando y nos elogió porque el resultado era muy similar a estar mirando Wikipedia conectado. Y ese mismo día tuve una reunión con él y con educ.ar, el portal educativo del estado argentino, que a través de un aporte de la Fundación Varsavsky estaba en condiciones de editar un DVD doble capa con una edición de CDPedia.
Durante la reunión charlamos las cosas que hacían falta para lograr una edición interesante: había que probar CDPedia en muchas computadoras relativamente “viejas”, tal como son las computadoras que se pueden encontrar en las escuelas del país, faltaban corregir muchos bugs, y lo más importante de todo: por problemas técnicos la Fundación Wikimedia había dejado de publicar los “dumps HTML” que nuestro proyecto aprovechaba como base. El último era de Junio de 2008 y todos acordamos que no tenía sentido editar un DVD en 2010 con contenido tan desactualizado.
Asi fue como conseguimos que se financien dos becarios de PyAr durante tres meses para corregir bugs y pulir todo los detalles técnicos. Pero por más que probamos por varios canales y de diversas maneras no conseguimos un dump HTML actualizado similar al que veníamos utilizando, por lo que se gastaron las horas asignadas a los becarios para armar una replica del software de wikimedia a partir de los dumps de bases de datos que Wikimedia si proveía en ese entonces. Este camino tampoco dio resultado, porque hay muchos detalles de configuración y de performance que se nos escapaban y nuestra instalación de prueba de Wikipedia nunca funcionaba bien.
El proyecto estaba demorado, estabamos enojados y desesperanzados, cuando, en el asado de PyCon en Octubre de 2010, uno de nuestros colaboradores sugirió hacer un programa para descargar completamente Wikipedia, página por página, directamente desde su casa. Sobre esta opción se había bromeado en una reunión organizativa de fines de Mayo. Nuestra reacción fue de incredulidad: había muchas cosas que podían fallar con esa idea pero, como suele pasar, el código le gana a la opinión: dos días más tarde SAn había conseguido por un camino alternativo un dump en HTML de Wikipedia en Español, algo que no habíamos logrado en meses de esfuerzos.
A partir de ahí estuvimos trabajando bastante en actualizar nuestro código debido a todos los detalles que habían cambiado en Wikipedia desde 2008, y en optimizar el espacio en disco porque el crecimiento de páginas e imágenes había sido exponencial. Conseguimos enviar la versión final a educ.ar a fin de Junio de 2011 y estuvimos trabajando luego para que las carátulas y el disco tuvieran alguna leyenda que incentivara la posibilidad de copiar el disco libremente, dentro de las limitaciones de las licencias de cada parte: el contenido principal de Wikipedia, el material para el aula realizado por educ.ar y el software libre de CDPedia.
Debo mencionar en este punto a Diego Mascialino, Facundo Batista y Santiago Piccinini por la cantidad de horas que le dedicaron en la recta final para la versión 0.7 que se utilizó en el disco de educ.ar, y a todos los colaboradores que a lo largo de la vida de CDPedia aportaron código e ideas. Haber puesto mi granito de arena en este proyecto junto a mis amigos de Python Argentina me llena de orgullo.
Mirando para adelante
Y también este es un buen momento para ponernos a pensar en algunas cosas en las que tenemos que trabajar de acá al futuro para que CDPedia 1.0 sea mucho mejor:
- que pueda ser instalada en servers escolares que no tengan acceso a Internet o donde el acceso sea limitado, ya que actualmente fuciona bien para un solo usuario
- una version para instalaciones locales, para laptops educativas como las del plan Conectar Igualdad o las de OLPC
- conseguir que CDPedia pueda ser utilizada en otros países hispanoparlantes
- trabajar en conjunto con la Fundación Wikimedia para que pueda ser utilizada en ediciones offline de Wikipedia en otros idiomas.
Enlaces:
- descargar CDPedia version en CD o DVD
- repositorio con el código para programadores interesados en colaborar
- Artículos sobre el proyecto en los blogs de Jimmy Wales y Martín Varsavsky

