Noticia Debian debate el futuro de los modelos de IA en su ecosistema

debian-gnu-linux


Debian ha dado a conocer que ha abierto una nueva resolución general (GR) para que sus desarrolladores decidan si los modelos de IA (inteligencia artificial) pueden formar parte del repositorio principal, y en qué condiciones.

Aunque la fase de votación aún no ha comenzado, ya está en marcha el período de discusión entre los desarrolladores del proyecto, quienes decidirán el rumbo que tomará Debian en relación con los modelos de aprendizaje automático. En esta votación están habilitados para participar alrededor de mil desarrolladores con derechos de voto, responsables del mantenimiento de paquetes y de la infraestructura general del proyecto.

En el centro del debate se encuentra una cuestión: ¿pueden considerarse realmente libres los modelos de IA distribuidos bajo licencias abiertas si no se incluyen los datos y herramientas necesarios para entrenarlos desde cero? La propuesta en discusión sostiene que no, y plantea que estos modelos son incompatibles con las directrices de software libre de Debian (DFSG). De aprobarse, tales modelos quedarían excluidos del repositorio principal, sin que se contemple (al menos por ahora) su inclusión en secciones como non-free.

Las objeciones apuntan a un punto central del software libre: la capacidad de modificar, estudiar y mejorar un programa. En el caso de los modelos de IA, esto solo sería posible si se tiene acceso a los datos de entrenamiento y a las herramientas empleadas en su construcción. Sin esos elementos, argumentan los proponentes de la resolución, modificar un modelo es en la práctica casi imposible. Incluso acciones sencillas, como cambiar un tokenizador para añadir soporte a nuevos idiomas, se vuelven una tarea hercúlea si no se puede reproducir el proceso de entrenamiento.

Riesgos legales y de seguridad​


Las preocupaciones no son únicamente sobre la filosofía y ética de la distribucion, ya que también se plantean serias implicaciones de seguridad. La opacidad que genera la ausencia de datos fuente impide verificar la legalidad de los datos utilizados en el entrenamiento. Esto abre la puerta a posibles infracciones de licencias, por ejemplo, si se utilizaron datos bajo GPL sin la debida atribución y hace imposible determinar si el modelo fue entrenado con información confidencial o protegida por derechos de autor.

Además, sin acceso al material de origen, detectar errores o vulnerabilidades, se vuelve una tarea casi exclusiva del autor original. Esto incrementa la dependencia del usuario hacia un proveedor concreto y complica la implementación de parches o correcciones. Peor aún, imposibilita auditar adecuadamente el modelo, por lo que podrían pasar inadvertidas puertas traseras o sesgos ocultos en su comportamiento.

El debate en la comunidad del código abierto​


La cuestión sobre qué significa realmente que un sistema de IA sea «abierto» se está discutiendo intensamente en todo el ecosistema del software libre y no solo en Debian. En octubre de 2023, la Open Source Initiative (OSI) publicó una definición tentativa de lo que debería considerarse una IA de código abierto. Esta definición establece que un sistema de IA debe permitir su uso, estudio, modificación y redistribución sin restricciones, e incluye requisitos como la documentación completa del modelo, los datos empleados y la metodología de entrenamiento.

No obstante, la definición de la OSI no exige la publicación de los datos de entrenamiento como tal, sino solo «información detallada» sobre ellos. Esta omisión ha sido duramente criticada por organizaciones como la SFC, que argumentan que sin los datos originales, las libertades fundamentales de modificar y estudiar no pueden ejercerse plenamente.

Desde la OSI se reconoce este punto, pero justifican su decisión en base a realidades prácticas: muchos de los datos usados en el entrenamiento de modelos modernos están sujetos a licencias comerciales, contienen información sensible o simplemente no pueden ser redistribuidos legalmente. Incluir una cláusula que exija su publicación, sostienen, convertiría a todos los modelos existentes en incompatibles con cualquier definición de apertura, dejando al concepto de IA libre en un limbo inalcanzable.

¿Qué camino tomará Debian?​


La resolución que ahora se discute en Debian podría tener un efecto de gran alcance de ser aprobada, ya que marcaría una postura firme: sin datos de entrenamiento ni herramientas para reproducir el modelo, no hay libertad real, y por tanto, no hay cabida en el núcleo de Debian. Esta interpretación estricta de la libertad podría obligar a excluir de la distribución principal a numerosos modelos ampliamente utilizados, incluyendo algunos desarrollos académicos o empresariales que, aunque publicados bajo licencias abiertas, no cumplen con este estándar de transparencia y reproducibilidad.

La decisión que tomen los desarrolladores de Debian podría sentar un precedente en el software libre y definir el nivel de exigencia que deben cumplir los sistemas de inteligencia artificial para ser considerados verdaderamente libres.

Finalmente, si estás interesado en poder conocer más al respecto, puedes consultar los detalles en el siguiente enlace.

Continúar leyendo...