Los modelos de lenguaje de IA (LLMs) han aterrizado con fuerza en la agenda de soberanía digital de Europa. La gran novedad es el lanzamiento de un nuevo programa para desarrollar una serie de LLMs «realmente» de código abierto, compatibles con todos los idiomas de la Unión Europea.
Esto incluye los 24 idiomas oficiales actuales de la UE, además de lenguas de países que están en proceso de negociación para entrar en el mercado europeo, como Albania. El objetivo es que estos modelos sean a prueba de futuro.
El proyecto, llamado OpenEuroLLM, es una colaboración entre unas 20 organizaciones y está liderado por Jan Hajič, lingüista computacional de la Universidad Charles de Praga, y Peter Sarlin, CEO y cofundador del laboratorio de IA finlandés Silo AI, que AMD adquirió el año pasado por 665 millones de dólares.
Europa pisa el acelerador en la IA
Esta iniciativa forma parte de una estrategia más amplia en la que Europa está priorizando su soberanía digital. Cada vez más gigantes tecnológicos están invirtiendo en infraestructura local para garantizar que los datos de la UE se queden dentro del territorio europeo. OpenAI, por ejemplo, acaba de lanzar una oferta especial que permite a sus clientes almacenar y procesar datos en Europa.
Por otro lado, la UE también firmó recientemente un acuerdo de 11.000 millones de dólares para crear una constelación de satélites propia, compitiendo con el Starlink de Elon Musk.
Así que OpenEuroLLM encaja perfectamente en esta estrategia.
¿Presupuesto suficiente para competir?
El problema es que el presupuesto asignado solo para la construcción de estos modelos es de 37,4 millones de euros, de los cuales 20 millones provienen del programa Digital Europe de la UE. En comparación con las cifras que manejan las grandes corporaciones de IA, esta cantidad es casi insignificante.
Sin embargo, el presupuesto real es mayor si se incluyen fondos adicionales para tareas relacionadas. Y el mayor gasto no es el desarrollo en sí, sino la potencia de cálculo. Para eso, OpenEuroLLM cuenta con el respaldo de los centros de supercomputación EuroHPC en España, Italia, Finlandia y los Países Bajos. En total, el proyecto EuroHPC tiene un presupuesto de unos 7.000 millones de euros.
Aun así, hay dudas sobre si la participación de tantas entidades, desde universidades hasta empresas, podría ralentizar el avance del proyecto. Anastasia Stasenko, cofundadora de la empresa de IA Pleias, cree que la clave del éxito en IA en Europa han sido equipos pequeños y enfocados, como Mistral AI y LightOn.
¿Un nuevo proyecto o un punto de partida?
OpenEuroLLM no empieza desde cero. Desde 2022, Hajič coordina el proyecto High Performance Language Technologies (HPLT), enfocado en la creación de datasets, modelos y herramientas reutilizables. Este proyecto finalizará en 2025 y es considerado un precursor de OpenEuroLLM.
«No estamos comenzando de cero en términos de datos, experiencia, herramientas y computación», asegura Hajič. Se espera que las primeras versiones del modelo se publiquen en 2026 y las versiones finales en 2028. Sin embargo, a día de hoy, lo único que se puede ver es un perfil básico en GitHub.
El consorcio OpenEuroLLM incluye entidades de Chequia, Países Bajos, Alemania, Suecia, Finlandia y Noruega, además de empresas como Silo AI (propiedad de AMD), Aleph Alpha (Alemania), Ellamind (Alemania), Prompsit (España) y LightOn (Francia). Curiosamente, Mistral AI, el unicornio francés que se ha posicionado como la alternativa open source a OpenAI, no forma parte del proyecto.
¿De verdad será open source?
El debate sobre qué significa realmente «open source» en IA sigue en el aire. Según la Open Source Initiative (OSI), no es obligatorio que los modelos de IA compartan los datos de entrenamiento, ya que muchos se basan en información propietaria.
Hajič insiste en que el objetivo es que OpenEuroLLM sea completamente abierto, aunque reconoce que hay restricciones. «Usaremos cualquier dato permitido por la directiva europea de copyright. Algunos datos no podrán redistribuirse, pero sí almacenarse para futuras auditorías, tal y como exige la ley de IA de la UE.»
¿Un proyecto duplicado?
Algunos críticos han señalado que OpenEuroLLM se parece mucho a otro proyecto financiado por la UE: EuroLLM. Esta iniciativa, lanzada en septiembre de 2023, también busca desarrollar modelos de lenguaje para los 24 idiomas oficiales de la UE y algunos adicionales.
André Martins, investigador de Unbabel (una de las empresas participantes en EuroLLM), criticó en redes sociales que OpenEuroLLM está reutilizando un nombre que ya existía. «Espero que las distintas comunidades colaboren y no intenten reinventar la rueda cada vez que un nuevo proyecto recibe financiación», escribió.
Hajič espera que haya cooperación entre ambas iniciativas, aunque admite que OpenEuroLLM tiene restricciones de colaboración con entidades fuera de la UE, como universidades británicas.
¿Suficiente dinero para competir con los gigantes de la IA?
El reciente lanzamiento de DeepSeek en China ha demostrado que es posible crear modelos de IA de calidad con menos recursos de lo que se pensaba. Sin embargo, los detalles sobre los costes reales de DeepSeek son desconocidos.
Peter Sarlin, co-líder técnico de OpenEuroLLM, cree que la financiación es suficiente porque la mayor parte del coste en IA proviene del uso de supercomputadoras, y eso ya está cubierto gracias a EuroHPC. Además, el objetivo de OpenEuroLLM no es crear un producto final como un chatbot o un asistente de IA, sino modelos base que las empresas europeas puedan utilizar.
«Sabemos lo que se necesita para construir modelos de IA, no es necesario gastar miles de millones», asegura Sarlin.
Desde 2017, Sarlin ha liderado el laboratorio de IA Silo AI, que ya ha lanzado modelos open source como Poro y Viking. Ahora, están preparando los modelos «Europa», que abarcarán todos los idiomas europeos.
IA soberana para Europa
A pesar de las críticas, OpenEuroLLM representa un paso importante hacia la independencia digital de Europa. Hajič cree que la combinación de experiencia académica y enfoque empresarial puede ser una fórmula ganadora.
«No intentamos competir con OpenAI o Mistral», afirma. «Si al final no creamos el mejor modelo del mundo, pero logramos un modelo sólido con todos sus componentes en Europa, ya será un gran avance.»