Fundado en 1910
ALIA

ALIA

El Gobierno presume de Alia, pero la IA pública apenas sabe español

El volumen de datos en castellano y lenguas cooficiales del Estado que se ha utilizado para el entrenamiento tan solo alcanza el 20 %

El volumen de datos en castellano y lenguas cooficiales del Estado que se ha utilizado para el entrenamiento del modelo de lenguaje (LLM, 'large language model', en inglés) de inteligencia artificial (IA) impulsado por el Gobierno, denominado Alia, tan solo alcanza el 20 %, mientras que el 80 % restante lo conforman distintos idiomas, con predominio del inglés (39,31 %).

En concreto, el 16,12 % de los datos de entrenamiento del LLM están en castellano, mientras que el catalán alcanza el 1,97 % y el resto hasta alcanzar el 20 % lo conforman el gallego y el euskera, según figura en la documentación publicada.

La IA de Trump

Esto no debería ser algo sorprendente, el problema son las prisas del Gobierno por poner en marcha algo que puede llevar años de trabajo con el único interés de apuntarse el tanto en 2025. Montar una IA pública no es el objetivo de otros países, es más, la Administración Trump ha decidido invertir millones de dólares en empresas privadas dedicadas a la IA como OpenIA para que sean ellas las que mejoren el modelo y lo hagan más accesible.

Este 20 % de español con el que ha sido entrenada Alia contrasta con el mensaje lanzado el día de su presentación: «Para el Gobierno era prioritario desarrollar modelos de lenguaje en castellano, que es la cuarta lengua del mundo y la segunda más utilizada en Internet», subrayó la secretaria de Estado de Digitalización e Inteligencia Artificial, María González Veracruz.

Para el Gobierno era prioritario desarrollar modelos de lenguaje en castellanoMaría González VeracruzSecretaria de Estado de Digitalización e Inteligencia Artificial

En concreto, el corpus de preentrenamiento de ALIA comprende datos de 35 idiomas europeos y 92 lenguajes de programación.

A pesar de ello, fuentes del Ministerio para la Transformación Digital y de la Función Pública han defendido que Alia está entrenado con un mayor porcentaje de datos en castellano y lenguas cooficiales que el resto de modelos comerciales.

Peso del castellano

En ese sentido, desde la cartera que dirige Óscar López se defiende y asegura que busca elevar el peso del castellano y de las lenguas cooficiales del Estado en este LLM, el cual sigue en desarrollo y con el que se busca que la «IA piense en castellano».

El Gobierno se cubre de su chapuza y desde la cartera de Transformación Digital apuntan que el objetivo de Alia no es competir con ChatGPT o aplicaciones similares cuando sí debería ser así en vista de los 1.500 millones de euros dedicados a la Estrategia de Inteligencia Artificial 2024.

Desde la cartera de Transformación Digital apuntan que el objetivo de Alia no es competir con ChatGPT

«Uno de los principales valores que creemos que tiene el modelo, y que además es claro que es una de las tendencias en 2025, no es tanto ser un chat grande y competir con lo que es evidente que no podemos competir –y no pretendemos competir– (en referencia a ChatGPT), sino la especialización en los pequeños modelos de lenguaje», han subrayado fuentes del ministerio.

Ámbito público

De hecho, ya están marcha dos proyectos para aplicar Alia en el ámbito público, en concreto, un chatbot interno para la Agencia Tributaria y otro, denominado Cardiomentor, ligado al sector sanitario y dirigido al ámbito de la atención primaria para el diagnóstico precoz de insuficiencias cardíacas mediante el «análisis avanzado de datos».

En esa línea, el Gobierno está trabajando para que cada ministerio tenga, al menos, un caso de uso concreto basado en Alia, una iniciativa que se enmarca en la estrategia nacional de inteligencia artificial.

Además, las fuentes de Transformación Digital también matizan que la inversión realizada hasta el momento en Alia asciende a tres millones de euros.

comentarios
tracking