Fundado en 1910
DeepSeek puede ser producto de la destilación de ChatGPT

DeepSeek puede ser producto de la destilación de ChatGPTCR

¿Qué es la destilación del conocimiento? El método de DeepSeek para plagiar ChatGPT

Una técnica habitual en el campo del aprendizaje computacional ha podido abrir una vía crucial para los modelos de IA en el futuro

OpenAI ha acusado a la empresa china DeepSeek de utilizar la técnica de la destilación para entrenar sus modelos de inteligencia artificial. Según OpenAI, DeepSeek habría empleado este sistema para replicar las capacidades de sus modelos.

La destilación de conocimiento es una técnica en el campo del aprendizaje automático que permite transferir el conocimiento de un modelo grande y complejo, conocido como «modelo profesor», a otro más pequeño y eficiente, denominado «modelo estudiante». Este proceso busca que el modelo estudiante reproduzca el comportamiento del profesor, manteniendo un rendimiento similar pero con menores requerimientos computacionales.

El éxito de la destilación

En 2023, Dave Bergmann escribió en la web de IBM un amplio artículo sobre la destilación donde aseguraba que «el concepto tiene sus orígenes en un artículo de 2006 titulado Model Compression» y que «desde entonces, las técnicas de destilación del conocimiento se han empleado con éxito en diversos campos, incluido el procesamiento del lenguaje natural (PLN), el reconocimiento de voz, el reconocimiento de imágenes y la detección de objetos. En los últimos años, el estudio de la destilación del conocimiento ha sido de particular importancia para los modelos de lenguaje de gran tamaño (LLM). Para los LLM, KD se ha convertido en un medio eficaz para transferir capacidades avanzadas de los principales modelos propietarios a modelos de código abierto más pequeños y accesibles».

La destilación de conocimiento se ha convertido en una herramienta para desarrollar modelos de IA más accesibles y eficientes, especialmente en dispositivos con limitaciones de hardware. Sin embargo, su aplicación también plantea dudas éticas y legales cuando se utilizan modelos propietarios como base para entrenar nuevos sistemas como puede haber sucedido en este caso.

Sin rastro

El rastro de destilación que han podido encontrar desde OpenIA quizá se deba al modelo de código abierto de DeepSeek. El propio Bergmann aseguraba hace dos años que «Una vez que el modelo está entrenado y listo para la inferencia, todos estos clasificadores superficiales se eliminan del modelo. Básicamente, esto permite que el modelo sea más grande y tenga mayor capacidad de reconocimiento de patrones durante el entrenamiento, pero luego sea más pequeño y, en consecuencia, más rápido y eficiente cuando se implemente».

La destilación alcanza otro nivel cuando se habla de la autodestilación

La destilación alcanza otro nivel cuando se habla de la autodestilación. El autor comenta en su artículo que «en la autodestilación, una red actúa como profesor y alumno. Mientras que la destilación convencional del conocimiento implica la transferencia de conocimientos de un modelo a otro, la autodestilación se puede entender como la transferencia de conocimientos de las capas más profundas de una red a las mismas capas poco profundas».

5
comentarios
tracking