Introducción a DeepSeek
El mercado de inteligencia artificial, así como el mercado de valores en general, se vio sacudido el lunes por la repentina popularidad de DeepSeek, un modelo de lenguaje grande de código abierto desarrollado por un fondo de cobertura con sede en China que ha superado a OpenAI en algunas tareas mientras cuesta mucho menos.
¿Por qué funciona DeepSeek tan bien?
Resulta que es un enfoque amplio dentro de las formas de inteligencia artificial de aprendizaje profundo para obtener más de los chips de computadora aprovechando un fenómeno conocido como “espacialidad”. La espacialidad se presenta de muchas maneras. A veces, implica eliminar partes de los datos que la inteligencia artificial utiliza cuando esos datos no afectan materialmente la salida del modelo de inteligencia artificial. En otras ocasiones, puede implicar cortar partes enteras de una red neuronal si hacerlo no afecta el resultado final. DeepSeek es un ejemplo de lo último: uso parsimonioso de redes neuronales.
La espacialidad y su papel en la inteligencia artificial
La capacidad de utilizar solo algunos de los parámetros totales de un modelo de lenguaje grande y apagar el resto es un ejemplo de espacialidad. Esa espacialidad puede tener un impacto significativo en el tamaño o la pequeñez del presupuesto de computación para un modelo de inteligencia artificial. Los investigadores de inteligencia artificial en Apple, en un informe publicado la semana pasada, explican cómo DeepSeek y enfoques similares utilizan la espacialidad para obtener mejores resultados para una cantidad determinada de potencia de computación.
La investigación sobre la espacialidad
En el artículo, titulado “Parámetros vs FLOPs: Leyes de escalabilidad para la espacialidad óptima para modelos de lenguaje de mezcla de expertos”, publicado en el servidor de preimpresión arXiv, el autor principal Samir Abnar de Apple y otros investigadores de Apple, junto con el colaborador Harshay Shah de MIT, estudiaron cómo variaba el rendimiento a medida que explotaban la espacialidad apagando partes de la red neuronal. Abnar y su equipo realizaron sus estudios utilizando una biblioteca de código publicada en 2023 por investigadores de inteligencia artificial en Microsoft, Google y Stanford, llamada MegaBlocks. Sin embargo, hacen claro que su trabajo es aplicable a DeepSeek y otras innovaciones recientes.
Optimización de la inteligencia artificial con menos parámetros
Abnar y su equipo preguntan si hay un nivel “óptimo” para la espacialidad en DeepSeek y modelos similares, es decir, para una cantidad determinada de potencia de computación, ¿hay un número óptimo de esos pesos neuronales para encender o apagar? Resulta que se puede cuantificar completamente la espacialidad como el porcentaje de todos los pesos neuronales que se pueden apagar, con ese porcentaje acercándose pero nunca igualando el 100% de la red neuronal que es “inactiva”. Y resulta que para una red neuronal de un tamaño determinado en parámetros totales, con una cantidad determinada de computación, se necesitan menos y menos parámetros para lograr la misma o mejor precisión en una prueba de benchmark de inteligencia artificial, como matemáticas o respuesta a preguntas.
La espacialidad como un dial mágico
La espacialidad es una especie de dial mágico que encuentra la mejor coincidencia del modelo de inteligencia artificial que se tiene y la computación disponible. Es la misma regla económica que ha sido verdadera para cada nueva generación de computadoras personales: o un mejor resultado por el mismo dinero o el mismo resultado por menos dinero. La espacialidad como fenómeno no es nuevo en la investigación de inteligencia artificial, ni es un enfoque nuevo en ingeniería. Los investigadores de inteligencia artificial han demostrado durante muchos años que eliminar partes de una red neuronal podría lograr una precisión comparable o incluso mejor con menos esfuerzo.
El futuro de la investigación sobre la espacialidad
El trabajo de espacialidad significa que DeepSeek es solo un ejemplo de un área amplia de investigación que muchos laboratorios ya están siguiendo, y que muchos más ahora saltarán para replicar el éxito de DeepSeek. La espacialidad es un área de investigación que puede mejorar la economía para un presupuesto pequeño, como en el caso de DeepSeek, y también funciona en la otra dirección: gastar más dinero se obtendrán beneficios aún mejores a través de la espacialidad. A medida que se aumenta la potencia de computación, la precisión del modelo de inteligencia artificial mejora, encontraron Abnar y su equipo. En teoría, entonces, se pueden crear modelos más grandes y más grandes en computadoras más grandes y obtener más valor por el dinero.