El 30 de Noviembre de 2022 OpenAI liberó al público ChatGPT y permitió por primera vez que usuarios de todo tipo de formaciones y características interactuaran libremente con un gran modelo de lenguaje. Las cosas han sido intensas desde ese entonces, a un año y medio de la liberación muchas cosas han sucedido. Se percibe una aceleración del desarrollo de la IA en sus aspectos de investigación, inversión, adopción y actividad económica.
Además ha existido una serie de cuestionamientos hacia OpenAI y su CEO, Sam Altman, por prácticas poco éticas, así como por manipulación de la información. Movimientos del mercado, demandas legales, acusaciones de sesgar la regulación, especulación tecnológica, liberación anticipada de modelos, “manipulación de demos” y uso no autorizado de voces y marcas personales han marcado los últimos 2 años del ecosistema de IA por parte de las grandes empresas comercializando los modelos de lenguaje.
Es importante en medio de la vorágine de artículos e información hacer un recuento objetivo de donde nos encontramos tecnológicamente hablando y analizar las perspectivas a futuro. En el presente artículo hacemos un breve recuento de algunos de los hitos más importantes en el desarrollo de los modelos de Lenguaje, así como las polémicas más importantes enfrentadas por sus principales actores y su relación con ChatGPT en los últimos 2 años.
ChatGPT es un gran modelo de lenguaje (LLM por sus siglas en inglés), que permite a usuarios realizar tareas de automatización y preguntas, respuestas de diferente índole. Ha sido generado por la tecnología de transformers, y se ha adaptado una técncia de alineación llamada RFHL (Reinforcement Learning from Human Feedback). Si te interesa comprender de manera técnica las bases de éste modelo de Lenguaje puedes consultar los artículos: Presente y futuro del procesamiento de lenguaje natural y el Invierno de la IA se acerca.
ChatGPT se encuentra en su versión 4O (Omni) al momento de escribir este artículo, y no ha habido un avance significativo a nivel de tecnología en la arquitectura de los modelos de lenguaje, más allá de un aumento en la cantidad de tokens que pueden ser procesados por el modelo además del uso de información multimodal.
Si bien a nivel de mercado se han generado muchas expectativas sobre las capacidades de ésta tecnología, los avances a pasos agigantados que tuvimos entre 2017 y 2022 a nivel de investigación de AI y procesamiento de lenguaje natural se han visto ralentizados sin duda por el extenso predominio de los LLMs motivado por la cuota de mercado que representan.
Lamentablemente, hemos visto poco avance en el área de investigación de IA desde la liberación de ChatGPT, ya que se encuentra dominada por las posibles aplicaciones de los LLMs. Aún se sigue trabajando con modelos de Lenguaje basados en la arquitectura de transformers de 2017, en los cuales los mecanismos de atención logran almacenar secuencias de tokens “arbitrariamente largas”, limitadas por la potencia de cómputo y la arquitectura de la red nueronal. Aún se depende de la hipótesis de la escala, en la cual las capacidades emergentes y de razonamiento de los modelos de lenguaje, dependen del número de los parámetros del modelo de lenguaje y en estrategias de compresión para poder desarrollar modelos capaces. Se han experimentado diferentes formas para reducir las halucinaciones, mejorar el razonamiento y comprimir el modelo y la inferencia de los LLM’s.
Se han experimentado con algunas variaciones de embeddings rotativos y posicionales (https://arxiv.org/abs/2305.19466), se ha trabajado también con diferentes ubicaciones de las capas de normalización y propagación hacia adelante así como de los bloques del encoder del transformer. También se han probado mencanismos de atención local, y distintas variantes de las funciones de activación incluyendo Gaussian Linear Units, Swish, y Learnable Activation Functions.
Una parte importante del trabajo de investigación se ha dirigido hacia los métodos de alineación por Reinforcement Learning para ayudar al seguimento de instrucciones como el artículo de InstructGPT y versiones optimizadas de alineación como direct preference optimization y verbal Reinforcement Learning .
Algunas técnicas de factorización y compresión de los modelos en términos de entrenamiento e inferencia han sido propuestas incluyendo prunning, quatization y low rank adaptation . Así como también parameter efficient fine tunning, se han usado para buscar optimización extrema incluyendo a X-Lora.
Además se ha traído de nuevo a escena una técnica llamada Mixture of Experts (MoE)propuesta en 1991 por Jacobs et. al. La cual consiste en un método de ensamble que es posteriormente adaptado al entorno del aprendizaje profundo como una función sparse en el artículo de 2017: Otrageously Large Neural Networks: The Sparsely-Gated Mixture of Experts.
En 2022 se añade la capacidad de expert choice routing. Si bien ninguno de los detalles técnicos referentes a la arquitectura de GPT-4 han sido dados a conocer y todo lo que tenemos de manera oficial es un “reporte técnico”, dado el rendimiento similar de otros modelos fundacionales que usan la técnica de mixure of Experts multimodal, se cree que GPT-4 usa una mezcla de 16 modelos expertos de 111 billones de parámetros, haciendo un aproximado de 1.76 trillones de parámetros.
A la fecha de escribir éste artículo existen modelos delenguaje más capaces que GPT-4 entre los que se encuentran Gemini 1.5 de Google, el cual abiertamente menciona que usa una mezcla de expertos y arquitectura multimodal, con una enorme capacidad de procesamiento de tokens de 1 millón, lo cual permite generar prompts y consumir contextos mucho más grandes y complejos que los modelos anteriores. La familia de modelos Claude-3, presentada por Anthorpic quien al momento de escribir este artículo afirman tener el LLM más potente del mercado.
Si bien parece haber un gran avance tecnológicamente hablando, existen muchos eventos significativos que han ido moldeando el campo hasta el día de hoy, y que han tenido un impacto variado que oscila entre el hype y la decepción, lo cual ha orientado la investigación hacia el predominio de los LLMs por lo que vale la pena hace run recuento por los diferentes hitos que nos han llevado hasta aquí:
En este artículo hemos explorado tanto los fundamentos tecnológicos, como los diferentes hitos por los cuales ha atravesado el campo de la IA (más específicamente los LLMs) en los últimos 2 años, y notamos desde la perspectiva tecnológica un “estancamiento” en la tecnología. Por el momento los transformers, entrenados a gran escala siguen siendo el estado del arte en IA. La mayor parte de la investigación se ha dirigido en optimizar éstas técncias, limitar sus alucinaciones e intentar hacerlos “más inteligentes” con técncias como RAG, COT, Self Refinement, Prompt Evolution, Críticos, . Sin embargo no hay líneas claras sobre como mejorar la tecnología. Parece que nos encontramos en un tope en cuanto a las capacidades de los LLMs actuales y que la hipótesis de la escala no nos da mucho margen de mejora. Algunas técnicas que se proponen como alternativa son Mamba y las Redes Kolmogorov-Arnold (KAN’s), las cuales aún se encuentran en estados incipientes, así como I-JEPA y arquitecturas cognitivas que lucen como alternativas prometedoras al estado actual de los modelos de lenguaje, pero aún no han demostrado una superioridad clara.