2 años de ChatGPT: Una revisión técnica y una línea de tiempo
Sep 5, 2024
Mario Campos
Sep 5, 2024

El 30 de Noviembre de 2022 OpenAI liberó al público ChatGPT y permitió por primera vez que usuarios de todo tipo de formaciones y características interactuaran libremente con un gran modelo de lenguaje. Las cosas han sido intensas desde ese entonces, a un año y medio de la liberación muchas cosas han sucedido. Se percibe una aceleración del desarrollo de la IA en sus aspectos de investigación, inversión, adopción y actividad económica.

Además ha existido una serie de cuestionamientos hacia OpenAI y su CEO, Sam Altman, por prácticas poco éticas, así como por manipulación de la información. Movimientos del mercado, demandas legales, acusaciones de sesgar la regulación, especulación tecnológica, liberación anticipada de modelos, “manipulación de demos” y uso no autorizado de voces y marcas personales han marcado los últimos 2 años del ecosistema de IA por parte de las grandes empresas comercializando los modelos de lenguaje.

Es importante en medio de la vorágine de artículos e información hacer un recuento objetivo de donde nos encontramos tecnológicamente hablando y analizar las perspectivas a futuro. En el presente artículo hacemos un breve recuento de algunos de los hitos más importantes en el desarrollo de los modelos de Lenguaje, así como las polémicas más importantes enfrentadas por sus principales actores y su relación con ChatGPT en los últimos 2 años.

¿Qué es ChatGPT al día de hoy?

ChatGPT es un gran modelo de lenguaje (LLM por sus siglas en inglés), que permite a usuarios realizar tareas de automatización y preguntas, respuestas de diferente índole. Ha sido generado por la tecnología de transformers, y se ha adaptado una técncia de alineación llamada RFHL (Reinforcement Learning from Human Feedback). Si te interesa comprender de manera técnica las bases de éste modelo de Lenguaje puedes consultar los artículos: Presente y futuro del procesamiento de lenguaje natural y el Invierno de la IA se acerca.

ChatGPT se encuentra en su versión 4O (Omni) al momento de escribir este artículo, y no ha habido un avance significativo a nivel de tecnología en la arquitectura de los modelos de lenguaje, más allá de un aumento en la cantidad de tokens que pueden ser procesados por el modelo además del uso de información multimodal.

Si bien a nivel de mercado se han generado muchas expectativas sobre las capacidades de ésta tecnología, los avances a pasos agigantados que tuvimos entre 2017 y 2022 a nivel de investigación de AI y procesamiento de lenguaje natural se han visto ralentizados sin duda por el extenso predominio de los LLMs motivado por la cuota de mercado que representan.

¿Cuáles son los avances en IA que se han tenido desde la liberación de ChatGPT?

Lamentablemente, hemos visto poco avance en el área de investigación de IA desde la liberación de ChatGPT, ya que se encuentra dominada por las posibles aplicaciones de los LLMs. Aún se sigue trabajando con modelos de Lenguaje basados en la arquitectura de transformers de 2017, en los cuales los mecanismos de atención logran almacenar secuencias de tokens “arbitrariamente largas”, limitadas por la potencia de cómputo y la arquitectura de la red nueronal. Aún se depende de la hipótesis de la escala, en la cual las capacidades emergentes y de razonamiento de los modelos de lenguaje, dependen del número de los parámetros del modelo de lenguaje y en estrategias de compresión para poder desarrollar modelos capaces. Se han experimentado diferentes formas para reducir las halucinaciones, mejorar el razonamiento y comprimir el modelo y la inferencia de los LLM’s.

Se han experimentado con algunas variaciones de embeddings rotativos y posicionales (https://arxiv.org/abs/2305.19466), se ha trabajado también con diferentes ubicaciones de las capas de normalización y propagación hacia adelante así como de los bloques del encoder del transformer. También se han probado mencanismos de atención local, y distintas variantes de las funciones de activación incluyendo Gaussian Linear Units, Swish, y Learnable Activation Functions.

Una parte importante del trabajo de investigación se ha dirigido hacia los métodos de alineación por Reinforcement Learning para ayudar al seguimento de instrucciones como el artículo de InstructGPT y versiones optimizadas de alineación como direct preference optimization y verbal Reinforcement Learning .

Algunas técnicas de factorización y compresión de los modelos en términos de entrenamiento e inferencia han sido propuestas incluyendo prunning, quatization y low rank adaptation . Así como también parameter efficient fine tunning, se han usado para buscar optimización extrema incluyendo a X-Lora.

Además se ha traído de nuevo a escena una técnica llamada Mixture of Experts (MoE)propuesta en 1991 por Jacobs et. al. La cual consiste en un método de ensamble que es posteriormente adaptado al entorno del aprendizaje profundo como una función sparse en el artículo de 2017: Otrageously Large Neural Networks: The Sparsely-Gated Mixture of Experts.

En 2022 se añade la capacidad de expert choice routing. Si bien ninguno de los detalles técnicos referentes a la arquitectura de GPT-4 han sido dados a conocer y todo lo que tenemos de manera oficial es un “reporte técnico”, dado el rendimiento similar de otros modelos fundacionales que usan la técnica de mixure of Experts multimodal, se cree que GPT-4 usa una mezcla de 16 modelos expertos de 111 billones de parámetros, haciendo un aproximado de 1.76 trillones de parámetros.

A la fecha de escribir éste artículo existen modelos delenguaje más capaces que GPT-4 entre los que se encuentran Gemini 1.5 de Google, el cual abiertamente menciona que usa una mezcla de expertos y arquitectura multimodal, con una enorme capacidad de procesamiento de tokens de 1 millón, lo cual permite generar prompts y consumir contextos mucho más grandes y complejos que los modelos anteriores. La familia de modelos Claude-3, presentada por Anthorpic quien al momento de escribir este artículo afirman tener el LLM más potente del mercado.

Fig. 1 Benchamrk de LLM’s tomada de https://www.anthropic.com/news/claude-3-family

¿Qué ha pasado en éstos 2 años?

Si bien parece haber un gran avance tecnológicamente hablando, existen muchos eventos significativos que han ido moldeando el campo hasta el día de hoy, y que han tenido un impacto variado que oscila entre el hype y la decepción, lo cual ha orientado la investigación hacia el predominio de los LLMs por lo que vale la pena hace run recuento por los diferentes hitos que nos han llevado hasta aquí:

  1. Noviembre 2022: Los artículos de investigación de las grandes empresas se transformaron en reportes técnicos y el acceso a la información técnica se vio limitado.
  2. Noviembre 2022: Aparecieron los primeros errores y jail breaking: En los primeros días tras la liberación de ChatGPT, salieron las primeras estrategias de Jailbreaking y se generaba una importante cantidad de errores factuales y razonamiento. Estos errores nunca se han corregido del todo, sin embargo se ha logrado acotar la cantidad al costo de disminuir las capacidades del modelo, en un proceso conocido como “drifting”.
  3. Diciembre 2022: Se incrementó el hype por el uso de la tecnología y las capacidades de los modelos de lenguaje.
  4. Enero 2023: Se desató una burbuja económica impresionante con la inversión de 1B de USD de Microsoft en OpenAI.
  5. Febrebro 2023: Se empezó a democratizar el uso de los modelos de Lenguaje con la salida de modelos de Open source. El open source y las universidades comenzaron a llevar el liderazgo en la investigación e innovación publicando varios modelos Open source, Meta lanza Llama.
  6. Febrero 2023: Se formaron varias empresas de IA tanto para competir directamente con OpenAI como basadas en las capacidades de los modelos de lenguaje: https://forbes.es/empresas/238838/la-competencia-de-chatgpt-estas-son-las-empresas-que-tambien-trabajan-en-chatbots-de-ia/.
  7. Marzo 2023: OpenAI lanza GPT-4.
  8. Marzo 2023: En un artículo muy grandilocuente Microsoft implica que ChatGPT es Inteligencia Artificial General: Chispas de AGI.
  9. Marzo 2023: Google libera Gemini, un modelo de lenguaje multimodal que causa polémica por mostrar un demo “truqueado”.
  10. Abril 2023: La investigación se centró en tratar de controlar las halucinaciones del modelo con técnicas como Fine Tunning, RAG, COT, Tree of thought, Graph y optimizaciones de la arquitectura y entrenamiento de transformers (LoRA, LoRax).
  11. Mayo 2023: Google anuncia PALM-2, Microsoft anuncia que su asistente copilot estará disponible desde las taskbar de Windows.
  12. Junio 2023: Se discute por parte de empresarios de AI la ley europea relativa a la regulación de la IA.
  13. Julio 2023: Meta libera Llama2
  14. Octubre 2023: Los aspectos regulatorios cobran fuerza con la orden ejecutiva de Biden para el desarrollo de IA segura.
  15. Noviembre 2023: Elon Musk entra al mercado de los LLMs anunciando su propio modelo de lenguaje: Grok.
  16. Noviembre 2023: Despidieron al CEO de OpenAI Sam Altman.
  17. Noviembre 2023: Restituyeron a Sam Altman como CEO de OpenAI.
  18. Diciembre 2023: Google anuncia Gemini como un fuerte competidor de GPT-4.
  19. Febrero 2024: Se comenzaron a usar transformers para todo (Vision Tranformer, Sora, Modelos de Audio y Text to Speech, Doc Former, DeepsSeek).
  20. Marzo 2024: Anthropic anuncia su familia de modelos fundacionales Calude-3.
  21. Mayo 2024: Google lanza Gemini 1.5.
  22. Mayo 2024: OpenAI libera GPT-4o con capacidades de procesamniento multimodal.
  23. Mayo 2024: Ilya Sustkever y el equipo de Alignment y seguridad deja OpenAI.
  24. Mayo 2024: Scarlet Johanson estudia demandar a Sam Altman y OpenAI por el uso no autorizado de su voz en ChatGPT.
  25. Junio 2024: Elon Musk retira su demanda contra OpenAI.

¿Ahora que sigue?

En este artículo hemos explorado tanto los fundamentos tecnológicos, como los diferentes hitos por los cuales ha atravesado el campo de la IA (más específicamente los LLMs) en los últimos 2 años, y notamos desde la perspectiva tecnológica un “estancamiento” en la tecnología. Por el momento los transformers, entrenados a gran escala siguen siendo el estado del arte en IA. La mayor parte de la investigación se ha dirigido en optimizar éstas técncias, limitar sus alucinaciones e intentar hacerlos “más inteligentes” con técncias como RAG, COT, Self Refinement, Prompt Evolution, Críticos, . Sin embargo no hay líneas claras sobre como mejorar la tecnología. Parece que nos encontramos en un tope en cuanto a las capacidades de los LLMs actuales y que la hipótesis de la escala no nos da mucho margen de mejora. Algunas técnicas que se proponen como alternativa son Mamba y las Redes Kolmogorov-Arnold (KAN’s), las cuales aún se encuentran en estados incipientes, así como I-JEPA y arquitecturas cognitivas que lucen como alternativas prometedoras al estado actual de los modelos de lenguaje, pero aún no han demostrado una superioridad clara.

ServicioPrivacidad
Neuraan © 2022-2024