Con lo rápido que se mueven las cosas en el espacio devai, una taquigrafía para la comunidad de desarrolladores que construyen software con la ayuda de modelos de idiomas grandes (LLM), puede ser difícil descubrir qué modelo usar.
Comenzamos este repositorio basado en nuestras experiencias como parte de la comunidad continua. ¡Siéntase libre de sugerir mejoras y ayudarnos a mantenerlo actualizado abriendo una solicitud de extracción!
Hay muchos LLM. Hemos decidido centrarnos en los que vemos que usan ahora:

Puede encontrar un CSV que incluya todos estos modelos e información sobre ellos aquí.
La primera opción que normalmente realiza es si va a utilizar un modelo de código abierto o comercial :
Si decide usar un LLM de código abierto , su próxima decisión es si configurar el modelo en su máquina local o en un proveedor de modelos alojado:
Mantenemos una guía sobre cómo implementar un código de código abierto LLM para su equipo aquí.
Si decide usar una LLM comercial , generalmente obtendrá claves API y jugará con múltiples de ellas para comparar. Tanto la calidad de las sugerencias como el costo de usar pueden ser criterios importantes.
Esta es una lista de los LLM de código abierto que los desarrolladores están utilizando mientras codifican, más o menos ordenado de la más popular a menos popular, a partir de octubre de 2023.
Code Llama es un LLM entrenado por Meta para generar y discutir el código. Está construido sobre Llama 2. Aunque está debajo de WizardCoder y Phind-Codellama en la tabla de clasificación de modelos de Big Code, es el modelo base para ambos. También viene en una variedad de tamaños: 7b, 13b y 34b, lo que hace que sea popular usar en máquinas locales, así como con proveedores alojados. En este punto, es el modelo base de código abierto más conocido para la codificación y está liderando el esfuerzo de código abierto para crear LLM capaces de codificación.
Creator: Meta
Date released: August 24th, 2023
License: Llama 2 Community
Base model: Llama 2
Parameters: 7B, 13B, 34B
WizardCoder es una LLM construida en la parte superior de Code Llama del equipo de Wizardlm. El método Evol-Instructo está adaptado para la codificación de tareas para crear un conjunto de datos de capacitación, que se utiliza para ajustar el código de código. Viene en los mismos tamaños que Code Llama: 7b, 13b y 34b. Como resultado, es el LLM de instrucciones de código abierto más popular hasta ahora.
Creator: WizardLM
Date released: August 26th, 2023
License: Llama 2 Community
Base model: Code Llama
Parameters: 7B, 13B, 34B
Phind-Codellama es una LLM construida sobre Code Llama de Phind. Se utilizó un conjunto de datos patentado de ~ 80k problemas y soluciones de programación de alta calidad para ajustar el código de código. Ese modelo ajustado se ajustó aún más en tokens adicionales 1.5B. Actualmente lidera en la tabla de clasificación de modelos de Big Code. Sin embargo, solo está disponible como un modelo de parámetros 34B, por lo que requiere más memoria disponible para ser utilizada.
Creator: Phind
Date released: August 28th, 2023
License: Llama 2 Community
Base model: Code Llama
Parameters: 34B
Mistral es un parámetro 7b LLM entrenado por AI Mistal. Es el modelo lanzado más recientemente en esta lista, ya que ha caído a fines de septiembre. La IA Mistal dice que "se acerca al rendimiento de Codellama 7B en el código, mientras que sigue siendo bueno en las tareas de inglés". A pesar de que solo está disponible en un pequeño tamaño, la gente está bastante entusiasmada en las primeras dos semanas después del lanzamiento. Los primeros LLMS ajustados que lo usan como su base ahora comienzan a surgir, y es probable que veamos más en el futuro.
Creator: Mistral AI
Date released: September 27th, 2023
License: Apache 2.0
Base model: Mistral
Parameters: 7B
Starcoder es un parámetro 15B LLM entrenado por Bigcode, que se adelantó a su tiempo cuando se lanzó en mayo. Fue entrenado en más de 80 lenguajes de programación desde la pila (V1.2) con solicitudes de exclusión excluida. No es un modelo de instrucción y los comandos como "escribir una función que calcule la raíz cuadrada" no funciona bien. Sin embargo, al usar el aviso de asistente de tecnología, puede hacerlo más útil.
Creator: BigCode
Date released: May 4th, 2023
License: OpenRAIL-M
Base model: StarCoder
Parameters: 15B
Deepseek Coder es un LLM entrenado por Deepseek Ai en 2 billones de tokens. Con un conjunto de datos compuesto por más de 80 lenguajes de programación, es el modelo más nuevo en esta lista y se ha informado que obtiene bastante alto en varios puntos de referencia relacionados con la codificación.
Creator: DeepSeek AI
Date released: November 3rd, 2023
License: DeepSeek License Agreement
Base model: DeepSeek Coder
Parameters: 1.3B, 6.7B, 33B
Llama 2 es un LLM entrenado por Meta en 2 billones de tokens. Es el LLM de código abierto más popular en general, por lo que algunos desarrolladores lo usan, a pesar de que no es tan bueno como muchos de los modelos anteriores al hacer ediciones de código. También es importante porque Code Llama, el LLM más popular para la codificación, se basa en la parte superior, que a su vez es la base para WizardCoder y Phind-Codellama.
Creator: Meta
Date released: July 18th, 2023
License: Llama 2 Community
Base model: Llama 2
Parameters: 7B, 13B, 70B
Esta es una lista de los LLM comerciales que los desarrolladores están utilizando mientras codifican, más o menos ordenado de la más popular a la menos popular, a partir de octubre de 2023.
GPT-4 de OpenAI generalmente se considera el mejor LLM para usar mientras codifica. Es bastante útil al generar y discutir el código. Sin embargo, requiere que envíe su código a OpenAi a través de su API y puede ser bastante costoso. Sin embargo, es la LLM más popular para codificar en general y la mayoría de los desarrolladores lo usan mientras codifican en este momento. Todos los usuarios de API de OpenAI que realizaron un pago exitoso de $ 1 o más antes del 6 de julio de 2023 recibieron acceso a GPT-4, y planean abrir el acceso a todos los desarrolladores pronto.
GPT-4 Turbo de OpenAi es más barato y más rápido que GPT-4. Tiene un límite de conocimiento de abril de 2023 y tiene una ventana de contexto de 128k. Actualmente está en vista previa, a partir de noviembre de 2023, pero cualquier persona con una cuenta API de OpenAI y el acceso GPT-4 existente puede usarlo.
GPT-3.5 Turbo de OpenAi es más barato y más rápido que GPT-4; Sin embargo, sus sugerencias no son tan útiles. También requiere que envíe su código a OpenAi a través de su API. Es el segundo LLM más popular para codificar en general hasta ahora. Todos los desarrolladores pueden usarlo ahora después de registrarse para una cuenta de OpenAI.
Claude 2 es un LLM entrenado por antrópico, que ha mejorado enormemente las habilidades de codificación en comparación con la primera versión de Claude. Especialmente sobresale, en relación con otros LLM, cuando proporciona mucho contexto. Requiere que envíe su código a antrópico a través de su API. Debe solicitar obtener acceso a Claude 2 en este momento.
Palm 2 es un LLM entrenado por Google. Para probarlo, debe enviar su código a Google a través de la API de Palm después de obtener una clave API a través de Makersuite, los cuales están actualmente en una vista previa pública.
Si ve que falta un modelo o desea compartir una opinión, ¡le damos la bienvenida para abrir un PR o un problema! Esperamos mantener un índice impulsado por la comunidad y actualizado de los modelos de idiomas más útiles para la codificación.
Si te gustó esta publicación de blog y quieres leer más sobre Devai, la comunidad de personas que construyen software con la ayuda de LLMS, en el futuro, únete a nuestro boletín mensual aquí.