Tutoriales

Mejor LL.M. en codificación de código abierto

La inteligencia artificial está en todas partes. Uno de los tipos más importantes de modelos de inteligencia artificial son los modelos de lenguaje grande (LLM).

Por supuesto, estamos hablando de un LLM de código abierto (no de un LLM propietario). Si bien estos LLM son excelentes para generar texto, ayudarlo a generar ideas y dar rienda suelta a su creatividad con imágenes, también pueden ayudarlo durante el proceso de codificación. Como resultado, puedes escribir código más rápido.

Para ello, necesita un LL.M que esté perfeccionado y capacitado en lenguajes de programación para obtener resultados adecuados para la codificación.

Aquí mencionaré algunos LLM de código abierto útiles para codificación, así como varias alternativas abiertas de GitHub Copilot.

📋

Puede encontrar todos los LLM de código abierto en Ollama e instalarlos fácilmente localmente.

1. Codificador asistente

codificador asistente

WizardCoder es un modelo de lenguaje grande (LLM) de código abierto optimizado en Llama 2.

El algoritmo Evol-Instruct utilizado garantiza que el modelo se pueda ajustar mediante instrucciones más completas y ricas, lo que hace que el modelo WizardCoder brille en las tareas de codificación. El modelo afirma que debido a su algoritmo, funciona mejor que Gemini Pro, ChatGPT 3.5, etc. Entonces, este es un muy buen LLM para Asistente de codificación de inteligencia artificial.

El último lanzamiento en ese momento, AsistenteCoder-33B-V1.1 Está entrenado desde deepseek-coder-33b-base. También puedes utilizar sus variantes, como WizardCoder-Python-34B-V1.0.

Si quieres probarlo, puedes encontrarlo en la biblioteca de Ollama.

Lectura recomendada📖

Ejecute AI localmente con Ollama en Ubuntu Linux

Ejecutar inteligencia artificial de forma nativa en Linux se debe a que el código abierto nos permite hacerlo.

2.Phind CodeLlama

Fundecoderrama

Phind es uno de los mejores motores de búsqueda de inteligencia artificial, pero su código LLM es igual de bueno. Phind CodeLlama es un modelo de generación de código basado en CodeLlama 34B, ajustado para casos de uso guiados.

El modelo se entrena en un conjunto de datos que contiene problemas y soluciones de programación de alta calidad. También se entrenó durante tres horas en 32 GPU A100-80 GB utilizando DeepSpeed ​​​​ZeRO 3 y Flash Attention 2.

Para garantizar la precisión de los hallazgos, Phind utilizó la tecnología de desinfección de OpenAI en su conjunto de datos para extraer texto parcial de cada caso de evaluación y verificar que existieran coincidencias correspondientes en los ejemplos de capacitación.

Existen dos variantes de este modelo: v1 y v2. v1 está construido sobre CodeLlama 34B y CodeLlama-Python 34B. La variante v2 es solo una iteración de la v1, entrenada con 1,500 millones de tokens adicionales de datos relacionados con la programación de alta calidad.

3.Mistral7B y Mixtral-8x7B

Inteligencia Artificial Mistral

El Mistral7B y el Mixtral 8x7B fueron desarrollados por Mistral AI y son conocidos como los mejores modelos en sus respectivos tamaños. El Mistral 7B tiene un parámetro de 7,3B y supera al Llama 2 13B en las pruebas de referencia.

Encuentro que Ollama se ejecuta más rápido cuando lo uso en mi sistema Ubuntu.

Algunos detalles técnicos: Mixtral 8x7B es más grande y es un modelo Sparse Mix of Experts (SMoE) con 46,7B de parámetros. Aunque tiene una gran cantidad de parámetros, cada token solo requiere 12,9 mil millones de parámetros.

Ambos modelos se pueden ajustar según las tareas que deba realizar. Sin embargo, también se aplica a la codificación.

4. Corrección de código

Código Buga

Codebooga es un excelente LLM de código fuente abierto, principalmente porque es la fusión de Phind-Codellama 34B v2 y WizardCoder-Python-34B-V1.0. Parece ser uno de los mejores modelos para tareas de codificación de Python y JavaScript.

Tiene un total de 33,4 mil millones de parámetros y probablemente sea mejor que los modelos incorporados cuando lo compara con su caso de uso.

Puede que CodeBooga no sea tan popular, pero también está disponible en la biblioteca de Ollama para que lo pruebes.

5. Código de camello

kodrama

Code Llama está desarrollado por Meta AI y es una versión especializada de Llama 2. Por lo tanto, puede generar código basado en cualquier mensaje y comprender el lenguaje natural del código.

Code Llama está disponible en cuatro tamaños, a saber, parámetros 7B, 13B, 34B y 70B.

Todos los modelos diferentes tienen diferentes propósitos y requieren diferentes niveles de recursos. El modelo 7B puede funcionar con una sola GPU. En comparación, 34B y 70B tienen mejores resultados, pero requieren más recursos.

En general, los modelos 7B y 13B pueden ser buenas opciones si no tienes muchos recursos adicionales.

6.CodeGeeX

código jix

CodeGeeX es una de las mejores alternativas de GitHub Copilot y la primera de su tipo en la lista. Es un LL.M de generación de código con más de 13 mil millones de parámetros y entrenado en más de 850 mil millones de tokens.

CodeGeeX ofrece funciones especiales como traducción de código entre idiomas, que le permite traducir su código a diferentes idiomas. También está disponible de forma gratuita como asistente de programación personalizable para Visual Studio Code y otros IDE (entornos de desarrollo integrados). La integración para varios IDE lo convierte en una alternativa perfecta a Copilot para muchas personas.

Con un asistente de codificación de IA como este además de Ollama, no tiene que depender de las consultas de búsqueda de Google, solo un LLM para ayudarlo localmente. Por supuesto, puedes reemplazar GitHub Copilot con estas soluciones.

7. gato atigrado

Asistente de IA de Tiger Spot

Tabby es una de las alternativas de GitHub Copilot de código abierto con más funciones y desarrollada activamente por la comunidad. Se puede utilizar como una extensión a través de muchos IDE, como Visual Code.

Una de las alternativas de alojamiento de código abierto más impresionantes es Microsoft Copilot AI.

Puede crear fragmentos de código basados ​​en comentarios y código contextual y, a diferencia de otras alternativas de CoPilot, se ejecuta en su infraestructura. Tabby está escrito en Rust y diseñado pensando en el rendimiento. También puede realizar una demostración en vivo para probarlo antes de la instalación.

La personalización es muy fácil. Tiene muchos LLM de código abierto para elegir, como StarCoder, CodeLlama y DeepseekCode. También puede proporcionar acceso al modelo de repositorio para que Tabby tenga más contexto. Puede ser un gran compañero para la codificación de IA.

8. Codificador de estrellas

codificador de estrella

StarCoder es un LL.M centrado en código capacitado en más de 80 lenguajes de programación, confirmaciones de Git, problemas de GitHub y cuadernos de Jupyter. Fue entrenado en más de 15 mil millones de parámetros y más de 1 billón de tokens.

Los modelos StarCoder pueden analizar más entradas que cualquier otro LLM abierto, con longitudes de contexto que superan los 8000 tokens. Si bien puede que no sea una opción popular, es perfecta como asistente de codificación de IA.

Existe otra versión, llamada Starcoder2, que tiene 4 veces el conjunto de datos de Starcoder. También viene en tres tamaños: 3B, 7B y 15B, y está entrenado con entre 3,3 y 4,3 billones de tokens.

9.Codificador de búsqueda profunda

codificador de búsqueda profunda

La gama de codificadores Deepseek está disponible en tamaños desde 1B hasta 33B. Entrenado desde cero con más de tokens 2T, es un LLM de código de alto rendimiento. También demuestra un rendimiento superior en comparación con los LLM propietarios como GPT 4.

Teniendo en cuenta que el equipo de origen del modelo se encuentra en China, también recibió capacitación en chino e inglés.

La versión 1.3B del codificador Deepseek ofrece un rendimiento ultrarrápido, mientras que la versión 33B puede manejar las tareas más complejas utilizando un tamaño de ventana de 16K. Puedes utilizarlo como uno de los sustitutos de copiloto más ligeros.

10. Mezcla de delfines

híbrido de delfín

El modelo Dolphin se basa en Mixtral 8x7B y conjuntos de datos adicionales de Synthia, OpenHermes, PureDove, New Dolphin-Coder y MagiCoder, lo que lo hace más eficiente que Mixtral. Bueno, ciertamente es una mezcla interesante.

Una cosa a tener en cuenta es que este modelo no tiene ninguna censura.

DolphineMixtral es simplemente una versión más afinada del Mixtral normal, sin desviaciones. Puede adaptarlo a su caso de uso.

Aunque se mencionan todos los compañeros de codificación de IA mencionados, puede utilizar cualquier chatbot de código abierto con tecnología de IA según su caso de uso. Intenté elegir algunos de los mejores, pero hay innumerables opciones que puedes explorar. Algunos de ellos se pueden encontrar aquí:

14 principales LLM de código abierto para investigación y uso empresarial

Hay cientos de LLM de código abierto y aquí hemos seleccionado algunos de los mejores para que los consultes.

envolver

Hay muchos LLM abiertos en codificación, algunos de los cuales están diseñados específicamente para usarse como alternativas de código abierto a Copilot. Todos estos LLM son muy capaces y pueden ayudarlo a resolver casi cualquier problema de programación.

Casi todos los LLM aquí ofrecen modelos de diferentes tamaños para diversos propósitos. Entonces, ¡haz tu elección y comienza!

Información del autor

Swayam Sai Das es un estudiante que explora el campo de Linux Escritor en prácticas Este es Zorro. Trabaja duro para ascender en la clasificación de los juegos FPS y le gusta leer clásicos literarios en un intento de parecer académico.

LEER  Cómo utilizar Virt-Viewer para acceder de forma remota a máquinas virtuales Proxmox VE y contenedores LXC a través del protocolo SPICE

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba