Tutoriales

¿Qué son los tokens en LLM?

Si ha estado siguiendo nuestros artículos sobre modelos de lenguajes grandes (LLM) o profundizando en la IA, es posible que se haya encontrado con este término. Simbólico No sólo unas pocas veces. Pero ¿qué son exactamente las “fichas”?

Esta es una de esas palabras de moda que se repiten mucho, pero pocas personas se detienen a explicarla de una manera realmente comprensible.

Aquí está el problema: sin una buena comprensión de qué es un token, se está perdiendo una parte crucial de cómo funcionan estos modelos.

De hecho, los tokens están en el centro del procesamiento y generación de texto de LLM. Si alguna vez te has preguntado por qué la inteligencia artificial parece tropezar con ciertas palabras o frases, la tokenización suele ser la culpable.

Así que dejemos de lado la jerga y exploremos por qué los tokens son tan importantes para el funcionamiento del LLM.

¿Qué es una ficha?

uno Simbólico El contenido en un modelo de lenguaje grande es básicamente una gran porción de texto que el modelo lee y comprende.

Puede ser tan corto como una letra, tan largo como una palabra o incluso parte de una palabra. Piense en ello como la unidad de lenguaje que utilizan los modelos de inteligencia artificial para procesar información.

En lugar de leer oraciones enteras a la vez, las divide en pequeñas partes fácilmente digeribles: etiquetas.

En términos más simples:

Imagínese que está intentando enseñarle a un niño un nuevo idioma. Comenzarás con lo básico: letras, palabras y oraciones simples.

Los modelos de lenguaje funcionan de manera similar. Dividen el texto en unidades más pequeñas y manejables llamadas Simbólico.

💡

he usado Tokenizador de TikTokuna herramienta útil para visualizar y comprender cómo los diferentes modelos etiquetan el texto.

Por ejemplo, la frase «El rápido zorro marrón salta sobre el perro perezoso» se puede marcar de la siguiente manera:

¿Cómo utilizan los modelos de lenguaje los tokens?

Una vez que se tokeniza el texto, los modelos de lenguaje pueden analizar cada token para comprender su significado y contexto. Esto permite al modelo:

  • Entiende su significado: Este modelo puede identificar patrones y relaciones entre tokens, lo que le ayuda a comprender el significado general del texto.
  • Generar texto: Al analizar los tokens y sus relaciones, el modelo puede generar texto nuevo, como completar una oración, escribir un párrafo o incluso escribir un artículo completo.

Método de tokenización

Cuando analizamos la tokenización en el contexto de grandes modelos de lenguaje (LLM), es importante comprender que existen diferentes métodos que se utilizan para dividir el texto en tokens. Echemos un vistazo a los métodos más comunes que se utilizan en la actualidad:

1. Tokenización a nivel de palabra

Este es el método más simple, donde el texto está separado por espacios y puntuación. Cada palabra se convierte en su propia marca.

ejemplo: Texto original: «Me gusta la programación». Simbólico: [«I», «love», «programming», «.»]

Si bien esto es simple, puede resultar ineficaz.

Por ejemplo, «running» y «runner» se tratan como etiquetas independientes, aunque compartan una raíz.

2. Tokenización a nivel de subpalabra

La tokenización de subpalabras divide las palabras en unidades más pequeñas y significativas, lo que la hace más eficiente.

Es excelente para trabajar con palabras con prefijos o sufijos comunes y puede dividir palabras raras o mal escritas en subpalabras conocidas.

Dos algoritmos populares son Codificación de par de bytes (BPE) y pieza de palabra.

Ejemplo (usando BPE): Artículo original: Tokens “infravalorados”: [«und»,»erest», «imate»] Y algunos otros:

En este caso, BPE divide la «subestimación» en unidades más pequeñas que se pueden utilizar en otras palabras, lo que facilita el manejo de cambios y errores tipográficos.

3. Tokenización a nivel de personaje

Este método divide el texto en caracteres individuales.

Es muy flexible y puede manejar cualquier texto, incluidas palabras no estándar o mal escritas.

Sin embargo, puede resultar menos eficiente para textos más largos ya que el modelo procesa más tokens.

ejemplo: Texto original: «gato» Token: [«c», «a», «t»]

La tokenización a nivel de personaje es útil para lograr una gran flexibilidad, pero generalmente genera más tokens, lo que genera un mayor esfuerzo computacional.

4. Tokenización a nivel de bytes

La tokenización a nivel de bytes divide el texto en bytes en lugar de caracteres o palabras.

Este método es particularmente útil para textos multilingües e idiomas que no utilizan el alfabeto latino, como el chino o el árabe.

También es importante en situaciones en las que la representación precisa del texto es crucial.

Límite de tokens

El límite de tokens se refiere a la cantidad máxima de tokens que LLM puede manejar en una sola entrada (incluido el texto de entrada y la salida generada).

Piense en ello como un búfer: el modelo solo puede contener y procesar una cantidad limitada de datos a la vez. Cuando se excede este límite, el modelo deja de procesar o trunca la entrada.

Por ejemplo, GPT-3 puede manejar hasta 4096 tokens, mientras que GPT-4 puede manejar hasta 8192 o incluso 32,768 tokens, según la versión.

Esto significa que todo en la interacción, desde el mensaje que envía hasta la respuesta del modelo, debe cumplir con este límite.

¿Por qué son importantes los límites de tokens?

  • comprensión situacional: El LL.M. se basa en la calificación previa para producir respuestas contextualmente precisas y coherentes.
    • Si un modelo alcanza su límite de etiquetado, pierde contexto más allá de ese punto, lo que puede resultar en resultados menos coherentes o incompletos.
  • truncamiento de entrada: Si su entrada excede el límite de token, el modelo truncará parte de la entrada, generalmente comenzando por el principio o el final. Esto puede provocar la pérdida de información importante y afectar la calidad de la respuesta.
  • Límites de salida: Si su entrada utiliza la mayor parte del límite de tokens, al modelo le quedarán menos tokens para producir una respuesta.
    • Por ejemplo, si envía una sugerencia en GPT-3 que consume 3900 tokens, al modelo solo le quedan 196 tokens para brindar una respuesta, lo que puede no ser suficiente para consultas más complejas.

en conclusión

Los tokens son cruciales para comprender cómo funciona el LLM.

Si bien puede parecer trivial a primera vista, los tokens afectan todo, desde la eficiencia con la que un modelo procesa el lenguaje hasta su rendimiento general en diferentes tareas e idiomas.

Personalmente creo que hay margen de mejora. Los LL.M. todavía están lidiando con los matices de los idiomas o códigos distintos del inglés, y la tokenización juega un papel importante en eso.

Me encantaría escuchar tu opinión. Deja un comentario a continuación y cuéntame cómo crees que los avances en la tokenización afectan la capacidad de los modelos lingüísticos para manejar texto complejo o multilingüe.

LEER  ¡Herramienta de informes de penetración! ! ! kali linux

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba