¿Cómo Funciona la IA por Dentro?

Diagrama completo del proceso interno de un LLM desde tokenización hasta generación de respuesta

Un modelo de lenguaje es un programa que predice la siguiente palabra.

No piensa. No entiende. No busca respuestas en una base de datos. Calcula, token a token, cuál es la continuación más probable del texto que tiene delante. Y lo hace con tanta precisión que parece inteligente. Pero el mecanismo es puramente estadístico.

Esta guía te explica exactamente qué pasa dentro de la máquina desde que escribes una pregunta hasta que aparece la respuesta en tu pantalla.

Paso 1: Tu Texto se Convierte en Números

Cuando escribes algo, el primer paso es la tokenización. Tu texto se parte en trozos llamados tokens y cada trozo se convierte en un número.

La palabra “Hola” puede ser un solo token. La palabra “indescriptible” se puede partir en varios. Un espacio a veces forma parte del token que le sigue. Los números se tratan de forma impredecible: “380297” puede ser un token o puede partirse en “380” y “297”.

ChatGPT usa un tokenizador basado en BPE (Byte Pair Encoding) que fue entrenado por separado antes que el propio modelo. GPT-4 usa el tokenizador cl100k_base con aproximadamente 100.000 tokens en su vocabulario. GPT-4o usa o200k_base con unos 200.000.

Paso 2: Los Números se Convierten en Vectores

Cada token se transforma en un vector de números llamado embedding. Un embedding es una representación del token en un espacio de muchas dimensiones. Tokens con significados similares acaban en posiciones cercanas en ese espacio.

El modelo no trabaja con palabras ni con números simples. Trabaja con estos vectores de alta dimensión que codifican relaciones semánticas complejas.

Paso 3: Los Vectores Pasan por Bloques Transformer

Aquí es donde pasa lo importante. Los vectores de los tokens entran en una serie de bloques Transformer. Cada bloque tiene dos componentes principales:

El mecanismo de atención: Permite que cada token mire a todos los demás tokens de la secuencia para captar relaciones y contexto. El modelo aprende qué tokens son relevantes para cada predicción. Dentro del mecanismo de atención se usa la función softmax para convertir puntuaciones de relevancia en pesos que suman 1.

La red feed-forward: Procesa cada token de forma independiente para enriquecer su representación.

El modelo original del Transformer, presentado en el paper Attention Is All You Need de Vaswani et al. en 2017, tenía 6 bloques. Los modelos actuales como GPT-4 tienen decenas o más de cien bloques.

Paso 4: La Capa de Salida Genera Logits

Después de pasar por todos los bloques, el vector del último token se multiplica por una matriz enorme para producir un número por cada token posible del vocabulario. Si el vocabulario tiene 200.000 tokens, se generan 200.000 números.

Esos números son los logits. Son puntuaciones brutas que indican cuánto de probable es cada token como siguiente palabra. Un logit de 8.3 no significa un 83% de probabilidad. Es un número sin procesar que todavía tiene que pasar por más pasos.

Paso 5: La Temperatura Ajusta la Distribución

Antes de convertir los logits en probabilidades, se dividen por la temperatura. Si la temperatura es 1.0, no cambia nada. Si es menor que 1.0, el modelo se vuelve más conservador y elige casi siempre el token más probable. Si es mayor que 1.0, la distribución se aplana y el modelo se vuelve más creativo.

La fórmula es directa: cada logit se divide por T antes de pasar al siguiente paso.

Paso 6: Softmax Convierte Logits en Probabilidades

Los logits ajustados por temperatura pasan por la función softmax. Para cada logit, se calcula e elevado a ese logit y se divide por la suma de todas las exponenciales. El resultado son probabilidades que suman 1.

Un logit alto se convierte en una probabilidad alta. Un logit bajo se convierte en una probabilidad cercana a cero. La exponencial amplifica las diferencias.

Paso 7: El Sampling Elige el Siguiente Token

Ahora el modelo tiene una lista de 200.000 tokens con sus probabilidades. Tiene que elegir uno. Esto se hace mediante sampling.

Puede elegir siempre el más probable (greedy). Puede aplicar top-p para seleccionar solo los tokens cuyas probabilidades acumuladas alcancen un umbral. Puede aplicar top-k para considerar solo los k tokens más probables.

El método de sampling determina el equilibrio entre coherencia y variedad en el texto generado.

Paso 8: Se Repite Todo

El token elegido se añade a la secuencia. Ahora la entrada tiene un token más. Y se repite todo el proceso desde el paso 3: los vectores pasan por los bloques Transformer, se generan logits, se aplica temperatura, softmax, sampling, y se elige otro token.

Este ciclo se repite para cada token de la respuesta. Si la respuesta tiene 500 tokens, el modelo ejecutó este ciclo 500 veces. Este proceso se llama generación autoregresiva.

La Ventana de Contexto Limita Todo

Todo este proceso ocurre dentro de una ventana de contexto. Esa ventana tiene un tamaño máximo medido en tokens. Todo lo que no cabe en la ventana desaparece.

GPT-4o tiene una ventana de 128.000 tokens. Eso suena a mucho, pero incluye el prompt del sistema, tu mensaje, la respuesta del modelo, y todo el historial de la conversación. En conversaciones largas, la ventana se llena y los mensajes antiguos se pierden.

Lo que NO Hace ChatGPT

No busca en internet, salvo que tenga activada la herramienta de búsqueda web. Sin esa herramienta, solo usa lo que aprendió durante el entrenamiento.

No piensa antes de responder. No hay un paso de planificación. Genera token a token mirando solo hacia atrás.

No verifica sus respuestas. Puede generar información falsa con total confianza. Esto se llama alucinación y ocurre porque el mecanismo de predicción premia la fluidez, no la verdad.

Para profundizar en estas limitaciones: Un LLM no piensa.

El Resumen en una Frase

ChatGPT convierte texto en números, los procesa con matemáticas a través de decenas de capas de atención, produce una distribución de probabilidades sobre todo su vocabulario, y elige el siguiente token. Repite.

Qué pasa en la práctica

Lo que ves en pantalla (las palabras apareciendo poco a poco) es literalmente lo que está pasando: el modelo genera un token, lo muestra, y genera el siguiente.
La velocidad de generación depende del tamaño del modelo y de la infraestructura. Modelos más grandes son más lentos.
A veces el modelo cambia de dirección a mitad de frase porque la predicción del siguiente token lo llevó por otro lado.

Error común

Creer que el modelo “escribe” toda la respuesta de golpe y luego la muestra poco a poco. No. Cada token se calcula en tiempo real.