¿Qué es el Context Window?

Representación visual de la ventana de contexto y su limitación de tokens

Un LLM solo puede recordar lo que cabe dentro de una ventana. Esa ventana se llama context window (ventana de contexto).

Todo lo que está fuera de esa ventana no existe para el modelo. No lo recuerda. No lo tiene en cuenta. No sabe que existió.

Cuando hablas con ChatGPT y después de un rato la conversación empieza a perder el hilo, no es que el modelo se haya cansado. Es que tu conversación ya no cabe entera en la ventana. Los mensajes antiguos se fueron. El modelo ya no los ve.

Qué Mide el Context Window

Se mide en tokens. No en palabras, no en caracteres. Tokens.

Un token es un trozo de texto convertido en un número. En inglés, un token equivale a unas 4 letras de media, o aproximadamente 0.75 palabras. En español la proporción es similar pero ligeramente peor porque el tokenizador fue entrenado principalmente con texto en inglés.

El context window incluye todo: lo que tú escribes, lo que el modelo responde, las instrucciones del sistema, y cualquier documento o contexto adicional que se inyecte. Todo cuenta. Todo resta espacio.

Tamaños Reales de Ventanas de Contexto

Estos números vienen de la documentación oficial de cada proveedor:

GPT-3.5: El modelo con el que se lanzó ChatGPT en noviembre de 2022 tenía una ventana de 4.096 tokens. Eso son unas 3.000 palabras. Si tu conversación superaba eso, el modelo empezaba a alucinar y a perder el hilo.

GPT-4: Se lanzó con 8.192 tokens y luego se amplió a 128.000 tokens.

Claude (Anthropic): Ventana estándar de 200.000 tokens.

Gemini (Google): Hasta 1 millón de tokens en Gemini 1.5 Flash y hasta 2 millones en Gemini 1.5 Pro.

Llama 4 Scout (Meta): Alcanzó los 10 millones de tokens.

Perspectiva: 128.000 tokens equivalen aproximadamente a un libro de 250 páginas. 1 millón de tokens equivale a varios libros completos.

El Problema del Medio Perdido

Tener una ventana grande no significa que el modelo use bien toda la información que le metes.

Un estudio de Liu et al. publicado en 2023 y revisado en Transactions of the Association for Computational Linguistics en 2024 demostró algo importante: los modelos son mejores recordando información que está al principio o al final de la ventana de contexto, pero su rendimiento cae significativamente cuando la información relevante está en el medio.

Esto se conoce como el problema de “Lost in the Middle”. El patrón tiene forma de U: rendimiento alto al inicio, rendimiento alto al final, rendimiento bajo en el centro.

El Coste Computacional

Cada vez que el modelo procesa un token, tiene que calcular cómo se relaciona con todos los demás tokens de la ventana. Eso significa que cuando la ventana se duplica, el coste computacional se multiplica por cuatro. Es una relación cuadrática.

Consecuencias prácticas: ventanas más grandes significan respuestas más lentas y más caras. Cada token de entrada es facturado en las APIs comerciales. Meter más contexto del necesario no es gratis.

Según datos de IBM Research, duplicar la longitud de la secuencia requiere cuatro veces más memoria y cómputo para procesarla.

Qué Pasa Cuando se Llena la Ventana

Depende de la implementación, pero en general ocurre una de estas cosas:

El modelo trunca los mensajes más antiguos: Los primeros mensajes de la conversación desaparecen silenciosamente. El modelo sigue funcionando pero ya no tiene acceso a lo que se dijo al principio.

El modelo rechaza la entrada: Si intentas mandar un prompt que excede el límite, la API devuelve un error.

El modelo produce incoherencias: Sin el contexto completo, las respuestas pierden coherencia con lo que se discutía antes.

Por Qué No se Hace Infinitamente Grande

Tres razones técnicas:

Primera: El coste cuadrático de la atención. El mecanismo de atención del Transformer necesita comparar cada token con todos los demás. Con ventanas muy grandes, eso es prohibitivamente caro.

Segunda: La degradación de calidad. Como demostró el paper de “Lost in the Middle”, más contexto no equivale automáticamente a mejor rendimiento. A veces meter más información confunde al modelo.

Tercera: El coste económico. Procesar millones de tokens por cada petición es extremadamente caro en infraestructura de GPU.

Lo que Debes Saber como Usuario

Si tu conversación es larga, los mensajes del principio pueden desaparecer sin aviso. Si necesitas que el modelo recuerde algo específico, repítelo o ponlo al principio o al final de tu prompt, que es donde el modelo presta más atención.

Si trabajas con la API, cuenta tus tokens. Herramientas como tiktoken de OpenAI te permiten saber exactamente cuántos tokens consume tu prompt antes de enviarlo.

Qué pasa en la práctica

En conversaciones largas, el modelo puede olvidarse de lo que dijiste al principio.
Si pones información importante en medio de un documento largo, es menos probable que la use correctamente (el problema “lost in the middle”).
Repetir las instrucciones clave al final del prompt mejora los resultados.

Error común

Pensar que si la ventana es de 128K tokens, el modelo “recuerda” todo igual de bien. No es así. La atención se degrada con la distancia y la posición.