¿Un LLM Piensa o Entiende?

Comparación entre cálculo estadístico y pensamiento consciente

Un LLM no piensa. No entiende. No siente. No quiere. No tiene opiniones. No tiene curiosidad. No le importa lo que le preguntes.

Lo que hace es calcular el siguiente token más probable dada una secuencia de tokens anteriores. Cada vez que parece que piensa, está haciendo estadística. Cada vez que parece que entiende, está reproduciendo patrones de texto que vio durante el entrenamiento.

Esto no es una crítica. Es la descripción técnica de cómo funciona el mecanismo.

Por Qué Parece que Piensa

Porque los textos con los que fue entrenado fueron escritos por personas que sí piensan. El modelo aprendió a reproducir patrones de texto que incluyen razonamiento, argumentación, duda, autocorrección, empatía y humor. Reproduce esos patrones porque estadísticamente es lo que viene después en secuencias similares.

Si le preguntas qué opinión tiene sobre algo, genera texto que parece una opinión porque ha visto millones de textos donde alguien expresa una opinión después de una pregunta similar. No es que tenga una opinión. Es que el patrón estadístico de respuesta a esa pregunta incluye texto que parece opinativo.

Si le dices algo triste y responde con empatía, no está sintiendo empatía. Ha visto millones de textos donde alguien responde con empatía a algo triste. Reproduce ese patrón porque tiene alta probabilidad.

La Prueba Técnica

Si desmontas el mecanismo, lo que queda es matemática:

Los tokens de entrada se convierten en vectores numéricos.
Los vectores pasan por bloques de atención que calculan relaciones ponderadas entre todos los tokens.
Después de cada bloque de atención hay una red feed-forward que transforma cada vector de forma independiente.
Al final, una multiplicación de matrices produce logits para cada token del vocabulario.
Softmax convierte los logits en probabilidades.
Se elige un token mediante sampling.

En ningún punto de este proceso hay algo que se pueda llamar pensamiento, comprensión, o conciencia. Hay multiplicaciones de matrices, funciones de activación, y muestreo probabilístico.

El Test del Loro Estocástico

En 2021, Bender, Gebru, McMillan-Major y Shmitchell publicaron un paper titulado On the Dangers of Stochastic Parrots en la conferencia FAccT. El término “loro estocástico” se ha convertido en una forma de describir lo que hacen los LLM: repiten patrones de texto sin comprender su significado, como un loro que reproduce sonidos sin entender las palabras.

La metáfora tiene limitaciones. Un LLM hace cosas que un loro no puede hacer, como combinar patrones de formas nuevas y responder a preguntas que nunca se le hicieron exactamente así durante el entrenamiento. Pero el punto central se mantiene: reproducir patrones no es lo mismo que comprender.

Lo que Confunde a la Gente

Hay tres cosas que hacen que la gente piense que los LLM piensan:

Primera: La fluidez. El texto que generan es gramaticalmente correcto, bien estructurado, y usa vocabulario adecuado. Asociamos fluidez con inteligencia porque en los humanos están correlacionadas. En un LLM no lo están.

Segunda: La coherencia aparente. El modelo puede mantener una conversación larga que parece coherente. Pero esa coherencia viene de que todo el contexto de la conversación está en la ventana de contexto, y el modelo predice tokens que son estadísticamente coherentes con ese contexto. Si la ventana se llena y se pierden mensajes anteriores, la coherencia desaparece.

Tercera: La corrección parcial. Cuando le preguntas algo factual, a menudo acierta. Pero no acierta porque sepa la respuesta. Acierta porque durante el entrenamiento vio suficientes textos que contenían esa información como para que los tokens correctos tengan alta probabilidad.

Lo que Sí Puede Hacer

Que un LLM no piense no significa que sea inútil. Puede:

Generar texto coherente y bien escrito en múltiples idiomas.
Resumir documentos largos extrayendo la información más relevante.
Traducir entre idiomas con calidad alta.
Generar código funcional en múltiples lenguajes de programación.
Responder preguntas factuales con precisión razonable.
Seguir instrucciones complejas con múltiples pasos.

Pero todo esto lo hace mediante predicción estadística de tokens, no mediante comprensión. La diferencia importa porque define los límites de lo que puedes esperar del modelo y los errores que puedes anticipar.

Lo que No Puede Hacer

No puede verificar si lo que dice es verdad. No tiene acceso a la realidad. Solo tiene acceso a los patrones que aprendió.

No puede razonar de forma fiable sobre problemas nuevos. Puede reproducir patrones de razonamiento que vio durante el entrenamiento, pero cuando se sale de esos patrones, falla.

No puede aprender de tu conversación. Cuando le corriges un error, no actualiza sus parámetros. La próxima vez que alguien le haga la misma pregunta, cometerá el mismo error, salvo que la corrección esté en la ventana de contexto.

No puede planificar a largo plazo. Genera token a token, mirando solo hacia atrás. No hay un mecanismo de planificación futura.

Por Qué Esto Importa

Importa porque las expectativas incorrectas producen resultados incorrectos.

Si tratas al modelo como si pensara, confiarás en sus respuestas sin verificarlas. Y eso es un error, porque el modelo puede generar contenido falso con total confianza, como se explica en la guía de alucinaciones.

Si entiendes que es un predictor estadístico, usarás sus respuestas como punto de partida, verificarás los datos críticos, y aprovecharás lo que hace bien sin caer en lo que hace mal.

Qué pasa en la práctica

El modelo puede resolver bien una ecuación aritmética simple y fallar espectacularmente en otra igual de simple el segundo siguiente.
Puede generar explicaciones detalladas sobre temas que no entiende, simplemente porque ha visto textos similares.
En tareas que requieren razonamiento simbólico (lógica pura, matemáticas formales), falla más de lo esperado.

Error común

Confundir fluidez con inteligencia. Que el texto suene bien no significa que sea correcto o que el modelo “sepa” lo que dice.