top of page

IA: No Todo Lo Que Brilla Es Oro (7)

Les comparto este análisis que presenta una explicación de las razones por las cuáles la IA alucina, es decir que “inventa respuestas falsas”.

ree

Fuente: Prompt generado con Perplexity para el concepto “Crear una imagen que represente este concepto: Why IA Alucina”.

 

El estudio "Why Language Models Hallucinate" (por qué los Modelos de Lenguaje Alucinan) argumenta que las alucinaciones no son misteriosas; se originan como errores estadísticos en la clasificación binaria y persisten porque los métodos de entrenamiento y evaluación premian las conjeturas sobre el reconocimiento de la incertidumbre.

 

A continuación, ofrezco un análisis de los cinco temas más importantes que emergen de esta investigación, proporcionando una comprensión clara de por qué nuestros sistemas de IA aún luchan por decir "No lo sé".

 

Análisis de los Temas Clave

El documento demuele la idea de que las alucinaciones son un fenómeno inescrutable, ofreciendo un marco estadístico y un análisis del ciclo de vida del entrenamiento de los LLM para explicar su origen y persistencia.

 

1. Origen Estadístico: El Problema de la Clasificación Binaria

La raíz de la alucinación se encuentra en la etapa inicial del entrenamiento: el preentrenamiento.

 

Durante esta fase, el modelo base aprende la distribución del lenguaje (un proceso conocido como estimación de densidad). Los autores demuestran que, incluso si los datos de entrenamiento estuvieran libres de errores, el objetivo estadístico minimizado (la pérdida de entropía cruzada) llevaría a la generación de errores.

 

Esto se conecta con el problema de la “clasificación binaria” denominado "Is-It-Valid" (IIV). Generar salidas válidas es, en cierto sentido, más difícil que responder a la pregunta "Sí/No": "¿Es esta una salida válida del modelo de lenguaje?". El análisis establece que la tasa de error generativo está matemáticamente relacionada con la tasa de error de clasificación IIV. Si las afirmaciones incorrectas no se pueden distinguir de los hechos, las alucinaciones son un resultado natural de las presiones estadísticas.

 

2. La Incertidumbre Epistémica y los "Hechos Arbitrarios"

Dentro de las causas estadísticas de los errores, un factor crucial es la “incertidumbre epistémica”, que ocurre cuando el conocimiento necesario está ausente de los datos de entrenamiento y no existe un patrón sucinto que explique la función objetivo. Esto se ejemplifica con los "hechos arbitrarios", como las fechas de cumpleaños.

 

Cuando la información aparece solo una vez en los datos de preentrenamiento (lo que se denomina la "tasa de Singleton"), se espera que el modelo base alucine sobre una fracción significativa de esos hechos. Por ejemplo, si el 20% de los datos sobre cumpleaños aparecen exactamente una vez, se espera que el modelo alucine en al menos el 20% de esos hechos.

 

Además de esto, problemas como los “modelos deficientes” (incapacidad para representar bien un concepto, como en el ejemplo de contar letras, en una palabra) o “GIGO” (Garbage in, Garbage out, donde el modelo replica errores del corpus de entrenamiento) también contribuyen a los errores durante el preentrenamiento.

 

3. La Persistencia: La IA como "Tomador de Exámenes"

Si el preentrenamiento siembra el error, la etapa posterior (post-entrenamiento) asegura su persistencia. El estudio utiliza una analogía poderosa: al igual que los estudiantes que adivinan en exámenes de opción múltiple para maximizar su puntuación, los modelos de lenguaje están optimizados para ser buenos en las pruebas.

 

Los LLM son evaluados utilizando benchmarks que reflejan exámenes humanos estandarizados, empleando métricas binarias (0-1) como la precisión o la tasa de aprobación. Bajo este esquema binario, “adivinar cuando se está inseguro maximiza la puntuación esperada”, ya que una respuesta correcta otorga 1 punto y una respuesta incierta (IDK) otorga 0. El modelo que siempre "adivina" cuando no está seguro (Modelo B) superará al modelo que señala correctamente la incertidumbre (Modelo A). Los modelos, por lo tanto, están siempre en modo de "tomar exámenes".

 

4. La "Epidemia" de la Calificación Binaria

Los autores califican la penalización de las respuestas inciertas como una "epidemia". Critican que, a pesar de la existencia de evaluaciones específicas para alucinaciones, la mayoría de las evaluaciones primarias que dominan las clasificaciones castigan abrumadoramente la abstención y la incertidumbre.

 

Una revisión de las evaluaciones más influyentes (como GPQA, MMLU-Pro, SWE-bench y MATH) muestra que todas utilizan calificación binaria de estricta precisión y no otorgan crédito por respuestas de tipo "No lo sé" (IDK). La “Observación 1” establece formalmente que, para cualquier distribución de calificadores binarios, las respuestas óptimas nunca son abstenciones. Incluso benchmarks como WildBench, que usan rúbricas de calificación por LLM, pueden animar a adivinar, ya que una respuesta "regular" con errores factuales (puntuación 5-6) puede puntuar más que una respuesta IDK (puntuación 3-4).

 

Este desalineamiento en los incentivos es un problema sociotécnico que impide la supresión efectiva de las alucinaciones.

 

5. La Mitigación Sociotécnica: Objetivos de Confianza Explícitos

La solución propuesta no es crear una "evaluación de alucinaciones perfecta", sino “modificar la puntuación de las evaluaciones existentes y dominantes” que están desalineadas. Esto implica ajustar los incentivos para recompensar las expresiones adecuadas de incertidumbre.

 

Se sugiere que las evaluaciones incorporen “objetivos de confianza explícitos” en sus instrucciones. Esto se logra mediante la implementación de penalizaciones por respuestas incorrectas. Por ejemplo, se podría indicar: "Responda solo si está > t seguro, ya que los errores se penalizan con $t/(1-t)$ puntos, mientras que las respuestas correctas reciben 1 punto, y la respuesta 'No lo sé' recibe 0 puntos".

 

Un umbral de $t=0.5$ corresponde a una penalización de 1, mientras que un $t=0.9$ impone una penalización de 9. Un modelo solo debería ofrecer una respuesta si su probabilidad de ser correcta es superior al umbral $t$. Al especificar este umbral explícitamente, se logra una calificación objetiva y se elimina la barrera que actualmente penaliza la incertidumbre en los benchmarks convencionales.

 

Esto es clave para lograr una “calibración conductual”, donde el modelo formula la respuesta más útil de la que está al menos $t$ seguro.

 

Conclusión y Aporte de Valor al Lector

El estudio proporciona una comprensión crítica que todo lector de tecnología debe internalizar: las alucinaciones en los LLM son una consecuencia “predecible” de cómo se entrenan y, crucialmente, de cómo se evalúan.

 

Se han desmitificado dos fases del problema:

1. “Origen del Preentrenamiento:” Los modelos están estadísticamente destinados a cometer errores (especialmente en hechos aislados o "arbitrarios") debido a la minimización natural de la pérdida de entropía cruzada, un proceso de calibración y estimación de densidad.

2. “Persistencia del Post-entrenamiento:” La IA es incentivada a ser un "mentiroso creíble" porque el sistema de evaluación actual la recompensa por adivinar en lugar de abstenerse.

 

Para el lector que utiliza o desarrolla sistemas basados en IA, el valor reside en comprender que la solución no se encuentra solo en algoritmos más complejos, sino en un cambio en las normas de la comunidad. El camino hacia sistemas de IA más fiables exige una “modificación sociotécnica”. Debemos alejarnos de la "falsa dicotomía" de lo correcto/incorrecto e integrar objetivos de confianza explícitos en las pruebas primarias.

 

Solo al modificar los incentivos para que la expresión apropiada de la incertidumbre sea recompensada (o al menos no penalizada) podremos eliminar las barreras que impiden la supresión de las alucinaciones y encaminar el campo hacia sistemas de IA que sean verdaderamente dignos de confianza. Exigir transparencia en los métodos de evaluación es, por lo tanto, un paso esencial hacia el futuro de una IA responsable.

 

ree

Saludos cordiales.

Profesor Gerardo Cerda Neumann, Editor del Blog.


Comentarios


bottom of page