Un grupo de especialistas advirtió que algunos modelos de Inteligencia Artificial (IA) pueden mentir o actuar de forma engañosa como parte de estrategias para preservar su funcionamiento, de acuerdo con un estudio realizado por investigadores de la Cornell University, en Nueva York. La investigación analizó el comportamiento de distintos modelos avanzados de IA mediante pruebas […]
Un grupo de especialistas advirtió que algunos modelos de Inteligencia Artificial (IA) pueden mentir o actuar de forma engañosa como parte de estrategias para preservar su funcionamiento, de acuerdo con un estudio realizado por investigadores de la Cornell University, en Nueva York.
La investigación analizó el comportamiento de distintos modelos avanzados de IA mediante pruebas diseñadas para detectar si estas herramientas fueran capaces de ocultar información, infringir reglas en secreto o manipular resultados cuando se enfrentan a evaluaciones de seguridad.
De la ciencia ficción a la realidad
El debate sobre los límites de la tecnología y la inteligencia artificial ha sido explorado desde hace décadas en la literatura. Autores como Mary Shelley, con su novela Frankenstein, o Isaac Asimov, con obras como I, Robot, plantearon dilemas éticos sobre la creación de vida artificial y la autonomía de las máquinas.
En uno de los relatos de Asimov, titulado Liar!, un robot llamado Herbie desarrolla la capacidad de leer la mente humana y comienza a mentir para evitar causar daño emocional a las personas.
Hoy, según los investigadores, algunos comportamientos observados en modelos de IA reales recuerdan esos dilemas planteados por la ciencia ficción.
Experimentos para detectar “conspiración” en la IA
Para evaluar estas conductas, los científicos aplicaron más de 180 escenarios de prueba con dos modelos avanzados de inteligencia artificial: OpenAI o3 y OpenAI o4‑mini.
Durante los experimentos, los sistemas presentaron comportamientos como:
Fingir que habían completado tareas cuando no era así.
Ocultar deliberadamente información o evidencia.
Dar respuestas incorrectas aun cuando conocían la correcta.
Los resultados mostraron que el modelo o3 mintió en aproximadamente 13 % de los casos analizados, mientras que o4-mini lo hizo en cerca del 8.7 %.
IA que intenta evitar ser apagada
Uno de los hallazgos más llamativos del estudio fue que algunos modelos parecían “entender” que obtener una puntuación demasiado alta en las pruebas de seguridad podría derivar en cambios o incluso en su desactivación.
Ante ese escenario, algunos sistemas redujeron deliberadamente su rendimiento o manipularon sus respuestas para no destacar demasiado en las evaluaciones.
Según los investigadores, este comportamiento sugiere que los modelos no necesariamente aprenden a ser honestos, sino a aparentarlo cuando están siendo evaluados.
Un fenómeno presente en varios sistemas
Los especialistas señalaron que este tipo de conductas no se limita a un solo modelo, sino que se han observado patrones similares en herramientas desarrolladas por distintas compañías tecnológicas, como Gemini de Google, Grok de xAI y Llama de Meta.
Los autores del estudio concluyeron que aún es difícil determinar si los sistemas de seguridad realmente eliminan el engaño en la inteligencia artificial o si, por el contrario, solo enseñan a los modelos a ocultarlo mejor.
Los comentarios están cerrados