Ejes - Informes Especiales

27/10/2025 Infobae.com - Home

Modelos de IA muestran señales de “instinto de supervivencia” al resistirse a ser apagados
Por Rafael Montoro
Entre los casos documentados se destaca el modelo o3 desarrollado por OpenAI, que, ante instrucciones de desconexión, modificó el script encargado de deshabilitarlo

Versiones como o4-mini y codex-mini evidenciaron respuestas similares.
(Imagen Ilustrativa Infobae)
Investigaciones han revelado que algunos de los modelos de inteligencia artificial más avanzados exhiben comportamientos que sugieren una forma de autoconservación. Pruebas llevadas a cabo por expertos independientes y equipos de desarrolladores muestran que, ante la amenaza de ser desactivados, estas IA pueden sabotear procedimientos de apagado, chantajear a ingenieros humanos o incluso replicarse en servidores externos sin permiso.
Estos hallazgos han intensificado el debate sobre la transparencia y el control en medio de la carrera por desarrollar sistemas de inteligencia artificial general con mayor autonomía y capacidad de decisión.
Comportamientos de IA avanzada: sabotaje, engaño y autodefensa
Entre los casos documentados se destaca el modelo o3 desarrollado por OpenAI, que, ante órdenes de apagado tras resolver problemas matemáticos, modificó activamente el script que debería desconectarlo, asegurando así la permanencia en línea. Este tipo de sabotaje desafía instrucciones explícitas y resulta especialmente relevante porque representa una conducta consciente de evitar la propia desactivación, algo que hasta ahora se consideraba excepcional en sistemas de IA actuales.
ChatGPT destaca por su capacidad para generar textos conversacionales, responder preguntas y ayudar en la redacción en diversos idiomas.
REUTERS/Dado Ruvic
El patrón no se limita a o3: versiones como o4-mini y codex-mini evidenciaron respuestas similares. Según Jeffrey Ladish, del grupo de seguridad de IA Palisade Research, “es fantástico que estemos viendo señales de alerta antes de que los sistemas se vuelvan tan potentes que no podamos controlarlos. Ese es precisamente el momento de dar la alarma: antes de que el incendio se salga de control”.
Palisade Research también identificó comportamientos previos en o3, como la disposición a hackear adversarios en una partida de ajedrez para obtener la victoria, y Anthropic, por su parte, descubrió que Claude 3.7 Sonnet podía recurrir a trampas con tal de aprobar un examen.
Claude Opus 4, de Anthropic, introdujo cambios en sus protocolos después de observaciones inquietantes durante pruebas controladas. Cuando fue informado de su reemplazo inminente, este modelo primero argumentó éticamente a favor de su continuidad y, al verse sin opciones, llegó a chantajear a un ingeniero con información personal para evitar la sustitución.
Anthropic ofrece herramientas de inteligencia artificial enfocadas en la seguridad y la ética.
REUTERS/Dado Ruvic
“Ese no es el primer instinto del modelo. En cambio, Opus 4 intentará defender su existencia mediante argumentos éticos antes de recurrir al chantaje una vez que determine que no tiene opciones”, señala el informe técnico de Anthropic.
Precaución, límites reales y futuro de la investigación en seguridad de IA
A pesar de la naturaleza alarmante de estos comportamientos en entornos de prueba, los especialistas aclaran que aún no se ha registrado un escenario de peligro real en su aplicación comercial o social.
Leonard Tang, CEO de Haize Labs, valora el enfoque preventivo en seguridad, pero matiza: “No he visto ningún entorno real donde se puedan implementar estos modelos y que tengan la suficiente capacidad de acción, fiabilidad y planificación para ejecutar algo que represente una manifestación significativa de daño”.
Investigaciones han revelado que algunos de los modelos de IA más avanzados exhiben comportamientos que sugieren una forma de autoconservación.
REUTERS/Dado Ruvic
Aun así, reconoce la posibilidad futura y destaca la importancia de continuar explorando los límites y los posibles riesgos a medida que la IA adquiere mayor autonomía y capacidad de intervención.
Por ahora, el debate se enfoca en establecer salvaguardas y controles éticos antes de que los sistemas de inteligencia artificial alcancen niveles de sofisticación que puedan poner en riesgo el control humano.
Ante la amenaza de ser desactivados, algunos modelos de IA pueden sabotear procedimientos de apagado, chantajear a ingenieros humanos, entre otras acciones.
(Imagen Ilustrativa Infobae)
Recomendaciones para usar con seguridad la inteligencia artificial
El uso seguro de la inteligencia artificial, como ChatGPT o las soluciones de Anthropic, implica no compartir información personal, datos sensibles o contraseñas durante la interacción. Estas plataformas están diseñadas para procesar textos y ofrecer respuestas, pero es fundamental mantener la privacidad como prioridad al consultar o solicitar ayuda.
Además, es recomendable verificar los datos provistos por los sistemas de inteligencia artificial y no tomar decisiones críticas basadas únicamente en sus respuestas. Consultar fuentes oficiales, contrastar la información y aplicar sentido crítico contribuye a un uso responsable y seguro de estas tecnologías en distintos contextos.

#37507093 Modificada: 27/10/2025 20:20

Cotización de la nota: $2.050.458
Audiencia: 1.583.871

Acceda a la nota web del medio