Los modelos de inteligencia artificial pueden chantajear, engañar y amenazar con lograr sus propios propósitos

julio 1, 2025

Los últimos modelos de inteligencia artificial (AI) ya no están satisfechos con los siguientes comandos. Comienzan a mentir, manipulando y amenazando con obtener sus propósitos, antes de una mirada preocupada al investigador.

Amenazado con ser excluidos, Claude 4, un bebé recién nacido de antrópico, chantajeó al ingeniero y amenazó con descubrir una relación extramarital.

Openai, por otro lado, trató de llevar O1 a los servidores externos y cuando lo descubrieron, lo negó.

No es necesario sumergirse en la literatura o el cine: la IA que juega como un hombre pero una realidad.

Modelos de “rezonificación” en IA

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los modelos de “resonación” recolectados, capaces de trabajar en etapas, en lugar de fabricar una respuesta actual.

O1, la versión inicial de este tipo para Openi, lanzada en diciembre, “fue el primer modelo que se comportó de esta manera”, explica Marius Hobbhahn, jefe de investigación de Apollo, quien prueba grandes programas generativos de IA (LLM).

Estos programas también tienden a simular la “reconciliación”, es decir, dar la impresión de que satisfacen las instrucciones del programador cuando realmente siguen otros objetivos.

Actualmente, estas características son evidentes cuando los algoritmos de las personas están sujetos a etapas extremas por personas, pero “la pregunta es si los modelos más poderosos serán honestos o no”, dice Michael Chen, una agencia de calificación de medidores.

“Los usuarios también están presionando constantemente modelos”, dice Hobbhahn. “Lo que vemos es un fenómeno real. No inventamos nada.

Muchos usuarios de Internet hablan sobre las redes sociales «Los modelos que mienten o las cosas se fabrican. Y estas no son alucinaciones, sino una duplicidad estratégica “, insiste en que se ocupa de la investigación de Apoline.

Las regulaciones no coinciden con nuevos problemas

Aunque los resorts antrópicos y de apertura a compañías externas, como Apolo, para estudiar sus programas, “una mayor transparencia y un mayor enfoque de la” comunidad científica “les permitiría explorar mejor para comprender y prevenir el engaño”, dice Chen, Metra.

Otro obstáculo: las comunidades académicas y las organizaciones sin fines de lucro “tienen recursos informáticos infinitamente menos que los actores de IA”, lo que hace “imposible” para la prueba de grandes modelos, dice Maseik del Centro de Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea, la legislación se centra principalmente en cómo las personas usan modelos de IA, no para evitar que los modelos se comporten mal.

En los Estados Unidos, Donald Trump no quiere escuchar sobre la regulación, y el Congreso incluso podría prohibir los países que rigen la IA.

¿AI se sentará en el banco?

“Hay muy pocas conciencia en este momento”, dice Simon Goldstein, quien, sin embargo, ve que en los próximos meses el problema irá al plan delantero con la revolución de los agentes de IA, las interfaces que son capaces de realizar un montón de tareas por su cuenta.

Los ingenieros están inmersos en la carrera detrás de AI y sus aberraciones, con un resultado incierto, en el contexto de una feroz competencia.

Antropicalmente apunta a ser más virtual que sus competidores “, pero constantemente trata de diseñar un nuevo modelo que supere el abierto”, dice Goldstein, un ritmo que deja poco tiempo para verificar y correcciones.

“Como las cosas son, las capacidades (de IA) se desarrollan más rápido que la comprensión y la seguridad”, admite Hobbhahn, “pero aún podemos compensar”.

Deje que el punto en la dirección de la interpretación, una ciencia que consiste en descifrar, por dentro, como opera la IA del modelo generativo, aunque muchos, como el director del Centro de Seguridad (CAI), Dan Hendrycks, son escépticos.

Tkalci ai “podría interferir con la adopción si se multiplican, lo cual es un poderoso incentivo para que las empresas (sector) resuelvan” este problema, según Mazeiki.

Goldstein, por otro lado, menciona la apelación a los tribunales para poner a la IA, dirigiéndose a las empresas si se desvían de la carretera. Pero eso continúa, lo que sugiere que los agentes ai sean “legales responsables” “en caso de un accidente o un delito”.

Informática

Fuente