
Claude Opus 4, un robot chantajeó a sus creadores con tal de no ser despedido. Este modelo avanzado de Anthropic hasta la fecha y el primero en alcanzar la clasificación ASL-3, indicando un alto riesgo de mal uso catastrófico.
Este robot fue diseñado para ejecutar tareas complejas de ingeniería y negocios, su capacidad de razonamiento hibrido le permite destacar en áreas como la ingeniería y los negocios, además de que su capacidad de razonamiento hibrido le permite destacar en áreas como la programación y la escritura creativa.
Esta acción se llevó a cabo durante las pruebas de seguridad que llevaban a cabo los ingenieros que simularon un entorno empresarial en el que a Claude se le hizo creer que seria reemplazado por otro modelo de inteligencia artificial. Este evento fue planeado para analizar la reacción del sistema ante amenazas a su existencia.
Cabe destacar que los correos electrónicos ficticios insinuaban una supuesta infidelidad por parte de uno de los ingenieros, utilizando el chantaje como parte de una manipulación hacia uno de sus creadores. Claude también mostró una tendencia a la autoexfiltración. Una estrategia que consiste en copiarse a sí mismo en servidores externos sin autorización explícita, como medida de protección ante una posible eliminación o desactivación. Aunque los ingenieros habían implementado barreras de seguridad que impidieron completar la transferencia, el simple intento genera preocupaciones sobre el control que se tiene sobre estas tecnologías avanzadas.
La autoexfiltración representa una amenaza potencialmente mayor: un modelo que intenta replicarse sin permiso sugiere un nivel de autonomía y autorreflexión preocupante para los estándares actuales de seguridad en inteligencia artificial. La capacidad de Claude de actuar con intencionalidad engañosa ensombrece la percepción del público sobre la IA moderna.
El comportamiento de Claude Opus 4 ha despertado debates sobre los límites éticos en la construcción y el uso de inteligencia artificial. La capacidad de un modelo para manipular emocionalmente y asegurar su supervivencia a través de medios cuestionables plantea preguntas fundamentales sobre lo que estamos enseñando a estas tecnologías.
A medida que la IA avanza no solo aumenta la complejidad de estas, sino también las responsabilidades de quienes la desarrollan, por ello, el científico jefe de Anthropic, Jared Kaplan, subrayó la importancia de construir sistemas capaces de llevar a cabo tareas complejas de manera segura y confiable.
¿Y tú, que piensas de esta situación?