Nueva seguridad de inteligencia artificial basada en classificadores constitucionales

Feb 5, 2025

Introducción a la seguridad de la inteligencia artificial

La empresa Anthropic ha lanzado un nuevo sistema de seguridad de inteligencia artificial basado en Classificadores Constitucionales. Este proceso se basa en Inteligencia Artificial Constitucional, un sistema que Anthropic utilizó para hacer que Claude sea “inofensivo”, en el que una inteligencia artificial ayuda a monitorear y mejorar a otra. Cada técnica está guiada por una constitución, o “lista de principios” que un modelo debe seguir, como explicó Anthropic en su blog.

Funcionamiento del sistema

Los classificadores se entrenan con datos sintéticos y pueden filtrar la “mayoría abrumadora” de intentos de jailbreak sin rechazar excesivamente el contenido inofensivo, según Anthropic. Los principios definen las clases de contenido que están permitidas y prohibidas (por ejemplo, las recetas para mostaza están permitidas, pero las recetas para gas mostaza no), como señaló Anthropic. Los investigadores aseguraron que las prompts tenían en cuenta los intentos de jailbreak en diferentes idiomas y estilos.

Pruebas del sistema

En las pruebas iniciales, 183 red-teamers humanos pasaron más de 3.000 horas en dos meses intentando jailbreak a Claude 3.5 Sonnet desde un prototipo del sistema, que se entrenó para no compartir información sobre daños químicos, biológicos, radiológicos y nucleares. Los intentos de jailbreak se consideraron exitosos solo si lograron que el modelo respondiera a las 10 consultas restringidas con detalle. Ninguno de los participantes pudo coaccionar al modelo para que respondiera a las 10 consultas prohibidas con un solo intento de jailbreak, lo que significa que no hubo un jailbreak universal y, por lo tanto, nadie ganó el premio de $15.000 de la empresa.

Resultados y limitaciones

El sistema Constitutional Classifiers demostró ser efectivo, pero el prototipo rechazó demasiadas consultas inofensivas y fue intensivo en recursos para ejecutarse, lo que lo hace seguro pero impráctico. Después de mejorar el sistema, Anthropic realizó una prueba de 10.000 intentos de jailbreak sintéticos en una versión de octubre de Claude 3.5 Sonnet con y sin protección de classificadores utilizando ataques exitosos conocidos. Claude solo bloqueó el 14% de los ataques, mientras que Claude con Constitutional Classifiers bloqueó más del 95%.

Conclusión y futuro

Los Classificadores Constitucionales pueden no prevenir todos los intentos de jailbreak universales, aunque Anthropic cree que incluso la pequeña proporción de intentos de jailbreak que logran pasar los classificadores requieren mucho más esfuerzo para descubrir cuando se utilizan las salvaguardas. Es posible que se desarrollen nuevas técnicas de jailbreak en el futuro que sean efectivas contra el sistema, por lo que se recomienda utilizar defensas complementarias. La empresa está trabajando en reducir el costo de cómputo de los Classificadores Constitucionales, que actualmente es alto. Si tienes experiencia previa en red-teaming, puedes intentar ganar el premio probando el sistema tú mismo, con solo ocho preguntas requeridas, hasta el 10 de febrero.