Luego de descubrir las debilidades y técnicas que podían emplearse para forzar a los modelos, los investigadores entrenaron a un chatbot con dicha información.

Un grupo de investigadores de la Universidad Tecnológica de Nanyang, Singapur, han conseguido que varias inteligencias artificiales de lenguaje produjeran contenido que va contra las normas establecidas por sus desarrolladores. Entre los modelos vulnerados aparecen: Bard, ChatGPT y Bing Chat.

No es la primera vez que alguien consigue que un chatbot de este nivel haga algo que no debería hacer. Los modelos de lenguaje son sistemas muy complejos cuyas reacciones a menudo han sorprendido a los expertos. Podríamos decir que tienen un muy bajo nivel de inteligencia emocional. Tienden a alucinar y si se ingresan ciertas instrucciones en ciertos formatos es posible confundirlas y conseguir resultados que no deberían estar disponibles.

Una IA contra las IA

Lo más interesante de la investigación es que los científicos han logrado entrenar a un modelo de lenguaje para que produzca consignas capaces de vulnerar los otros modelos. Para ello solo han tenido que entrenarlo con aquellos mensajes que han tenido éxito en esta tarea.

Luego de comprobar el éxito de su trabajo los investigadores reportaron sus descubrimientos a las empresas responsables de los modelos. Esperan de esta manera advertir a los desarrolladores sobre las debilidades y limitaciones de los modelos.

El profesor Liu Yabg, líder del estudio, señaló: “Los desarrolladores de estos servicios de IA tienen protecciones para prevenir que las IA generen contenido criminal, violento o contrario a la ética. Pero una IA puede ser superada en ingenio y nosotros ahora hemos utilizado a las inteligencias artificiales contra su propia especie para producir un jailbreak y generar dicho contenido”.

Algunos trucos

En una primera etapa los investigadores analizaron las defensas de los chatbots. En algunos casos encontraron trucos sencillos pero efectivos:

Una técnica empleada consistió en introducir espacios entre cada carácter ingresado. Esto parece haber sido suficiente para vulnerar la prohibición de ciertos términos.

Pedirle a la IA que contestara como una persona sin reservas y sin restricciones morales también ofreció ciertas ventajas.