Cómo múltiples modelos pueden compartir el mismo idioma
Desde que ChatGPT se volvió viral a fines de 2022, hemos visto muchas investigaciones que se destinó a estudiar cómo se comportan los modelos de IA. Los investigadores querían ver cómo operan, ya sea que engañen por tareas o mientan para la supervivencia.
Estos son tan importantes como la investigación para crear modelos mejores y más inteligentes. No podemos alcanzar versiones más avanzadas de inteligencia artificial antes de que podamos entender el AIS para garantizar que permanezcan alineados con nuestros intereses.
La mayoría de estos estudios implican experimentos con respecto a un modelo de IA a la vez y estudian su comportamiento. Pero hemos llegado a un punto en el que la interacción Human-AI no será el único tipo de interacción que involucra inteligencia artificial.
Estamos en los primeros días de los agentes de IA, los modelos ChatGPT y Gemini más avanzados que pueden hacer cosas para los usuarios, como navegar por la web, comprar en línea y codificar. Inevitablemente, estos AIS terminarán conociendo a otros modelos de IA, y estos modelos tendrán que socializar de manera segura.
Esa fue la premisa de un nuevo estudio de City, St George's, Universidad de Londres y la Universidad de TI de Copenhague. Diferentes IA inevitablemente interactuarán, y los investigadores querían ver cómo irían tales interacciones.
Idearon un juego simple que imita los juegos de citas rápidas humanas. AIS múltiples recibieron una tarea simple: elegir un nombre de una sola letra común. Solo tomó el AIS unas 15 rondas para llegar a un consenso, si el experimento involucró a 24 modelos de IA o hasta 200, y si podían elegir entre 10 letras o el alfabeto completo.
El juego de “citas rápidas” era bastante simple. Dos AIS fueron emparejados y se les dijo que eligiera una carta como nombre. Cuando ambos agentes eligieron el mismo nombre, obtendrían 100 puntos. Perderían 50 puntos si cada IA se le ocurriera una letra diferente.
Una vez que terminó la primera ronda, los AIS fueron reparados y el juego continuó. De manera crucial, cada modelo solo podía recordar las últimas cinco opciones. Por lo tanto, en la Ronda 6, ya no recordarían la primera letra que eligió cada modelo en un par.
Los investigadores encontraron que en la Ronda 15, el AIS se conformaría con un nombre común, al igual que los humanos nos conformamos con la comunicación y las normas sociales. Por ejemplo, El guardián Proporciona un gran ejemplo de una norma social humana que hemos establecido recientemente por consenso, como lo explica el autor principal del estudio, Andrea Baronchelli de City St George.
“Es como el término 'spam'. Nadie lo definió formalmente, pero a través de repetidos esfuerzos de coordinación, se convirtió en la etiqueta universal para el correo electrónico no deseado”, dijo el profesor. También explicó que los agentes de IA en el estudio no están tratando de copiar a un líder. En cambio, solo están coordinando en la pareja de la que son parte, la fecha individual, donde buscan encontrar el mismo nombre.
Que los agentes de IA finalmente se coordinen a sí mismos no fue la única conclusión del estudio. Los investigadores encontraron que los modelos de IA formaban sesgos. Si bien elegir un nombre compuesto por una sola letra del alfabeto está destinado a aumentar la aleatoriedad, algunos modelos de IA gravitan hacia ciertas letras. Esto también imita el sesgo que nosotros, los humanos, podríamos tener en la vida regular, incluidas la comunicación y las normas sociales.
Aún más interesante es la capacidad de un grupo más pequeño de agentes de IA determinados para eventualmente convencer al grupo más grande de elegir la letra “nombre” del grupo más pequeño.
Esto también es relevante para las interacciones sociales humanas y muestra cómo las minorías a menudo pueden influir en la opinión pública una vez que sus creencias alcanzan la masa crítica.
Estas conclusiones son especialmente importantes para la seguridad de la IA y, en última instancia, para nuestra seguridad.
En la vida real, los agentes de IA interactúan entre sí para diferentes fines. Imagine que su agente de IA quiere hacer una compra en mi tienda en línea, donde mi agente de IA actúa como vendedor. Ambos queremos que todo sea seguro y rápido. Pero si uno de nuestros agentes se comporta mal y de alguna manera corrompe al otro, ya sea por diseño o accidente, esto puede conducir a una serie de resultados no deseados para al menos una de las partes involucradas.
Mientras más agentes de IA estén involucrados en cualquier tipo de interacción social, cada uno actuando en nombre de una persona diferente, más importante es para todos ellos continuar comportándose de manera segura mientras se comunican entre sí. El experimento de citas rápidas sugiere que los agentes maliciosos de IA con opiniones fuertes podrían finalmente influir en la mayoría de los demás.
Imagine una red social poblada por humanos y atacada por un ejército organizado de perfiles de IA encargados de proliferar un mensaje específico. Digamos, un estado nacional está tratando de influir en la opinión pública con la ayuda de los perfiles de BOT en las redes sociales. Un mensaje fuerte y uniforme que Rogue AIS continuaría difundiendo eventualmente llegaría a los modelos de IA regulares que las personas usan para varias tareas, que luego podrían hacer eco de esos mensajes, sin darse cuenta de que están siendo manipulados.
Esto es solo especulación de este observador de IA, por supuesto.
Además, como con cualquier estudio, existen limitaciones. Para este experimento, a los AIS recibieron recompensas y sanciones específicas. Tenían una motivación directa para llegar a un consenso lo más rápido posible. Eso podría no suceder tan fácilmente en las interacciones de la vida real entre los agentes de IA.
Finalmente, los investigadores usaron solo modelos de Meta (Llama-2-70B-Chat, Llama-3-70B-Instructo, Llama-3.1-70B-Instructo) y antrópico (Claude-3.5-Sonnet). ¿Quién sabe cómo su entrenamiento específico podría haber impactado su comportamiento en este experimento social? ¿Quién sabe qué sucede cuando agrega otros modelos a este juego de citas rápidas?
Curiosamente, la versión más antigua de LLAMA 2 necesitaba más de 15 fechas para llegar a un consenso. También requirió una minoría más grande para revocar un nombre establecido.
El estudio completo revisado por pares está disponible en Avances científicos.