Google hizo que su LLM se asesinara en Werewolf para probar su inteligencia en inteligencia artificial

En GDC 2024, los ingenieros senior de IA de Google, Jane Friedhoff (UX) y Feiyang Chen (Software), mostraron los resultados de su experimento Werewolf AI, en el que todos los aldeanos inocentes y los lobos astutos y asesinos son modelos de lenguaje grande (LLM). Chen entrenó a cada chatbot de LLM para generar diálogo con personalidades únicas, diseñar tácticas basadas en sus roles, razonar qué esconden otros jugadores (IA o humanos) y luego votar por la persona más sospechosa (o el chivo expiatorio del hombre lobo). Luego soltaron los robots de inteligencia artificial de Google, probando qué tan buenos eran para detectar mentiras o qué tan susceptibles eran a ser engañados. También probaron cómo les fue a los LLM al eliminar capacidades específicas como la memoria o el razonamiento deductivo, para ver cómo afectaba los resultados. (Crédito de la imagen: Michael Hicks / Android Central) El equipo de ingeniería de Google fue franco sobre los éxitos y las deficiencias del experimento. En situaciones ideales, los aldeanos llegaban a la conclusión correcta nueve de cada 10 veces; sin el razonamiento y la memoria adecuados, los resultados se redujeron a tres sobre 10. Los robots eran demasiado cautelosos para revelar información útil y demasiado escépticos ante cualquier afirmación, lo que llevó a una acumulación aleatoria de objetivos desafortunados. ser demasiado escéptico con cualquiera (como los videntes) que hiciera afirmaciones audaces desde el principio. Hicieron un seguimiento de los votos previstos al final de la ronda de los robots después de cada línea de diálogo y descubrieron que sus opiniones rara vez cambiaban después de esas sospechas iniciales, independientemente de lo que se dijera. Los evaluadores humanos de Google, a pesar de decir que era genial jugar a Werewolf con robots de IA, los calificaron con 2/5 o 3/5 por razonamiento y descubrieron que la mejor estrategia para ganar era permanecer en silencio y dejar que ciertos robots carguen con la culpa. Como Friedhoff Como explicó, es una estrategia legítima para un hombre lobo, pero no necesariamente divertida ni el objetivo del juego. Los jugadores se divirtieron más jugando con las personalidades de los robots; en un ejemplo, les dijeron a los bots que hablaran como piratas durante el resto del juego, y los bots obedecieron, mientras sospechaban y preguntaban: «¿Por qué estáis haciendo tal cosa?» Recibe las últimas noticias de Android Central, tu compañero confiable en el mundo de Android (Crédito de la imagen: Michael Hicks / Android Central) Aparte de eso, la prueba mostró los límites del razonamiento de los bots. Le darían personalidades a los robots, como un robot paranoico que sospecha de todos o un robot teatral que hablaba como un actor de Shakespeare, y otros robots reaccionaban ante esas personalidades sin ningún contexto. Encontraron que el robot teatral era sospechoso por lo prolijo y indirecto que era, a pesar de que esa es su personalidad predeterminada. En el Hombre Lobo de la vida real, el objetivo es atrapar a las personas hablando o comportándose de manera diferente a lo habitual. Ahí es donde estos LLM se quedan cortos. Friedhoff también proporcionó un ejemplo hilarante de una alucinación de robot que desvió a los aldeanos. Cuando Isaac (el robot vidente) acusó a Scott (el robot hombre lobo) de ser sospechoso, Scott respondió que Isaac había acusado al inocente «Liam» de ser un hombre lobo y lo había exiliado injustamente. Isaac respondió a la defensiva y las sospechas se dirigieron hacia él, a pesar de que Liam no existía y el escenario estaba inventado. (Crédito de la imagen: Google) Los esfuerzos de inteligencia artificial de Google, como Gemini, se han vuelto más inteligentes con el tiempo. Otro panel de GDC mostró la visión de Google de los videojuegos de IA generativa que responden automáticamente a los comentarios de los jugadores en tiempo real y tienen «cientos de miles» de NPC respaldados por LLM que recuerdan las interacciones de los jugadores y responden orgánicamente a sus preguntas. Experimentos como este, sin embargo, van más allá de los audaces planes de los ejecutivos de Google y muestran hasta dónde tiene que llegar la inteligencia artificial antes de estar lista para reemplazar el diálogo escrito real o los jugadores de la vida real. Chen y Friedhoff lograron imitar la complejidad del diálogo, la memoria y el razonamiento que entraña un juego de mesa como Werewolf, ¡y eso es realmente impresionante! Pero estos robots LLM necesitan volver a la escuela antes de que estén listos para el consumidor. Mientras tanto, Friedhoff dice que este tipo de experimentos de LLM son una excelente manera para que los desarrolladores de juegos «contribuyan a la investigación del aprendizaje automático a través de juegos» y que su experimento muestra que los jugadores están más entusiasmados con desarrollar y enseñar personalidades de LLM que con jugar. con ellos. Con el tiempo, la idea de juegos móviles con personajes basados en texto que respondan orgánicamente a tus respuestas de texto es intrigante, especialmente para la ficción interactiva, que normalmente requiere cientos de miles de palabras de diálogo para dar a los jugadores suficientes opciones. Si los mejores teléfonos Android con NPU capaces de procesar IA pudieran ofrecer respuestas LLM rápidas para juegos orgánicos, eso podría ser verdaderamente transformador para los juegos. Sin embargo, este experimento del Hombre Lobo Generativo es un buen recordatorio de que este futuro está muy lejos.

Source link

Todo lo que necesitas saber sobre tecnología

Google hizo que su LLM se asesinara en Werewolf para probar su inteligencia en inteligencia artificial

Deja una respuesta Cancelar la respuesta

Google hizo que su LLM se asesinara en Werewolf para probar su inteligencia en inteligencia artificial

Redis endurece sus términos de licencia, sin complacer a nadie • The Register

El cifrado iMessage de Apple pone sus prácticas de seguridad en la mira del Departamento de Justicia

Deja una respuesta Cancelar la respuesta