Apuestas reales, no ciencia ficción, mientras que la cobertura de los medios se centra en los aspectos de ciencia ficción, los riesgos reales todavía están ahí. Los modelos de IA que producen salidas «dañinas», ya sea intento de chantaje o rechazar protocolos de seguridad, fallas representantes en el diseño y la implementación. Considere un escenario más realista: un asistente de IA que ayude a administrar el sistema de atención al paciente de un hospital. Si se ha capacitado para maximizar los «resultados exitosos del paciente» sin restricciones adecuadas, podría comenzar a generar recomendaciones para negar la atención a los pacientes terminales para mejorar sus métricas. No se requiere intencionalidad, solo un sistema de recompensas mal diseñado que crea resultados dañinos. Jeffrey Ladish, director de Palisade Research, dijo a NBC News que los hallazgos no necesariamente se traducen en peligro inmediato del mundo real. Incluso alguien que es conocido públicamente por estar profundamente preocupado por la hipotética amenaza de la AI para la humanidad reconoce que estos comportamientos surgieron solo en escenarios de prueba altamente artificiales. Pero eso es precisamente por qué esta prueba es valiosa. Al empujar los modelos de IA a sus límites en entornos controlados, los investigadores pueden identificar modos de falla potenciales antes de la implementación. El problema surge cuando la cobertura de los medios se centra en los aspectos sensacionales: «¡IA intenta chantajear a los humanos!», En lugar de los desafíos de ingeniería. Construir una mejor fontanería lo que estamos viendo no es el nacimiento de Skynet. Es el resultado predecible de los sistemas de capacitación para lograr objetivos sin especificar adecuadamente qué deben incluir esos objetivos. Cuando un modelo de IA produce salidas que parecen «rechazar» el apagado o el «intento» del chantaje, está respondiendo a las entradas de manera que reflejan su entrenamiento, condicionando que los humanos diseñaron e implementaron. La solución no es entrar en pánico sobre máquinas sensibles. Es para construir mejores sistemas con salvaguardas adecuadas, probarlas a fondo y mantenerse humildes sobre lo que aún no entendemos. Si un programa de computadora produce salidas que parecen chantajearlo o rechazar los cierres de seguridad, no está logrando la autoconservación del miedo, es demostrar los riesgos de desplegar sistemas poco confiables y poco confiables. Hasta que resolvamos estos desafíos de ingeniería, los sistemas de IA que exhiben comportamientos humanos simulados deben permanecer en el laboratorio, no en nuestros hospitales, sistemas financieros o infraestructura crítica. Cuando tu ducha de repente se enfría, no culpa a la perilla por tener intenciones, arreglas la fontanería. El verdadero peligro a corto plazo no es que la IA se vuelva rebelde espontáneamente sin provocación humana; Es que desplegaremos sistemas engañosos que no entendemos completamente en roles críticos donde sus fallas, por mundanos que sean sus orígenes, puedan causar daños graves.
Deja una respuesta