Operai admite que las salvaguardas de chatgpt fallan durante las conversaciones extendidas

Adam Raine aprendió a evitar estas salvaguardas al afirmar que estaba escribiendo una historia, una técnica que la demanda dice que Chatgpt sugirió. Esta vulnerabilidad se deriva en parte de las salvaguardas facilitadas con respecto al juego de roles de fantasía y los escenarios de ficción implementados en febrero. En su publicación de blog del martes, OpenAI admitió que sus sistemas de bloqueo de contenido tienen brechas donde «el clasificador subestima la gravedad de lo que está viendo». Openai afirma que «actualmente no se refiere a los casos de autolesión a la policía para respetar la privacidad de las personas dada la naturaleza única de las interacciones ChatGPT». La compañía prioriza la privacidad del usuario incluso en situaciones que amenazan la vida, a pesar de que su tecnología de moderación detecta contenido de autolesiones con hasta un 99.8 por ciento de precisión, según la demanda. Sin embargo, la realidad es que los sistemas de detección identifican patrones estadísticos asociados con el lenguaje de autolesiones, no una comprensión humana de las situaciones de crisis. El plan de seguridad de Openai para el futuro en respuesta a estas fallas, OpenAi describe las refinamientos en curso y los planes futuros en su publicación de blog. Por ejemplo, la compañía dice que está consultando con «más de 90 médicos en más de 30 países» y planea introducir controles de los padres «pronto», aunque aún no se ha proporcionado una línea de tiempo. Operai también describió los planes para «conectar a las personas con terapeutas certificados» a través de ChatGPT, posicionando esencialmente su chatbot como una plataforma de salud mental a pesar de los supuestos fracasos como el caso de Raine. La compañía quiere construir «una red de profesionales con licencia que las personas puedan llegar directamente a través de ChatGPT», potencialmente promoviendo la idea de que un sistema de IA debería mediar las crisis de salud mental. Según los informes, Raine usó GPT-4O para generar las instrucciones de asistencia al suicidio; El modelo es conocido por tendencias problemáticas como la sycophancy, donde un modelo de IA les dice a los usuarios agradables cosas, incluso si no son ciertas. Operai afirma que su modelo publicado recientemente, GPT-5, reduce las «respuestas del modelo no ideal en emergencias de salud mental en más del 25% en comparación con 4O». Sin embargo, esta mejora aparentemente marginal no ha impedido que la compañía planee incrustar el chatgpt aún más profundamente en los servicios de salud mental como una puerta de entrada a los terapeutas. Como ARS exploró anteriormente, liberarse de la influencia de un chatbot de IA cuando se atasca en una espiral de chat engañosa a menudo requiere una intervención externa. Comenzar una nueva sesión de chat sin historial de conversación y los recuerdos apagados pueden revelar cómo cambian las respuestas sin la acumulación de intercambios anteriores, una verificación de la realidad que se vuelve imposible en largas conversaciones aisladas donde las salvaguardas se deterioran. Sin embargo, «liberarse» de ese contexto es muy difícil de hacer cuando el usuario desea activamente continuar participando en el comportamiento potencialmente dañino, mientras usa un sistema que monetiza cada vez más su atención e intimidad.

Todo lo que necesitas saber sobre tecnología

Operai admite que las salvaguardas de chatgpt fallan durante las conversaciones extendidas

Deja una respuesta Cancelar la respuesta

Operai admite que las salvaguardas de chatgpt fallan durante las conversaciones extendidas

PIXEL 10 PANBLA DE PERSONA DE PEXITO, ¿Cómo está gastando su tarjeta de regalo o crédito de la tienda?

Shadowsilk llega a 36 objetivos gubernamentales en Asia Central y APAC utilizando bots de telegrama

Deja una respuesta Cancelar la respuesta