Operai ofrece a sus superpoderes de agente de voz a los desarrolladores: busque más aplicaciones pronto

Elyse Betters Picaro / Zdnetfollow Zdnet: agréguenos como una fuente preferida en la API real de tiempo real de Google.zdnet Takeawaysopenai ahora está optimizado y generalmente disponible. Puede probar su último modelo de voz a voz, Got-Realtime. Las actualizaciones mejoran las ofertas de voz de OpenAI para los desarrolladores. Este año, los agentes de IA que pueden llevar a cabo tareas en nombre de los usuarios han sido un enfoque importante, y las empresas desarrollan constantemente ofertas que reducen la carga de trabajo del usuario. Para hacer que estas interacciones sean lo más perfectas posible, muchas empresas se apoyan en agentes de IA multimodales, y OpenAI está facilitando el desarrollo de estos productos. También: 3 formas inteligentes en que los líderes empresariales pueden construir estrategias de IA exitosas: antes de que sea demasiado latente para la compañía, OpenAi actualizó su API en tiempo real, ahora generalmente disponible, el jueves, con nuevas características que permiten a los desarrolladores y empresas construir agentes de voz más confiables. Operai lanzó por primera vez la API de tiempo real en octubre de 2024 en beta pública. Además, la compañía lanzó su modelo de voz a voz más avanzado hasta ahora, llamado GPT-Realtime. Las versiones: actualizaciones de la API en tiempo real: las actualizaciones de la API de tiempo real incluyen soporte para servidores MCP remotos, entradas de imágenes y llamadas telefónicas a través del Protocolo de inicio de sesión (SIP), según el comunicado. Durante una transmisión en vivo para el anuncio, Openai mencionó que MCP es adecuado para los comandos de voz, lo que permite a los usuarios realizar acciones sin problemas desde las aplicaciones conectadas. Por qué importa: en última instancia, estas capacidades ampliadas deberían permitir a los agentes de voz acceder a más herramientas y tener más contexto para ayudar a los usuarios. Las herramientas de IA son tan útiles como la información que brindan, por lo que optimizar el proceso de conectar modelos de IA con fuentes de datos es una gran victoria para desarrolladores y usuarios por igual. Lo más importante es que el estándar abierto MCP asegura que las conexiones se realicen, priorizando los datos y la privacidad del usuario. Un nuevo modelo de voz a voz: OpenAi promocionó su nuevo modelo GPT-RealTime como el «modelo de voz más avanzado y listo para la producción» de la compañía. Las actualizaciones incluyen mejoras en inteligencia, seguimiento de instrucción compleja y llamadas de funciones. También puede cambiar los idiomas en medio de una oración. Una demostración del modelo mostró cuán humano es el modelo, completo con inflexiones que representan una amplia gama de emociones. El modelo, que se probó el estrés en varias evaluaciones, también parecía seguir con éxito las instrucciones: un empleado de OpenAI simuló un intento de jailbreak al contradicir el indicador del sistema, pero GPT-REALTIME redirigió tranquilamente y no sucumbió a los intentos. También analizó una foto y conversó sobre lo que estaba viendo. Por qué importa: un principio clave de ayuda e interacciones útiles de voz son modelos que suenan naturales y en realidad pueden ayudar con las tareas. Si el nuevo modelo funciona como se afirma, habilitará una mejor experiencia para los usuarios.

Todo lo que necesitas saber sobre tecnología

Operai ofrece a sus superpoderes de agente de voz a los desarrolladores: busque más aplicaciones pronto

Deja una respuesta Cancelar la respuesta

Operai ofrece a sus superpoderes de agente de voz a los desarrolladores: busque más aplicaciones pronto

Este Patek Philippe de acero podría convertirse en un récord (nuevamente), y nació durante la Segunda Guerra Mundial

Cómo bloqueo y oculto aplicaciones en una carpeta secreta en mi iPhone, y por qué

Deja una respuesta Cancelar la respuesta