OpenAI ha presentado GPT-4o, su último modelo emblemático de lenguaje grande, que presenta mejoras en la forma en que maneja texto, voz y video, y mucho más encanto. La ‘o’ en GPT-4o significa ‘omni’ y se refiere a sus capacidades multimodales, lo que significa que tiene la capacidad de aceptar combinaciones de texto, audio e imágenes como entrada, y luego generar texto, audio e imágenes como salida en respuesta. Esto, dijo OpenAI, es un paso hacia una humanidad mucho más natural. -interacción con la computadora.OpenAI mostró las habilidades del nuevo modelo en una serie de videos que muestran al asistente de IA creando y luego cantando una canción, arrullando a un lindo perro que se muestra, bromeando y coqueteando con la gente, e incluso siendo sarcástico con los usuarios mientras chat.El director ejecutivo de OpenAI, Sam Altman, describió el nuevo modo de voz y video como “la mejor interfaz de computadora que he usado”. “Se siente como la IA de las películas; y todavía me sorprende un poco que sea real. Llegar a tiempos de respuesta y expresividad a nivel humano resulta ser un gran cambio”, dijo. “El ChatGPT original mostró una muestra de lo que era posible con las interfaces de idiomas; esta novedad se siente visceralmente diferente. Reciba nuestras últimas noticias, actualizaciones de la industria, recursos destacados y más. Regístrese hoy para recibir nuestro informe GRATUITO sobre seguridad y delitos cibernéticos de IA, recientemente actualizado para 2024. “Hablar con una computadora nunca me ha resultado realmente natural; ahora lo hace”. ¿Qué puede hacer realmente GPT-4o? El nuevo modelo puede responder a preguntas habladas en un promedio de 320 milisegundos, similar a los tiempos de respuesta humanos. OpenAI dijo que la versión iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en texto en idiomas distintos del inglés. GPT-4o es especialmente mejor en la comprensión visual y de audio en comparación con los modelos existentes, dijo. “Hoy en día, GPT-4o es mucho mejor que cualquier modelo existente en la comprensión y discusión de las imágenes que comparte. Por ejemplo, ahora puedes tomar una fotografía de un menú en un idioma diferente y hablar con GPT-4o para traducirla, conocer la historia y el significado de la comida y obtener recomendaciones”, dijo OpenAI. En el futuro, las mejoras permitirán Conversaciones de voz más naturales en tiempo real y la capacidad de conversar con ChatGPT a través de video en tiempo real, prometió la empresa. Antes de la llegada de GPT-4o, ya se podía usar el ‘Modo de voz’ para hablar con ChatGPT, pero era una proceso lento con una latencia promedio (tiempo de espera) de 2,8 segundos (para GPT-3.5) y 5,4 segundos (para GPT-4). Esto se debe a que Voice Mode reúne tres modelos separados: un modelo básico transcribe audio a texto, GPT-3.5 o GPT-4 hace el trabajo real de crear el trabajo requerido y luego un tercer modelo simple convierte ese texto nuevamente en audio. Pero eso también significa que en el proceso GPT-4 pierde mucha información, como el tono, si hay varios parlantes. o ruidos de fondo, y tampoco puede producir risas, cantos ni expresar emociones, explicó OpenAI. “Con GPT-4o, entrenamos un único modelo nuevo de extremo a extremo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal”, explicó la compañía. “Debido a que GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía estamos apenas rascando la superficie de la exploración de lo que el modelo puede hacer y sus limitaciones. «¿Cómo obtengo acceso a GPT-4o? OpenAI dijo que está comenzando a implementar GPT-4o para los usuarios de ChatGPT Plus y Team, y pronto estará disponible para usuarios empresariales. La empresa hará que GPT-4o esté disponible en el nivel gratuito. y para usuarios Plus con límites de mensajes 5 veces mayores. OpenAI dijo que lanzará una nueva versión del modo de voz con GPT-4o en alfa dentro de ChatGPT Plus en las próximas semanas. Habrá un límite en la cantidad de mensajes que los usuarios gratuitos pueden enviar con GPT-4o según el uso y la demanda. . Cuando se alcance el límite, ChatGPT cambiará automáticamente a GPT-3.5 para que los usuarios puedan continuar sus conversaciones. Los desarrolladores ahora también pueden acceder a GPT-4o en la API como modelo de texto y visión. GPT-4o es dos veces más rápido y cuesta la mitad, y tiene límites de velocidad cinco veces más altos en comparación con GPT-4 Turbo. “Planeamos lanzar soporte para las nuevas capacidades de audio y video de GPT-4o a un pequeño grupo de socios confiables en la API en las próximas semanas”, dijo OpenAI. ¿Qué significa todo esto? OpenAI también mostró el asistente de IA utilizado en un escenario de servicio al cliente. Una versión de la IA sustituyó a un cliente que tenía un teléfono roto, mientras que otra iteración hacía de agente de servicio al cliente, ayudando a que le devolvieran el teléfono. Si bien era extraño escuchar a los dos robots charlando entre sí para hacer el trabajo, una conversación entre dos piezas de software salpicada de frases como «Entendido», «Genial» y «Genial, gracias», es bastante fácil ver cómo herramientas como esta podrían usarse para automatizar grandes partes del servicio al cliente. a un ritmo rápido. La carrera entre OpenAI y otros grandes actores como Google solo se volverá más feroz a medida que los beneficios potenciales más amplios de la IA generativa se vuelvan más claros. ¿Qué más anunció OpenAI? Para usuarios gratuitos y pagos, OpenAI también ha lanzado una Nueva aplicación de escritorio ChatGPT para macOS. Esto permite a los usuarios hacer preguntas a ChatGPT mediante un simple atajo de teclado (opción más espacio). Los usuarios también pueden tomar y discutir capturas de pantalla directamente en la aplicación. Actualmente puedes tener conversaciones de voz con ChatGPT usando el Modo de Voz; OpenAI dijo que las nuevas capacidades de audio y video de GPT-4o llegarán en el futuro. OpenAI también dijo que estaba presentando una nueva apariencia para ChatGPT con una nueva pantalla de inicio y diseño de mensajes que está diseñado para ser más amigable y conversacional.