Anthropic / Benj Edwards El jueves, Anthropic anunció Claude 3.5 Sonnet, su último modelo de lenguaje de inteligencia artificial y el primero de una nueva serie de modelos «3.5» que se basan en Claude 3, lanzado en marzo. Claude 3.5 puede redactar texto, analizar datos y escribir código. Cuenta con una ventana de contexto de 200.000 tokens y ya está disponible en el sitio web de Claude y a través de una API. Anthropic también presentó Artifacts, una nueva característica en la interfaz de Claude que muestra documentos de trabajo relacionados en una ventana dedicada. Hasta ahora, la gente fuera de Anthropic parece impresionada. «Este modelo es realmente bueno», escribió el investigador independiente de IA Simon Willison en X. «Creo que este es el nuevo mejor modelo en general (y más rápido y la mitad del precio del Opus, similar al GPT-4 Turbo a GPT- 4o salto).» Como hemos escrito antes, los puntos de referencia para modelos de lenguajes grandes (LLM) son problemáticos porque pueden seleccionarse cuidadosamente y a menudo no capturan la sensación y los matices de usar una máquina para generar resultados sobre casi cualquier tema imaginable. Pero según Anthropic, Claude 3.5 Sonnet iguala o supera a los modelos de la competencia como GPT-4o y Gemini 1.5 Pro en ciertos puntos de referencia como MMLU (conocimientos de nivel universitario), GSM8K (matemáticas de escuela primaria) y HumanEval (codificación). Ampliar / Puntos de referencia de Claude 3.5 Sonnet proporcionados por Anthropic. Si todo eso hace que tus ojos se pongan vidriosos, está bien; es significativo para los investigadores, pero sobre todo es marketing para todos los demás. Una métrica de rendimiento más útil proviene de lo que podríamos llamar «vibemarks» (¡acuñadas aquí primero!), que son sentimientos agregados subjetivos y no rigurosos medidos por el uso competitivo en sitios como Chatbot Arena de LMSYS. El modelo Claude 3.5 Sonnet está actualmente bajo evaluación allí y es demasiado pronto para decir qué tan bien le irá. Claude 3.5 Sonnet también supera al mejor modelo anterior de Anthropic (Claude 3 Opus) en puntos de referencia que miden «razonamiento», habilidades matemáticas, conocimientos generales y habilidades de codificación. Por ejemplo, el modelo demostró un sólido rendimiento en una evaluación de codificación interna, resolviendo el 64 por ciento de los problemas en comparación con el 38 por ciento de Claude 3 Opus. Claude 3.5 Sonnet también es un modelo de IA multimodal que acepta información visual en forma de imágenes y, según se informa, el nuevo modelo es excelente en una batería de pruebas de comprensión visual. Ampliar / Puntos de referencia de Claude 3.5 Sonnet proporcionados por Anthropic. En términos generales, los puntos de referencia visuales significan que 3.5 Sonnet es mejor para extraer información de imágenes que los modelos anteriores. Por ejemplo, puedes mostrarle una imagen de un conejo con un casco de fútbol y el modelo sabrá que es un conejo con un casco de fútbol y podrá hablar de ello. Eso es divertido para las demostraciones técnicas, pero la tecnología aún no es lo suficientemente precisa para aplicaciones de tecnología donde la confiabilidad es una misión crítica.