Agrandar / El logo de Anthropic Claude 3. El lunes, Anthropic lanzó Claude 3, una familia de tres modelos de lenguaje de inteligencia artificial similares a los que impulsan ChatGPT. Anthropic afirma que los modelos establecen nuevos puntos de referencia de la industria en una variedad de tareas cognitivas, acercándose incluso a la capacidad «casi humana» en algunos casos. Está disponible ahora a través del sitio web de Anthropic, y el modelo más potente es solo de suscripción. También está disponible a través de API para desarrolladores. Los tres modelos de Claude 3 representan una complejidad y un número de parámetros cada vez mayores: Claude 3 Haiku, Claude 3 Sonnet y Claude 3 Opus. Sonnet impulsa el chatbot Claude.ai ahora de forma gratuita con un inicio de sesión por correo electrónico. Pero como se mencionó anteriormente, Opus sólo está disponible a través de la interfaz de chat web de Anthropic si pagas $20 al mes por «Claude Pro», un servicio de suscripción ofrecido a través del sitio web de Anthropic. Los tres cuentan con una ventana contextual de 200.000 tokens. (La ventana de contexto es la cantidad de tokens (fragmentos de una palabra) que un modelo de lenguaje de IA puede procesar a la vez). Cubrimos el lanzamiento de Claude en marzo de 2023 y Claude 2 en julio de ese mismo año. Cada vez, Anthropic se quedó ligeramente por detrás de los mejores modelos de OpenAI en capacidad y los superó en términos de longitud de ventana de contexto. Con Claude 3, Anthropic quizás finalmente haya alcanzado a los modelos lanzados de OpenAI en términos de rendimiento, aunque aún no hay consenso entre los expertos, y la presentación de los puntos de referencia de IA es notoriamente propensa a la selección selectiva. Publicidad Ampliar / Un gráfico de referencia de Claude 3 proporcionado por Anthropic. Según se informa, Claude 3 demuestra un rendimiento avanzado en diversas tareas cognitivas, incluido el razonamiento, el conocimiento experto, las matemáticas y la fluidez del lenguaje. (A pesar de la falta de consenso sobre si los modelos de lenguaje grandes «saben» o «razonan», la comunidad de investigación de IA comúnmente usa esos términos). La compañía afirma que el modelo Opus, el más capaz de los tres, exhibe «niveles casi humanos». de comprensión y fluidez en tareas complejas.» Ésta es una afirmación bastante embriagadora y merece ser analizada con más cuidado. Probablemente sea cierto que Opus es «casi humano» en algunos puntos de referencia específicos, pero eso no significa que Opus tenga una inteligencia general como la de un humano (considere que las calculadoras de bolsillo son sobrehumanas en matemáticas). Por lo tanto, es una afirmación deliberadamente llamativa que puede diluirse con salvedades. Según Anthropic, Claude 3 Opus supera a GPT-4 en 10 puntos de referencia de IA, incluidos MMLU (conocimiento de nivel universitario), GSM8K (matemáticas de escuela primaria), HumanEval (codificación) y el colorido llamado HellaSwag (conocimiento común). Varias de las victorias son muy estrechas, como el 86,8 por ciento para Opus frente al 86,4 por ciento en una prueba de cinco disparos de MMLU, y algunas brechas son grandes, como el 90,7 por ciento en HumanEval sobre el 67,0 por ciento de GPT-4. Pero es difícil decir qué podría significar eso exactamente para usted como cliente. «Como siempre, los puntos de referencia de LLM deben tratarse con un poco de sospecha», dice el investigador de IA Simon Willison, quien habló con Ars sobre Claude 3. «El rendimiento de un modelo en los puntos de referencia no dice mucho sobre cómo funciona el modelo». se siente’ de usar. Pero esto sigue siendo un gran problema: ningún otro modelo ha superado a GPT-4 en una variedad de puntos de referencia ampliamente utilizados como este «.

Source link