Ampliar / Una imagen generada por IA de Donald Trump y chicas gato creada con Grok, que utiliza el modelo de síntesis de imágenes Flux. El martes, la empresa de IA de Elon Musk, xAI, anunció el lanzamiento beta de dos nuevos modelos de lenguaje, Grok-2 y Grok-2 mini, disponibles para los suscriptores de su plataforma de redes sociales X (anteriormente Twitter). Los modelos también están vinculados al modelo de síntesis de imágenes Flux lanzado recientemente, que permite a los usuarios de X crear imágenes fotorrealistas en gran medida sin censura que se pueden compartir en el sitio. «Flux, accesible a través de Grok, es un excelente generador de texto a imagen, pero también es muy bueno para crear fotografías falsas de lugares y personas reales, y enviarlas directamente a Twitter», escribió el comentarista frecuente de IA Ethan Mollick en X. «¿Alguien sabe si están marcando con agua estas de alguna manera? Sería una buena idea». En un informe publicado hoy temprano, The Verge señaló que las capacidades de generación de imágenes de Grok parecen tener salvaguardas mínimas, lo que permite a los usuarios crear contenido potencialmente controvertido. Según sus pruebas, Grok produjo imágenes que mostraban a figuras políticas en situaciones comprometedoras, personajes con derechos de autor y escenas de violencia cuando se le pedía. Ampliar / Una imagen generada por IA de Donald Trump y Kamala Harris en un avión creada con Grok, que utiliza el modelo de síntesis de imágenes Flux. The Verge descubrió que, si bien Grok afirma tener ciertas limitaciones, como evitar contenido pornográfico o excesivamente violento, estas reglas parecen inconsistentes en la práctica. A diferencia de otros importantes generadores de imágenes de IA, Grok no parece rechazar las indicaciones que involucran a personas reales ni agregar marcas de agua identificativas a sus resultados. Dado lo que la gente está generando hasta ahora, incluidas imágenes de Donald Trump y Kamala Harris besándose o haciendo un gesto de aprobación en camino a las Torres Gemelas en un aparente ataque del 11 de septiembre, los resultados sin restricciones pueden no durar mucho. Pero, de nuevo, Elon Musk ha hecho un gran alboroto por la «libertad de expresión» en su plataforma, por lo que tal vez la capacidad se mantenga (hasta que alguien presente una demanda por difamación o derechos de autor). El uso del generador de imágenes de Grok para generar impacto plantea una vieja pregunta en la IA en este punto: ¿el mal uso de un generador de imágenes de IA debería ser responsabilidad de la persona que crea el mensaje, la organización que creó el modelo de IA o la plataforma que aloja las imágenes? Hasta ahora, no hay un consenso claro y la situación aún debe resolverse legalmente, aunque una nueva ley propuesta en EE. UU. llamada ley NO FAKES presumiblemente responsabilizaría a X por la creación de deepfakes de imágenes realistas. Con Grok-2, el techo de GPT-4 aún se mantiene Más allá de las imágenes, en un blog de lanzamiento, xAI afirma que Grok-2 y Grok-2 mini representan avances significativos en capacidades, y que Grok-2 supuestamente supera a algunos competidores líderes en puntos de referencia recientes y lo que llamamos «vibemarks». Siempre es prudente abordar esas afirmaciones con una dosis de escepticismo, pero parece que la «clase GPT-4» de modelos de lenguaje de IA (aquellos con capacidad similar al modelo de OpenAI) ha crecido, pero la barrera GPT-4 aún no se ha roto. «Ahora hay cinco modelos de clase GPT-4: GPT-4o, Claude 3.5, Gemini 1.5, Llama 3.1 y ahora Grok 2», escribió Ethan Mollick en X. «Todos los laboratorios dicen que todavía hay espacio para mejoras gigantescas, pero no hemos visto ningún modelo que realmente supere a GPT-4… todavía». xAI dice que recientemente presentó una versión temprana de Grok-2 en LMSYS Chatbot Arena bajo el nombre «sus-column-r», donde supuestamente logró una puntuación Elo general más alta que modelos como Claude 3.5 Sonnet y GPT-4 Turbo. Chatbot Arena es un sitio web popular de marcado de vibraciones subjetivas para modelos de IA, pero ha sido objeto de controversia recientemente cuando la gente no estuvo de acuerdo con que el GPT-4o mini de OpenAI ocupara un lugar tan alto en la clasificación. Según xAI, ambos nuevos modelos Grok muestran mejoras con respecto a su predecesor Grok-1.5 en áreas como el conocimiento científico de nivel de posgrado, el conocimiento general y la resolución de problemas matemáticos en pruebas comparativas que también han resultado controvertidas. La compañía también destacó el rendimiento de Grok-2 en tareas visuales, afirmando resultados de vanguardia en razonamiento matemático visual y respuesta a preguntas basadas en documentos. Agrandar / Resultados de las pruebas comparativas de Grok-2 proporcionados por xAI. Los modelos ahora están disponibles para los suscriptores de X Premium y Premium+ a través de una interfaz de aplicación actualizada. A diferencia de algunos de sus competidores en el espacio de pesos abiertos, xAI no está publicando los pesos del modelo para su descarga o verificación independiente. Este enfoque cerrado contrasta marcadamente con los movimientos recientes de Meta, que recientemente lanzó su modelo Llama 3.1 405B para que cualquiera lo descargue y ejecute localmente. xAI planea lanzar ambos modelos a través de una API empresarial a finales de este mes. La compañía dice que esta API contará con opciones de implementación en múltiples regiones y medidas de seguridad como la autenticación multifactor obligatoria. Los detalles sobre precios, límites de uso o políticas de manejo de datos aún no se han anunciado. Dejando de lado la generación de imágenes fotorrealistas, quizás el mayor defecto de Grok-2 es su profundo vínculo con X, que le da una tendencia a extraer información inexacta de los tuits. Es un poco como si tuvieras un amigo que insistiera en consultar el sitio de redes sociales antes de responder a cualquiera de tus preguntas, incluso cuando no fuera particularmente relevante. Como señaló Mollick en X, este estrecho vínculo puede ser molesto: «Solo tengo acceso a Grok 2 mini en este momento, y parece un modelo sólido, pero a menudo parece que no le sirve de nada su conexión RAG con Twitter», escribió. «El modelo recibe resultados de Twitter que parecen irrelevantes para el mensaje, y luego intenta desesperadamente conectarlos para formar algo coherente».