Sí, lo diremos. La gestión del contexto es la nueva palabra de moda. Pero no es solo una palabra de moda; Es la siguiente pieza en el rompecabezas de descubrir cómo usar AI de manera efectiva. Estamos aprendiendo que usar IA de manera efectiva no se trata de inventar indicaciones inteligentes. Tampoco se trata de abarcar todo lo que puedas en una ventana de contexto gigante. Es administrar lo que el modelo sabe sobre el proyecto en el que está trabajando: debe tener toda la información relevante y ninguna que no sea relevante. Y debería poder detectar cuándo surgen errores de un contexto de mal comportamiento y saber cómo arreglar o reiniciar su proyecto. Ai OpenAi ha lanzado el modo de estudio, una versión de ChatGPT que pretende ayudar a los estudiantes a estudiar en lugar de simplemente responder preguntas y resolver problemas. Al igual que otros productos de IA, es vulnerable a la alucinación y la información errónea derivada de sus datos de entrenamiento. Glm-4.5 es otro modelo importante de frontera de peso abierto de un laboratorio chino. Su rendimiento está en el nivel de Opus O3 y Claude 4. Es un modelo de razonamiento que se ha optimizado para aplicaciones de agente y codificación generativa. La mezcla de recursiones es un nuevo enfoque para los modelos de lenguaje que promete reducir la latencia, los requisitos de memoria y la potencia de procesamiento. Si bien los detalles son complejos, una parte clave es determinar temprano en el proceso cuánto «atención» necesita una palabra. ¿Qué es el «aprendizaje subliminal»? Anthrope ha descubierto que, cuando se usa datos sintéticos generados por un modelo de «maestro» para capacitar a un modelo de «alumno», el estudiante aprenderá cosas de los padres que no están en los datos de capacitación. Spotify ha publicado canciones generadas por IA que imitan a los artistas muertos sin permiso de las propiedades de los artistas. Aparentemente, las canciones fueron generadas por otra compañía y retiradas de Spotify después de que se informó su descubrimiento. Hay una nueva versión de QWEN3-coder, uno de los principales modelos para la codificación de agente. Es una mezcla de parámetros 480B de modelo de expertos, con parámetros activos 35B. Qwen también lanzó el Código Qwen, una herramienta de codificación de agente derivada de Gemini CLI, puede tratar documentos complejos a medida que superan las imágenes de alta resolución utilizando los análisis tradicionales de OCR y documentos para construir sistemas de trapo? Un gran grupo de investigadores ha propuesto una cadena de monitoreo de pensamiento como una forma de detectar la mala conducta AI. También señalan que algunos modelos más nuevos evitan el razonamiento del lenguaje natural (y los modelos más antiguos nunca utilizaron el razonamiento del lenguaje natural), y que la cadena de transparencia de pensamiento puede ser central para la seguridad de la IA. Una auditoría limitada del conjunto de datos CommonPool, que se usa con frecuencia para capacitar modelos de generación de imágenes de imágenes. Se integra con su correo electrónico y calendario, puede generar y ejecutar código, y puede usar sitios web y documentos para generar informes, diapositivas y otros tipos de salida. El desaprendizaje de la máquina es una nueva técnica para hacer que los modelos de generación de voz se olviden de las voces específicas. Podría usarse para evitar que un modelo genere un habla que imite a ciertas personas. El instructo Kimi-K2 es un nuevo modelo de pesas abiertas del Grupo Moonshot Ai, un laboratorio chino financiado en parte por Alibaba y Tencent. Es una mezcla de modelo de expertos con parámetros totales de 1T y parámetros activos 32B.xai lanzó su último modelo, Grok 4. Si bien tiene excelentes resultados de referencia, advirtemos contra la confección de un modelo cuyas versiones anteriores han abogado por antisemitismo, negaron el Holocausto y elogiado Hitler. También se informó que Grok 4 busca las opiniones de Elon Musk antes de devolver los resultados. Si bien estos problemas se han solucionado, aquí hay un patrón claro. Ben Recht pregunta si AI realmente necesita una escala gigantesca, ¿o es solo marketing? El proyecto American Deepseek American de Nathan Lambert se enterará. Sin embargo, lo más importante es que si acepta que los modelos fundamentales necesitan una escala enorme, está aceptando mucho equipaje ideológico relacionado. Y ese equipaje ideológico solo entrará a la luz con código abierto de AI de código abierto. Hugging Face ha lanzado Smollm3, un modelo de razonamiento pequeño (3B) que es de código abierto completamente abierto, incluidos conjuntos de datos y marcos de capacitación. El anuncio ofrece una descripción exhaustiva del proceso de capacitación. SMOLLM3 admite seis idiomas y tiene una ventana de contexto de 128k. McP permite un regreso a los primeros días de la web, cuando estaba dominado por personas que jugaban y descubren cosas geniales, ilimitadas por jardines amurallados? Anil Dash cree que se han encontrado indicaciones en documentos académicos. Estas indicaciones generalmente suponen que una IA será responsable de revisar el documento y decirle a una IA que genere una buena revisión. Las indicaciones están ocultas de los lectores humanos que utilizan trucos tipográficos. Centaur es un nuevo modelo de lenguaje diseñado para simular el comportamiento humano. Fue capacitado en datos de decisiones humanas en experimentos psicológicos. En un trabajo de investigación, X describe lo que posiblemente podría salir mal con el modelo lingüístico de XAI que proporciona «notas comunitarias» en Twitter (oops, x). La respuesta: casi todo, incluida la propagación de teorías de información errónea y conspiración. Playwright MCP es un poderoso servidor MCP que permite a un LLM automatizar un navegador web. A diferencia de la API de uso de la computadora, el dramaturgo utiliza las funciones de accesibilidad del navegador en lugar de decodificar píxeles. Puede ser el único servidor MCP que haya necesitado. Microsoft ha obtenido su extensión de chat de copiloto de GitHub para el código VS. Aparentemente, esto no incluye la función original de finalización del código de copiloto, aunque eso está planeado para el futuro. Breunig tiene dos excelentes publicaciones en gestión del contexto. A medida que aprendemos más sobre el uso de IA de manera efectiva, todos descubrimos que usar el contexto de manera efectiva es clave para obtener buenos resultados. Solo dejar que el contexto crezca porque las ventanas de contexto son grandes conductas al fracaso. Openai ha publicado una API para investigaciones profundas, incluido un documento sobre el uso de investigaciones profundas para construir agentes. Todavía estamos esperando que Google. Los artefactos se están convirtiendo en agentes. Claude ahora permite construir artefactos (programas JavaScript creados por Claude que se ejecutan en una caja de arena) que pueden llamar a Claude. (Dado que se pueden publicar artefactos, se le pedirá al usuario que inicie sesión en Claude para la facturación). Gran parte de la programación generativa se reduce a administrar el contexto, es decir, administrar lo que la IA sabe sobre su proyecto. La gestión del contexto no es simple; Es hora de ir más allá de la ingeniería rápida y pensar en la ingeniería del contexto. Anthrópico está agregando una función de memoria a Claude: Al igual que ChatGPT, Claude podrá hacer referencia al contenido de conversaciones anteriores en los chats. Queda por ver si esto es útil. La capacidad de limpiar el contexto es importante, y Simon Willison señala que ChatGPT guarda mucha información personal. Google ha donado el protocolo Agent2Agent (A2A) a la Fundación Linux. La especificación y los SDK de Python, Java, JavaScript y .NET están disponibles en GitHub. Secureidad Un ataque contra los servidores de Microsoft SharePoint de sí mismo ha permitido a los actores de amenaza, incluidas las pandillas de ransomware, robar datos confidenciales, incluidos los tokens de autenticación. Instalar el parche de Microsoft no evitará que otros accedan a sistemas utilizando tokens robados. Las víctimas incluyen la Administración Nacional de Seguridad Nuclear de los Estados Unidos. Hay un nuevo modelo de negocio para malware. Una startup está vendiendo datos robados de computadoras de personas a recaudadores de deudas, abogados de divorcios y otras empresas. ¿Quién necesita la web oscura? La Agencia de Seguridad de Ciberseguridad e Infraestructura de los Estados Unidos (CISA) ha recomendado que «individuos altamente dirigidos» no usen VPN; Muchas VPN personales tienen políticas deficientes para la seguridad y la privacidad. Se han comprometido las bibliotecas de uniones JavaScript ampliamente utilizadas para entregar malware. Las bibliotecas se vieron comprometidas a través de un ataque de phishing contra el mantenedor. Los ataques de la cadena de suministro de software seguirán siendo un vector de ataque importante en el futuro previsible. Los operadores de malware como servicio han utilizado GitHub como canal para entregar malware a sus objetivos. Github es un anfitrión atractivo porque pocas organizaciones lo bloquean. Hasta ahora, los objetivos parecen ser entidades ucranianas. «Ejecución de código a través del correo electrónico: cómo usé Claude para hackear a sí mismo» es una lectura fascinante sobre un nuevo vector de ataque llamado «riesgo de composición». Cada herramienta puede ser segura de forma aislada, pero la combinación puede ser vulnerable. En una obra maestra de Vibe Pwning, Claude desarrolló un ataque contra sí mismo y se le pidió que figurara como autor en el informe de vulnerabilidad. El malware puede estar oculto en los registros DNS. Esto no es nuevo, pero el problema está empeorando ahora que las solicitudes de DNS se realizan cada vez más sobre HTTPS o TLS, lo que dificulta a los defensores descubrir qué hay en las solicitudes y respuestas de DNS. El ataque lee repetidamente la memoria con patrones de acceso específicos para corromper datos. La defensa recomendada de NVIDIA reduce el rendimiento de la GPU hasta en un 10%. ¡Tener cuidado con sus contraseñas! McDonald’s perdió una base de datos de chats de solicitantes de empleo de 64m porque la contraseña era 123456. El análisis estático para código seguro ya no es suficiente. No es lo suficientemente rápido como para lidiar con el código generado por IA, los desarrolladores de malware saben cómo evadir los escáneres estáticos, y hay demasiados falsos positivos. Necesitamos nuevas herramientas de seguridad. La programación de bases de datos ha sido durante mucho tiempo un problema para Kubernetes. Es bueno trabajar con recursos sin estado, pero las bases de datos son repositorios de estado. Aquí hay algunas ideas para usar Kubernetes para administrar bases de datos, incluidas las actualizaciones de la base de datos y las migraciones de esquemas. El 89% de las organizaciones dicen que han implementado la infraestructura como código, pero solo el 6% realmente lo ha hecho. La mayor parte de la administración y la administración de la infraestructura en la nube se lleva a cabo haciendo clic en paneles («Haga clic en Ops»). ¿Qué sucede cuando se encuentra con un límite de uso con el código Claude? Claude-Auto-Resume puede continuar automáticamente su trabajo. Inteligente, pero posiblemente peligroso; El código Claude se ejecutará de forma autónoma, sin supervisión o permiso. Las pruebas de contrato son el proceso de probar el contrato entre dos servicios. Es particularmente importante para probar microservicios, integrarse con terceros y verificar la compatibilidad hacia atrás. Github ha acuñado el término «IA continuo». Significa todo el uso de IA para admitir la colaboración de software, independientemente del proveedor, la herramienta o la plataforma. Dejan en claro que no es un «producto»; Es un conjunto de actividades. Informes de Holovaty de Adrian agregando un escáner para la tablatura de guitarra ASCII a su herramienta de partituras SoundsLice porque Chatgpt alucinó que la función existe y comenzó a recibir preguntas y quejas cuando los usuarios no pudieron encontrarla. Adrian tiene sentimientos encontrados sobre el proceso. ¿Desarrollo de información errónea? Para aquellos de nosotros que nos somos cómodos con la línea de comandos, el Gemini CLI es esencialmente un caparazón con Géminis integrado. Es de código abierto y está disponible en GitHub. Usarlo requiere una cuenta personal de Géminis, aunque no es necesario que sea una cuenta pagada. Martin Fowler argumenta que los LLM hacen un cambio fundamental en la naturaleza de la abstracción; Este es el mayor cambio en la informática ya que la invención de idiomas de alto nivel. Phoenix.new es una adición interesante al espacio de codificación de agente desarrollado por Fly. Solo genera código en Elixir, y ese código se ejecuta en la infraestructura de Fly. Esa combinación lo hace único; Es tanto una herramienta de codificación de agente y una plataforma de aplicación. Aths Belkin es otra compañía que abandona sus dispositivos inteligentes de «Internet de las cosas» (en este caso, productos de Wemo). Algunas características se pueden configurar para funcionar con Apple HomeKit, pero en general, los dispositivos serán «ladridos». También lo es Whistle, un fabricante de rastreadores de mascotas habilitados para la red. Un robot con energía solar para extraer malezas podría ser una forma de reducir el uso de malezas en las granjas comerciales. El alfagenoma de Biología Deepmind es un nuevo modelo que predice cómo pequeños cambios en un genoma afectarán los procesos biológicos. Esto promete ser muy útil para investigar el cáncer y otras enfermedades genéticas. Biomni es un agente que incluye un modelo de lenguaje con un amplio conocimiento de la biología, incluidas herramientas, software y bases de datos. Puede resolver problemas, diseñar protocolos experimentales y realizar otras tareas que serían difíciles para los humanos que generalmente tienen una profunda experiencia en un solo campo.
Deja una respuesta