Mayo fue un mes de anuncios: entre Google, Apple, Microsoft y OpenAI, hubo mucho ruido… bueno, muy poco, de hecho. Siempre me ha parecido que los grandes anuncios roban atención que de otro modo se dirigiría a proyectos menos llamativos pero más merecedores. (O tal vez simplemente me estoy cansando). Eso no quiere decir que no pasó nada interesante. Estamos viendo un interés continuo en modelos de lenguajes pequeños, lo suficientemente pequeños como para funcionar en teléfonos móviles (que tienen más potencia de procesamiento que las supercomputadoras de hace unas décadas). Nos preguntamos si los nuevos lenguajes de programación tienen sentido en la era del código generado por IA, pero vimos a Bend (para código altamente paralelo) y Jolie (para servicios), además de LuaX (un nuevo intérprete de Lua) y Faer (para código altamente paralelo). números de rendimiento en Rust). Y para los desarrolladores web, alguien ha estado usando CSS Grid para componer música. La programación de diversos tipos está muy viva. Aprende más rápido. Excavar más hondo. Ver más lejos. AI Las dos primeras partes de la serie de tres Lo que aprendimos del año de construcción con LLM se publicaron en O’Reilly Radar. La tercera parte se publicará el 6 de junio. Esta serie es una amplia colección de sabiduría y experiencia que será esencial para cualquiera que cree aplicaciones de IA.llama-fs es un sistema de archivos basado en Llama 3 que nombra y encuentra archivos por usted. Es una idea muy interesante, aunque no estoy seguro de que sea una en la que pueda confiar. MonsterGPT es una herramienta en GPT Marketplace de OpenAI para usar ChatGPT para ajustar LLM más pequeños. Lo apunta al conjunto de datos (puede usar conjuntos de datos alojados en Hugging Face) y al modelo, y él hace el resto. Target Speech Hearing es un nuevo sistema para auriculares con cancelación de ruido que puede permitir al usuario escuchar una sola voz entre una multitud. ; las voces no deseadas se cancelan. La difusión ambiental es una nueva estrategia de entrenamiento para el arte generativo que reduce el problema de reproducir obras o estilos que se encuentran en los datos de entrenamiento. Entrena modelos con versiones corruptas de los datos de entrenamiento inicial, de modo que es imposible «memorizar» ningún trabajo en particular. Las PC Copilot+ son computadoras personales con hardware capaz de ejecutar aplicaciones de inteligencia artificial, incluidos procesadores neuronales y GPU. Las PC Copilot+ están diseñadas para admitir funciones de inteligencia artificial que se están integrando en Windows 11. Meta ha creado una nueva familia de modelos de modos mixtos llamada Chameleon. A diferencia de los modelos multimodales, que utilizan diferentes modelos para texto e imágenes, Chameleon es un modelo único y puede integrar libremente datos de diferentes modalidades. Aquí hay una implementación de Llama 3, en detalle, desde cero. Debes descargar los pesos de Meta. Thom Wolf, uno de los cofundadores de Hugging Face, ha publicado una lista de libros y artículos para leer si quieres ingresar a AI. GPT-4o puede usarse para ayudar en las revisiones de código. Es útil. Pero cuando se trata de información real, se queda corta. ¿Cuántas veces quieres que te digan que uses nombres de variables más largos o que escribas más comentarios? Un nuevo dispositivo de interfaz cerebral puede convertir el pensamiento en voz. Para bien o para mal, Google está integrando la IA generativa en la búsqueda. Tiene el grave problema de generar malos resultados, algo que Google está intentando solucionar. Tom’s Hardware muestra cómo desactivar los resultados generados por IA. Google ha anunciado el «Proyecto Astra», que añade voz y visión interactivas a sus modelos. También anunció que una versión futura de Gemini tendrá una ventana contextual de dos millones de tokens. Otros anuncios incluyen Gemini Flash, un modelo liviano para ejecutarse en dispositivos más pequeños, y Veo, un modelo de texto a video que se dice que es comparable a Sora. La última versión de GPT, GPT-4o, agrega voz interactiva en tiempo real. visión y capacidades de análisis emocional. La latencia en la entrada de voz se ha reducido a 3,2 segundos. OpenAI ha publicado un borrador de propuesta para especificaciones de modelo, que proporciona una forma de especificar el comportamiento deseado para un modelo. Las especificaciones del modelo parecen un complemento interesante, aunque no un reemplazo, de las tarjetas modelo. KnowHalu es un nuevo marco para detectar alucinaciones en resultados de modelos de lenguaje grandes. Está comenzando una nueva serie de tres partes sobre la seguridad de la IA. Es básico y parece razonablemente bien equilibrado. De momento sólo se ha escrito la primera parte. ¿Puede la IA olvidarlo? Ben Lorica escribe sobre el desaprendizaje, el proceso mediante el cual se puede eliminar información de un modelo previamente entrenado. Desaprender será importante por muchas razones, una de las cuales son las regulaciones europeas sobre la eliminación de datos personales incorrectos. Georgia Tech y Meta han creado un conjunto de datos climáticos abiertos para entrenar la IA para sistemas de captura de carbono. Apple ha lanzado sus modelos de lenguaje OpenELM. Todos estos modelos son relativamente pequeños (parámetros 270M-3B) y están diseñados para ejecutarse en dispositivos móviles. El código fuente está disponible en Hugging Face; tienen la licencia de código de muestra de Apple. Snowflake-arctic-instruct es un nuevo modelo de lenguaje. Afirma ser el modelo de código abierto verdaderamente más grande (mezcla de expertos de 128 × 3,66 parámetros). Programación LuaX (Lua eXtended) es un nuevo intérprete para el lenguaje de programación Lua que puede compilar ejecutables independientes. Google ha lanzado soporte Firebase Genkit para sus modelos Gemma. Este marco permite a los desarrolladores de JavaScript crear backends de Node.js para integrar el modelo de lenguaje Gemma en las aplicaciones. Se promete soporte para Go pronto. No es útil pero sí interesante: un grupo de la Universidad de Michigan ha creado espectrogramas que parecen imágenes pero que pueden reproducirse como sonido. Bend es un nuevo lenguaje de programación de alto nivel para generar código altamente paralelo. El código puede ejecutarse en CPU multinúcleo o en GPU. Bend se ve y se siente como Python, pero detecta automáticamente oportunidades de paralelismo. Red Hat ha hecho que Red Hat Enterprise Linux (RHEL) sea arrancable como una imagen de contenedor. Esto facilita el uso de RHEL en el contexto del desarrollo nativo de la nube moderno. Patchwork intenta extender el control de fuente similar a Git desde el software hasta los textos escritos y otros artefactos. Una posible aplicación sería ayudar a integrar escritores humanos y asistentes de IA. En términos más generales, sus desarrolladores están interesados ​​en crear capas de datos colaborativos que prioricen lo local. Jolie es un nuevo lenguaje de programación diseñado para desarrollar servicios, en lugar de funciones u objetos. Hace hincapié en los contratos, que definen la relación entre el usuario y el servicio. Es ideal para diseñar API y microservicios. Graph Query Language (GQL) es un nuevo estándar ISO para consultar bases de datos de gráficos, lo que lo coloca a la par con SQL. Faer es una nueva biblioteca de Rust para álgebra lineal. Una buena biblioteca de álgebra lineal es un requisito básico para el cálculo numérico, incluido el aprendizaje automático y la inteligencia artificial. Una nueva distribución de Linux, con el desafortunado nombre EB corbos Linux for Safety Applications, respalda los requisitos de seguridad funcional de la industria automotriz, lo que significa que puede usarse en sistemas integrados en automóviles. Web PHP ahora se puede ejecutar en WebAssembly. Esto incluye los frameworks más populares: WordPress, Laravel y Symfony. Ha habido muchas publicaciones sobre cómo desenshitificar la web: Molly White, Anil Dash, Maria Farrell y Robin Berjon, entre otros. Todos ellos tratan de recuperar la agencia en una web que ha quedado dominada por barones ladrones, tomadores de alquileres y jardines amurallados. Una obra maestra de CSS: mostrar partituras musicales con CSS Grid. La tipografía deja un poco que desear, pero eso se puede arreglar. Un problema mayor es que no existe una buena manera de representar la partitura musical que se mostrará. Penpot es una herramienta de diseño colaborativo de código abierto basada en web. Si crees que suena como una versión de código abierto de Figma, tienes razón. Seguridad Una vulnerabilidad XSS en GitLab permite la apropiación de cuentas con un solo clic. LastPass comenzará a cifrar las URL de los sitios en los que los usuarios inician sesión. Estas URL no son particularmente sensibles, pero el cifrado es un paso importante hacia un diseño de conocimiento cero. Algo nuevo que deshabilitar: Windows 11 está agregando una función de “recuperación” que guarda todo lo que ocurre en la computadora y permite que las aplicaciones restauren datos anteriores. estado. La recuperación es una gran amenaza para la seguridad y la privacidad. Microsoft afirma que el contenido sigue siendo local, pero esa es una canción que hemos escuchado antes. Apple y Google se han unido en un estándar para detectar dispositivos de rastreo Bluetooth que se utilizan para acechar a los usuarios. La adopción de IA por parte de los delincuentes aún es relativamente baja, pero real. La mayor parte de la actividad se centra en jailbreaks para LLM (jailbreak as a service) legítimos y deep fakes. Hay una buena cantidad de conjuntos de datos fraudulentos. Hasta ahora, sólo hay un LLM capacitado para aplicaciones delictivas. TunnelVision, un ataque recientemente descubierto contra prácticamente todas las VPN, permite al atacante enrutar el tráfico no cifrado de la víctima a través de los servidores del atacante. Si bien esto se llama «nuevo», la vulnerabilidad existe desde 2002. Microsoft ha propuesto Zero Trust DNS (ZTDNS), un marco que pretende resolver muchos de los problemas de seguridad que ha tenido el DNS a lo largo de los años. Todas las comunicaciones están cifradas. Los solucionadores solo pueden resolver nombres que estén explícitamente permitidos. No está claro si ZTDNS será una solución solo para Windows o solo para empresas. Ahora está en versión preliminar privada. Un cambio en el mecanismo para cambiar contraseñas ha hecho que GitLab sea vulnerable al secuestro de cuentas. A su vez, una cuenta secuestrada podría usarse para plantar vulnerabilidades que comprometan las cadenas de suministro de software. El Reino Unido ha prohibido las contraseñas predeterminadas adivinables en los dispositivos IoT. Los proveedores aún pueden vender dispositivos con contraseñas predeterminadas, pero cada contraseña debe ser única. Si desea comprender el ataque xz en detalle, aquí tiene una conferencia invitada de Columbia. Incluye una demostración en vivo. Realidad virtual y aumentada Los investigadores han desarrollado gafas de realidad aumentada que parecen gafas normales en lugar de un casco. Se basan en la holografía para producir imágenes 3D a todo color. Si bien no está claro si esto alguna vez se convertirá en un producto, es exactamente lo que AR necesita para tener éxito. Stability AI ha lanzado Stable Video 3D, que genera una imagen 3D a partir de una única imagen 2D. Diseño Un mal diseño tiene consecuencias: al menos 11 personas se postulan para presidente de Islandia y no tenían idea de que se postulaban. La misma página web confusa se utiliza para respaldar a un candidato y registrar su propia candidatura. IF ha estado elaborando un catálogo de patrones de diseño para IA. Es una gran fuente para las personas que diseñan sistemas de inteligencia artificial y que necesitan crear servicios en los que sus usuarios confíen. Robotics Cylon es un marco de JavaScript para robótica e Internet de las cosas. Si desea utilizar Node.js cuando programa robots, ahora puede hacerlo. Un robot autónomo habilitado para IA ha diseñado, construido y probado un objeto 3D que actualmente es el mejor amortiguador del mundo. Absorbe el 75% de la energía utilizada para triturarlo. La incorporación de la IA a la robótica significa que los robóticos necesitan nuevas fuentes de datos. ¿De dónde vendrán esos datos (muro de pago)? Los datos 3D son preferibles, pero su desarrollo es lento y costoso. ¿Vídeos en línea?