Todo lo que necesitas saber sobre tecnología

Etiqueta: chatbots

¿Qué es la IA generativa? – Espectro IEEE


La IA generativa es la forma de inteligencia artificial más popular en la actualidad y es lo que impulsa a los chatbots como ChatGPT, Ernie, LLaMA, Claude y Cohere, así como a los generadores de imágenes como DALL-E 2, Stable Diffusion, Adobe Firefly y Midjourney. La IA generativa es la rama de la IA que permite a las máquinas aprender patrones a partir de vastos conjuntos de datos y luego producir de forma autónoma nuevos contenidos basados ​​en esos patrones. Aunque la IA generativa es bastante nueva, ya existen muchos ejemplos de modelos que pueden producir texto, imágenes, vídeos y audio. Muchos de los llamados modelos básicos se han entrenado con datos suficientes para ser competentes en una amplia variedad de tareas. Por ejemplo, un modelo de lenguaje grande puede generar ensayos, códigos informáticos, recetas, estructuras de proteínas, chistes, consejos de diagnóstico médico y mucho más. En teoría, también puede generar instrucciones para construir una bomba o un arma biológica, aunque se supone que las salvaguardias previenen ese tipo de uso indebido. ¿Cuál es la diferencia entre IA, aprendizaje automático e IA generativa? La inteligencia artificial (IA) se refiere a una amplia variedad de enfoques computacionales para imitar la inteligencia humana. El aprendizaje automático (ML) es un subconjunto de la IA; se centra en algoritmos que permiten a los sistemas aprender de los datos y mejorar su rendimiento. Antes de que apareciera la IA generativa, la mayoría de los modelos de ML aprendían de conjuntos de datos para realizar tareas como clasificación o predicción. La IA generativa es un tipo especializado de ML que involucra modelos que realizan la tarea de generar contenido nuevo, aventurándose en el ámbito de la creatividad. ¿Qué arquitecturas utilizan los modelos de IA generativa? Los modelos generativos se construyen utilizando una variedad de arquitecturas de redes neuronales, esencialmente el diseño y la estructura que definen cómo se organiza el modelo y cómo fluye la información a través de él. Algunas de las arquitecturas más conocidas son los codificadores automáticos variacionales (VAE), las redes generativas adversarias (GAN) y los transformadores. Es la arquitectura transformadora, mostrada por primera vez en este artículo fundamental de Google de 2017, la que impulsa los grandes modelos de lenguaje actuales. Sin embargo, la arquitectura del transformador es menos adecuada para otros tipos de IA generativa, como la generación de imágenes y audio. Los codificadores automáticos aprenden representaciones eficientes de datos a través de un marco codificador-decodificador. El codificador comprime los datos de entrada en un espacio de dimensiones inferiores, conocido como espacio latente (o incrustado), que preserva los aspectos más esenciales de los datos. Luego, un decodificador puede utilizar esta representación comprimida para reconstruir los datos originales. Una vez que un codificador automático ha sido entrenado de esta manera, puede utilizar entradas novedosas para generar lo que considera las salidas apropiadas. Estos modelos a menudo se implementan en herramientas de generación de imágenes y también han encontrado uso en el descubrimiento de fármacos, donde pueden usarse para generar nuevas moléculas con las propiedades deseadas. Con las redes generativas adversarias (GAN), el entrenamiento involucra un generador y un discriminador que pueden ser considerados adversarios. El generador se esfuerza por crear datos realistas, mientras que el discriminador pretende distinguir entre los resultados generados y los resultados reales «verdaderos». Cada vez que el discriminador detecta una salida generada, el generador utiliza esa retroalimentación para intentar mejorar la calidad de sus salidas. Pero el discriminador también recibe retroalimentación sobre su desempeño. Esta interacción adversa da como resultado el refinamiento de ambos componentes, lo que lleva a la generación de contenido de apariencia cada vez más auténtica. Las GAN son más conocidas por crear deepfakes, pero también pueden usarse para formas más benignas de generación de imágenes y muchas otras aplicaciones. Se podría decir que el transformador es el campeón reinante de las arquitecturas de IA generativa por su ubicuidad en los poderosos modelos de lenguajes grandes (LLM) actuales. Su punto fuerte radica en su mecanismo de atención, que permite que el modelo se centre en diferentes partes de una secuencia de entrada mientras realiza predicciones. En el caso de los modelos de lenguaje, la entrada consta de cadenas de palabras que forman oraciones, y el transformador predice qué palabras vendrán a continuación (entraremos en detalles a continuación). Además, los transformadores pueden procesar todos los elementos de una secuencia en paralelo en lugar de recorrerla de principio a fin, como lo hacían los modelos anteriores; esta paralelización hace que el entrenamiento sea más rápido y eficiente. Cuando los desarrolladores agregaron vastos conjuntos de datos de texto para que los modelos de transformadores aprendieran, surgieron los notables chatbots de hoy. ¿Cómo funcionan los modelos de lenguaje grandes? Un LLM basado en transformadores se entrena proporcionándole un amplio conjunto de datos de texto del que aprender. El mecanismo de atención entra en juego cuando procesa oraciones y busca patrones. Al observar todas las palabras de una oración a la vez, gradualmente comienza a comprender qué palabras se encuentran más comúnmente juntas y qué palabras son más importantes para el significado de la oración. Aprende estas cosas tratando de predecir la siguiente palabra en una oración y comparando su suposición con la verdad básica. Sus errores actúan como señales de retroalimentación que hacen que el modelo ajuste los pesos que asigna a varias palabras antes de volver a intentarlo. Estos cinco LLM varían mucho en tamaño (dados en parámetros) y los modelos más grandes tienen un mejor rendimiento en una prueba comparativa de LLM estándar. IEEE Spectrum Para explicar el proceso de entrenamiento en términos un poco más técnicos, el texto en los datos de entrenamiento se divide en elementos llamados tokens, que son palabras o fragmentos de palabras, pero para simplificar, digamos que todos los tokens son palabras. A medida que el modelo revisa las oraciones en sus datos de entrenamiento y aprende las relaciones entre los tokens, crea una lista de números, llamada vector, para cada uno. Todos los números del vector representan varios aspectos de la palabra: sus significados semánticos, su relación con otras palabras, su frecuencia de uso, etc. Palabras similares, como elegante y elegante, tendrán vectores similares y también estarán cerca unas de otras en el espacio vectorial. Estos vectores se denominan incrustaciones de palabras. Los parámetros de un LLM incluyen los pesos asociados con todas las incrustaciones de palabras y el mecanismo de atención. Se rumorea que GPT-4, el modelo OpenAI que se considera el campeón actual, tiene más de 1 billón de parámetros. Con suficientes datos y tiempo de formación, el LLM comienza a comprender las sutilezas del lenguaje. Si bien gran parte de la capacitación implica mirar el texto oración por oración, el mecanismo de atención también captura las relaciones entre palabras a lo largo de una secuencia de texto más larga de muchos párrafos. Una vez que un LLM está capacitado y listo para su uso, el mecanismo de atención todavía está en juego. Cuando el modelo genera texto en respuesta a un mensaje, utiliza sus poderes de predicción para decidir cuál debería ser la siguiente palabra. Al generar fragmentos de texto más largos, predice la siguiente palabra en el contexto de todas las palabras que ha escrito hasta ahora; esta función aumenta la coherencia y continuidad de su escritura. ¿Por qué alucinan los modelos de lenguaje grandes? Es posible que haya escuchado que los LLM a veces «alucinan». Es una forma educada de decir que inventan cosas de manera muy convincente. A veces, un modelo genera texto que se ajusta al contexto y es gramaticalmente correcto, pero el material es erróneo o carece de sentido. Este mal hábito surge de la capacitación de los LLM sobre grandes cantidades de datos extraídos de Internet, muchos de los cuales no son objetivamente exactos. Dado que el modelo simplemente intenta predecir la siguiente palabra en una secuencia basándose en lo que ha visto, puede generar un texto que suene plausible y que no tiene base en la realidad. ¿Por qué es controvertida la IA generativa? Una fuente de controversia para la IA generativa es la procedencia de sus datos de entrenamiento. La mayoría de las empresas de inteligencia artificial que entrenan modelos grandes para generar texto, imágenes, videos y audio no han sido transparentes sobre el contenido de sus conjuntos de datos de entrenamiento. Varias filtraciones y experimentos han revelado que esos conjuntos de datos incluyen material protegido por derechos de autor, como libros, artículos de periódicos y películas. Se están llevando a cabo una serie de demandas para determinar si el uso de material protegido por derechos de autor para entrenar sistemas de IA constituye un uso legítimo o si las empresas de IA deben pagar a los titulares de los derechos de autor por el uso de su material. En una nota relacionada, a muchas personas les preocupa que el uso generalizado de la IA generativa quite puestos de trabajo a los humanos creativos que hacen arte, música, obras escritas, etc. Y también, posiblemente, de humanos que realizan una amplia gama de trabajos administrativos, incluidos traductores, asistentes legales, representantes de servicio al cliente y periodistas. Ya ha habido algunos despidos preocupantes, pero aún es difícil decir si la IA generativa será lo suficientemente confiable para aplicaciones empresariales a gran escala. (Ver más arriba sobre las alucinaciones). Finalmente, existe el peligro de que la IA generativa se utilice para crear cosas malas. Y, por supuesto, hay muchas categorías de cosas malas para las que teóricamente podrían usarse. La IA generativa se puede utilizar para estafas personalizadas y ataques de phishing: por ejemplo, mediante la “clonación de voz”, los estafadores pueden copiar la voz de una persona específica y llamar a la familia de esa persona para pedir ayuda (y dinero). Todos los formatos de IA generativa (texto, audio, imagen y video) pueden usarse para generar información errónea mediante la creación de representaciones aparentemente plausibles de cosas que nunca sucedieron, lo cual es una posibilidad particularmente preocupante cuando se trata de elecciones. (Mientras tanto, como informó Spectrum esta semana, la Comisión Federal de Comunicaciones de EE. UU. respondió prohibiendo las llamadas automáticas generadas por IA). Las herramientas de generación de imágenes y videos pueden usarse para producir pornografía no consensuada, aunque las herramientas fabricadas por las principales empresas no permiten ese uso. Y, en teoría, los chatbots pueden guiar a un posible terrorista a través de los pasos necesarios para fabricar una bomba, gas nervioso y una serie de otros horrores. Aunque los grandes LLM tienen salvaguardas para evitar ese uso indebido, algunos piratas informáticos disfrutan eludiendo esas salvaguardas. Es más, existen versiones «sin censura» de LLM de código abierto. A pesar de estos problemas potenciales, mucha gente piensa que la IA generativa también puede hacer que las personas sean más productivas y podría usarse como una herramienta para permitir formas de creatividad completamente nuevas. Probablemente veremos tanto desastres como florecimientos creativos y muchas otras cosas que no esperamos. Pero hoy en día, conocer los conceptos básicos de cómo funcionan estos modelos es cada vez más crucial para las personas conocedoras de la tecnología. Porque no importa cuán sofisticados crezcan estos sistemas, es trabajo de los humanos mantenerlos en funcionamiento, mejorar los siguientes y, con un poco de suerte, ayudar a las personas también.

Source link

Google Bard ahora tiene la capacidad de generar fotografías

El chatbot Bard de Google recibirá una nueva función: la generación de imágenes mediante IA. Esto alcanza una característica similar que el rival ChatGPT Plus tuvo durante bastante tiempo. Los usuarios ahora pueden pedirle a Bard que cree imágenes usando el modelo de texto a imagen Imagen 2 de Google. Se esperaba que Bard, que ahora utiliza el modelo de lenguaje grande Gemini Pro de Google, utilizara el modelo Gemini Ultra, más potente, pero todavía se está trabajando en él. Google Bard Text to Image sigue siendo de uso gratuito Google ha estado posicionando a Bard como un competidor de ChatGPT Plus de OpenAI, que utiliza GPT-4 y permite a los usuarios crear imágenes con integración DALL-E 3. Ambos chatbots funcionan bien, pero Bard no tenía funciones de conversión de texto a imagen antes, lo que le da a ChatGPT Plus una pequeña ventaja. El Bard actualizado con Imagen 2 está disponible para todos los usuarios de forma gratuita, a diferencia de ChatGPT Plus, que necesita una suscripción paga. La generación de imágenes de IA enfrentó críticas recientemente después de que aparecieran en línea fotos explícitas falsas de Taylor Swift. Si bien no está claro de dónde provienen realmente estas imágenes, las empresas de tecnología ahora están reforzando la seguridad en sus plataformas de generación de imágenes. Gizchina Noticias de la semana Google enfatizó la responsabilidad en el diseño de la capacidad de imagen de Bard. La compañía está agregando una característica de marca de agua a las imágenes generadas por IA, incrustadas en los píxeles, para indicar su origen artificial. Google ha tomado medidas para implementar medidas técnicas y precauciones de seguridad para evitar la generación de imágenes que involucren a personas conocidas y restringir contenido violento, ofensivo o sexualmente explícito. La función de generación de imágenes no es exclusiva de Bard; Google presentó una nueva herramienta fotográfica experimental llamada ImageFX, impulsada por Imagen 2. ImageFX permite a los usuarios crear imágenes utilizando mensajes de texto simples, lo que les permite explorar la IA generativa, con comentarios enviados directamente a los ingenieros de Google. Al igual que Bard, todas las fotos creadas a través de ImageFX estarán marcadas por SynthID y cumplirán con los principios de inteligencia artificial y las pautas técnicas de Google. ImageFX se une a otras herramientas de creación de inteligencia artificial de Google, MusicFX y TextFX, que la compañía lanzó el año pasado y están disponibles para pruebas en Google Labs. Google Bard se expande a más países Bard está recibiendo varias otras actualizaciones. Si bien la generación de imágenes actualmente solo está disponible en inglés, el chatbot se ha expandido para admitir más de 40 idiomas en más de 230 países. La versión anterior sólo estaba disponible en inglés y era accesible en 170 países. Los idiomas admitidos ahora incluyen árabe, bengalí, tamil, urdu y otros. Vale la pena señalar que Google también amplió la función de doble verificación a 40 idiomas, lo que permite a los usuarios evaluar las respuestas buscando automáticamente en Internet para verificar o contradecir el contenido proporcionado. Descargo de responsabilidad: Es posible que algunas de las empresas de cuyos productos hablamos nos compensen, pero nuestros artículos y reseñas son siempre nuestras opiniones honestas. Para obtener más detalles, puede consultar nuestras pautas editoriales y conocer cómo utilizamos los enlaces de afiliados.

Source link

Funciona con WordPress & Tema de Anders Norén