DataStax busca facilitar a los desarrolladores la creación de aplicaciones de generación aumentada (RAG) de recuperación de IA generativa con una nueva API de datos disponible hoy. DataStax es uno de los proveedores comerciales líderes detrás de la base de datos de código abierto Apache Cassandra, que es la base de su base de datos como servicio en la nube AstraDB. Como muchos otros proveedores de bases de datos, DataStax ha agregado capacidades de bases de datos vectoriales a su plataforma en 2023. En un evento reciente, el director ejecutivo de DataStax afirmó que Cassandra era «… la mejor base de datos para la generación de IA». La capacidad de la base de datos vectorial es fundamental para permitir que las aplicaciones RAG combinen grandes modelos de lenguaje (LLM) con plataformas de datos para generar resultados altamente precisos y personalizados. (Crédito de la imagen: DataStax) Si bien DataStax ha tenido capacidades vectoriales en AstraDB desde julio de 2023, esa capacidad aún requería que los usuarios trabajaran con Cassandra Query Language (CQL) como ruta principal para consultar los datos. La nueva API de datos disponible hoy cambia eso, brindando a los desarrolladores la capacidad de usar los lenguajes de programación Python y JavaScript para acceder a la base de datos, lo que, según la compañía, ayuda a reducir la brecha entre DataStax y la base de datos vectorial especialmente diseñada como Pinecone, que acaba de actualizar su homónimo. plataforma con funcionalidad de base de datos sin servidor. «Ha habido una especie de tira y afloja entre las bases de datos vectoriales nativas que no admiten ningún otro tipo de consulta que no sean vectores y las bases de datos híbridas que tienen modelos de consulta muy robustos», dijo a VentureBeat Ed Anuff, director de producto de DataStax. «Lo que buscábamos hacer era cerrar esa brecha y de eso se trata la API de fechas». Cómo la API de datos DataStax cambia la forma en que los desarrolladores crean aplicaciones RAG La nueva API de datos no proporciona ninguna capacidad vectorial nueva a la base de datos AstraDB. En cambio, lo que hace es facilitar a los desarrolladores la creación de aplicaciones. Según Anuff, la nueva API tiene como objetivo reducir el desajuste de impedancia entre lo que hacen los desarrolladores y lo que proporciona la base de datos. Anuff señaló que desde julio de 2023, cuando las capacidades vectoriales llegaron por primera vez a AstraDB, aproximadamente la mitad de todos los nuevos usuarios que se registraron en la base de datos en la nube la están utilizando para crear aplicaciones de inteligencia artificial de generación. El desafío es que esos desarrolladores no pudieron usar fácilmente los lenguajes de programación que ya estaban usando para crear aplicaciones de inteligencia artificial de generación, que son en gran parte Python y JavaScript, para acceder a AstraDB. Antes de la nueva API de datos, los desarrolladores que creaban aplicaciones de IA con AstraDB habrían tenido que utilizar el lenguaje de consulta Cassandra (CQL) estándar, que implica más conocimiento de modelado de datos del que los desarrolladores querían manejar para aplicaciones de bastidor simples. Las consultas tampoco habrían estado tan optimizadas para datos vectoriales. Anuff explicó que la nueva API de datos lo hace más fácil al manejar automáticamente la vectorización, presentar una interfaz más simple en lenguajes como Python y JavaScript y optimizar el rendimiento al almacenar e indexar los datos vectoriales de manera más eficiente a nivel de base de datos en lugar de simplemente agregar vectores como otro tipo de datos. . Esto reduce la curva de aprendizaje y mejora el rendimiento en comparación con simplemente construir sobre las API y el modelo de datos de Cassandra existentes. Se trata de API Con algunas clases de API de bases de datos, todo lo que ocurre es una forma de traducción de un lenguaje de programación nativo, como Python o JavaScript, a cualquier lenguaje de consulta para la base de datos. Esto es funcionalmente muy similar a un enfoque de hace décadas sobre cómo los desarrolladores han trabajado con bases de datos, a través de un Mapeador Relacional de Objetos (ORM). La API de datos de DataStax es un poco diferente ya que Cassandra tiene una arquitectura diferente a otras bases de datos. Cassandra a nivel de arquitectura está organizada en torno a un conjunto de primitivas de alto rendimiento que se combinan para admitir diferentes tipos de patrones de consulta. Anuff dijo que la arquitectura de datos de Cassandra permite conectarse a una capa más profunda de la base de datos, lo que mejora el rendimiento general de las consultas. «La API de datos expone al desarrollador un formato de datos basado en JSON muy simple, donde cualquier cosa que pueda expresar dentro de JSON, el desarrollador puede enviarlo y recuperarlo de la base de datos», dijo Anuff. «Pero lo almacenamos de una manera muy eficiente dentro de Cassandra, donde lo hacemos directamente en el nivel de almacenamiento y garantizamos que se mantenga el rendimiento que obtiene un desarrollador». Acelerar vectores con el motor JVector Otra parte clave del avance de la base de datos de vectores de DataStax es el motor de búsqueda JVector que forma parte de AstraDB. JVector es un motor de búsqueda de vectores integrado de código abierto desarrollado por DataStax. Anuff explicó que JVector utiliza un algoritmo llamado DiskANN, que es una versión optimizada para almacenamiento en disco del algoritmo ANN (búsqueda aproximada del vecino más cercano) que se usa ampliamente en casi todas las bases de datos vectoriales. Señaló que DiskANN proporciona capacidades de recuperación significativamente mejores en comparación con otros algoritmos que no funcionan tan bien en grandes escalas de almacenamiento y distribución. Según DataStax, el motor JVector es lo que permite a AstraDB lograr una mayor relevancia y recuperación que otras bases de datos vectoriales. Gran parte del trabajo vectorial de DataStax, incluidos JVector y la API de datos, son de código abierto para ser utilizados por la comunidad de código abierto de Cassandra, así como por los clientes de AstraDB de DataStax. «Estamos muy comprometidos a hacer que el material esté disponible para los ecosistemas de código abierto», dijo Anuff. «También queremos asegurarnos de que si usted es simplemente el desarrollador que intenta descubrir qué servicio en la nube debe usar, tenga el camino más fácil para hacerlo». La misión de VentureBeat es ser una plaza digital para que los tomadores de decisiones técnicas adquieran conocimientos sobre tecnología empresarial transformadora y realicen transacciones. Descubra nuestros Briefings.

Source link