Viñetas de resumen: R. Bhattacharyya • Los datos sintéticos no estructurados, o texto, se pueden utilizar para entrenar y ajustar modelos de lenguaje grandes (LLM) utilizados en aplicaciones de atención al cliente o conversaciones de chatbot. • La aplicación de datos sintéticos, tanto tabulares como no estructurados, seguirá creciendo, impulsada por la necesidad de datos de capacitación adicionales, así como por preocupaciones sobre la privacidad de los datos. El 1 de octubre de 2024, MOSTLY AI anunció que su plataforma puede ayudar a las empresas a crear texto sintético, una nueva capacidad oportuna dado el creciente interés de las empresas por aprovechar GenAI para extraer información de datos no estructurados. En los últimos años, gran parte de la conversación sobre datos sintéticos se ha centrado en el uso de GenAI para crear datos tabulares sintéticos. Los datos tabulares son datos estructurados que se pueden organizar claramente, por ejemplo, información que se puede organizar en un archivo de Excel. El siguiente paso lógico es utilizar GenAI para crear información basada en texto que pueda usarse para personalizar los LLM. Los datos sintéticos son información creada por la tecnología GenAI que es estadísticamente similar a los datos reales. Es una opción atractiva y cada vez más popular para las organizaciones que necesitan más datos de los que tienen disponibles para entrenar modelos de aprendizaje automático o que no quieren utilizar datos reales para entrenar modelos debido a preocupaciones de privacidad. Los datos tabulares sintéticos ya se están utilizando para entrenar modelos, probar la calidad del software y respaldar entornos de preparación y demostración. De manera similar, los datos sintéticos no estructurados, o texto, se pueden utilizar para entrenar y ajustar los LLM utilizados en aplicaciones de atención al cliente o conversaciones de chatbot. Y si bien siempre existe la opción de crear datos manualmente, el proceso requiere mucho tiempo y recursos, lo que hace que los datos sintéticos sean una alternativa atractiva. Con la nueva capacidad de MOSTLY AI, los clientes utilizan una combinación de modelos patentados de MOSTLY AI y modelos GenAI de código abierto de HuggingFace para ajustar un LLM y crear texto sintético estadísticamente preciso. La calidad de los datos de salida se mejora mediante el uso de datos estructurados. El texto sintético resultante se puede utilizar para personalizar aplicaciones impulsadas por GenAI. MOSTLY AI ya está bien posicionada para ayudar a las organizaciones con sus necesidades de datos sintéticos no estructurados. La empresa con sede en Viena, Austria, se fundó en 2017 y es un actor muy conocido en el mercado de datos sintéticos. Ha recibido 31 millones de dólares en financiación de capitalistas de riesgo europeos. MOSTLY AI diseñó su plataforma teniendo en cuenta la facilidad de uso, haciéndola accesible para aquellos que no son científicos o ingenieros de datos. Para aquellos que quieran experimentar con la tecnología y no estén dispuestos a comprometerse con una licencia empresarial, que incluye SLA relacionados con la atención al cliente, la empresa también ofrece un nivel gratuito de servicios. Por supuesto, existen desafíos cuando se trata de trabajar con datos sintéticos, el más notable de los cuales son los problemas de calidad. Diversas técnicas y plataformas dan como resultado datos que pueden variar en precisión. Las organizaciones deberán evaluar sus datos sintéticos y aprovechar los informes de control de calidad. Una práctica recomendada es entrenar un modelo utilizando datos reales, entrenar otro con datos sintéticos, probar los modelos resultantes con datos reales retenidos del entrenamiento y comparar los resultados. Además, es posible que incluso los datos sintéticos no sean totalmente anónimos, un desafío que los usuarios deben tener en cuenta. Para abordar este problema, las organizaciones deberían buscar plataformas que ofrezcan herramientas que evalúen los resultados, incluidos los valores atípicos. La aplicación de datos sintéticos, tanto tabulares como no estructurados, seguirá creciendo, impulsada por la necesidad de datos de capacitación adicionales, así como por las preocupaciones sobre la privacidad de los datos. Aunque algunas organizaciones siguen siendo cautelosas a la hora de utilizar datos sintéticos, nuevas herramientas están eliminando los obstáculos restantes, haciendo de la solución una opción más atractiva y alcanzable. Los requisitos regulatorios en evolución impulsarán un mayor impulso. Sin embargo, todavía hay mucha necesidad de educación en esta área, ya que la mayoría de las organizaciones apenas están comenzando a adoptar datos sintéticos. Así:Me gusta Cargando… Relacionado