Desde que The New York Times demandó a OpenAI por infringir sus derechos de autor al utilizar contenido del Times para capacitación, todos los involucrados con la IA se han estado preguntando sobre las consecuencias. ¿Cómo se desarrollará esta demanda? Y, lo que es más importante, ¿cómo afectará el resultado a la forma en que entrenamos y utilizamos grandes modelos de lenguaje? Hay dos componentes en esta demanda. Primero, fue posible lograr que ChatGPT reprodujera algunos artículos del Times, muy cerca de palabra por palabra. Se trata claramente de una infracción de derechos de autor, aunque todavía quedan cuestiones importantes que podrían influir en el resultado del caso. Reproducir The New York Times claramente no es la intención de ChatGPT, y OpenAI parece haber modificado las barreras de seguridad de ChatGPT para hacer que la generación de contenido infractor sea más difícil, aunque probablemente no imposible. ¿Es esto suficiente para limitar los daños? No está claro que alguien haya usado ChatGPT para evitar pagar una suscripción al NYT. En segundo lugar, los ejemplos en un caso como este siempre son seleccionados cuidadosamente. Si bien el Times puede mostrar claramente que OpenAI puede reproducir algunos artículos, ¿puede reproducir cualquier artículo del archivo del Times? ¿Podría conseguir que ChatGPT produzca un artículo de la página 37 del número del 18 de septiembre de 1947? ¿O, de hecho, un artículo del Chicago Tribune o del Boston Globe? ¿Está disponible todo el corpus (lo dudo) o solo ciertos artículos aleatorios? No lo sé, y dado que OpenAI ha modificado GPT para reducir la posibilidad de infracción, es casi seguro que sea demasiado tarde para hacer ese experimento. Los tribunales tendrán que decidir si la reproducción involuntaria, intrascendente o impredecible cumple con la definición legal de infracción de derechos de autor. Aprende más rápido. Excavar más hondo. Ver más lejos. La afirmación más importante es que entrenar un modelo con contenido protegido por derechos de autor es una infracción, ya sea que el modelo sea capaz o no de reproducir esos datos de entrenamiento en su salida. Sarah Silverman y otros hicieron una versión inepta y torpe de esta afirmación en una demanda que fue desestimada. El Authors’ Guild tiene su propia versión de esta demanda y está trabajando en un modelo de licencia que permitiría a sus miembros optar por un acuerdo de licencia único. El resultado de este caso podría tener muchos efectos secundarios, ya que básicamente permitiría a los editores cobrar no sólo por los textos que producen, sino también por cómo se utilizan esos textos. Es difícil predecir cuál será el resultado, aunque es bastante fácil adivinarlo. Aquí está el mío. OpenAI llegará a un acuerdo extrajudicial con The New York Times y no obtendremos un fallo. Este acuerdo tendrá consecuencias importantes: fijará un precio de facto a los datos de entrenamiento. Y ese precio sin duda será alto. Quizás no tan alto como le gustaría al Times (hay rumores de que OpenAI ha ofrecido algo en el rango de $1 millón a $5 millones), pero sí lo suficientemente alto como para disuadir a los competidores de OpenAI. 1 millón de dólares no es, en sí mismo, un precio terriblemente alto y, según se informa, el Times piensa que es demasiado bajo; pero tenga en cuenta que OpenAI tendrá que pagar una cantidad similar a casi todos los principales editores de periódicos del mundo, además de organizaciones como Authors’ Guild, editores de revistas técnicas, editores de revistas y muchos otros propietarios de contenido. Es probable que la factura total se acerque a los mil millones de dólares, si no más, y como es necesario actualizar los modelos, al menos una parte será un coste recurrente. Sospecho que a OpenAI le resultaría difícil llegar más alto, incluso dadas las inversiones de Microsoft (y, independientemente de lo que se piense de esta estrategia), OpenAI tiene que pensar en el costo total. Dudo que estén cerca de ser rentables; parecen estar siguiendo un plan de negocios similar al de Uber, en el que gastan mucho para comprar el mercado sin tener en cuenta la gestión de un negocio sostenible. Pero incluso con ese modelo de negocio, los gastos de miles de millones de dólares tienen que llamar la atención de socios como Microsoft. El Times, por otra parte, parece estar cometiendo un error común: sobrevalorar sus datos. Sí, tiene un archivo grande, pero ¿cuál es el valor de las noticias antiguas? Además, en casi cualquier aplicación, pero especialmente en la IA, el valor de los datos no son los datos en sí; son las correlaciones entre diferentes conjuntos de datos. El Times no posee esas correlaciones más de lo que yo soy dueño de las correlaciones entre mis datos de navegación y los de Tim O’Reilly. Pero esas correlaciones son precisamente lo que es valioso para OpenAI y otros que crean productos basados ​​en datos. Habiendo fijado el precio de los datos de entrenamiento protegidos por derechos de autor en alrededor de mil millones de dólares, otros desarrolladores de modelos tendrán que pagar cantidades similares para licenciar sus datos de entrenamiento: Google, Microsoft (para cualquier modelo desarrollado independientemente que tengan), Facebook, Amazon y Apple. Esas empresas pueden permitírselo. Las nuevas empresas más pequeñas (incluidas empresas como Anthropic y Cohere) quedarán descartadas, junto con todos los esfuerzos de código abierto. Al llegar a un acuerdo, OpenAI eliminará gran parte de su competencia. Y la buena noticia para OpenAI es que incluso si no llegan a un acuerdo, aún podrían perder el caso. Probablemente terminarían pagando más, pero el efecto sobre su competencia sería el mismo. No sólo eso, el Times y otros editores serían responsables de hacer cumplir este «acuerdo». Serían responsables de negociar con otros grupos que quieran utilizar su contenido y demandar a aquellos con los que no estén de acuerdo. OpenAI se mantiene las manos limpias y no gasta su presupuesto legal. Pueden ganar perdiendo y, de ser así, ¿tienen algún incentivo real para ganar? Desafortunadamente, OpenAI tiene razón al afirmar que no se puede entrenar un buen modelo sin datos protegidos por derechos de autor (aunque Sam Altman, director ejecutivo de OpenAI, también ha dicho lo contrario). Sí, tenemos importantes bibliotecas de literatura de dominio público, además de Wikipedia y artículos en ArXiv, pero si un modelo de lenguaje entrenado con esos datos produjera un texto que suene como un cruce entre novelas del siglo XIX y artículos científicos, no es una idea agradable. El problema no es sólo la generación de texto; ¿Un modelo de lenguaje cuyos datos de entrenamiento se han limitado a fuentes libres de derechos de autor requerirá que las indicaciones se escriban en un estilo de principios del siglo XX o XIX? Los periódicos y otros materiales protegidos por derechos de autor son una excelente fuente de lenguaje moderno bien editado y gramaticalmente correcto. No es razonable creer que se pueda construir un buen modelo para las lenguas modernas a partir de fuentes que ya no están protegidas por derechos de autor. Exigir a las organizaciones de creación de modelos que compren los derechos de sus datos de entrenamiento dejaría inevitablemente la IA generativa en manos de un pequeño número de monopolios inexpugnables. (No abordaremos lo que se puede o no se puede hacer con material protegido por derechos de autor, pero diremos que la ley de derechos de autor no dice nada en absoluto sobre la fuente del material: puedes comprarlo legalmente, prestárselo a un amigo, robarlo). , encuéntrelo en la basura; nada de esto tiene relación alguna con la infracción de derechos de autor). Uno de los participantes en la mesa redonda del WEF, The Expanding Universe of Generative Models, informó que Altman ha dicho que no ve la necesidad de más más de un modelo de cimentación. Eso no es inesperado, dado que supongo que su estrategia se basa en minimizar la competencia. Pero esto es escalofriante: si todas las aplicaciones de IA pasan por uno de un pequeño grupo de monopolistas, ¿podemos confiar en que esos monopolistas abordarán honestamente las cuestiones de sesgo? Los desarrolladores de IA han dicho mucho sobre la “alineación”, pero las discusiones sobre la alineación siempre parecen eludir cuestiones más inmediatas como la raza y los prejuicios de género. ¿Será posible desarrollar aplicaciones especializadas (por ejemplo, O’Reilly Answers) que requieran capacitación en un conjunto de datos específico? Estoy seguro de que los monopolistas dirían “por supuesto, estos pueden construirse ajustando nuestros modelos básicos”; pero ¿sabemos si esa es la mejor manera de crear esas aplicaciones? ¿O si las empresas más pequeñas podrán permitirse el lujo de crear esas aplicaciones una vez que los monopolistas hayan logrado comprar el mercado? Recuerde: Uber alguna vez fue económico. Si el desarrollo del modelo se limita a unas pocas empresas ricas, su futuro será sombrío. El resultado de las demandas por derechos de autor no sólo se aplicará a la generación actual de modelos basados ​​en Transformer; se aplicarán a cualquier modelo que necesite datos de entrenamiento. Limitar la creación de modelos a un pequeño número de empresas eliminará la mayor parte de la investigación académica. Sin duda, sería posible para la mayoría de las universidades de investigación construir un corpus de capacitación sobre contenidos que adquirieron legítimamente. Cualquier buena biblioteca tendrá el Times y otros periódicos en microfilmes, que pueden convertirse a texto con OCR. Pero si la ley especifica cómo se puede utilizar el material protegido por derechos de autor, es posible que no sean posibles aplicaciones de investigación basadas en material que una universidad haya comprado legítimamente. No será posible desarrollar modelos de código abierto como Mistral y Mixtral (no habrá financiación para adquirir datos de entrenamiento), lo que significa que los modelos más pequeños que no requieren una enorme granja de servidores con GPU que consumen mucha energía sí lo harán. No existe. Muchos de estos modelos más pequeños pueden ejecutarse en una computadora portátil moderna, lo que los convierte en plataformas ideales para desarrollar aplicaciones basadas en inteligencia artificial. ¿Será eso posible en el futuro? ¿O la innovación sólo será posible a través de monopolios arraigados? La IA de código abierto ha sido víctima de mucho alarmismo últimamente. Sin embargo, la idea de que la IA de código abierto se utilizará de manera irresponsable para desarrollar aplicaciones hostiles que son perjudiciales para el bienestar humano interpreta el problema precisamente de forma errónea. Sí, el código abierto se utilizará de manera irresponsable, al igual que todas las herramientas que jamás se hayan inventado. Sin embargo, sabemos que se desarrollarán aplicaciones hostiles, y ya se están desarrollando: en laboratorios militares, en laboratorios gubernamentales y en cualquier número de empresas. El código abierto nos da la oportunidad de ver lo que sucede detrás de esas puertas cerradas: comprender las capacidades de la IA y posiblemente incluso anticipar el abuso de la IA y preparar defensas. Poner obstáculos a la IA de código abierto no nos “protege” de nada; nos impide tomar conciencia de las amenazas y desarrollar contramedidas. La transparencia es importante y los modelos propietarios siempre irán por detrás de los modelos de código abierto en transparencia. El código abierto siempre se ha centrado en el código fuente, más que en los datos; pero eso está cambiando. El GPT-4 de OpenAI obtiene una puntuación sorprendentemente buena en el Índice de Transparencia de Modelos de la Fundación de Stanford, pero aún está por detrás de los principales modelos de código abierto (LLaMA de Meta y BLOOM de BigScience). Sin embargo, no es la puntuación total lo importante; es la puntuación «upstream», que incluye fuentes de datos de entrenamiento, y en esto los modelos propietarios no están cerca. Sin transparencia de datos, ¿cómo será posible comprender los sesgos inherentes a cualquier modelo? Comprender esos sesgos será importante para abordar los daños que los modelos están causando ahora, no los daños hipotéticos que podrían surgir de la superinteligencia de la ciencia ficción. Limitar el desarrollo de la IA a unos pocos jugadores ricos que hacen acuerdos privados con los editores garantiza que los datos de entrenamiento nunca estarán abiertos. ¿Qué será la IA en el futuro? ¿Habrá proliferación de modelos? ¿Podrán los usuarios de IA, tanto corporativos como individuales, crear herramientas que les sirvan? ¿O nos quedaremos estancados con una pequeña cantidad de modelos de IA ejecutándose en la nube y siendo facturados por transacción, donde nunca entenderemos realmente qué está haciendo el modelo o cuáles son sus capacidades? De eso se trata el final de la batalla legal entre OpenAI y el Times.

Source link