El umbral de ganancia de $ 100 mil millones reportado que mencionamos anteriormente combina el éxito comercial con la capacidad cognitiva, como si la capacidad de un sistema para generar ingresos diga algo significativo sobre si puede «pensar», «razón» o «comprender» al mundo como un humano. Sam Altman habla en el escenario durante el New York Times Dealbook Summit 2024 en Jazz en el Lincoln Center el 4 de diciembre de 2024 en la ciudad de Nueva York. Crédito: Eugene Gologursky a través de Getty Images Dependiendo de su definición, es posible que ya tengamos AGI, o puede ser físicamente imposible de lograr. Si define a AGI como «AI que funciona mejor que la mayoría de los humanos en la mayoría de las tareas», entonces los modelos de lenguaje actuales potencialmente cumplen con esa barra para ciertos tipos de trabajo (qué tareas, qué humanos, ¿qué es «mejor»?), Pero el acuerdo sobre si eso es cierto está lejos de ser universal. Esto no dice nada del concepto aún más turbio de «superinteligencia», otro término nebuloso para un intelecto hipotético y divino mucho más allá de la cognición humana que, como AGI, desafía cualquier definición o punto de referencia sólido. Dado este caos definitivo, los investigadores han tratado de crear puntos de referencia objetivos para medir el progreso hacia AGI, pero estos intentos han revelado su propio conjunto de problemas. Por qué los puntos de referencia nos siguen fallando en la búsqueda de mejores puntos de referencia AGI han producido algunas alternativas interesantes a la prueba de Turing. El Corpus de Abstracción y razonamiento (ARC-AGI), introducido en 2019 por François Chollet, prueba si los sistemas de IA pueden resolver rompecabezas visuales nuevos que requieren un razonamiento analítico profundo y novedoso. «Casi todos los puntos de referencia actuales de IA se pueden resolver puramente mediante memorización», dijo Chollet a Freethink en agosto de 2024. Un problema importante con los puntos de referencia de IA actualmente proviene de la contaminación de datos, cuando las preguntas de prueba terminan en los datos de entrenamiento, los modelos pueden aparecer bien sin «comprender» los conceptos subyacentes. Los modelos de idiomas grandes sirven como imitadores maestros, imitando patrones que se encuentran en los datos de entrenamiento, pero no siempre originan soluciones novedosas a los problemas. Pero incluso los puntos de referencia sofisticados como ARC-AGI enfrentan un problema fundamental: todavía están tratando de reducir la inteligencia a una puntuación. Y aunque los puntos de referencia mejorados son esenciales para medir el progreso empírico en un marco científico, la inteligencia no es una sola cosa que pueda medir, como la altura o el peso, es una constelación compleja de habilidades que se manifiestan de manera diferente en diferentes contextos. De hecho, ni siquiera tenemos una definición funcional completa de inteligencia humana, por lo que definir la inteligencia artificial por cualquier puntaje de referencia único es probable que solo capture solo una pequeña parte de la imagen completa.
Deja una respuesta