Evaluación de la eficacia del modelado de recompensas de los sistemas de IA generativa Nueva investigación que evalúa la eficacia del modelado de recompensas durante el aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF): “SEAL: análisis de errores sistemáticos para la alineación de valores”. El artículo presenta métricas cuantitativas para evaluar la eficacia del modelado y la alineación de los valores humanos: Resumen: El aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF) tiene como objetivo alinear los modelos de lenguaje (LM) con los valores humanos mediante el entrenamiento de los modelos de recompensa (RM) en preferencias binarias y el uso de estos RM para ajustar los LM base. A pesar de su importancia, los mecanismos internos de RLHF siguen siendo poco comprendidos. Este artículo presenta nuevas métricas para evaluar la eficacia del modelado y la alineación de los valores humanos, a saber, la impronta de características, la resistencia a la alineación y la robustez de la alineación. Clasificamos los conjuntos de datos de alineación en características objetivo (valores deseados) y características de spoiler (conceptos no deseados). Al hacer una regresión de las puntuaciones de RM contra estas características, cuantificamos el grado en que los RM las recompensan, una métrica que llamamos impronta de características. Definimos la resistencia a la alineación como la proporción del conjunto de datos de preferencias donde los RM no coinciden con las preferencias humanas, y evaluamos la robustez de la alineación analizando las respuestas de los RM a las entradas perturbadas. Nuestros experimentos, que utilizan componentes de código abierto como el conjunto de datos de preferencias antrópicas y los RM de OpenAssistant, revelan huellas significativas de las características objetivo y una notable sensibilidad a las características de spoiler. Observamos una incidencia del 26% de resistencia a la alineación en partes del conjunto de datos donde los etiquetadores LM no coincidían con las preferencias humanas. Además, encontramos que la desalineación a menudo surge de entradas ambiguas dentro del conjunto de datos de alineación. Estos hallazgos subrayan la importancia de examinar tanto los RM como los conjuntos de datos de alineación para una comprensión más profunda de la alineación de valores. Etiquetas: artículos académicos, inteligencia artificial Publicado el 11 de septiembre de 2024 a las 7:03 a. m. • 0 comentarios Foto de la barra lateral de Bruce Schneier por Joe MacInnis.