Clive Robinson • 23 de agosto de 2025 8:30 pm @ ismar, todos, con respecto al documento ACM, https://www.schneier.com/blog/archives/2024/06/new-log-moderation-policy.html con el que ha vinculado, debería llevar una «advertencia de salud». Porque no es solo una lucha de la colina para leer. Debido en parte al hecho de que está escrito en lo que se lee como «expertos en dominios» que intentan ser más «no expertos» y que se ven como los padres que intentan responder a sus hijos «¿Por qué el azul del cielo?» Pregunta. Por lo tanto, obtienes cosas como «como Top-P o Top-K muestras con temperatura distinta de cero». Y no hay más explicaciones. Por lo tanto, un lector de no dominio no sabe si es un estebo de rechazo o algo de relevancia significativa. Sin más forma de saber qué relevancia, los escritores le atribuyen … por lo tanto, para los expertos en dominio, el documento sufre uno de los cuatro destinos, 1, imparte confusión, no claridad.2, se deja / ignora.3, el lector consulta un motor de búsqueda tradicional.4, el lector pide a una IA que amplíe / explique. Algunos se darán cuenta de que la mejor opción para aquellos con experiencia en otros dominios es en este momento ‘3: consulte a un motor de búsqueda tradicional’. Pero AI SLOP está contaminando Internet, y eso no solo tiene un mal efecto de retroalimentación en «flotarlo todo AI», sino que también es menos publicitado, afecta a los motores de búsqueda tradicionales. Que además también sufren del problema de «Enshitificación» de Corry Doctrow, así como un doble golpe. Por lo tanto, combinados, haciéndolos cada vez más peores que un desafío inútil o un gran agotador para usar, que a veces se siente como caminar a través de un flujo turbulento de diarrea … por lo tanto, de las cuatro opciones disponibles para los expertos en dominios, los dos (3/4) que podrían haberlos ayudado a avanzar con el ruido y el sesgo y volverse inútiles. Dejando solo las dos primeras opciones (1/2) donde los expertos en un dominio no tienen valor en el papel y al menos han perdido su tiempo, si no peor. No sé si esto se debe a que los autores son solo escritores pobres, o estaban tratando de poner demasiado en muy poco espacio asignado … pero lo que está claro es: «No han logrado comunicaciones significativas». Por lo tanto, pocos pueden juzgar el mérito del mensaje que intentaban transmitir. Pero incluso ahora, una búsqueda tradicional ha sido contaminada … para ver por qué digo «que a veces se siente como si estuviera atravesando una turbulenta corriente de diarrea …» Vamos a «caminarlo», si «pato» con Ai apagado obtienes nueve ejemplos pobres antes de llegar a hacerlo, https://codefinity.com/blog/understanding-temperature%2C-top-k%2C-and-top-P-Psamualling-In Generative-Models ¿Cuántas personas llegarían tan lejos? Y desafortunadamente, aunque explica una especie de Top-K y Top-P a un nivel que la mayoría puede comenzar a pensar productivamente en términos de probabilidad de que se les enseñe en la escuela … La temperatura sigue siendo un misterio detrás del «parto» de la puerta del término técnico «logits» que no se explican de una manera significativa … y otra búsqueda da una página, https://peterchng.com/blog/2023/05/02/token-selection-strategies-top-k-kp-p-p-p-p-temperature/ hace una explicación menos buena de Top-K y Top-P, pero … explica la temperatura a través de SoftMax de una manera que pocos entenden, con solo los gráficos de la imagen que dan una canción. Pero de «logits» no hay señal … para guardar el dolor de mirar a través de muchas páginas con fórmula de dolor ocular, en una neurona de «red neuronal digital» (DNN). Hay una gran cantidad de entradas de tokens o neuronas de capa anteriores. Estas entradas se multiplican por los «pesos» se suman. y por lo tanto, es potencialmente posible un rango de salida entre «Plus y Minus Infinity». Esto debe llevarse a un rango utilizable, normalizado, antes de que pueda usarse en la siguiente capa. Esta normalización a veces se realiza a través de una «función sigmoide» que tiene ciertas características deseables para esto. Debido a que es una función matemática con un gráfico que tiene una curva característica en forma de S o «sigmoide», que mapea reversiblemente cualquier entrada real a través de la curva a una salida en los rangos de menos uno a uno. Esta curva se puede hacer a través de la función exponencial o «log» (LN), por lo que en este caso se llama «función logística» y de aquí es de donde proviene el término estadístico «logit», ya que es «la transformación inversa de la función logística». O más fácilmente es «el logaritmo de las probabilidades P/(1-P)», por lo que logit (p) = ln (p/(1-p)) Sin embargo … en el mundo de las redes neuronales de IA y artificiales se utilizan sigmoides y logísticos como sinónimos. Peor aún, usan «logits» como una taquigrafía para la entrada en bruto «aún no normalizada» a la función de normalización de la capa final (Softmax). También recuerde, por lo que podemos decir, las neuronas naturales tienen diferentes curvas de salida equivalentes que no son reversibles, por lo que no los sigmoides, y en efecto están la integración de múltiples entradas de tren de pulso de frecuencia variable, por lo que tampoco son realmente sumas lineales de las entradas. La cuestión de la velocidad y la precisión requerida de la normalización de la curva sigmoidea surge y una aproximación lineal de tres líneas rectas se ha utilizado con éxito. Con una aproximación más cercana más rápida por una tabla de búsqueda. Dando así una «compensación del tiempo de memoria». Pero, ¿qué pasa con la «temperatura» esta es una función llevada a cabo en el vector logits antes de la normalización de la función sigmoidea Softmax y puede considerarse como un sesgo multiplicativo o de escala en lugar de un sesgo aditivo? Sin embargo, a la vista de la salida de las funciones Softmax, se parece algo a un cambio de aditivo o un sesgo. El resultado es que afecta el grado de «aleatoriedad» que algunos ven incorrectamente como «creatividad». Lo que me lleva de vuelta a mi punto sobre el papel ACM y las cuatro opciones. Como se puede ver en mi demostración parcial anterior, la opción 3 de consultar un motor de búsqueda tradicional puede ser un trabajo agotador para aquellos sin suficiente conocimiento de dominio, pero también tiene una baja relevancia para el argumento que se está haciendo … lo cual es una pena porque el mensaje en el documento se está perdiendo en el mensaje para todos menos a unos pocos, que en efecto serían «parte de Choir/Congregación».
Deja una respuesta