1. Los sistemas de fragmentación interna de fragmentación de la memoria prealican una gran parte de la memoria para cada solicitud, suponiendo la longitud de salida máxima posible (por ejemplo, tokens 2048). Sin embargo, si una solicitud solo genera una salida corta, gran parte de esa memoria reservada no se usa, lo que lleva a desechos significativos. Fragmentación externa Debido a que diferentes solicitudes reservan fragmentos de diferentes tamaños, la memoria de la GPU se dispersa con pequeños huecos inutilizables, lo que dificulta ajustar nuevas solicitudes, incluso si la memoria libre total está disponible. Nuestras fuentes muestran que en los sistemas existentes, solo el 20.4% – 38.2% de la memoria de caché de KV en realidad se usa para almacenar estados tokens, y el resto es el desperdicio. 2. No hay memoria compartiendo técnicas de decodificación avanzadas como muestreo paralelo o búsqueda de haz a menudo generan múltiples salidas a partir de un solo mensaje, lo que significa que podrían compartir partes del caché de KV. Sin embargo, los sistemas existentes no pueden compartir fácilmente esta memoria porque el caché de KV de cada secuencia está en su propio bloque separado y contiguo.