«Muchos desarrolladores utilizan el mismo contexto repetidamente en múltiples llamadas API cuando crean aplicaciones de IA, como cuando realizan ediciones en una base de código o tienen conversaciones largas y de varios turnos con un chatbot», explicó OpenAI, y agregó que la razón es reducir el consumo de tokens cuando enviando una solicitud al LLM. Lo que eso significa es que cuando llega una nueva solicitud, el LLM verifica si algunas partes de la solicitud están almacenadas en caché. En caso de que esté almacenado en caché, utiliza la versión almacenada en caché; de lo contrario, ejecuta la solicitud completa. La nueva capacidad de almacenamiento en caché de OpenAI funciona según el mismo principio fundamental, lo que podría ayudar a los desarrolladores a ahorrar costos y tiempo.