En los modelos de calificación de referencia sobre razonamiento y habilidades multilingües, como BigBench, MMLU y ARC Challenge, el modelo MoE-instruct, aunque con menos parámetros que sus rivales (6.6 mil millones), tuvo un mejor rendimiento que Llama 3.1-8B-instruct, Gemma 2-9b-It y Gemini 1.5-Flash. Sin embargo, no pudo igualar el rendimiento de GPT-4o-mini-2024-07-18 (chat) de OpenAI. Sin embargo, la empresa señaló que el modelo todavía está fundamentalmente limitado por su tamaño para ciertas tareas. «El modelo simplemente no tiene la capacidad de almacenar demasiado conocimiento factual, por lo tanto, los usuarios pueden experimentar incorrecciones factuales», dijo, y agregó que esta debilidad se puede resolver aumentando Phi-3.5 con un motor de búsqueda, particularmente cuando se usa el modelo con configuraciones RAG.