Cómo ejecutar un LLM localmente en su PC en menos de 10 minutos • The Register

Manos a la obra Con todo lo que se habla sobre grupos masivos de capacitación en aprendizaje automático y PC con IA, se le perdonaría pensar que necesita algún tipo de hardware especial para jugar con modelos de lenguaje grandes (LLM) que generan texto y código en casa. En realidad, es muy probable que el sistema de escritorio en el que estás leyendo esto sea más que capaz de ejecutar una amplia gama de LLM, incluidos chatbots como Mistral o generadores de código fuente como Codellama. De hecho, con herramientas disponibles abiertamente como Ollama, LM Suite y Llama.cpp, es relativamente fácil ejecutar estos modelos en su sistema. En aras de la simplicidad y la compatibilidad multiplataforma, veremos Ollama, que una vez instalado funciona más o menos igual en Windows, Linux y Mac. Unas palabras sobre el rendimiento, la compatibilidad y la compatibilidad con GPU AMD: en general, los modelos de lenguajes grandes como Mistral o Llama 2 funcionan mejor con aceleradores dedicados. Hay una razón por la que los operadores de centros de datos están comprando e implementando GPU en grupos de 10.000 o más, aunque necesitarás una ínfima fracción de dichos recursos. Ollama ofrece soporte nativo para las GPU de la serie M de Nvidia y Apple. Las GPU Nvidia con al menos 4 GB de memoria deberían funcionar. Probamos con una RTX 3060 de 12 GB, aunque recomendamos al menos 16 GB de memoria para Mac de la serie M. Los usuarios de Linux querrán instalar primero el último controlador propietario de Nvidia y probablemente los binarios CUDA. Hay más información sobre cómo configurar eso aquí. Si utiliza una GPU Radeon serie 7000 o posterior, AMD tiene una guía completa sobre cómo ejecutar un LLM en su sistema, que puede encontrar aquí. La buena noticia es que, si no tienes una tarjeta gráfica compatible, Ollama seguirá funcionando en una CPU compatible con AVX2, aunque mucho más lento que si tuvieras una GPU compatible. Y aunque se recomiendan 16 GB de memoria, es posible que puedas arreglártelas con menos si optas por un modelo cuantificado; hablaremos de eso en un minuto. Instalar Ollama Instalar Ollama es bastante sencillo, independientemente de su sistema operativo base. Es de código abierto, que puedes consultar aquí. Para aquellos que ejecutan Windows o Mac OS, visite ollama.com y descárguela e instálela como cualquier otra aplicación. Para aquellos que ejecutan Linux, es aún más simple: simplemente ejecute esta línea (puede encontrar instrucciones de instalación manual aquí, si las desea) y estará listo para las carreras. curl -fsSL https://ollama.com/install.sh | sh Instalación de su primer modelo Independientemente de su sistema operativo, trabajar con Ollama es prácticamente lo mismo. Ollama recomienda comenzar con Llama 2 7B, una red neuronal basada en transformadores de siete mil millones de parámetros, pero para esta guía echaremos un vistazo a Mistral 7B, ya que es bastante capaz y ha sido fuente de cierta controversia en las últimas semanas. Comience abriendo PowerShell o un emulador de terminal y ejecutando el siguiente comando para descargar e iniciar el modelo en un modo de chat interactivo. ollama run mistral Al descargarlo, accederá a un mensaje de chat donde podrá comenzar a interactuar con el modelo, al igual que ChatGPT, Copilot o Google Gemini. Los LLM, como Mistral 7B, funcionan sorprendentemente bien en esta MacBook Pro M1 Max de 2 años. Haga clic para ampliar Si no obtiene nada, es posible que primero deba iniciar Ollama desde el menú de inicio en Windows o la carpeta de aplicaciones en Mac. . Modelos, etiquetas y cuantificación Mistal 7B es solo uno de varios LLM, incluidas otras versiones del modelo, a los que se puede acceder mediante Ollama. Puede encontrar la lista completa, junto con instrucciones para ejecutar cada uno aquí, pero la sintaxis general es más o menos así: ollama run nombre-modelo:etiqueta-modelo Las etiquetas de modelo se utilizan para especificar qué versión del modelo desea descargar. Si lo deja así, Ollama asumirá que desea la última versión. Según nuestra experiencia, ésta tiende a ser una versión cuantificada del modelo de 4 bits. Si, por ejemplo, quisieras ejecutar Llama2 7B de Meta en FP16, se vería así: ollama run llama2:7b-chat-fp16 Pero antes de intentarlo, es posible que desees volver a verificar que tu sistema tenga suficiente memoria. Nuestro ejemplo anterior con Mistral utilizó cuantificación de 4 bits, lo que significa que el modelo necesita medio gigabyte de memoria por cada mil millones de parámetros. Y no lo olvides: tiene siete mil millones de parámetros. La cuantización es una técnica utilizada para comprimir el modelo convirtiendo sus pesos y activaciones a una precisión menor. Esto permite que Mistral 7B se ejecute dentro de 4 GB de GPU o RAM del sistema, generalmente con un sacrificio mínimo en la calidad de la salida, aunque su kilometraje puede variar. El ejemplo de Llama 2 7B utilizado anteriormente se ejecuta con la mitad de precisión (FP16). Como resultado, en realidad necesitarías 2 GB de memoria por cada mil millones de parámetros, lo que en este caso equivale a poco más de 14 GB. A menos que tenga una GPU más nueva con 16 GB o más de vRAM, es posible que no tenga suficientes recursos para ejecutar el modelo con esa precisión. Administrar Ollama Administrar, actualizar y eliminar modelos instalados usando Ollama debería sentirse como en casa para cualquiera que haya usado cosas como Docker CLI antes. En esta sección repasaremos algunas de las tareas más comunes que quizás desee ejecutar. Para obtener una lista de modelos instalados, ejecute: ollama list Para eliminar un modelo, ejecute: ollama rm model-name:model-tag Para extraer o actualizar un modelo existente, ejecute: ollama pull model-name:model-tag Adicional Los comandos de Ollama se pueden encontrar ejecutando: ollama –help Como señalamos anteriormente, Ollama es solo uno de muchos marcos para ejecutar y probar LLM locales. Si tienes problemas con este, es posible que tengas más suerte con otros. Y no, una IA no escribió esto. El Registro tiene como objetivo brindarle más información sobre el uso de LLM en un futuro cercano, así que asegúrese de compartir sus preguntas candentes sobre AI PC en la sección de comentarios. Y no se olvide de la seguridad de la cadena de suministro. ®

Source link

Todo lo que necesitas saber sobre tecnología

Cómo ejecutar un LLM localmente en su PC en menos de 10 minutos • The Register

Deja una respuesta Cancelar la respuesta

Cómo ejecutar un LLM localmente en su PC en menos de 10 minutos • The Register

La producción en masa de dos nuevos modelos de AirPods comenzará en mayo, con miras al lanzamiento en otoño

Bixby permite a los usuarios iniciar funciones clave de Galaxy AI – Samsung Global Newsroom

Deja una respuesta Cancelar la respuesta