En esta guía, aprenderá a instalar Apache Spark en Debian 12, acceder a la interfaz de usuario web y también acceder a Spark y PySpark Shell desde la interfaz de línea de comandos. Apache Spark es un marco de procesamiento distribuido de big data de código abierto. Proporciona API de desarrollo en Java, Scala, Python y R. PySpark es la API de Python para Apache Spark. Con PySpark, puede realizar procesamiento de datos a gran escala en tiempo real en un entorno distribuido utilizando Python. Además, proporciona un shell PySpark para analizar sus datos de forma interactiva. Ahora puede seguir el resto del artículo para conocer los sencillos pasos para instalar Apache Spark en Debian 12. Instale rápidamente Apache Spark en Debian 12 Antes de iniciar la configuración de Spark en Debian 12, debe iniciar sesión en su servidor como usuario no usuario root con privilegios sudo. Para hacer esto, puede verificar la configuración inicial del servidor con Debian 12. Luego, siga los pasos a continuación para instalar Apache Spark en Debian 12. Paso 1: instale Java para la configuración de Spark en Debian 12 Para instalar Apache Spark en Debian 12, debe tener Java instalado en su servidor. Primero, ejecute la actualización del sistema con el siguiente comando: sudo apt update Luego, ejecute el siguiente comando para instalar Java predeterminado en Debian 12: sudo apt install default-jdk -y Verifique la instalación de Java verificando su versión: java –version En En su resultado, verá: Paso 2: descargue e instale Apache Spark en Debian 12 desde el código fuente. Ahora debe instalar algunos paquetes necesarios para la instalación de Spark en su servidor. Para hacer esto, ejecute el siguiente comando: sudo apt install mlocate git scala -y Luego, visite la página de descargas de Spark y obtenga el último paquete de Apache Spark usando el siguiente comando wget en Debian 12: sudo wget https://dlcdn.apache .org/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz Nota: Hadoop es la base de su arquitectura de big data. Es el responsable de almacenar y procesar sus datos. Una vez que se complete la descarga, extraiga el archivo descargado con el siguiente comando: sudo tar xvf spark-3.5.1-bin-hadoop3.tgz Luego, debe mover su archivo Spark al directorio /opt. Para hacer esto, puede ejecutar el siguiente comando: sudo mv spark-3.5.1-bin-hadoop3 /opt/spark En este punto, ha aprendido a descargar e instalar Apache Spark en Debian 12. Ahora debe configurar el entorno Spark. en su servidor. Paso 3: configurar la variable de ruta del entorno Apache Spark en Debian 12 Para configurar la variable de ruta para Apache Spark, debe abrir su archivo bashrc con el editor de texto que desee, como Vi Editor o Nano Editor: sudo vi ~/.bashrc Agregue el siguientes líneas al final del archivo: Nota: Recuerde configurar su directorio de instalación de Spark junto a Spark Home. export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin Una vez que haya terminado, guarde y cierre el archivo. A continuación, ejecute el siguiente comando para aplicar los cambios: sudo source ~/.bashrc Paso 4: acceda a Apache Spark Shell en Debian 12 desde CLI En este punto, ha aprendido a instalar Apache Spark en Debian 12 y configurar la ruta de su entorno, puede acceda fácilmente a su Spark Shell con el siguiente comando: sudo spark-shell En su salida, debería ver: Como puede ver, el Spark Shell comenzó con Scala. Puede presionar CTRL+C para salir del Spark-Shell. Paso 5: acceda a PySpark Shell en Debian 12 desde CLI Si prefiere usar Python en lugar de Scala, puede usar PySpark. Para ejecutar el shell PySpark, puede ejecutar el siguiente comando: sudo pyspark En su salida, verá: Como puede ver, el shell comenzó con Python. Para salir del shell de PySpark, puede presionar CTRL+D. Paso 6: administrar el servicio Spark Master en Debian 12 En este punto, puede iniciar su servicio Apache Spark Master en su servidor usando el siguiente comando: sudo start-master.sh Salida iniciando org.apache.spark.deploy.master.Master , iniciando sesión en /opt/spark/logs/spark… De forma predeterminada, Apache Spark escucha en el puerto 8080. Puede verificarlo usando el siguiente comando: sudo ss -tunelp | sudo grep 8080 Salida tcp ESCUCHAR 0 1 *:8080 *:* usuarios:((«java»,pid=68493,fd=268)) ino:804333 sk:6 cgroup:/user.slice/user-0.slice/ sesión-173.scope v6only:0 <->
Inicie el proceso de trabajo de Apache Spark En este punto, puede iniciar el proceso de trabajo de Spark utilizando el siguiente comando: sudo start-worker.sh spark://your-server-ip:7077 Si obtiene un ID de proceso en ejecución, deténgalo Primero, luego vuelva a ejecutar el comando. Salida iniciando org.apache.spark.deploy.worker.Worker, iniciando sesión en /opt/spark/logs/spark… Acceder a la interfaz de usuario web de Spark Master En este punto, puede acceder a la interfaz de usuario web de Apache Spark siguiendo la siguiente URL: http://your-server-ip:8080 Debería ver la siguiente pantalla: Desde allí, puede obtener información detallada sobre sus trabajadores, las aplicaciones en ejecución y las aplicaciones completadas. Eso es todo, ya terminaste. Conclusión sobre la configuración de Apache Spark en Debian 12 En este punto, ha aprendido pasos sencillos para instalar Apache Spark en Debian 12. Como puede ver, puede descargar el último paquete desde la fuente y configurar la ruta del entorno para acceder a Spark y PySpark. shells en su servidor. Luego, podrá administrar fácilmente su servicio maestro Spark y acceder al panel de la interfaz de usuario web. Espero que disfrutes usándolo. Además, es posible que le interese leer los siguientes artículos: Instalar Scala 3 usando Terminal en Debian 12 Instalar Python 3.12 en Ubuntu y Debian Server Configurar Anaconda Python en Debian 12 Bookworm Instalar Rust en Debian 12 desde la terminal de Linux

Source link