En esta guía, aprenderá a instalar Tesseract OCR en Debian 12 a través de Terminal utilizando el repositorio APT y From Source. Tesseract OCR (reconocimiento óptico de caracteres) es una herramienta de software de código abierto que se utiliza para extraer texto de imágenes o documentos escaneados. Está desarrollado por Google y mantenido por la comunidad de código abierto. Además, Tesseract es uno de los motores de OCR más utilizados disponibles. Ahora puede seguir el resto del artículo para iniciar la instalación de Tesseract OCR desde el repositorio de APT u obtener la última versión desde la fuente. Aprenda fácilmente a instalar Tesseract OCR en Debian 12 a través de Terminal Para completar esta guía, debe iniciar sesión en su servidor como usuario no root con privilegios sudo. Para ello, puede consultar la Guía de configuración inicial de Debian 12. Luego, siga los pasos a continuación para iniciar la potente instalación de Tesseract OCR en Debian 12. Método 1: instalar Tesseract OCR desde el repositorio APT de Debian Como sabrá, el paquete Tesseract OCR está disponible en el repositorio predeterminado de Debian 12. De modo que puede ejecutar fácilmente la actualización del sistema e instalar sus paquetes con el siguiente comando: # sudo apt update # sudo apt install tesseract-ocr -y Los paquetes se instalarán en el directorio /usr/share/tesseract-ocr. En este punto, también puedes utilizar una poderosa herramienta llamada Imagemagick. Proporciona una amplia gama de funcionalidades para convertir, componer, editar y mostrar imágenes en varios formatos. ImageMagick se usa comúnmente junto con Tesseract OCR para preprocesar imágenes antes de realizar el reconocimiento óptico de caracteres. Para instalar esta increíble herramienta, puede ejecutar el siguiente comando: sudo apt install imagemagick -y Método 2: obtener Tesseract OCR desde la fuente en Debian 12 En este método, puede descargar e instalar la última versión de Tesseract OCR desde la fuente. Para hacer esto, instale los paquetes requeridos con el siguiente comando: sudo apt install automake ca-certificates g++ git libtool libleptonica-dev make pkg-config libpango1.0-dev Luego, use el siguiente comando para clonar el último OCR de Tesseract desde GitHub: sudo git clone https://github.com/tesseract-ocr/tesseract.git Una vez que se complete la descarga, cambie a su directorio de Tesseract: cd tesseract A continuación, use el siguiente comando para crear los archivos de instalación de Tesseract en Debian 12: sudo. /autogen.sh Ahora ejecute los siguientes comandos para iniciar el proceso de compilación e instalación: # sudo ./configure # sudo make # sudo make install # sudo Idconfig Además, debe completar e instalar las herramientas de capacitación. En Tesseract OCR, las herramientas de capacitación se refieren a un conjunto de utilidades y scripts proporcionados por el proyecto Tesseract para entrenar datos de idiomas personalizados y mejorar la precisión del reconocimiento óptico de caracteres para idiomas, fuentes o estilos de texto específicos. Para instalarlo, use los siguientes comandos: # sudo maketraining # sudo maketraining-install Una vez que se complete la instalación, ahora puede comenzar a usar Tesseract OCR en Debian 12. Comandos básicos para usar Tesseract OCR En este punto, intentamos proporciona los comandos más comunes y básicos para Tesseract OCR: Sintaxis básica de Tesseract OCR: tesseract [input_image] [output_text]

Este comando realiza OCR en la imagen de entrada especificada y guarda el texto reconocido en el archivo de texto de salida especificado. Especifique su idioma deseado: tesseract [input_image] [output_text] -l [language_code]Con este comando, puede reemplazar el código de idioma que desee para OCR en Debian 12. Por ejemplo, use eng para inglés. teseracto [input_image] [output_pdf] pdf Este comando genera un archivo PDF con capacidad de búsqueda que contiene el texto reconocido de la imagen de entrada. teseracto [input_image] [output_text] –oem [mode]
Puede utilizar este comando para especificar el modo del motor de OCR, que incluye: 0: motor heredado1: motor LSTM de redes neuronales2: motores heredados + LSTM3: predeterminado, según lo que esté disponible Estos son algunos de los comandos básicos para usar Tesseract OCR. Puede encontrar más opciones y parámetros en la documentación oficial. Conclusión Instalar Tesseract OCR en Debian 12 a través del terminal es un proceso sencillo que permite a los usuarios utilizar potentes capacidades de reconocimiento óptico de caracteres para la extracción de texto de imágenes o documentos escaneados. Espero que lo disfrutes. Además, es posible que le interese leer los siguientes artículos: Instalar XWiki en Debian 12 Maximizar la duración de la sesión de Sudo en Linux Instalar PHP 8.3 en Debian 11 Guía de configuración de CheckMK para AlmaLinux 9 / Rocky Linux 9 Duplicar una base de datos MySQL con un nombre diferente en Linux

Source link