Docling
Configuración de rendimiento
Docling utiliza una arquitectura de pool de workers donde los workers se dividen automáticamente en dos grupos para calidad de servicio:- Workers de archivos pequeños: Procesan archivos menores a 1MB y con menos de 100 páginas
- Workers de archivos grandes: Procesan archivos mayores o iguales a 1MB o con 100 páginas o más
Parámetros de configuración
numWorkers: Número total de workers (se dividen automáticamente 50/50 entre procesamiento de archivos pequeños y grandes) numThreads: Total de hilos disponibles entre todos los workers. Cada worker recibenumThreads / numWorkers hilos.
Restricciones y estrategia de configuración
Restricciones y estrategia de configuración
Restricciones
numWorkers >= 2y debe ser parnumThreads >= 2numThreadsdebe ser divisible pornumWorkers- Recomendado: Dejar al menos 20-30% de los núcleos libres para procesos del sistema
- Maximiza el procesamiento paralelo de múltiples documentos pequeños
- Usar cuando se procesan muchos PDFs de menos de 100 páginas
- Asigna más poder computacional por documento
- Usar cuando se procesan libros escaneados o manuales técnicos
Configuración adicional
tableMode: Controla la estrategia de extracción de tablasaccurate: Máxima precisión, mayor tiempo de procesamiento (predeterminado)fast: Optimizado para velocidad con buena precisiónnone: Deshabilita la extracción de tablas
true)
forceFullPageOCR: Fuerza OCR de página completa en lugar de regiones selectivas. Usar cuando la extracción estándar omite contenido. Incrementa significativamente el tiempo de procesamiento (predeterminado: false)
Configuraciones de ejemplo
Los siguientes ejemplos consideran un sistema con 48 núcleos de CPU. AjustanumWorkers y numThreads según el número de CPUs de tu sistema y las características de tu carga de trabajo.
Carga de trabajo balanceada
Carga de trabajo balanceada
Caso de uso: Carga de trabajo constante con volumen moderado de archivos y tamaños promedioQué hace esto: Punto medio entre alto rendimiento y procesamiento pesado. Proporciona 2 workers para archivos pequeños y 2 para archivos grandes con 9 hilos cada uno, balanceando concurrencia y poder de procesamiento.
Muchos documentos pequeños (Alto rendimiento)
Muchos documentos pequeños (Alto rendimiento)
Caso de uso: Procesamiento de grandes volúmenes de documentos de menos de 100 páginas y menores a 1MBQué hace esto: Maximiza el procesamiento concurrente de archivos con 8 workers para archivos pequeños y 8 para archivos grandes. Reduce hilos por worker para incrementar el paralelismo. Usa extracción rápida de tablas para optimizar velocidad sobre precisión.
Documentos pesados (Archivos complejos o grandes)
Documentos pesados (Archivos complejos o grandes)
Caso de uso: Procesamiento de documentos menos numerosos pero más grandes o complejos con tablas detalladasQué hace esto: Asigna más poder computacional por documento con 8 hilos por worker. Usa solo 2 workers para archivos pequeños y 2 para archivos grandes para enfocar recursos en el procesamiento exhaustivo de contenido complejo.
Documentos escaneados (Intensivo en OCR)
Documentos escaneados (Intensivo en OCR)
Caso de uso: Procesamiento principalmente de documentos escaneados o imágenes que requieren extracción OCR completaQué hace esto: Reduce el número de workers para asignar más hilos por worker para procesamiento OCR intensivo. Habilita OCR de página completa para extraer texto de imágenes escaneadas. Usa menos workers (2 para pequeños, 2 para grandes) con 10 hilos cada uno para maximizar el poder de procesamiento por documento.