Vision File Processing

Available from version 1.56

Feature in Alpha

This feature requires a model with vision capabilities. See AI Presets.

Enable vision-based file processing for documents and slides.

Mode	Description
`none`	Disables vision processing. Files are processed using text extraction only.
`lite`	Combines text and visual extraction to improve understanding of structure, images, charts, and diagrams. Designed to balance quality and efficiency.

Key	Default	Values	Description
`transformation.pptx.vision.mode`	`none`	`none \| lite`	Controls vision processing mode for PPTX files (`.pptx`).
`transformation.docling.vision.mode`	`none`	`none \| lite`	Controls vision processing mode for Docling-processed files (`.pdf`, `.docx`, `.xlsx`).

Enabling lite increases resource consumption and document processing time.

transformation:
    pptx:
      vision:
        mode: lite
    docling:
      vision:
        mode: lite