Go to file
2025-02-26 09:08:17 +01:00
pdf_oralia Feat: script command all works recursively 2025-02-26 09:02:33 +01:00
tests Feat: init repository 2022-09-27 14:48:41 +02:00
.drone.yml fix: remove when 2023-09-20 09:37:50 +02:00
.gitignore Feat: add output to gitignore 2022-09-27 16:00:46 +02:00
.pre-commit-config.yaml Feat(core): update pre-commit 2023-05-07 07:11:44 +02:00
Extract pdf.ipynb Feat: use fsm to extract lines from pdf 2025-02-26 05:54:44 +01:00
poetry.lock core: change pandas version 2024-10-16 06:47:55 +02:00
pyproject.toml core: change pandas version 2024-10-16 06:47:55 +02:00
README.md doc: add utilisation in readme 2025-02-26 09:08:17 +01:00
renovate.json clean renovate.json 2024-01-10 10:46:45 +00:00
requirements.txt Feat: use fsm to extract lines from pdf 2025-02-26 05:54:44 +01:00

PDF AURALIA

Extraction de fichiers de comptabilité en pdf vers xlsx.

Utilisation

  • Lancement sur un fichier pdf particulier

    pdf_oralia extract on <pdf_file> --dest <where to put producted files>
    
  • Lancement sur tous les fichiers d'un repertoire (récursivement )

    pdf_oralia extract all --src <source folder> --dest <destination folder>
    

    Cette commande reproduira la structure du dossier source dans destination. Seul les fichiers non existants seront traités. Par default, les fichiers déjà produits ne seront pas écrasés. On peut ajouter les options suivantes:

    • --force: pour écraser les fichiers déjà traités
    • --only-plan: pour voir quels fichiers pourraient être créé sans le faire.