lafrite/pdf_auralia

Go to file

Bertrand Benjamin 092b925b68 doc: add utilisation in readme

2025-02-26 09:08:17 +01:00

Feat: script command all works recursively

2025-02-26 09:02:33 +01:00

Feat: init repository

2022-09-27 14:48:41 +02:00

.drone.yml

fix: remove when

2023-09-20 09:37:50 +02:00

.gitignore

Feat: add output to gitignore

2022-09-27 16:00:46 +02:00

.pre-commit-config.yaml

Feat(core): update pre-commit

2023-05-07 07:11:44 +02:00

Extract pdf.ipynb

Feat: use fsm to extract lines from pdf

2025-02-26 05:54:44 +01:00

poetry.lock

core: change pandas version

2024-10-16 06:47:55 +02:00

pyproject.toml

core: change pandas version

2024-10-16 06:47:55 +02:00

README.md

doc: add utilisation in readme

2025-02-26 09:08:17 +01:00

renovate.json

clean renovate.json

2024-01-10 10:46:45 +00:00

requirements.txt

Feat: use fsm to extract lines from pdf

2025-02-26 05:54:44 +01:00

README.md

PDF AURALIA

Extraction de fichiers de comptabilité en pdf vers xlsx.

Utilisation

Lancement sur un fichier pdf particulier

pdf_oralia extract on <pdf_file> --dest <where to put producted files>

Lancement sur tous les fichiers d'un repertoire (récursivement )
```
pdf_oralia extract all --src <source folder> --dest <destination folder>
```
Cette commande reproduira la structure du dossier source dans destination. Seul les fichiers non existants seront traités. Par default, les fichiers déjà produits ne seront pas écrasés. On peut ajouter les options suivantes:
- --force: pour écraser les fichiers déjà traités
- --only-plan: pour voir quels fichiers pourraient être créé sans le faire.