Language: French
11-04, 17:30–19:00 (Europe/Paris), D1
Apprendre à extraire des données depuis une masse de documents PDF avec des outils en ligne de commande. Pour l'exemple nous essaierons de créer une base de données des informations contenues dans les arrêtés préfectoraux « portant autorisation d'un système de vidéoprotection » de la préfecture de l'Hérault.
L’occasion d'apprendre quelques bases et quelques outils pour faire du web scraping, de la manipulation de pdfs, et des expressions régulières !
Une familiarité basique avec la ligne de commande linux est préférable pour assister à l'atelier.
(Ça sera le même atelier qu'aux universités d'hiver du bib mais cette fois j'aurai eu le temps de le préparer, et peut-être j'aurai pousser le projet un peu plus loin)
du bib