2. Rendre les données utilisables

Exploiter des données analogiques

Simon Gabay

L’HTR (​Handwritten Text Recognition​), aussi appelé OCR (​Optical character recognition​), devient un besoin de plus en plus urgent des équipes de l’UNIGE. L’enjeu est le suivant : extraire rapidement et efficacement un maximum d’informations d’une page numérisée, dont évidemment la transcription mais pas uniquement (illustrations, structure...), et reproduire cette opération sur des grandes quantités de pages.

suggestion de formation

Capsule vidéo

"FoNDUE, l'infrastructure HTR de l'UNIGE"
Tutoriel: les étapes clés à suivre pour la transcription automatique de documents sur l'infrastructure FoNDUE

Extraits de cours
  1. "L'image numérique"
  2. "Analyse de mise en page"
  3. "Plateforme OCR/HTR de l'UNIGE - FoNDUE"
  4. "Le vocabulaire contrôlé SegmOnto"
  5. "Transcrire avec l'HTR/OCR"
  6. "Intégration continue avec GItHub"
  7. "Entraîner un modèle avec HPC"

Séances tirées du cours "Numériser le patrimoine I: standards et bonnes pratiques"
Plus d'informations