Description
Dans ce projet, nous avons travaillé avec une organisation européenne de premier plan pour révolutionner leur processus d’analyse de documents. Notre mission était de développer une solution pour extraire de manière efficace des caractères dans les différentes sections d’un document, à savoir des textes, des tableaux et des schémas, aux polices, tailles et orientations différentes. L’objectif étant d’analyser et de permettre la recherche textuelle de documents variés.
Business goals
- Classifier avec précision les différentes sections des documents : titre, header, footer, texte, et schémas
- Extraire efficacement le texte, y compris celui en rotation ou mal aligné, pour une meilleure analyse et accessibilité
DATA
- Des millions de documents contenant des textes dans diverses orientations et formats
- Schémas et illustrations intégrés dans les documents
ENVIRONNEMENT TECHNIQUE
- Vertex AI : Utilisé pour le pipeline de training.
- Google Cloud Storage : Employé pour le stockage des données.
- Kubernetes On-Premise : Pour l’orchestration des conteneurs des applications d’inférence.
- Knative : Implémenté pour une gestion serverless, facilitant le déploiement et l’évolutivité des applications.
- Triton Inference Server : Utilisé pour l’optimisation des performances des applications d’inférence.
Algorithm & models
- Algorithmes de classification de texte pour distinguer les différentes sections des documents
- Reconnaissance Optique de Caractères (OCR) avancées pour traiter le texte dans différentes orientations