BRÈVE

sur LIGHTON

LightOn étend son modèle OCR à l'arabe grâce à une formation ciblée

LightOn a étendu avec succès son modèle de compréhension de documents, LightOnOCR-2, à la langue arabe. Cette adaptation a été réalisée grâce à un paramétrage précis, à l'aide d'un pipeline de génération de données synthétiques. L'ensemble de données comprenait 12 000 pages synthétiques avec des transcriptions de référence, démontrant ainsi la capacité du modèle à gérer la complexité de l'écriture arabe.

La reconnaissance optique de caractères (OCR) de l'arabe est complexe en raison de son écriture de droite à gauche, de ses caractères cursifs et de sa sous-représentation dans les bases de données par rapport aux langues latines. Ce développement vise à simplifier le traitement des documents pour les organisations du Moyen-Orient, en proposant une solution open source de niveau professionnel sous licence Apache 2.0.

Des guides pour le processus de paramétrage précis sont disponibles sur l'espace Hugging Face de LightOn, améliorant ainsi l'accessibilité pour les utilisateurs et élargissant les applications potentielles du modèle. LightOnOCR-2 demeure un élément central de l'offre libre-service de LightOn, LightOn Console, garantissant une base technologique cohérente.

R. H.

Copyright © 2026 FinanzWire, tous droits de reproduction et de représentation réservés.
Clause de non responsabilité : bien que puisées aux meilleures sources, les informations et analyses diffusées par FinanzWire sont fournies à titre indicatif et ne constituent en aucune manière une incitation à prendre position sur les marchés financiers.

Cliquez ici pour consulter le communiqué de presse ayant servi de base à la rédaction de cette brève

Voir toutes les actualités de LIGHTON