Le projet ORFEO

Au cours des vingt dernières années, la linguistique de corpus s'est développée grâce à la constitution de corpus dits de référence et a bouleversé le domaine des sciences du langage et du traitement automatique des langues. Ce développement recouvre des enjeux importants. En linguistique théorique, le cadre qui sous-tend les études sur corpus est celui de la grammaire « basée sur l'usage » (Bybee 2006) qui oppose à la conception d'une grammaire unique pour une langue celle de « grammaires multiples » rendant compte des usages écrits et oraux relevant de situations de production variées. En traitement automatique, l'idée s'impose aussi que les outils de TAL, à l'instar des locuteurs, doivent s'adapter en termes de lexique et de grammaire à la diversité des usages. Dans ce panorama, la France occupe une place particulière. Elle s'est dotée récemment d'une infrastructure numérique, le TGE Adonis dont l'objectif est de mutualiser ressources, standards technologies et préservation des données dans les Sciences Humaines en collaboration avec le réseau des centres de gestion de ressources et de technologies linguistiques CLARIN, mais ne possède aucun corpus de référence répondant aux standard internationaux. Il n'est pas réaliste, pour des raisons politiques et financières, d'envisager de le construire dans le cadre d'une ANR. Le projet ORFEO offre une solution alternative : la constitution d'un Corpus d'Etude pour le Français Contemporain (CEFC).

ORFEO a pour objectif de rassembler des données secondaires à partir de corpus existant ou crées pour le projet. Ces données secondaires sont de nature diverse :

    • Mеta-données

    • Transcriptions harmonisées

    • Alignement texte et son

    • Annotations

      • Morphologiques (P.O.S)

      • Syntaxiques

      • Segmentations en unité « élémentaires » de texte (macro-syntaxe)

      • Sémantiques

      • Conversationnelles

      • Prosodiques

Corpus et données seront accessibles au travers d’une plate-forme d’interrogation permettant une sélection par les mеta-données aux ressources proposées et des recherches à l’aide de requêtes simples (chaine de caractères ou expressions régulières) ou complexes (requêtes sur les différents niveaux d’annotation).

La plate- forme mettra également à disposition des outils d’exploitation libres de droit. Grâce à la mutualisation des résultats de recherches antérieures (ANR Rhapsodie, Annodis, Decoda), l’ensemble (ressources et outils) consultable en open source permettra à des chercheurs en linguistique mais aussi aux personnes intéressées par des données sur le français contemporain (enseignants, étudiants) de constituer un corpus d’étude conforme aux standards internationaux en la matière (3M de mots à l’oral et 15 M de mots d’écrits).

Les utilisateurs seront guidés dans la sélection et l’utilisation des outils par l’accès à des analyses pilotes relevant de différents domaines de la linguistique : morpho-syntaxe, sémantique, analyse du discours et des interactions.

Le stockage, maintenance, curation et archivage pérenne des ressources et des outils sera assuré au travers du service versant Ortolang (www.ortolang.fr) grâce à la solution mise en place par la TGIR Huma-Num (fusion d’ADONIS et de CORPUS) en lien avec le CINES.