FR EN

Conférences plénières

Quentin Feltgen

Université catholique de Louvain

Techniques de ré-échantillonnage pour l’analyse statistique des données de corpus

Dans cette contribution, je présenterai une approche de l’analyse statistique consistant à ré-échantillonner les données pour construire des distributions de probabilité associées à des observables d’intérêt. La valeur empirique observée de ces derniers peut alors être comparée à ces distributions pour en évaluer la significativité. Moins restrictives que les tests statistiques traditionnels, cette approche s’adapte facilement à la plupart des questions de recherche, sans qu’il soit nécessaire de vérifier les critères d’applicabilité habituels, comme par exemple l’hypothèse de normalité. D'un point de vue épistémologique surtout, ré-échantillonner les données permet d’explorer leur structure statistique, ce qui en fait non seulement un outil d’analyse, mais également une voie d’accès aux propriétés caractéristiques de l’organisation du langage.

Je présenterai d’abord le principal général sous-jacent aux techniques de ré-échantillonnage, en soulignant une précaution majeure à prendre en compte lors de leur application aux données linguistiques. Je détaillerai ensuite trois applications de ces techniques : à l’étude de la productivité des schémas linguistiques (morphologiques et syntaxiques) d’abord, à la comparaison entre les dynamiques individuelles des différents types d’une construction ensuite, à la détection automatique du changement sémantique dans les constructions semi-schématiques enfin.

Francesca Frontini

Institut de linguistique computationnelle Antonio Zampolli, CNR Pisa

Vers des corpus spécialisés FAIR : retour d’expérience sur un corpus bilingue dans le domaine des eaux usées

Dans cette présentation, nous explorerons les défis liés à la constitution, l’annotation et la mise à disposition d’un corpus multilingue dédié au domaine des eaux usées et des réseaux d’assainissement. Nous aborderons notamment les étapes de création, d’alignement et d’annotation de ce corpus, avec un accent particulier sur les méthodes de reconnaissance d’entités nommées et d’extraction d’information. Un des objectifs majeurs de ce travail est d’assurer une conformité avec les principes FAIR (Findable, Accessible, Interoperable, Reusable), avec l'intégration du corpus dans l’infrastructure CLARIN.

Biagio Ursi

Université d'Orléans

Linguistique et corpus d’interactions : interrogations, exploitations et comparaisons

Dans cette communication, je présenterai mes trajectoires de recherche actuelles dans le domaine de la linguistique de corpus d’interactions en m’appuyant sur trois axes. Premièrement, l’interrogation de corpus oraux, à partir de bases de données accessibles en ligne, pour une étude séquentielle et multimodale des échanges à l’oral. Deuxièmement, les exploitations des études de corpus que le chercheur peut envisager en s’inscrivant dans une perspective appliquée (pour des finalités didactiques, notamment). Enfin, les comparaisons de l’emploi de certaines structures linguistiques qui peuvent être proposées à partir de différents corpus de langues parlées en interaction. Pour ce dernier volet, je proposerai des contributions à l’étude comparative de marqueurs discursifs dans deux langues romanes, le français et l’italien.

Geoffrey Williams

Université Grenoble Alpes

La linguistique de corpus : des origines exploratoires à un futur nécessaire

Les prétendus « Large Language Models » sont devenus les coqueluches du moment, et ont pris la suite des Web as Corpus dans l’ingénierie informatique des langues. Ils ont certes, une utilité pour le monde de l’informatique, mais sont-ils un apport pour la linguistique de corpus ?
Pour répondre à cette question, il importe de revenir à la définition du concept de corpus, socle de la linguistique de corpus, mais également de reflechir aux règles de base de toute expérimentation scientifique.
Pour illustrer l’importance des critères de représentativité et d’équilibre dans la construction des corpus, j’utiliserai des exemples issus de corpus en langues de spécialité et des éléments clés qui sous-tendent toute création et exploitation de corpus : les contextes de culture et de situation.

Vie privée | Accessibilité