Une intervention sur la base de données est programmée jeudi 24 avril entre 11h00 et 12h00.
Elle peut occasionner des perturbations sur Sciencesconf. |
|
Conférences plénièresQuentin FeltgenUniversité de Gand Techniques de ré-échantillonnage pour l’analyse statistique des données de corpusDans cette contribution, je présenterai une approche de l’analyse statistique consistant à ré-échantillonner les données pour construire des distributions de probabilité associées à des observables d’intérêt. La valeur empirique observée de ces derniers peut alors être comparée à ces distributions pour en évaluer la significativité. Moins restrictives que les tests statistiques traditionnels, cette approche s’adapte facilement à la plupart des questions de recherche, sans qu’il soit nécessaire de vérifier les critères d’applicabilité habituels, comme par exemple l’hypothèse de normalité. D'un point de vue épistémologique surtout, ré-échantillonner les données permet d’explorer leur structure statistique, ce qui en fait non seulement un outil d’analyse, mais également une voie d’accès aux propriétés caractéristiques de l’organisation du langage. Je présenterai d’abord le principal général sous-jacent aux techniques de ré-échantillonnage, en soulignant une précaution majeure à prendre en compte lors de leur application aux données linguistiques. Je détaillerai ensuite trois applications de ces techniques : à l’étude de la productivité des schémas linguistiques (morphologiques et syntaxiques) d’abord, à la comparaison entre les dynamiques individuelles des différents types d’une construction ensuite, à la détection automatique du changement sémantique dans les constructions semi-schématiques enfin.
Francesca FrontiniInstitut de linguistique computationnelle Antonio Zampolli, CNR Pisa Vers des corpus spécialisés FAIR : retour d’expérience sur un corpus bilingue dans le domaine des eaux uséesDans cette présentation, nous explorerons les défis liés à la constitution, l’annotation et la mise à disposition d’un corpus multilingue dédié au domaine des eaux usées et des réseaux d’assainissement. Nous aborderons notamment les étapes de création, d’alignement et d’annotation de ce corpus, avec un accent particulier sur les méthodes de reconnaissance d’entités nommées et d’extraction d’information. Un des objectifs majeurs de ce travail est d’assurer une conformité avec les principes FAIR (Findable, Accessible, Interoperable, Reusable), avec l'intégration du corpus dans l’infrastructure CLARIN.
Biagio UrsiUniversité d'Orléans Linguistique et corpus d’interactions : interrogations, exploitations et comparaisonsDans cette communication, je présenterai mes trajectoires de recherche actuelles dans le domaine de la linguistique de corpus d’interactions en m’appuyant sur trois axes. Premièrement, l’interrogation de corpus oraux, à partir de bases de données accessibles en ligne, pour une étude séquentielle et multimodale des échanges à l’oral. Deuxièmement, les exploitations des études de corpus que le chercheur peut envisager en s’inscrivant dans une perspective appliquée (pour des finalités didactiques, notamment). Enfin, les comparaisons de l’emploi de certaines structures linguistiques qui peuvent être proposées à partir de différents corpus de langues parlées en interaction. Pour ce dernier volet, je proposerai des contributions à l’étude comparative de marqueurs discursifs dans deux langues romanes, le français et l’italien.
Geoffrey WilliamsUniversité Grenoble Alpes La linguistique de corpus : des origines exploratoires à un futur nécessaireLes prétendus « Large Language Models » sont devenus les coqueluches du moment, et ont pris la suite des Web as Corpus dans l’ingénierie informatique des langues. Ils ont certes, une utilité pour le monde de l’informatique, mais sont-ils un apport pour la linguistique de corpus ? |
Personnes connectées : 3 | Vie privée | Accessibilité |
![]() ![]() |