FR EN

Ateliers

Des ateliers de formation sont proposés le mardi 21 octobre matin de 9h30 à 12h30 avant le début du colloque.

Ils sont gratuits et ouverts à tous les participants mais l'inscription est obligatoire par mail à l'adresse carole.etienne@ens-lyon.fr, en précisant l'atelier choisi, nous vous remercions de ne vous inscrire que si vous êtes sur.es de venir, le nombre de places étant limité.

Nous remercions chaleureusement les collègues qui organisent ces ateliers.

NB : les ateliers se dérouleront en langue française.

AVAA Toolkit (9h30-12h30) : une boîte à outils pour accompagner l’analyse des interactions à partir de corpus multimodaux
Collecte et traitement vidéo (11h à 12h30)
- Collecte : materiel audiovisuel, points de vue, quels paramètres utiliser, stockage et rgpd
- Traitement : import, stockage, montage, synchronisation, anonymisation, transcription automatique
CORLI Gum (11h à 12h30) : Une plateforme d'annotations utilisable en classe
TXM débutant corpus écrits (9h30-12h30)
TXM débutant corpus oraux (9h30-12h30)

==============================================================================

AVAA Toolkit : une boîte à outils pour accompagner l’analyse des interactions à partir de corpus multimodaux

Introduction
Le logiciel AVAA Toolkit (Audio and Video Annotations Analysis Toolkit) offre de nombreuses fonctionnalités pour l’analyse des interactions. Il peut être mobilisé à différentes étapes du processus de recherche à partir de corpus de données audiovisuelles annotées : traitement, fouille, visualisation de données, mais aussi processus d’annotation lui-même avec une procédure d’intercodage permettant la construction collaborative des items de codage.

Animatrice
Clotilde George, Université de Lorraine, chercheuse en sciences du langage, membre associée à l’ATILF

Sujet & Objectif
Prise en main du logiciel AVAA Toolkit, adapté à l’analyse de corpus audiovisuels annotés (notamment avec ELAN). Réalisation de collections de données primaires et secondaires combinées/

Ressources & Prérequis
Logiciel : www.avaa-toolkit.org
Présentation rapide : https://avaa-toolkit.org/features/
Documentation : https://avaa-toolkit.org/documentation

Les participant·es doivent disposer d’un corpus d’annotations alignées avec le signal (formats eaf, azp, cha, textgrid…).

Modalités
Durée : 3h, 9h30 - 12h30
Nombre de participant·es : 10 maximum

Pré-installation du logiciel : oui (www.avaa-toolkit.org). Veuillez contacter dev@avaa-toolkit.org en cas de difficulté d’installation.

===========================================================================================

Collecte de données audiovisuelles

Introduction

La production et le traitement des corpus implique des réflexions méthodologiques, des connaissances techniques et des enjeux juridiques et éthiques. Nous verrons ensemble les différents matériels d’enregistrement vidéo mais aussi audio. Quels matériels peut-on utiliser selon son terrain et ses questions de recherche ? En plus des traditionnels camescopes et micros-cravates, nous verrons des matériels tels que camera 360°, caméra subjective ou encore camera action.

Nous aborderons la question des formats, du montage et de l’export des matériaux audiovisuels. Nous réaliserons toute la chaine de traitement depuis l’import jusqu’à l’export de fichiers synchronisés. Puis, nous réaliserons les transcriptions automatiques des fichiers audiovisuels selon plusieurs méthodes.

Animation
Justine Lascar, ingénieure de recherche CNRS au laboratoire ICAR, responsable de la cellule Corpus Ingénierie Audiovisuelle (CIA)
Léa Mouton, assistante ingénieure CNRS au laboratoire ICAR, membre de la cellule Corpus Ingénierie Audiovisuelle (CIA)

Ressources & Prérequis
Pas d'installation logicielle nécessaire
Page de la CIA https://icar.cnrs.fr/recherche/services/

Modalités
Durée : 1h30, 11h - 12h30
Nombre de participant·es : 10 maximum

=============================================================================================

CORLI GUM

Introduction
Le projet CORLI-GUM vise à la fois la formation à l'annotation linguistique outillée et la constitution collaborative d’une ressource multi-annotée pour le français. Largement inspirée de la ressource GUM constituée à l'Université de Georgetown (https://corpling.uis.georgetown.edu/gum/), ce projet propose un cadre complet offrant aux enseignant.e.s intervenant dans des formations universitaires en TAL et linguistique outillée l'occasion d'impliquer leurs étudiant.e.s dans une annotation linguistique de textes non standards. Plusieurs couches d'annotation sont proposées s'appuyant sur des guides d'annotation validés par la communauté : annotation des tokens et des dépendances syntaxiques selon le modèles des Universal Dependencies, annotation des entités nommées selon le modèle Quaero, annotation de la coréférence selon le modèle Democrat et annotation des marqueurs discursifs selon le modèle de Crible & Degand. Au delà de la constitution d'une ressource multi-annotée, le projet invite les étudiant.e.s à appliquer leurs connaissances en linguistique sur des données naturelles parfois déroutantes (SMS, discussion orales ou en ligne, textes techniques) et à discuter entre eux, lors de l'adjudication, des définitions de chacune.

Animation
Lydia-Mai Ho-Dac (CORLI & Université Toulouse Jean Jaurès/CLLE)

Sujet & Objectif
Présentation du projet et du fonctionnement du point de vue pédagogique.
Découverte et expérimentation des couches d'annotation : guides d'annotation et procédure d'annotation avec INCEpTION.

Ressources & Prérequis
Un navigateur web connecté
Des connaissances en analyse linguistique

Modalités
Durée : 1h30, 11h00-12h30
Nombre de participant·es : 20 maximum

===============================================================================================

TXM débutant (corpus écrits)

Introduction

TXM est un logiciel permettant d'effectuer des recherches dans des corpus, et d'en extraire des concordances et des statistiques.
La formation est destinée à des débutants, et sera composée de deux volets.

1. Importer un corpus
On verra comment organiser et importer vos corpus. Des corpus de démo seront fournis, mais vous pouvez aussi venir avec votre propre corpus (texte brut, XML − mais *pas* PDF), et on verra ce qu'on peut faire... Si vous venez avec votre propre corpus, il faudra me l'envoyer quelques jours avant la formation.

2. Recherche dans un corpus
On verra comment explorer le corpus, et faire des recherches dedans en utilisant le langage de requête CQL (aussi utilisé par d'autres logiciels).

Animation
Achille Falaise, Laboratoire de Linguistique Formelle (LLF - UMR7110)

Prérequis
Vous devez avoir un ordinateur avec TXM installé dessus. Vous pouvez télécharger TXM ici: https://txm.gitpages.huma-num.fr/textometrie/files/software/TXM/0.8.4/ . Il n'est pas nécessaire d'avoir la dernière version. Assurez-vous toutefois que TXM démarre bien ! Je ne pourrai pas faire de support technique pendant la formation.
On utilisera aussi un éditeur de texte brut (https://www.sublimetext.com/ est recommandé) et un tableur (https://fr.libreoffice.org/download/telecharger-libreoffice/ est recommandé − attention, Excel est aussi un tableur, mais pose souvent plein de problèmes pour l'usage qu'on en aura).

Modalités
Durée: 3h, max 15 personnes

===============================================================================================

TXM débutant (corpus oraux)

TXM est un logiciel permettant d'effectuer des recherches dans des corpus, et d'en extraire des concordances et des statistiques. Cette formation se focalise sur l'analyse de corpus oraux (corpus textuels composés, généralement, de transcriptions orthographiques issues de l'oral).

La formation est destinée à des débutants, et sera composée de trois volets.

1. Préparer un corpus
Nous verrons comment préparer un corpus de transcriptions orthographiques dans le but de le structurer dans un format utilisable avec TXM. Nous procéderons notamment à des conversions de format (à partir, par exemple, de fichiers ELAN, CLAN ou Texte) ainsi qu'à un nettoyage des transcriptions (suppression, par exemple, d'annotations non exploitables par TXM).

2. Importer un corpus
Nous verrons comment organiser et importer vos corpus. Des corpus de démo seront fournis, mais vous pouvez aussi venir avec votre propre corpus. Si vous venez avec votre propre corpus, il faudra me le fournir quelques jours avant la formation.

2. Recherche dans un corpus
On verra comment explorer le corpus et faire des recherches en utilisant le langage de requête CQL (aussi utilisé par d'autres logiciels).

Animation
Loïc Liegeois, Laboratoire de Recherche sur le Langage (LRL)

Modalités
Durée: 3h, max 20 personnes

Prérequis
Vous devez avoir un ordinateur avec TXM installé dessus. Vous pouvez télécharger TXM ici: https://txm.gitpages.huma-num.fr/textometrie/files/software/TXM/0.8.4/ . Il n'est pas nécessaire d'avoir la dernière version. Assurez-vous toutefois que TXM démarre bien ! Je ne pourrai pas faire de support technique pendant la formation.
On utilisera aussi un éditeur de texte brut (https://www.sublimetext.com/ est recommandé) et un tableur (https://fr.libreoffice.org/download/telecharger-libreoffice/ est recommandé − attention, Excel est aussi un tableur, mais pose souvent plein de problèmes pour l'usage qu'on en aura).

==============================================================================================

Vie privée | Accessibilité