Bölümler
-
Collège de France
Benoît Sagot
Informatique et sciences numériques (2023-2024)
Année 2023-2024
Séminaire : L'IA axée sur les objectifs : vers des machines capables d'apprendre, de raisonner et de planifier
Intervenant : Yann LeCun, Professeur invité, Collège de France, Chief AI Scientist, Meta, Professor, NYU
Résumé
Comment les machines pourraient-elles apprendre aussi efficacement que les humains et les animaux ? Comment les machines pourraient-elles apprendre le fonctionnement du monde et acquérir le sens commun ? Comment les machines pourraient-elles apprendre à raisonner et à planifier ?
Les architectures d'IA actuelles, telles que les modèles de langage auto-régressifs à grande échelle, sont insuffisantes. Je proposerai une architecture cognitive modulaire qui pourrait constituer un chemin vers la réponse à ces questions. La pièce maîtresse de l'architecture est un modèle prédictif du monde qui permet au système de prédire les conséquences de ses actions et de planifier une séquence d'actions qui optimisent un ensemble d'objectifs. Les objectifs incluent des garde-fous qui garantissent la contrôlabilité et la sécurité du système. Le modèle du monde utilise une architecture hiérarchique jointe de prédiction d'embeddings (H-JEPA, pour Hierarchical Joint Embedding Predictive Architecture) entraîné par apprentissage auto-supervisé. L'architecture JEPA apprend des représentations abstraites des perceptions qui sont simultanément maximales en termes d'information et de prédictibilité.
Yann LeCun
Yann LeCun is VP & Chief AI Scientist at Meta and Silver Professor at NYU affiliated with the Courant Institute of Mathematical Sciences & the Center for Data Science. He was the founding Director of FAIR and of the NYU Center for Data Science. He received an Engineering Diploma from ESIEE (Paris) and a PhD from Sorbonne Université. After a postdoc in Toronto he joined AT&T Bell Labs in 1988, and AT&T Labs in 1996 as Head of Image Processing Research. He joined NYU as a professor in 2003 and Meta/Facebook in 2013. His interests include AI, machine learning, computer perception, robotics, and computational neuroscience. He is the recipient of the 2018 ACM Turing Award (with Geoffrey Hinton and Yoshua Bengio) for "conceptual and engineering breakthroughs that have made deep neural networks a critical component of computing", a member of the National Academy of Sciences, the National Academy of Engineering, the French Académie des Sciences.
-
Collège de France
Benoît Sagot
Informatique et sciences numériques (2023-2024)
Année 2023-2024
08 - Apprendre les langues aux machines : Multimodalités : TAL et images, TAL et parole
Résumé
Multimodalité : TAL et images, TAL et parole. Améliorer la traduction automatique grâce au contexte, notamment aux images. Le TAL sans l'écrit : réconcilier TAL et traitement de la parole, avec l'exemple de la traduction automatique de la parole.
-
Eksik bölüm mü var?
-
Collège de France
Benoît Sagot
Informatique et sciences numériques (2023-2024)
Année 2023-2024
Séminaire : Prédire c'est comprendre : un modèle neuro-cognitif du langage fondé sur la prédiction
Intervenant : Philippe Blache, directeur de recherche CNRS
Résumé
La compréhension mutuelle pendant une conversation est un processus extrêmement rapide et efficace : nous pouvons traiter trois mots par seconde, souvent plus. Cette observation n'est cependant pas conforme aux expériences de laboratoire montrant que le traitement d'un seul mot peut prendre jusqu'à une seconde. La rapidité du traitement s'explique par notre capacité à prédire ce que va dire l'interlocuteur, d'une certaine façon à la manière des modèles de langage. Aujourd'hui, il n'existe pas de modèle global permettant d'intégrer à une architecture classique du traitement du langage (de la phonétique à la sémantique en passant par la syntaxe) ce phénomène de facilitation reposant sur la prédiction. Je présenterai les bases d'un tel modèle permettant d'expliquer comment cohabitent des processus superficiels (effets de facilitation) et profonds (en cas de difficulté). Cette architecture repose sur un mécanisme central, la prédiction, que je décrirai en l'abordant à la fois du point de vue computationnel et neurolinguistique. Cette approche repose sur les résultats obtenus dans le cadre de théories récentes en sciences cognitives (« prediction-by-production ») et en neurosciences (« predictive coding ») conduisant à penser que les participants à une conversation utilisent le même mécanisme pour produire et comprendre la parole.
Philippe Blache
Philippe Blache is Senior Researcher at the CNRS. His works focus on the cognitive and cerebral basis of language processing taken in its natural context. He develops in this perspective an interdisciplinary approach bringing together computational modeling, formal linguistics and neuroscience. Philippe Blache created and has been the director of two research institutes (ILCB and BLRI). He was previously the head of 2 CNRS labs in France (LPL, 2LC). He is author of more than 200 publications and has been PI of many research projects at the national and international level. He has been actively involved in research management and chaired around 20 international conferences.
-
Collège de France
Benoît Sagot
Informatique et sciences numériques (2023-2024)
Année 2023-2024
07 - Apprendre les langues aux machines : Converser avec la machine
Résumé
Agents conversationnels, chatbots et « large language models » conversationnels : d'Eliza à ChatGPT et ChatLLAMA. Comment les très grands modèles conversationnels ont-ils été entraînés ? Quelles limites, quels enjeux éthiques, quelles utilisations, quel avenir ?
-
Collège de France
Benoît Sagot
Informatique et sciences numériques (2023-2024)
Année 2023-2024
Séminaire : Analyse automatique de l'argumentation dans les débats politiques
Intervenant : Elena Cabrio, professeur des Universités, université Côte-d'Azur, Inria, CNRS, I3S, France
Résumé
Les débats politiques offrent aux citoyens une occasion unique d'apprécier la position des représentants politiques sur les sujets les plus controversés de l'actualité. Au regard des prises actives de paroles des différents acteurs de la vie politique, ces débats constituent une source d'information qu'il se doit d'être capitalisée afin de mieux appréhender les dynamiques sociétales. Compte tenu de leur qualité argumentative innée, ces échanges constituent un scénario d'application adéquat pour la mise en œuvre de méthodes computationnelles d'extraction d'arguments. La fouille d'arguments est un axe de recherche étudié dans le domaine du traitement du langage naturel et dont l'objectif consiste en l'extraction et l'identification automatique des structures argumentatives d'un texte en langage naturel à l'aide de programmes informatiques. L'analyse des structures argumentaires est une tâche complexe s'attachant à l'étude des composants et des schémas d'argumentation, aux relations entre les arguments ou encore aux stratégies de contre-argumentation. Au cours de cet exposé, je détaillerai les étapes nécessaires quant à l'automatisation de l'analyse du discours politique par le biais de méthodes de fouille d'arguments. En premier lieu, il s'agira de présenter les approches dédiées à l'identification des structures argumentatives et leurs relations. Ensuite, je décrirai les stratégies déployées dans le cadre de l'identification automatique des arguments fallacieux, notamment à travers l'analyse des différentes formes d'argumentation et la détection des manœuvres stratégiques dans le discours argumentatif.
Elena Cabrio
Elena Cabrio est professeur à l'université Côte-d'Azur et membre de l'équipe de recherche Wimmics de l'Inria-I3S. En 2021, elle a obtenu une chaire en Intelligence artificielle à l'Institut interdisciplinaire d'intelligence artificielle 3IA Côte d'Azur sur le thème « IA et langage naturel ». Ses domaines de recherche principaux sont le traitement automatique du langage, en particulier la fouille d'arguments, l'extraction d'informations et la détection de discours haineux. L'objectif de ses recherches est de concevoir des technologies de débat pour des systèmes avancés d'aide à la décision, afin de soutenir l'échange d'informations et d'opinions dans différents domaines (comme la santé et la politique), en tirant parti de l'interdisciplinarité et des avancées en matière d'apprentissage automatique pour le traitement du langage naturel. Elle a publié plus de cent articles scientifiques, notamment dans des revues et des conférences internationales sur l'intelligence artificielle et le traitement du langage naturel. Elle coordonne actuellement le projet ANTIDOTE (ArgumeNtaTIon-Driven explainable artificial intelligence fOr digiTal mEdicine) (CHIST-ERA XAI 2019).
-
Collège de France
Benoît Sagot
Informatique et sciences numériques (2023-2024)
Année 2023-2024
06 - Apprendre les langues aux machines : Linguistique computationnelle
Résumé
Le TAL au service de la linguistique, avec un bref détour par les applications du TAL au service des humanités et sciences sociales. La linguistique comme domaine d'application du TAL, en trois exemples : morphologie computationnelle et complexité morphologique ; approches informatiques de la linguistique historique et de la phylogénétique linguistique ; scriptométrie quantitative pour l'étude de la naissance de l'orthographe en français.
-
Collège de France
Benoît Sagot
Informatique et sciences numériques (2023-2024)
Année 2023-2024
Séminaire : Génération de texte à partir de connaissances
Intervenant :
Claire Gardent, directrice de recherche CNRS
Résumé
La génération de texte peut cibler différents types de langues et prendre en entrée différents types de connaissances. Dans cette présentation, je montrerai comment adapter les modèles de langue neuronaux pour générer du texte à partir de graphes de représentation sémantique, de graphes de connaissances et de documents multiples. Les architectures neuronales présentées permettront également d'illustrer comment générer à partir d'une même source des textes, soit dans vingt et une langues de l'Union européenne, soit dans des langues dites peu dotées comme le breton, le gallois et l'irlandais. Enfin les travaux sur la génération de biographies Wikipédia à partir de documents multiples permettront de mettre en lumière l'impact de biais de données sur la qualité des textes générés. Les travaux présentés ont été réalisés dans le cadre de la chaire IA xNLG (Génération de textes multilingues et multisources) cofinancée par l'ANR, Meta et la région Grand-Est.
Claire Gardent est directrice de recherche au Centre national de la recherche scientifique (CNRS) au LORIA, à Nancy. Ses recherches portent sur le traitement automatique des langues avec une attention particulière à la génération multilingue et multisource. Elle a été nommée présidente du chapitre européen de l'Association of Computational Linguistics (EACL), rédactrice en chef des revues Traitement Automatique des Langues et Language and Linguistic Compass (Computational and Mathematical Section). En 2022, elle a reçu la médaille d'argent du CNRS et a été sélectionnée par l'Association of Computational Linguistics (ACL) comme ACL Fellow. Elle porte actuellement la chaire IA xNLG (Génération de textes multilingues et multisources) cofinancée par l'ANR, Meta et la région Grand-Est.
-
Collège de France
Benoît Sagot
Informatique et sciences numériques (2023-2024)
Année 2023-2024
05 - Apprendre les langues aux machines : Approches neuronales pour quelques tâches applicatives
Résumé
Quelques autres tâches aval : reconnaissance d'entités nommées ; analyse syntaxique ; la classification de phrases : approches classiques, embeddings de phrases ; la simplification de textes.
-
Collège de France
Benoît Sagot
Informatique et sciences numériques (2023-2024)
Année 2023-2024
Séminaire : Traduction neuronale massivement multilingue
Intervenant :
François Yvon, directeur de recherche CNRS
Résumé
Le développement d'architectures exploitant les méthodes d'apprentissage neuronal « profond » en traduction automatique a conduit à une augmentation considérable de l'acceptabilité et de l'utilisabilité des traductions calculées par la machine. Ces nouvelles architectures ont également permis de mettre en œuvre des dispositifs de traduction automatique dépassant le cadre habituel de la traduction d'un texte en langue source vers un texte en langue cible : traduction directe de parole, traduction conjointe de texte et d'image, etc. Dans cet exposé, je présenterai un de ces dispositifs, destiné à traduire depuis de multiples langues sources vers de multiples langues sources, en soulignant sur les bénéfices computationnels et linguistiques qu'apportent ces systèmes de traduction multilingues, en particulier pour traduire depuis et vers des langues minoritaires.
François Yvon est directeur de recherche au CNRS et exerce ses fonctions dans l'équipe MLIA de l'Institut des Systèmes Intelligents et de Robotique (ISIR/CNRS et Sorbonne Université depuis juillet 2023. Titulaire d'un doctorat en informatique de l'ENST (1996), il y est recruté comme maître de conférences au sein du département Informatique et réseaux, puis est nommé professeur d'informatique à l'université Paris-Sud en 2007. Il intègre à cette occasion le LIMSI-CNRS à Orsay et y développe les activités de traduction automatique au sein de l'équipe « Traitement du Language Parlé ». Il rejoint le CNRS durant son mandat de directeur du LIMSI (2013-2019). Ses activités de recherche couvrent un large spectre de thématiques en traitement automatique des langues, depuis la morphologie computationnelle jusqu'à la fouille de textes et les méthodes d'apprentissage structuré. Durant ces dernières années, l'accent a été mis sur les traitements multilingues : traduction automatique et alignements, apprentissage par transfert interlingue, étude des grands modèles de langue massivement multilingues.
-
Collège de France
Benoît Sagot
Informatique et sciences numériques (2023-2024)
Année 2023-2024
04 - Apprendre les langues aux machines : Traduction automatique
Résumé
Histoire de la discipline, approches récentes. Enjeux actuels : couvrir les langues moins dotées ; prendre en compte le contexte ; être robuste à la variation linguistique.
-
Collège de France
Benoît Sagot
Informatique et sciences numériques (2023-2024)
Année 2023-2024
Séminaire : Apprendre un modèle de langue à partir de l'audio
Intervenant :
Emmanuel Dupoux, directeur d'études EHESS, chercheur META
Résumé
La modalité orale est le canal le plus naturel pour les interactions linguistiques, mais les technologies langagières actuelles (TAL) se basent surtout sur l'écrit, nécessitant de grandes quantités de textes pour développer des modèles de langage. Même les assistants vocaux ou les systèmes de traduction de la parole utilisent le texte comme intermédiaire, ce qui est inefficace et limite la technologie aux langues dotées de ressources textuelles importantes. De plus, cela néglige les caractéristiques de la parole telles que le rythme et l'intonation. Pourtant, l'enfant arrive à apprendre sa ou ses langue(s) maternelle(s) bien avant d'apprendre à lire ou à écrire.
Dans cette présentation, nous aborderons les avancées récentes en apprentissage de représentations audio qui ouvrent la voie à des applications TAL directement à partir de la parole sans aucun texte. Ces modèles peuvent capturer les nuances de la langue orale, y compris dans les dialogues. Nous discuterons également des défis techniques qui restent à relever pour reproduire un apprentissage qui approcherait celui du bébé humain.
Emmanuel Dupoux
Emmanuel Dupoux est professeur à l'École des hautes études en sciences sociales (EHESS) et chercheur à Meta AI Labs. Il dirige l'équipe Cognitive Machine Learning à l'École normale supérieure (ENS). Il a obtenu un doctorat en sciences cognitives (EHESS), un master en informatique (université d'Orsay) et un diplôme d'ingénieur en télécommunication (Telecom Paris). Ses recherches mêlent science du développement, neurosciences cognitives et apprentissage automatique, avec un accent sur l'ingénierie inverse du langage et du développement cognitif des nourrissons à l'aide d'apprentissage non supervisé ou faiblement supervisé. Il est lauréat d'une bourse avancée de l'ERC, et a organisé une série de compétitions internationales en apprentissage machine inspiré par l'humain (Zero Resource Speech Challenge, 2015-2021; Intphys). Il est membre du programme CIFAR LMB, a une chaire PRAIRIE et Fellow ELLIS. Il est l'auteur de 150 articles dans des revues à comité de lecture en science cognitive et technologie du langage.
-
Collège de France
Benoît Sagot
Informatique et sciences numériques (2023-2024)
Année 2023-2024
03 - Apprendre les langues aux machines : Modèles de langue
Résumé
Les modèles de langue, une direction de recherche indépendante de la représentation vectorielle pendant l'ère préneuronale. Leur évolution récente et leur rencontre, jusqu'aux modèles de langue contextuels neuronaux. Les architectures récurrentes (y compris les LSTM) et l'architecture Transformer. Les modèles de langues neuronaux : modèles par masquage (ELMo, BERT et ses dérivés), modèles génératifs (GPT, BLOOM, LLAMA), modèles encodeur-décodeur (BART, T5). L'affinage (fine-tuning). L'évaluation des modèles de langue : les grands benchmarks tels que GLUE/SuperGLUE et leurs limites.
-
Collège de France
Benoît Sagot
Informatique et sciences numériques (2023-2024)
Année 2023-2024
Séminaire : Deux exemples d'usage des transducteurs en linguistique
Intervenant :
Guillaume Jacques, directeur de recherche, CNRS, directeur d'étude, EPHE
Résumé
Les transducteurs sont un outil précieux pour plusieurs domaines distincts de la linguistique. En morphologie, ils permettent de produire des descriptions explicites et cohérentes des paradigmes morphologiques, aussi bien pour les langues bien dotées que pour les langues à tradition orale. En linguistique historique, ils peuvent servir à modéliser les changements phonétiques, et à reconstruire automatiquement des protoformes à partir de langues attestées. Cette présentation illustrera ces deux types d'applications, et montrera les bénéfices qu'ils peuvent apporter à ces disciplines.
Guillaume Jacques
Guillaume Jacques est un linguiste de terrain et documente des langues en danger à tradition orale de la famille sino-tibétaine, parlées au Sichuan (japhug, stau) et au Népal (Khaling). Ses recherches portent aussi bien sur la typologique que la linguistique historique, et il s'intéresse en particulier à l'application des méthodes phylogénétiques aux données linguistiques.
-
Collège de France
Benoît Sagot
Informatique et sciences numériques (2023-2024)
Année 2023-2024
02 - Apprendre les langues aux machines : Approches symboliques et probabilistes
Résumé
L'étiquetage en parties du discours (des n-grams à la régression logistique) et la lemmatisation. Présentation de certaines classes de grammaires faiblement contextuelles pour la modélisation et l'analyse syntaxiques. Algorithmes d'analyse syntaxique pour le TAL. Interaction avec l'analyse de surface, y compris l'analyse morphologique. Le rôle des ressources lexicales. La place de l'analyse syntaxique aujourd'hui.
-
Collège de France
Benoît Sagot
Informatique et sciences numériques (2023-2024)
Année 2023-2024
Séminaire : Quelques exemples d'application du TAL aux humanités numériques
Intervenants :
Daniel Stoekl Ben Ezra, directeur d'études, EPHE-PSL
Jean-Baptiste Camps, maître de conférences, École nationale des chartes, Université PS
Résumé
Traitement automatique des langues et sciences humaines computationnelles : l'intelligence artificielle au service du passé
Cette intervention présentera des cas d'usage de méthodes relevant du traitement automatique des langues en sciences humaines, et particulièrement dans les sciences des textes et la philologie des textes anciens et médiévaux en français et en hébreu. Nous commencerons par l'utilisation de techniques d'alignement texte/image qui facilitent la création supervisée de données de vérité de terrain pour la transcription automatique d'écritures manuscrites, aident à la résolution des abréviations et la reconstitution des copies d'un même texte. Nous continuerons avec les défis posés par la normalisation ou la lemmatisation d'états anciens de langue, présentant une variation graphique importante, tout en montrant comment cela peut servir ensuite pour la détection de l'intertextualité ou bien encore, à l'utilisation de méthodes de stylométrie pour l'identification des auteurs de textes anonymes ou disputés. Enfin, nous montrerons comment le traitement automatique des langues et l'intelligence artificielle peuvent être mis au service de la constitution et l'analyse de vastes corpus en diachronie longue, et comment ceux-ci peuvent être ensuite analysés en ayant recours à des méthodes telles que les plongements de mots et documents (embeddings) ou les grands modèles de langue pour ensuivre dans le temps les grandes évolutions thématiques.
Daniel Stoekl Ben Ezra
Daniel Stoekl Ben Ezra (PhD, Jérusalem, 2001) est directeur d'études sur la chaire Langue, littérature, épigraphie et paléographie hébraïque et araméenne (IVe siècle av. – IVe siècle apr. J.-C.) à l'EPHE, PSL et membre du laboratoire AOrOc (UMR 8546, PSL-CNRS). Ses recherches portent sur les manuscrits de la mer Morte, la littérature rabbinique ancienne et les humanités numériques. Ses publications imprimées incluent Diversity and Rabbinization (avec G. McDowell et R. Naiweld, Cambridge 2019), Scriptures, Sacred Traditions and Strategies of Religious Subversion (avec M. Blidstein et S. Ruzer, Tübingen 2018), Qumran (Stuttgart/Tübingen 2016), L'Identité à travers l'éthique (avec K. Berthelot et R. Naiweld, Leiden 2015), Mischna Bikkurim (Jerusalem 2011), Aramaica Qumranica (avec K. Berthelot, Leiden 2008) et The Impact of Judaism on Ancient Christianity (Tübingen 2003). Ses publications électroniques incluent la base de données THALES, THesaurus Antiquorum Lectionariorum Ecclesiae Synagogaeque, et l'édition numérique de la Mishna (codirigé avec H. Lapin) avec une traduction française en cours (codirigée avec R. Naiweld et L. Vana) ainsi que la plateforme open-source eScriptorium pour la transcription automatique de manuscrits (avec P. Stokes, M. Bui, B. Kiessling et R. Tissot). Depuis octobre 2023, il est communicating PI du projet ERC Synergy MiDRASH.
Jean-Baptiste Camps
Jean-Baptiste Camps est maître de conférences en philologie computationnelle à l'École nationale des chartes, PSL. Il y dirige le master Humanités numériques de PSL, après avoir dirigé le master Technologies numériques appliquées à l'histoire (de 2013 à 2017). Ses recherches portent sur l'analyse de données textuelles et l'intelligence artificielle appliquées aux textes historiques. Il s'intéresse tout particulièrement à la littérature médiévale, notamment aux textes épiques et lyriques de langue d'oïl et d'oc. Ses recherches en stylométrie ont été récompensées en 2019 par le prix Fortier 2019 de la Digital Humanities Conference (en collaboration avec Ariane Pinche et Thibault Clérice), ont été publiées dans des revues pluridisciplinaires et spécialisées (Science Advances, Digital Scholarship in the Humanities…), ainsi que dans un ouvrage grand-public récemment paru (_Affaires de style_, éd. Le Robert, 2022) coécrit avec Florian Cafiero. À partir de janvier 2024, il sera le chercheur principal du projet ERC Starting Grant LostMA, _The Lost Manuscripts of Medieval Europe: Modelling the Transmission of Texts_.
-
Collège de France
Benoît Sagot
Informatique et sciences numériques (2023-2024)
Année 2023-2024
01 - Apprendre les langues aux machines : Représenter les unités textuelles
Résumé
Les niveaux d'analyse linguistique. Phrases et mots. La loi de Zipf. Quelles représentations pour les mots (voire les phrases), quelles propriétés pour ces représentations ? Les mots (lexiques, lemmes), leurs représentations sous forme de structures de traits puis de vecteurs (embeddings). Illustration sur la tâche de détection d'entités nommées.
-
Collège de France
Benoît Sagot
Informatique et sciences numériques (2023-2024)
Année 2023-2024
Leçon inaugurale - Benoît Sagot : Apprendre les langues aux machines
Depuis une dizaine d'années, le terme d'« intelligence artificielle » est revenu partout sur le devant de la scène, des magazines grand public aux créateurs de start-up et aux décideurs politiques. Des progrès dans la recherche sur les réseaux de neurones, une technologie pourtant ancienne, mais aussi l'augmentation de la puissance de calcul et de masse de données disponibles, ont permis d'accélérer de façon spectaculaire les performances des systèmes d'intelligence artificielle. Au cœur de cette révolution, le traitement automatique des langues (TAL) joue un rôle central. Connu depuis longtemps au travers de la correction orthographique et de la traduction automatique, ce domaine de recherche consacré à l'analyse, la génération et la transformation de données textuelles a récemment fait la une à plusieurs reprises, notamment avec l'arrivée de ChatGPT.
Pour donner quelques clefs sur ces enjeux, je présenterai brièvement plusieurs étapes importantes du développement du TAL, en montrant quels objectifs, quelles approches et quels obstacles ont jalonné l'histoire du domaine, une histoire aussi ancienne que celle de l'informatique. Cela nous permettra d'illustrer l'évolution des approches à l'œuvre au fil des décennies, symboliques puis statistiques et désormais neuronales, mais également de mieux comprendre les spécificités des données textuelles et les difficultés qu'elles ont posées au fil des décennies, et qu'elles posent souvent encore aujourd'hui. Nous nous attarderons sur les avancées les plus récentes en nous appuyant sur le cas de ChatGPT, en nous attardant sur certains des enjeux, notamment éthiques, liés à ces avancées. Nous montrerons également que ces techniques en développement si rapide renouvellent la question des places respectives de la recherche, de l'innovation et de l'ingénierie, tout en interrogeant les scientifiques sur ce qu'elles peuvent nous apprendre sur les langues et sur nous-mêmes.