Episodes
-
Stéphane Mallat
Collège de France
Science des données
Année 2024-2025
01 - Génération de données en IA par transport et débruitage
Le cours présente l'état de l'art de la génération d'images, de sons et de données scientifiques par réseaux de neurones profonds. On se concentre sur l'échantillonnage de distributions de probabilités obtenues par transport d'un bruit blanc Gaussien. Après une revue de l'état de l'art, on étudie le transport par score diffusion, qui effectue un débruitage progressif pour générer des données (images, sons, …). Cela nécessite d'estimer le score de la densité de probabilité, avec un réseau de neurone profond. Le cours introduit les bases mathématiques, algorithmiques avec leurs applications. Les sujets suivants seront abordés :
Transport de probabilités en apprentissage profond. Génération et échantillonnage par transport ;
Équation de Fokker Plank donnant l'évolution de la densité de probabilité d'un système dynamique. Équation de Langevin pour l'échantillonnage de probabilités ;
Génération de données par score diffusion. Estimation du score par débruitage avec la formule de Tweety-Myasawa ;
Apprentissage du score avec des réseaux de neurones profonds. Généralisation de l'apprentissage. Applications à la génération d''images et de sons ;
Analyse du calcul effectué par les réseaux de neurones. Débruitage et parcimonie dans des bases orthogonales ;
Génération de données conditionnée par une information complémentaire ;
Interpolant stochastiques pour la prédiction. Applications à la prédiction de systèmes physiques chaotiques comme la météorologie.
-
Episodes manquant?
-
Stéphane Mallat
Collège de France
Science des données
Année 2022-2023
Modèles, information et physique statistique
Séminaire - Marc Mézard : Physique statistique et inférence : le défi des données structurées
Les cinq dernières décennies ont vu la construction d'une nouvelle branche de physique statistique qui étudie les systèmes fortement désordonnés. Partant de l'étude des verres de spin, ce champ s'est étendu et s'est intéressé à des systèmes complexes dans différentes branches de la science, allant de l'informatique à la biologie en passant par la théorie de l'information. Quatre obstacles principaux ont dû être surmontés pour développer la théorie des systèmes désordonnés en très grande dimension : étudier des ensembles statistiques d'échantillons, analyser quantitativement le désordre microscopique, explorer des paysages d'énergie complexes, comprendre leurs liens avec les propriétés dynamiques. Cet exposé proposera tout d'abord une vision synthétique de ces développements. Il décrira ensuite le nouveau défi posé par l'application de ces méthodes en apprentissage machine, celle du désordre structuré.
-
Stéphane Mallat
Collège de France
Science des données
Année 2022-2023
Modèles, information et physique statistique
Le cours introduit les outils mathématiques permettant de modéliser des données en grande dimension, en lien avec la physique statistique et la théorie de l'information. La physique statistique montre que les lois macroscopiques résultent de la statistique des interactions de particules microscopiques.
La théorie de l'information relie cette perspective avec la modélisation de données, à travers les notions d'entropie, d'énergie de Gibbs et de dépendances locales. Les applications concernent l'inférence de modèles, la génération de nouvelles données ou la compression, ainsi que la résolution de problèmes inverses.
- Montre plus