AI/ML for network modeling

This is a intensive thematic module on aspects related to AI / ML and Networks. It is offered for multidisciplinary students of ENS Paris-Saclay to augment their scientific view over their disciplinary of origin (see official page).

The descriptions below are in mixed French and English language.

A. Syllabus of the overall program

Motivations. On rappelle ici que le parcours IA est centré autour de quatre pôles thématiques :

  1. la physique appliquée et les sciences de l’ingénieur,
  2. la biologie appliquée et les sciences biomédicales,
  3. l’économétrie, la sociométrie et les sciences humaines et sociales.
  4. Les mathématiques et l’informatique.

Une des potentialités des méthodes d’IA porte sur l’interprétation de données complexes recueillies à grande échelle, les domaines scientifiques producteurs de données sont donc des terrains naturels d’expérimentation pour ces méthodes. Les visées de l’IA sont avant tout prédictives, il convient donc de comprendre les étapes de la conception d’une méthodologie prédictive. A cette fin, le but du parcours est d’aborder de manière à la fois générale et contextualisée les aspects suivants :

– métrologie des phénomènes étudiées,

– modélisation et quantification des phénomènes à partir des données,

– élaboration et évaluation de modèles prédictifs.

Enseignements. Dans le cadre du parcours IA, on propose la mise en place de 5 modules de formation avec un module obligatoire centré sur les fondements de l’IA (Module 1) et 4 modules électifs spécialisés selon les structures de données ou les problématiques propres à certains domaines d’applications (Modules 2-3-4-5-6). La liste des modules proposés est la suivante :

Module 1 – Fondements de l’Intelligence Artificielle et du Machine Learning

Module 2 – IA&ML pour la modélisation de séries temporelles et de signaux

Module 3 – IA&ML pour la modélisation des réseaux

Module 4 – IA&ML pour le traitement d’images et de la video

Module 5 – IA&ML pour la modélisation de séquences de symboles et du texte

Module 6 – IA&ML pour la simulation de systèmes

La pertinence naturelle des modules par champ disciplinaire est la suivante :

  • Physique-SI à Modules 1, 2, 4, (3, 6)
  • Biologie à Modules 1, 3, 4, (2, 5)
  • SHS à Modules 1, 2, 3, (4, 5)
  • Maths-info-EEA à Tous les modules

Le format des cours est le suivant :

  • 5 cours magistraux ou conférences (séances de 2h, ou 4 cours de 2.5h)
  • Projet numérique centré sur le domaine disciplinaire en TP ou mentorat (équivalent 20h).

B. Module 3: IA&ML for network modeling

Modeling of relational data.

Information generales

Responsable : Argyris Kalogeratos <kalogeratos@cmla.ens-cachan.fr>

Positionnement : Les données relationnelles modélisées par des graphes constituent une source extrêmement riche pour rendre compte des dynamiques opérant dans les phénomènes sociaux ou économiques. Les processus de diffusion assimilés à des phénomènes de contagion opérant sur de telles structures de données constituent un domaine déjà bien établi qui est celui de la modélisation épidémiologique avec des applications notamment en santé publique mais aussi dans la sécurité informatique et l’analyse des cascades d’information dans les réseaux sociaux. Cependant ces modèles sont maintenant revisités pour répondre de manière plus fidèle aux enjeux de la prise de décision dans le monde réel. La prise en compte d’informations partielles ou incertaines, la nécessité d’agir vite que ce soit du fait d’une épidémie meurtrière (H1N1, Ebola…) ou d’une fake news et de distribuer efficacement les ressources de remédiation soulèvent de nouvelles questions autour de ces modèles. Les nouvelles approches dans la science des réseaux se trouvent à l’intersection de la théorie des graphes, des probabilités (processus stochastiques), de la physique statistique, de l’inférence, de la théorie du contrôle, de l’algèbre linéaire et de l’optimisation. Les moteurs de recommandation ont également motivé ces développements car le sujet du marketing peut être vu également comme un problème de complétion de graphe biparti (il faut trouver le lien manquant entre un produit et un client). Le challenge Netflix lancé en 2006 a largement stimulé les découvertes scientifiques dans ce domaine. Le module propose une introduction aux diverses problématiques abordées sur les données représentant des réseaux et les processus qui y opèrent. Les bases de la modélisation et de la quantification seront proposées et un certain nombre de techniques et d’algorithmes seront présentés sur quelques exemples.

Objectifs : appréhender les formalismes existants pour la représentation de graphes et de processus/signaux sur des graphes, apprendre à formaliser les problèmes d’apprentissage dans ce contexte, développer les compétences pour la mise en œuvre d’une chaîne complète de traitement de l’information relationnelle pour un objectif de détection/classification/prédiction, se familiariser avec les protocoles d’évaluation pour de tels objectifs.

Thèmes abordés : structures de réseaux, caractéristiques locales et globales des réseaux, modèles épidémiologiques (SI, SIS, SIR…), signaux sur graphe, notion d’influence, détection de communauté, prédiction de lien…

Références :

A-L. Barabási. Network Science. Cambridge University Press, 2016.

M. Newman. Networks, Oxford University Press, 2018.

E.D. Kolaczyk. Statistical Analysis of Network Data, Springer, 2009.

Organization of the courses

The module is organized in 4 sessions of 2.5h duration each, as follows:

1. Introduction to Graph Theory/Network Science [slides]
2. Network models – Static and dynamic graphs [slides][lab material]
3. Structure and topology inference [slides]

4. Processes and signals over graphs

Acknowledgements

I would like to thank Fabien Tarissan for helping with the 2nd session of the module.