Abstract

L’apprentissage profond a révolutionné la vision par ordinateur ces dernières années et a été appliqué à de nombreux domaines. Cette thèse se concentre sur l’endoscopie médicale, où l’apprentissage profond peut aider les médecins dans de nombreuses tâches, comme la navigation dans les poumons lors d’une bronchoscopie, l’assistance à la détection des maladies pulmonaires, la détection de la maladie de Crohn à partir d’une endoscopie par capsule (PillCam), ou encore l’automatisation de la détection de polypes lors de procédures de colonoscopie.

Cette thèse, intitulée From Pixels to Practice: Deep Learning for Endoscopy, étudie comment les réseaux de neurones modernes et les paradigmes d’apprentissage peuvent améliorer la compréhension visuelle en endoscopie, dans le but de contribuer à des systèmes d’aide au diagnostic (Computer-Aided Detection, CAD) intégrables dans les flux de travail cliniques.

Ce travail suit une structure basée sur des articles et relie des avancées méthodologiques en modélisation géométrique et temporelle à des techniques permettant de gérer la rareté et le déséquilibre des données, ainsi qu’aux implications pratiques et cliniques de l’apprentissage profond pour la détection de tumeurs pulmonaires, tant du point de vue clinique que du point de vue des praticiens. La première partie du manuscrit fournit un socle commun à toutes les parties suivantes. Tout d’abord, nous présentons une introduction générale au domaine de l’apprentissage automatique au Chapitre 1, en expliquant des concepts tels que la classification, les fonctions de perte et les réseaux de neurones artificiels. Ensuite, le Chapitre 2 se concentre sur le domaine de l’apprentissage profond pour la vision par ordinateur, en détaillant les principales tâches de vision, le concept de réseaux de neurones convolutionnels, ResNet et U-Net. Enfin, le Chapitre 3 décrit l’imagerie médicale, avec un focus sur les scanners tomodensitométriques (CT) et l’imagerie optique. La deuxième partie de la thèse s’intéresse à l’apprentissage de représentations spatio-temporelles. Au Chapitre 4, nous utilisons des réseaux de neurones profonds combinant des caractéristiques spatiales et une récurrence temporelle pour aborder le problème de la détection de la carène bronchique, un repère anatomique qui aide les médecins à se repérer dans les poumons. En évaluant des modèles de classification (ResNet-50), de segmentation (nnU-Net) et récurrents (GRU) sur un jeu de données de bronchoscopie que nous avons créé, l’étude met en évidence les bénéfices de la combinaison d’informations issues des masques de segmentation et de caractéristiques temporelles. Le Chapitre 5 poursuit sur la tâche de segmentation en analysant dans quelle mesure des U-Net équivariants par rotation, basés sur des E(2)-CNN avec des groupes de symétrie C4, C8 et D4, peuvent améliorer les performances lorsque l’orientation des objets dans l’image est arbitraire. Ensemble, ces chapitres montrent comment la modélisation temporelle et géométrique capture des aspects complémentaires de la structure visuelle. Ils soulignent en outre que le déséquilibre et la rareté des données constituent un problème récurrent en apprentissage profond. La troisième partie étudie l’apprentissage en situation de rareté et de déséquilibre des données. Tout d’abord, le Chapitre 6 explore un pré-entraînement contrastif supervisé [1] sur de grands jeux de données endoscopiques de domaine proche (Hyper-Kvasir [2], LDPolyp [3]), transféré ensuite vers des données plus petites et spécifiques à une pathologie (Crohn-IPI [4]). Cette méthodologie donne de meilleures performances que le pré-entraînement sur ImageNet ou basé sur l’entropie croisée, ce qui met en avant la valeur de représentations contrastives spécifiques au domaine. Ensuite, le Chapitre 7 introduit leMask-Aware Cropping (MAC), une nouvelle technique d’augmentation de données qui atténue le déséquilibre au niveau des pixels en segmentation. Sur divers jeux de données présentant des régimes de déséquilibre variés (URDE [5], Kvasir-SEG [6], HAM10000 [7]), MAC améliore systématiquement les métriques Dice et IoU dans des conditions de déséquilibre extrême. Ensemble, ces méthodes forment un cadre centré sur les données pour un apprentissage efficace lorsque les annotations sont rares ou inégalement réparties. La quatrième partie de la thèse se concentre sur l’apprentissage profond au bloc opératoire. Le Chapitre 8 propose un premier modèle (ResNet-50) pour la détection visuelle du cancer du poumon en bronchoscopie, entraîné sur des données réelles, in-vivo. Le modèle dépasse les performances de médecins juniors, tout en restant inférieur à celles des experts. Ce résultat montre que les systèmes de CAD pour la détection du cancer du poumon sont prometteurs. Le Chapitre 9 prolonge ce travail en évaluant l’utilisabilité d’un système de CAD basé sur un modèle d’apprentissage profond. En combinant indices de probabilité, graphes temporels et superpositions de cartes de saillance, une évaluation multicentrique avec 10 médecins est menée. L’outil reçoit des retours favorables, avec une utilisabilité élevée (score SUS de 80,5 [8]) et une forte acceptation clinique. Au-delà de l’endoscopie, les résultats concernant l’équivariance par rotation et le déséquilibre au niveau des pixels se généralisent à d’autres domaines tels que la microscopie, la dermatologie et l’imagerie aérienne. Cela montre que les méthodes proposées sont applicables à l’apprentissage visuel sous variabilité structurée et sous contraintes de données limitées.

Mots-clés : apprentissage automatique, vision par ordinateur, médecine, endoscopie, réseaux de neurones convolutionnels, segmentation, modèles récurrents, équivariance. 

Jury

  • Prof. Dumas Bruno - Université de Namur
  • Prof. Frénay Benoit - Université de Namur
  • Prof. Schobbens P-Y. - Université de Namure
  • Prof. Beuls Katrien - Université de Namur,
  • Dr. Mertens Benjamin - Lys Médical
  • Prof. Oramas Mogrojevo José Antonio - Université d’Anvers
  • Dr. Mancas Matei - Université de Mons