Accélérer le traitement des images médicales avec le processeur Intel® Xeon® Scalable de 4ᵉ génération

L’IA révolutionne la radiothérapie : découvrez comment Intel et Siemens Healthineers ont accéléré l’inférence des algorithmes de délimitation des organes.

Accélérer le traitement des images médicales avec le processeur Intel® Xeon® Scalable de 4ᵉ génération

En collaboration avec Intel, Siemens Healthineers a optimisé le temps d'inférence de l'intelligence artificielle (IA) pour les algorithmes de délimitation automatique des organes en utilisant la distribution Intel® du kit d'outils OpenVINO™ sur une plateforme avec processeur Intel® Xeon® Scalable de 4ᵉ génération à deux sockets. Cette solution a permis de multiplier par 35 le temps d'inférence1 par rapport à une plateforme similaire avec processeur Intel® Xeon® Scalable de 3ᵉ génération. Grâce à cette accélération, l'inférence de l'IA pour définir les contours d'un scanner abdominal typique comportant neuf structures n'a pris que 200 millisecondes. Cet article explore ce cas d'utilisation en radiothérapie et décrit la manière dont les technologies Intel® ont contribué à cette accélération significative.

L'essor de l'IA dans les soins de santé

Le marché de l'IA dans les soins de santé devrait connaître un taux de croissance annuel composé (TCAC) de 47,6 %, passant de 14,6 milliards de dollars en 2023 à 102,7 milliards de dollars en 20282. Cette croissance est favorisée par de nombreux facteurs, notamment la disponibilité des données numériques, la demande de réduction des coûts des soins de santé et l'amélioration de la puissance de calcul sur un matériel au coût réduit. Par ailleurs, on observe une tendance croissante à recourir à des solutions innovantes pour parvenir à mieux concilier le nombre limité de professionnels de la santé et l'augmentation du nombre de patients.

Face à l'augmentation des maladies chroniques comme le cancer3, les praticiens de santé se tournent vers l'IA et le Machine Learning afin de soutenir l'imagerie médicale. La planification de la radiothérapie est un cas d'utilisation clé dans lequel les progrès de l'IA et des performances de calcul pour l'imagerie médicale permettent aux praticiens de fournir des traitements plus rapides et plus efficaces aux patients.

Intel et Siemens Healthineers ont conjointement tiré parti des performances de calcul et de la bande passante mémoire plus élevées, ainsi que d'Intel® AMX et du type de données BF16, d'où un impact spectaculaire sur la vitesse d'inférence de l'IA.

Défi : complexité de la délimitation pour la planification de la radiothérapie

La planification de la radiothérapie est un processus complexe qui s'appuie sur une technologie d'imagerie avancée4. Le processus commence généralement par une simulation d'image, dans laquelle les praticiens utilisent la tomodensitométrie (TDM) tridimensionnelle (3D), l'imagerie par résonance magnétique (IRM) ou une combinaison des deux, pour visualiser l'anatomie du patient. Ensuite, un radiologue, ou un radio-oncologue dans le cas d'un diagnostic de cancer, trace les contours des volumes cibles ou tumoraux pertinents, les compare aux volumes des tissus normaux et communique les objectifs de la planification de la radiothérapie. Le plan de traitement identifie l'endroit où la dose thérapeutique de rayonnements sera utilisée tout en évitant les tissus normaux avoisinants.

La délimitation (ou contourage) des organes à risque (OAR) est une étape essentielle au cours de laquelle les opérateurs délimitent manuellement les contours de dizaines d'organes sur un ensemble de données de tomodensitométrie ou d'une autre modalité. Ce processus est monotone et prend du temps. Les contours qui en résultent manquent souvent d'homogénéité parce qu'ils diffèrent d'un spécialiste à l'autre.

Les solutions de contourage automatisé basées sur l'IA contribuent à renforcer l'efficacité et l'homogénéité de la radiothérapie, tout en permettant aux professionnels de se concentrer sur d'autres tâches importantes. Ces solutions utilisent des réseaux neuronaux profonds convolutifs avec des millions de paramètres extrêmement complexes et gourmands en ressources de calcul. L'architecture sous-jacente qui alimente ces solutions doit fournir une accélération de l'IA spécialement conçue pour générer des résultats rapides et une interactivité réactive.

Solution : accélération de l'IA intégrée aux processeurs Intel Xeon Scalable de 4ᵉ génération

Siemens Healthineers a évalué un algorithme innovant de délimitation automatique basé sur l'IA sur un système équipé du processeur Intel Xeon Scalable de 4ᵉ génération. Ce processeur est doté de la dernière microarchitecture et d'Intel® Advanced Matrix Extensions (Intel® AMX), un accélérateur d'IA intégré qui prend en charge la quantification des modèles vers le type de données numériques brain floating 16 (bfloat 16 ou bf16). L'accélérateur d'IA intégré est conçu pour accélérer les charges de travail d'IA et peut également décharger les charges de travail de l'IA du cœur du processeur pour permettre un traitement rapide. En plus de l'accélérateur intégré, la distribution Intel du kit d'outils OpenVINO utilise diverses techniques d'optimisation graphique pour améliorer davantage les performances de l'IA. Cela a permis d'accélérer considérablement le contourage automatique des organes à risque basé sur l'IA sur les scanners de radiologie, permettant ainsi de libérer des ressources du processeur pour se concentrer sur d'autres tâches importantes afin d'aider les praticiens à améliorer la qualité des soins prodigués aux patients.

Fonctionnement d'Intel AMX

Intel AMX est un paradigme de programmation 64 bits composé de deux éléments5 :

1. Un ensemble de registres bidimensionnels (2D) représentés physiquement par des tuiles, qui agissent comme des sous-réseaux à partir d'images de mémoire 2D plus grandes

2. Un accélérateur capable de fonctionner sur des tuiles, dont la première implémentation s'appelle l'unité de multiplication matricielle par tuile (TMUL)

Intel AMX est une architecture extensible. De nouveaux accélérateurs peuvent être ajoutés, l'accélérateur TMUL peut être également amélioré pour offrir de meilleures performances. Des détails concernant l'architecture d'Intel AMX sont disponibles au chapitre 3 du guide de référence de programmation des extensions du jeu d'instructions et des fonctionnalités futures de l'architecture Intel®.

Fonctionnement de l'optimisation graphique de la distribution Intel du kit d'outils OpenVINO

L'équipe de Siemens Healthineers a utilisé la distribution Intel du kit d'outils OpenVINO pour mettre en œuvre des techniques d'optimisation graphique qui ont permis d'améliorer la latence et le débit de l'inférence.

Certaines techniques d'optimisation graphique clés incluaient :

  • Fusion des nœuds
  • Noyaux optimisés
  • Optimisation de la convolution de groupe

Grâce à ces techniques, Siemens Healthineers a pu réaliser des calculs plus efficaces et une optimisation spécifique du matériel au moment de l'exécution, ce qui a permis d'accélérer considérablement les temps d'inférence.

Le BF16 offre une moins bonne précision numérique

Le BF16 est un type de données numériques à virgule flottante occupant 16 bits dans la mémoire de l'ordinateur. Il a été développé par un groupe de recherche en IA de Google et est actuellement utilisé dans plusieurs processeurs, notamment les processeurs Intel Xeon Scalable de 3ᵉ génération et 4ᵉ génération. La plupart des applications d'IA commerciales utilisent actuellement la virgule flottante 32 bits (FP32), en simple précision, pour les charges de travail d'entraînement et d'inférence.

siemens-healthineers-amx-figure-1.png.rendition.intel.web.1920.1080.png

Figure 1 : différences entre les types de données numériques FP32, FP16 et BF16.

Toutefois, les chercheurs ont constaté des précisions numériques inférieures pour les charges de travail d'entraînement et d'inférence, en utilisant des multiplicateurs 16 bits avec des accumulateurs 32 bits et peu ou pas de perte de précision, et pour certaines charges de travail d'inférence, en utilisant des multiplicateurs 8 bits avec des accumulateurs 32 bits et peu ou pas de perte de précision. Compte tenu de l'amélioration des performances avec une précision moindre et une perte de précision minimale, le secteur s'oriente vers la demi-précision en virgule flottante 16 bits (FP16) et le BF16 pour l'entraînement et l'inférence sur un sous-ensemble de charges de travail. La figure 1 montre les différences entre les types de données BF16 et FP32.

Augmenter le nombre de calculs par cycle d'horloge

Les opérations à forte intensité de calcul des charges de travail de l'IA et du Deep Learning consistent en des convolutions et des multiplications générales de matrices (GEMM) et de vecteurs (GEMV)6. Ces opérations peuvent tirer parti du parallélisme offert par le traitement SIMD (Single Instruction, Multiple Data) pour traiter plusieurs multiplieurs-accumulateurs (MAC) par instruction. Un MAC ajoute le produit de deux valeurs à une autre valeur, la somme accumulée. L'utilisation d'une représentation numérique inférieure permet d'augmenter le nombre de MAC par cycle, à condition que le matériel le prenne en charge, et de réaliser des économies de mémoire, de bande passante de mémoire, de bande passante réseau et de consommation d'énergie.

Dans le processeur Intel Xeon Scalable de 4ᵉ génération, Intel AMX est composé de TMUL integer 8 (int8), TMUL BF16 et de tuiles qui font office de registres 2D. L'équipe de Siemens Healthineers a évalué le BF16 de la TMUL et a observé des gains significatifs par rapport au type de données FP32 utilisé avec Intel® Advanced Vector Extensions 512 (Intel® AVX-512) sur les processeurs de la génération précédente. Intel et Siemens Healthineers ont conjointement tiré parti de la nouvelle microarchitecture de processeur offrant des performances de calcul et une bande passante mémoire accrues, à laquelle s'ajoutent Intel AMX, le type de données BF16 et les optimisations de la distribution Intel du kit d'outils OpenVINO, pour mettre en évidence un impact substantiel sur la vitesse d'inférence de l'IA.

Résultats : Une IA 35 fois1 plus rapide pour la délimitation automatisée des tissus

Dans le cadre de ses recherches, l'équipe de Siemens Healthineers a comparé le temps d'inférence de l'IA pour une solution de délimitation automatisée basée sur les processeurs Intel Xeon Scalable de 4ᵉ génération et la distribution Intel du kit d'outils OpenVINO. Ils ont obtenu une accélération multipliée par 351 par rapport à une solution similaire utilisant des processeurs Intel Xeon Scalable de 3ᵉ génération. Cette accélération a permis à l'algorithme d'inférence IA de tracer les contours d'un scanner abdominal standard comportant neuf structures en seulement 200 millisecondes.

Avantages de l'accélération de l'IA à partir de la puce Le supercalculateur de Siemens Healthineers est entièrement alimenté par des énergies renouvelables, or l'accélération matérielle/logicielle du nouveau processeur permet d'accroître les performances sans augmenter les besoins en énergie, ce qui permet à Siemens Healthineers de réduire encore le coût, la complexité et la consommation d'énergie de son système. Par ailleurs, les solutions médicales sont soumises à de longues périodes de développement et de certification avant d'être déployées. Certains modèles de processeurs Intel Xeon Scalable de 4ᵉ génération se distinguent par leur longue durée de vie, ce qui prolonge celle des solutions en permettant une alimentation ininterrompue de l'infrastructure pendant des années afin de soutenir la recherche et l'innovation en continu.

da-syngo-via-mood-image-physician-4-138280-image-20.jpg.rendition.intel.web.1920.1080.jpg

Conclusion : une IA plus rapide pour explorer les progrès technologiques en matière de matériel et de logiciel favorise une meilleure qualité des soins

Dans le monde actuel, où la technologie est de plus en plus intégrée à la vie quotidienne et où la population mondiale est de plus en plus nombreuse et confrontée à divers problèmes de santé, les entreprises de santé de premier plan telles que Siemens Healthineers doivent impérativement s'associer à des entreprises technologiques de premier plan telles qu'Intel pour explorer les progrès de la technologie. Cette collaboration va permettre d'accélérer l'adoption et le déploiement d'outils et de techniques avancés, tels que l'accélération intégrée de l'IA pour le travail de planification de la radiothérapie, qui vont permettre aux cliniciens d'améliorer la qualité des soins pour des milliards de patients dans le monde entier.

Nos équipes À votre disposition

Violaine Larronde

Violaine Larronde

Experte Intel Global Computing Composant

Hassan Mehdid

Hassan Mehdid

Expert Intel Serveur

Didier Ternois

Didier Ternois

Expert Intel PC

Ne manquez aucune activité

Rejoignez plus de 14 000 partenaires qui se développent déjà avec TD SYNNEX.
Rejoindre le programme