Une récente étude publiée dans l'American Journal of Emergency Medicine s'est penchée sur la comparaison entre les capacités des intelligences artificielles (IA) et des spécialistes en cardiologie et médecine d'urgence pour interpréter des électrocardiogrammes (ECG).
L'équipe de recherche dirigée par Günay et al. a voulu évaluer la performance de trois modèles d'IA : GPT-4, GPT-4o et Gemini Advanced, en comparaison avec celle des cardiologues et urgentistes. Bien que de nombreux logiciels d'analyse ECG soient déjà intégrés dans des machines médicales, leur capacité à offrir une précision diagnostique égale à celle des médecins reste limitée. Cette étude visait à examiner si ces nouveaux outils, basés sur des modèles linguistiques avancés, pourraient améliorer cette situation.
Méthodologie
L'étude a eu lieu entre mai et juin 2024 et a utilisé le manuel "150 ECG Cases" comme référence. Les chercheurs ont sélectionné 40 cas d'ECG, divisés en deux catégories : des cas de routine et des cas plus complexes. Ces ECG ont ensuite été soumis à des IA et à un groupe de 24 médecins expérimentés, composés de cardiologues et d'urgentistes. Chaque groupe devait répondre à des questions diagnostiques basées sur les tracés d'ECG, et les résultats ont été comparés.
Les spécialistes surpassent toujours l'IA
L'étude a révélé que les cardiologues surpassaient les trois modèles d'IA dans l'ensemble des catégories. Les urgentistes, eux, ont montré de meilleures performances que GPT-4o dans les ECG de routine, soulignant l'importance de l'expertise humaine dans l'interprétation des résultats. Parmi les modèles d'IA, GPT-4o s'est distingué par une performance supérieure à Gemini Advanced et GPT-4 dans certaines catégories, notamment les cas complexes, mais sa précision reste inférieure à celle des médecins.
La cohérence des réponses des IA a été mesurée à l'aide du test de Kappa, un outil statistique qui évalue l'accord entre différentes sources. Les résultats ont montré une faible concordance pour GPT-4 (Kappa = 0,265) et Gemini Advanced (Kappa = 0,347), tandis que GPT-4o affichait une concordance modérée (Kappa = 0,514), sans toutefois atteindre le niveau des spécialistes humains.
Conclusion
Cette étude confirme que bien que les IA puissent être un outil complémentaire pour l'interprétation des ECG, elles ne sont pas encore suffisamment fiables pour remplacer les médecins dans ce rôle crucial. L'IA GPT-4o, qui a montré les meilleures performances parmi les modèles testés, pourrait à l'avenir devenir un assistant précieux, mais une prudence reste de mise en pratique clinique.