129

Künstliche Intelligenz in Ergänzung zur menschlichen Bewertung mammographischer Auffälligkeiten
Weigel S.1, Kerschke L.2, Rodriguez-Ruiz A.3, Karssemeijer N.3, Heindel W.1
1Universität und Universitätsklinikum Münster, Institut für Klinische Radiologie, Münster, Deutschland, 2Universität und Universitätsklinikum Münster, Institut für Biometrie und Klinische Forschung, Münster, Deutschland, 3ScreenPoint Medical BV, Nijmegen, Niederlande

Zielsetzung: Im deutschen Mammographie-Screening ist eine unabhängige Doppelbefundung obligat. Im Falle mindestens einer mammographischen Auffälligkeit beraten beide Befunder und der Programmverantwortliche Arzt, ob eine Einbestellung zur Abklärungsdiagnostik indiziert ist.
Ziel der Studie ist eine Validierung Künstlicher Intelligenz (KI) im gezielten Einsatz der Bewertung mammographischer Auffälligkeiten, die zur Empfehlung einer Abklärungsdiagnostik führten. Wünschenswert ist eine Steigerung der Spezifität ohne Minderung der Sensitivität.
Materialien und Methoden: In die retrospektive Studie wurden aus 41.724 digitalen Screening-Untersuchungen (2011-2013) 2.257 Untersuchungen mit erfolgter Abklärungsdiagnostik eingeschlossen. Entsprechend den prospektiven Dokumentationen und Krebsregistermeldungen zu Intervallkarzinomen wurden 295 maligne und 2.289 benigne Läsionen geprüft. Mittels Transpara (ScreenPoint Medical) wurde ein Läsions-spezifischer Score (0-100) erhoben. Die diagnostische Genauigkeit wurde anhand eines Cut-Off-Wertes beurteilt, unter dem eine Verbesserung der Spezifität bei größtmöglicher Sensitivität erreicht wurde.
Ergebnisse: KI erzielte eine Erhöhung der Spezifität von 11% auf 39% (Differenz: 28%, 95%CI: 26-30%) bei Minderung der Sensitivität um 6%. Eine hohe Genauigkeit wurde für Herdläsionen erreicht (Sensitivität: 99%, Spezifität: 38%). Der positive prädiktive Wert des Rückrufs stieg von 13% auf 17%. Falsch-negativ beurteilte Läsionen waren größtenteils durch niedrige Befundstufen (4a: 89%, 4b: 11%) charakterisiert. Je Befundstufe lag der Anteil falsch-negativer Einschätzungen bei 11% (4a), 2% (4b), 0% (5).
Zusammenfassung: Validierungen von Diagnosesoftware-Verfahren sind essentiell.
Der verwendete Datensatz weist eine hohe Güte bezüglich der Dignitätsstratifizierung auf.
Künstliche Intelligenz kann helfen, die Spezifität des Rückrufs zu erhöhen. Allerdings ist eine menschliche Prüfung bildmorphologischer Zeichen höheren Verdachtsgrades weiterhin erforderlich, um einzelne KI-resultierende falsch-negative Bewertungen zu vermeiden.