Drei Fragen und Antworten - Nur der Arzt kann KI vor falschen Diagnosen schützen

Datenqualität ist beim Trainieren von KI für Gesundheitsanwendungen kritisch. Aber worauf genau ist beim Umgang mit schützenswerten Daten zu achten?

iX-Interview mit Daniel Beck

Veröffentlicht am 28.01.2023

Daniel Beck ist Diplominformatiker, Software Developer und Partner des Beratungsunternehmens Cognotekt. Seine Expertise liegt vor allem in der Aufbereitung von Rohdaten zu einem maschinenlesbaren Datensatz, um daraus datengetriebene Schlussfolgerungen zu ziehen. Er berät Bio- und Healthtech-Unternehmen bei ihrer Daten-Strategie und der Implementation von KI.

Gesundheitsdaten lassen sich im Normalfall nicht so einfach aus dem Internet sammeln – sie sind der Gegensatz zu freien Texten und Bildern, die Grundlage für große KI-Generatoren wie StableDiffusion und ChatGPT sind. Wir sprechen mit Daniel Beck darüber, worauf es beim Datensammeln für Gesundheits-KI ankommt.

iX: In Deutschland gibt es aktuell viele Diskussionen über die Nutzung (anonymisierter) Gesundheitsdaten für die Forschung – zuletzt klagte CCC-Sprecherin Constanze Kurz dagegen. Wie abhängig sind die KI-Anwendungen vom Zugang zu solchen Daten und gibt es beim Verwenden von Gesundheitsdaten geografische Unterschiede?

Daniel Beck (DB): Ein zentraler Punkt bei der Diskussion ist das Sammeln aller Daten an einer zentralen Stelle und die damit verbundenen Risiken. Aus technischer Perspektive hätte es hier sicherlich Alternativen gegeben, mit denen dieselben Anforderungen bedient werden könnten. Dabei sind Gesundheitsdaten sowohl für die medizinische Forschung als auch für das Trainieren, die Evaluation und auch das Nutzen von KI-Anwendungen im medizinischen Bereich vonnöten – unabhängig von der Art des Erhebens und des Sammelns der Daten.

Es ist also wichtig, einen Weg zu finden, die Vertraulichkeit von Patientendaten, die Datenverfügbarkeit für KI-Anwendungen und den technischen Zugang zu diesen in Einklang bringt. Je nach Gewichtung dieser Faktoren fällt die Lösung anders aus. Im europäischen Raum spielt der Datenschutz eine sehr wichtige Rolle, in China wird die Verfügbarkeit von Daten höher bewertet. In den USA wurde per Gesetz eine einheitliche Schnittstelle zum Zugriff auf Gesundheitsdaten definiert.

iX: Vom aktuellen Beispiel ChatGPT wissen wir, dass KI-Programme auf allgemeine Themen gute Antworten geben können. Bei exakten Fragen oder Fachthemen liegt das Programm oft falsch oder erfindet Antworten. Wie lässt sich eine solche Ungenauigkeit im Bereich der medizinischen KI verhindern?

DB: Der Ansatz hinter sehr großen Sprachmodellen ist, das System mit einer möglichst hohen Anzahl an Texten zu trainieren. Damit lassen sich Antworten synthetisieren, die sprachlich überzeugend sind und inhaltlich auch irgendwie zur Frage passen. Das ist an sich schon eine beachtenswerte Leistung, aber ChatGPT versteht die Texte, die man zum Trainieren verwendet hat oder auch die Fragen inhaltlich in keinster Weise wie ein Mensch. Stark vereinfachend gesagt, gibt solch ein System die Wortsequenz zurück, die bezogen auf den Durchschnitt der Trainingstexte am wahrscheinlichsten ist. Der eigentliche Sinngehalt, der sich eben nicht vollständig alleine aus den Texten ergibt, bleibt dem System verborgen.

Bei medizinischen KI-Anwendungen geht es oft um spezielle Teilgebiete der Medizin. Aber auch hier ist es möglich, wichtige Indikatoren für eine Entscheidung zu übersehen. Das kann an der geringen Häufigkeit liegen, mit der diese Merkmale auftreten. Um Fehler zu verhindern, sind elaborierte Evaluationsverfahren mit umfangreichen Datensätzen für medizinische KI-Systeme vonnöten.

iX: Gerade erst hat ein Forscherteam eine KI zur Diagnose von COVID-19 anhand von Hustengeräuschen als Blindgänger entlarvt. Wie lässt sich sicher gehen, dass Programme bei der Diagnose das richtige erkennen und nicht anhand von falschen Merkmalen auf bestimmte Krankheiten schließen?

DB: Das ist ein klassisches Beispiel, wo eine Verzerrung im Trainingsdatensatz dazu geführt hat, dass man Merkmale als besonders relevant eingestuft hat, die nur in einem untergeordnet wichtigen oder sogar überhaupt keinem kausalen Zusammenhang zu dem vorherzusagenden Sachverhalt stehen. Das kann leider sehr schnell passieren und zeigt wieder einmal, wie wichtig es ist, repräsentative Datensätze zu erzeugen. Also Datensätze, die in ihrer Verteilung der in der realen Welt vorzufindenden Verteilung gleichen. Das ist gar nicht so einfach, sehr aufwändig und damit auch teuer.

Wenn die Beschaffenheit in der Realität nicht der auf Basis der Evaluationsdaten zu erwartenden Beschaffenheit entspricht, werden solche Probleme schnell erkannt – Das war auch bei der Husten-Erkennungs-App der Fall. Problematischer sind die Fälle, bei denen man die Verzerrungen nicht erkennt, etwa weil sie nur bei einer kleinen Anzahl von Fällen zu Fehlentscheidungen führen. Daher ist es bei stochastischen KI-Verfahren wichtig zu überprüfen, welche Merkmale der Eingangsdaten sich als besonders relevant bewerten lassen. Im medizinischen Umfeld muss man dann prüfen, ob es aus fachlicher Sicht Zustimmung zu dieser Einschätzung gibt. Letztlich sind stochastische Verfahren in der Medizin nur einsetzbar, wenn die Ärzte wissen, dass die Angaben immer wieder fehlerhaft sein können. Eine Alternative ist der Einsatz deterministischer Verfahren.

iX: Herr Beck, vielen Dank für Ihre Antworten.

Cognotekt_RGB_Türkis

Vor welcher Herausforderung
stehen Sie? Schreiben Sie uns.

Dr. Raija Kramer
info@cognotekt.com
+49 221-643065-10