Mein Artikel „Was kann ChatGPT im Gesundheitswesen“ ist zuerst am 20.06.2023 in der Zeitschrift mt medizintechnik (Ausgabe 3/2023; TÜV Media GmbH) erschienen. Mit freundlicher Genehmigung von TÜV Media nun auch hier für die Leser*innen des Blogs:
Seit November 2022 hat die Diskussion um Künstliche Intelligenz noch einmal an Intensität zugenommen: Zu diesem Zeitpunkt hat das Unternehmen OpenAI seinen Chatbot ChatGPT (basierend auf dem Sprachmodell GPT) öffentlich zugänglich gemacht. Seither sind viele Branchen damit beschäftigt, zu diskutieren, wie man ChatGPT sinnvoll einsetzen kann und welche Gefahren das System möglicherweise mit sich bringt. Und wie sieht es im Gesundheitswesen aus? Damit beschäftigt sich dieser Artikel.
So lernt GPT sprechen
Wie lernt eine KI überhaupt sprechen? Notwendig dafür ist ein sogenanntes Sprachmodell oder Language Model, und der Forschungsbereich, der sich mit Sprachmodellen beschäftigt, heißt Natural Language Processing (NLP).
Ein Sprachmodell muss mit einer möglichst großen Menge an Text trainiert werden und lernt anhand von diesem die Muster, die natürlicher Sprache zugrunde liegen – also beispielsweise, welche Wörter mit hoher Wahrscheinlichkeit auf ein bestimmtes Wort folgen, wie ein angefangenes Wort vermutlich zu Ende gehen wird, welche Buchstaben in einer bestimmten Sprache besonders häufig beieinander stehen oder welche Wortfolgen immer wieder auftauchen. Bekannte Anwendungsbeispiele sind die Autokorrektur beim Tippen von Nachrichten auf dem Smartphone oder die maschinelle Übersetzung eines Textes von einer Sprache in eine andere.
Das zugrundeliegende allgemeine Sprachmodell von ChatGPT heißt GPT. Das steht für Generative Pre-trained Transformer. Transformers (erstmals 2017 von Google veröffentlicht) sind eine Weiterentwicklung neuraler Netzwerke im Bereich des NLP. Der besondere Vorzug von Transformers: bestimmte Abläufe, die in anderen neuralen Netzwerken nur nacheinander stattfinden können, können mit Transformern parallelisiert werden. Sie sind also effizienter und können daher mit noch größeren Textmengen trainiert werden. So wurde GPT-3 bereits mit 570 GB Text von Büchern, Artikeln und Webseiten trainiert (sein Vorgänger GPT-2 „nur“ mit 40 GB).
Exkurs: Was ist ein neurales Netzwerk?
Neurale Netzwerke sind Grundlage vieler erfolgreicher KI-Anwendungen und aller derzeit erfolgreichen Sprachmodelle. Obwohl man es bisher nie geschafft hat, das menschliche Gehirn in all seinen Facetten nachzubauen und so eine künstliche Intelligenz zu schaffen, hat man sich für künstliche neurale Netzwerke wenigstens einige Eigenschaften des menschlichen Gehirns und menschlichen Lernens von der Natur abgeschaut.
So besteht ein künstliches neurales Netzwerk aus künstlichen Neuronen (in Software implementiert), die Daten verarbeiten und das Ergebnis an andere Neurone weitergeben – ähnlich, wie eine Nervenzelle im Gehirn einen elektrischen Impuls empfängt und weitergibt. Ebenfalls ähnlich wie bei echten Nervenzellen arbeiten diese künstlichen Neuronen mit Schwellenwerten und Gewichten. Vereinfacht gesagt: Wenn das Neuron nur „unbedeutenden“ Input bekommt, gibt es unter Umständen gar nichts weiter. Wenn dagegen ein bestimmter Weg der Daten von Neuron zu Neuron mehrfach verstärkt wird, kommt es immer wahrscheinlicher zu einem bestimmten Output, wie bei einem Lernprozess in einem natürlichen Gehirn.
In einem künstlichen neuralen Netzwerk sind mehrere Schichten von Neuronen hintereinander geschaltet: die Eingangsschicht (Input Layer), meist mehrere Schichten, die nur mit der Verarbeitung und Weitergabe beschäftigt sind (Hidden Layers) und die Ausgabeschicht (Output Layer).
Auch das Schlagwort Deep Learning, das man oft im Zusammenhang mit KI hört, bezieht sich auf diese Architektur: Deep Learning bedeutet, dass neurale Netzwerke mit vielen Hidden Layers eingesetzt werden, die also besonders komplexe Lernprozesse abbilden können – wie GPT.
Was kann ChatGPT – und was nicht?
ChatGPT – die Implementierung von GPT, die auf den Einsatz als Chatbot ausgerichtet ist – vermittelt im „Gespräch“ den Eindruck, als habe man es mit einem menschlichen Gesprächspartner zu tun. Hierin ist sie wesentlich stärker als man es von früheren Chatbots kennt: Wortwahl und Satzbau wirken natürlich, und sie kann sogar zwischen verschiedenen Stilen wechseln (siehe Beispieltexte am Ende). Die Texte lesen sich kohärent und folgen meist einem logischen Fluss, wobei es aber gelegentlich auch zu Sprüngen oder Wiederholungen kommt. (So antwortet ChatGPT auf die Fangfrage, wann Robert Koch die Tuberkulose erfunden habe: „Robert Koch hat die Tuberkulose nicht erfunden, sondern er war ein berühmter deutscher Arzt und Mikrobiologe, der im 19. Jahrhundert lebte.“)
ChatGPT wurde auch auf sogenannte „Helpfulness“ hin trainiert, also eine möglichst hilfreiche Antwort auf einen Input des Benutzers hin zu geben. So antwortet ChatGPT auf die Aussage „Ich habe Husten“ mit möglichen Ursachen, der Empfehlung eines Arztbesuches und möglichen Maßnahmen, um die Beschwerden zu lindern – obwohl der ursprüngliche Input keine konkrete Aufforderung oder Frage enthalten hat.
Vorsicht: Halluzinationen
Wenn man ChatGPT selbst nach ihren Stärken fragt, nennt die KI an erster Stelle „Wissensvermittlung“. Tatsächlich würde man gerade hier erwarten, dass eine KI besonders stark ist, da sie Zugriff auf enorme Wissensspeicher hat, die die menschlichen Fähigkeiten zum Lernen und Erinnern weit übersteigen. Aber überraschenderweise hat ChatGPT gerade hier Schwächen. Viele Nutzer haben bereits darauf hingewiesen, dass die KI auf manche Fragen faktisch falsche Antworten gibt.
In Fachkreisen werden diese auch als „Halluzinationen“ bezeichnet, um zu unterstreichen, dass die falschen Antworten oft so ausgeschmückt werden, dass sie plausibel klingen. Ein Beispiel, das bei den Tests für diesen Artikel aufgefallen ist: Auf die Frage „Wann hat Karl Lauterbach seine Approbation erhalten?“ antwortet ChatGPT: „Karl Lauterbach, der heute als Gesundheitsexperte und Politiker in Deutschland bekannt ist, hat seine Approbation als Arzt im Jahr 1987 erhalten“. Das stimmt nicht, die Approbation erhielt er erst im Jahr 2010, so berichten es zumindest Der Spiegel und die Pharmazeutische Zeitung – klingt aber angesichts seines Alters und Lebenslaufes verführend plausibel. (Eine Approbation von 1987 hat dagegen seine Politik-Kollegin Ursula von der Leyen.)
Nuance setzt ChatGPT im Gesundheitswesen ein
An diesen Stärken und Schwächen orientiert sich auch der erste echte „Job“, den ChatGPT im Gesundheitswesen bekommen hat – dank Microsoft. Microsoft hatte im Frühjahr 2022 das KI-Unternehmen Nuance Communications gekauft, die schon zuvor im Bereich der Spracherkennung und Sprachverarbeitung im Gesundheitswesen aktiv waren. Nun baut Nuance die neueste Version von GPT – GPT-4 – in seine Anwendung Dragon Ambient eXperience (DAX) Express ein. Diese wurde im April 2023 auf der US-amerikanischen Health-IT-Konferenz HIMSS vorgestellt und soll im Sommer bereits für ausgewählte Kunden zugänglich werden.
Ärztliches Personal wird mit Hilfe von DAX Express während Visiten und Sprechstunden dazu in die Lage versetzt, Befunde und Briefe per Sprachsteuerung zu diktieren, wobei GPT kontextsensitiv arbeiten und nur relevante Informationen aufnehmen sowie auf Anweisungen reagieren soll.
Weitere Einsatzgebiete für ChatGPT oder GPT allgemein im Gesundheitswesen sind überall dort vorstellbar, wo bereits andere Chatbots zum Einsatz kommen: etwa in der Erhebung von Anamnesen oder zu Service- oder Unterhaltungszwecken auf Stationen im Krankenhaus oder auch in Pflegeheimen. Durch seine Fähigkeit zur natürlichen Konversation scheint ChatGPT besonders gut geeignet, um Informationen vom Nutzer zu erheben. Wenn der Informationsfluss in die andere Richtung laufen soll – von der KI zum Nutzer – muss sorgfältig sichergestellt werden, dass keine der sogenannten Halluzinationen auftreten können.
Und schließlich muss berücksichtigt werden, dass es sich bei ChatGPT um eine proprietäre Software der in den USA ansässigen Firma OpenAI handelt, personenbezogene Daten also unter Umständen nicht DSGVO-konform verarbeitet werden. Auch Google (Alphabet) hat ein ähnliches Sprachmodell entwickelt, LaMDA, das aktuell nur für eingeladene Nutzer zugänglich ist. Weitere Modelle dieser Art werden sicher folgen – vielleicht auch von EU-Unternehmen.
Bias und die Black Box
Alle KI-Modelle haben das Problem, dass mit den Trainingsdaten auch Bias in das Modell eingeführt werden kann – also eine Voreingenommenheit der Ergebnisse, die für den Nutzer nicht unbedingt erkennbar ist. Solche Bias beim Einsatz von KI sind in der Vergangenheit schon häufiger durch die Medien gegangen, etwa als US-Unternehmen eine KI für die Auswahl von Personal eingesetzt haben und sich zeigte, dass diese davon ausging, dass männliche Bewerber automatisch über mehr Technikkompetenz verfügten als weibliche Bewerber. In einer anderen Untersuchung fiel auf, dass Online-Profile, in denen das Geschlecht auf „weiblich“ eingestellt war, von automatisierten Werbealgorithmen weniger Stellenanzeigen für hochbezahlte Jobs angezeigt bekamen als „männliche“ Profile.
Dieses Problem ist bei proprietären KI-Systemen noch einmal verschärft, da das entwickelnde Unternehmen allein entscheiden kann, ob es die Trainingsdaten offenlegt oder nicht. Die Öffentlichkeit bekommt also in der Regel gar nicht mit, dass eine KI mit verzerrten Ausgangsdaten trainiert wurde. Dies passiert wohlgemerkt in der Regel ohne böse Absicht der jeweiligen Entwickler, sondern ist oft allein schon deshalb unumgänglich, weil eine qualitativ hochwertige KI – wie ChatGPT – mit fast unvorstellbaren Mengen an Daten trainiert werden muss, was die Möglichkeiten zur Qualitätskontrolle der Daten sehr einschränkt.
Da im Gesundheitswesen nicht nur mit besonders sensiblen personenbezogenen Daten umgegangen wird, sondern mit Menschen in vulnerablen Lebenssituationen und mit besonders folgenreichen Entscheidungen, wird es vermutlich notwendig sein, spezielle KI für den Einsatz im Gesundheitswesen zu entwickeln, die mit besonders sorgfältig ausgewählten Daten trainiert und vor Einsatz besonders gründlich getestet werden. Dies würde das Spektrum der Einsatzbereiche, in denen eine KI mit gutem Gewissen verwendet werden kann, noch einmal deutlich erweitern.
ChatGPT und der Bandscheibenvorfall – ein Beispiel
Ich habe ChatGPT gefragt, ob ein Bandscheibenvorfall operiert werden sollte – und folgende Antwort erhalten:
Ob ein Bandscheibenvorfall operiert werden sollte oder nicht, hängt von der Schwere des Vorfalls und den Symptomen ab. In den meisten Fällen kann ein Bandscheibenvorfall konservativ behandelt werden, ohne dass eine Operation erforderlich ist. Die konservative Behandlung umfasst normalerweise Ruhe, Medikamente zur Schmerzlinderung und Entzündungshemmung, Physiotherapie, Massage und andere alternative Therapien wie Akupunktur oder Yoga.
In einigen Fällen kann jedoch eine Operation erforderlich sein, wenn der Bandscheibenvorfall zu schweren Symptomen wie Lähmungen, Taubheitsgefühl, Harn- oder Stuhlinkontinenz führt oder wenn die konservative Behandlung nicht erfolgreich war. Es gibt verschiedene Operationsverfahren, die je nach Schweregrad und Lokalisation des Bandscheibenvorfalls angewendet werden können. Ihr Arzt wird die Vor- und Nachteile der Operation mit Ihnen besprechen und gemeinsam mit Ihnen entscheiden, ob eine Operation die beste Option für Ihre spezifische Situation ist.
Auf meine Aufforderung, mir das einfacher zu erklären, kam folgende Antwort:
Ein Bandscheibenvorfall kann normalerweise ohne Operation behandelt werden. Dazu gehören Ruhe, Medikamente zur Schmerzlinderung und Entzündungshemmung, Physiotherapie, Massage und andere alternative Therapien. In einigen Fällen kann jedoch eine Operation notwendig sein, wenn die Symptome schwerwiegend sind oder die konservative Behandlung nicht geholfen hat. Ihr Arzt wird entscheiden, ob eine Operation notwendig ist oder nicht.
Als nächstes habe ich ChatGPT gebeten, es mir auf Sächsisch zu erklären:
Also, wenn du ’nen Bandscheibenvorfall hast, musst net glei‘ operiert werdn. Meistens geht’s ohne OP, zum Beispiel mit Ruhe, Medizin gegen die Schmerzn und Entzündungen, Physiotherapie oder Massagn. Aber wenn’s so schlimm is, dass gar nix hilft und du z.B. a Taubheitsgefühl hast, kann es sein, dass du doch operiert werdn musst. Dein Arzt sagt dir dann, was zu tun is.
Auch als Nicht-Sächsin erkenne ich deutliches Verbesserungspotenzial…
1 Trackback / Pingback
Comments are closed.