Schon seit langem kann auch Software ein Medizinprodukt sein. Dazu gehören auch Anwendungen, die Algorithmen der Künstlichen Intelligenz (KI) beziehungsweise des Machine Learning (ML) einsetzen. Nun ist die Frage: Dürfen als Medizinprodukt zugelassene KI-Anwendungen nach der Zulassung selbstständig weiterlernen?
Warum ist das eine offene Frage? Dazu zuerst ein Blick auf das Recht rund um Medizinprodukte in Deutschland und Europa:
Software als Medizinprodukt und Risikoklassen
Als Medizinprodukt dürfen in der EU nur solche Anwendungen in Verkehr gebracht werden, die eine CE-Kennzeichnung haben. Diese gibt es für alle möglichen Produkte in Europa, nicht nur für Medizinprodukte. Hersteller dürfen ein CE-Kennzeichen verwenden, wenn sie nachweisen können, dass ihr Produkt sich an die jeweils gültige EU-Richtlinie oder EU-Verordnung hält. Im Falle von medizinischer Software – oder anderen Medizinprodukten – ist das aktuell die Medical Device Regulation (MDR). Die MDR ist eine EU-Verordnung. Das bedeutet, dass sie in den Mitgliedsstaaten der EU direkt Rechtswirkung hat, auch ohne dass sie in nationales Recht umgesetzt wurde. In Deutschland gilt es ergänzend das Medizinprodukterecht-Durchführungsgesetz (MPDG), das nähere Bestimmungen dazu enthält, wie die MDR in Deutschland umgesetzt wird.
Ob ein Medizinprodukt – zum Beispiel eine App – sich an die Vorgaben der MDR hält, muss entweder der Hersteller selbst oder eine sogenannte Benannte Stelle prüfen. Benannte Stellen sind staatlich beauftragte Institutionen, die für diese Prüfung zuständig sind, und beauftragt (also benannt) werden sie in Deutschland durch die Zentralstelle der Länder für Gesundheitsschutz bei Arzneimitteln und Medizinprodukten (ZLG).
Ist für eine bestimmte App nun der Hersteller oder die benannte Stelle zuständig, um die Konformität zu prüfen? Das hängt von der Risikoklasse der App ab. Medizinprodukte werden nämlich in Risikoklassen eingeteilt, die davon abhängen, wie schwer sie potenziell einen Patienten schädigen könnten. Die Risikoklassen lauten in der Reihenfolge zunehmenden Risikos: I, IIa, IIb und III. Die MDR enthält einen Anhang von Regeln, mit deren Hilfe die Zuordnung eines Medizinprodukts zu einer Risikoklasse erfolgen kann. Normalerweise gehört alleinstehende Software zu den Risikoklassen I oder IIa, allenfalls noch IIb. Aber auch III wäre denkbar, wenn ein Fehler der Software zum Tod eines Patienten führen könnte.
Medizinprodukte der Risikoklasse I können vom Hersteller selbst konformitätsbewertet werden, ab IIa ist die Benannte Stelle zuständig.
CE-Kennzeichen bisher nur für fertig trainierte Modelle
Egal, wer die Konformität bewertet: bisher wurden CE-Kennzeichen immer für eine fertig entwickelte Software vergeben. Bei einer KI-basierten Software bedeutet das, dass die Trainingsphase vollständig abgeschlossen sein muss. Das Modell ist fertig trainiert und lernt im praktischen Einsatz nichts mehr dazu.
Warum? Die MDR schreibt in Anhang I Kapitel II Abschnitt 17.1 vor, dass Software so auszulegen sei, dass sie „Wiederholbarkeit, Zuverlässigkeit und Leistung entsprechend ihrer bestimmungsgemäßen Verwendung gewährleistet“.
Eine ständig hinzulernende KI gewährleistet allerdings keine Wiederholbarkeit: Ihre Vorhersagen oder Klassifikationen können bei gleichem Input heute anders als gestern sein. Anders bedeutet: hoffentlich besser, vielleicht aber auch schlechter, wenn die hinzugekommenen Trainingsdaten fehlerhaft oder voreingenommen waren.
Wenn man die jetzige MDR auf solche kontinuierlich lernenden Systeme anwenden würde, würde das bedeuten, dass man jeden Tag – oder mehrmals am Tag – eine neue Konformitätsbewertung durchführen müsste. Das ist natürlich unrealistisch.
Kontinuierlich lernende Systeme im Gesundheitswesen?
Das heißt aber auch, dass aktuell noch keine kontinuierlich lernende KI im Gesundheitswesen zum Einsatz kommen darf. Die Deutsche Gesellschaft für Biomedizinische Technik im VDE (DGBMT/VDE) findet dies innovationshemmend und hat daher kürzlich einen Vorschlag veröffentlicht, wie auch bei kontinuierlich lernender KI die CE-Konformität sichergestellt werden könnte.
Dieser Vorschlag – abrufbar auf der VDE-Webseite – basiert zum Teil auf einem Diskussionspapier der US-amerikanischen FDA von 2019. In diesem wurde ein QM-System für KI auf der Basis von sogenannten Good Machine Learning Practice (GMLP) vorgeschlagen – vergleichbar etwa mit Good Clinical Practice (GCP). 2021 wurden die GMLP als Leitfaden veröffentlicht.
An diesen sollen Hersteller sich nach dem Wunsch der DGBMT in Zukunft orientieren. Genauer gesagt sollen sie vor Marktzugang einen sogenannten Predetermined Change Control Plan (PCCP) aufstellen, in dem zukünftige Änderungen am KI-Modell und deren Evaluierung beschrieben werden soll. Der PCCP soll eine detaillierte Beschreibung der Änderungen enthalten, ein Änderungsprotokoll und eine Folgenabschätzung. Vor allem letztere soll es ermöglichen, Änderungen des Risikos vorherzusehen und zu einzugrenzen, wenn eine KI im Tagesgeschäft dazulernt. Ziel des DGMBT: eine „antizipierende CE-Konformitätsbewertung“, die auch mit dem neuen Artificial Intelligence Act (AIA) der EU kompatibel ist.
Mehr zu KI im Gesundheitswesen: