E-Health-Evidenz: Was macht eine gute Gesundheitsapp aus?

Krankenkassen sollen zukünftig auch Gesundheitsapps finanzieren: Das steht im Digitale-Versorgungs-Gesetz (DVG), das am 10.07.2019 beschlossen wurde. Im Sprachgebrauch des Gesetzes werden Gesundheitsapps „Digitale Gesundheitsanwendungen“ oder DiGA genannt, und sie dienen dazu, „Erkennung, Überwachung, Behandlung oder Linderung von Krankheiten oder die Erkennung, Behandlung, Linderung oder Kompensierung von Verletzungen oder Behinderungen zu unterstützen“.

Eine DiGA, die auf Rezept verschrieben werden kann, ist zunächst einmal ein Medizinprodukt und muss daher eine CE-Kennzeichnung haben. Das reicht aber noch nicht für die Verschreibungsfähigkeit: Eine DiGA soll dann von den Krankenkassen bezahlt werden, wenn sie „positive Versorgungseffekte“ aufweist.

Doch was ist ein positiver Versorgungseffekt, und wie wird er nachgewiesen?

Laut Gesetz soll es Aufgabe des Bundesinstituts für Arzneimittel und Medizinprodukte (BfArM) werden, zu prüfen, welche Gesundheitsapps positive Effekte auf die Versorgung aufweisen. Dazu sollen die DiGA zunächst in Risikoklassen eingeteilt werden, wie sie auch bei (anderen) Medizinprodukten verwendet werden: Medizinprodukte werden seit langem schon in die Risikoklassen I, IIa, IIb und III eingeteilt.

Medizinprodukte der Klasse I bringen bei ihrer Anwendung das geringste Risiko für den Patienten mit sich und werden nicht innerhalb des Körpers (invasiv) eingesetzt. Medizinprodukte der Klasse III sind mit dem höchsten Risiko im Falle einer Fehlfunktion behaftet – hierzu gehören etwa Herzkatheter oder Gelenkprothesen. Die beiden mittleren Klassen IIa (mittleres Risiko) und IIb (erhöhtes Risiko) enthalten etwa solche Produkte wie Einmalspritzen und Kontaktlinsen (IIa) oder Dialysegeräte und Kondome (IIc).

Digitale Anwendungen sollen laut DVG nur den Klassen I und IIa zugehörig sein. Das BfArM prüft „Sicherheit, Funktionstauglichkeit, Qualität, Datenschutz und Datensicherheit“ der App und die besagten „positiven Versorgungseffekte“. Wie das konkret geschehen soll, das ist noch gar nicht klar – dies wird in der Rechtsverordnung zum DVG festgelegt, die es noch nicht gibt.

Welche Evidenz für welche Anwendung?

Nicht alle sind mit der Regelung im DVG glücklich: Das Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG) zweifelt an, dass das BfArM die nötige Kompetenz hat, um Versorgungseffekte zu beurteilen – hier brauche man Leute mit praktischer Erfahrung aus der Patientenversorgung, und somit sei die Beurteilung eine klassische Aufgabe für die gemeinsame Selbstverwaltung von Ärzten, Krankenhäusern und Krankenkassen, beispielsweise in Form des G-BA. (Das IQWiG selbst wurde 2004 gegründet, um diagnostische und therapeutische Verfahren in Deutschland evidenzbasiert zu bewerten.)

„Herkömmliche“, nicht-digitale Diagnose- und Therapieverfahren werden seit langem anhand der Vorgaben der Evidenzbasierten Medizin (EbM) bewertet. Als Goldstandard – also als stärkster möglicher Beleg für den Nutzen einer Therapie – gelten hier die randomisierten kontrollierten Studien (RCTs), bei denen alle möglichen Einflussfaktoren, die das Ergebnis verfälschen könnten, sorgfältig vermieden werden.

Herkömmliche RCTs für Apps ungeeignet

Das Problem dabei: RCTs dauern so lange und sind so aufwendig, dass die verwendete Version einer DiGA bis zum Ende der Studie schon hoffnungslos veraltet wäre. Und im Gegensatz zu großen Pharmakonzernen wird sich kaum ein Startup, zeitlich oder finanziell, eine oder gar mehrere RCTs für seine Produkte leisten können.

Das IQWiG schlägt vor, sich bei der konkreten Bewertung der DiGAs an der Vorgehensweise des britischen National Institute for Health and Care Excellence (NICE) zu orientieren: Hier werden Anwendungen in die Evidenzebenen 1, 2, 3a und 3b eingeteilt. Je höher die Stufe der Anwendung ist, desto strenger die Anforderungen an die zugrunde liegende Evidenz. Oder, in den Worten der NICE-Publikation:

The evidence level needed for each tier is proportionate to the potential risk to users presented by the DHTs in that tier.

Der Evidenzgrad, der für Anwendungen einer bestimmten Ebene verlangt wird, ist proportional zu der potenziellen Gefährdung von Nutzern durch die Anwendungen in dieser Ebene.

Evidenzebenen nach NICE

Anwendungen der Evidenzebene 1 dienen nur organisatorischen Zwecken; hierzu zählen zum Beispiel elektronische Aktensysteme. Sie erfordern den geringsten Nutzennachweis.

Anwendungen der Evidenzebene 2 dienen beispielsweise der Information ihrer Nutzerinnen (entweder über spezifische Erkrankungen oder gesunde Lebensführung im Allgemeinen), haben einfache Monitoring-Funktionen (Schrittzähler, Tagebücher) oder dienen der Kommunikation zwischen Patienten und Akteurin im Gesundheitswesen. Sie setzen eine etwas besser fundierte Evidenzlage voraus.

In Evidenzebene 3a sind all jene Anwendungen eingruppiert, die Verhaltensänderungen bei den Nutzern zum Ziel haben (etwa Apps zur Gewichtsabnahme) oder Patientinnen helfen, eine bestehende Erkrankung besser zu managen, wie Diabetes-Apps. Hier sind die Anforderungen an die Evidenz noch höher.

Die beste Evidenz erfordern schließlich Anwendungen der Ebene 3b, zu denen Diagnose-Apps, Therapie-Apps und telemedizinische Apps mit Telemonitoring (etwa von implantierten Defibrillatoren) zählen.

Die verlangte Beweislage für die Wirksamkeit (oder Nicht-Schädlichkeit) einer App beginnt dementsprechend in Ebene 1 mit einzelnen Erfahrungsberichten, dem Nachweis, dass spätere Nutzerinnen beim Entwurf der App involviert waren, und dem Nachweis, dass Daten innerhalb der App nicht unerwartet verändert werden.

In Ebene 2 muss beispielsweise gezeigt werden, dass die angebotenen Informationen hochwertig und zuverlässig sind, und dass die Nutzung durch Patienten und die Nutzerzufriedenheit ausreichend hoch sind.

In Ebene 3a werden dann schon Beobachtungsstudien oder Interventionsstudien (gemäß den EbM-Grundsätzen) verlangt, und in Ebene 3b dann eine hochwertige Interventionsstudie, im besten Fall sogar eine aufwendige randomisierte kontrollierte Studie (RCT) oder eine Meta-Analyse solcher Studien.

Ein Jahr Zeit für den Nutzennachweis

Ob diese Vorgehensweise schließlich auch in der Verordnung zum DVG umgesetzt wird? Darüber lässt sich heute noch nichts sagen. Klar ist nur, dass Prozesse im deutschen Gesundheitswesen gern mal länger dauern als geplant. Im DVG wurde allerdings vorgesorgt: App-Hersteller haben ein Jahr Zeit, um den Nachweis des positiven Versorgungseffektes zu erbringen (auf welchem Weg dann auch immer) – ihre Apps sind in diesem Jahr aber schon verschreibungsfähig. Die Preise legen die Hersteller selbst fest.