Ein lexoro Whitepaper

Mai 2020

Ausgangslage, Motivation und Standardprozess

Hauptaufgabe der Pharmakovigilanz ist es, durch laufende Überwachung die Sicherheit von Arzneimitteln zu gewährleisten. Wichtig ist es, systematisch alle Fälle von unerwünschten Arzneimittelnebenwirkungen (UAW) zu entdecken, um im weiteren Verlauf passende Maßnahmen zur Risikominimierung einleiten zu können. ICSRs (Individual case safety reports) sind aktuell das Maß der Dinge und bilden die Grundlage für die Pharmakovigilanz. Diese „Reports“ enthalten individuelle Informationen und Daten von verschiedenen Patienten, zur Verfügung gestellt von Healthcare Anbietern aus dem Programm der WHO (World Health Organization).

„Vor dem regulatorischen Hintergrund darf die Fehlerrate nur äußerst
gering sein.“

Durch die beständig wachsende Zahl an Vorschriften und Regularien, wächst auch der Umfang, der durch die Pharmakovigilanz abgedeckt werden muss. Unternehmen müssen daher umdenken, um diese Informationen erfassen, verarbeiten und abschließend regelkonform liefern zu können. Hierbei ist es wichtig zu erwähnen, dass vor dem Hintergrund von „Regulatory affairs“ die Fehlerrate nur in einem äußerst kleinen Bereich liegen darf.

Aktuell finden die Haupttätigkeiten – das Sammeln, Auswerten und Vergleichen der ICSRs – noch manuell statt. Es sind Pharmakovigilanz-Experten notwendig, die sämtlichen Dokumente durchleuchten und nach ihrer Relevanz filtern, um letztendlich genügend Daten zu generieren, die eine Analyse möglich machen. Diese langwierigen Prozesse gilt es zu optimieren, da sie zum einen einen großen Kostenfaktor verkörpern und zum anderen die Experten von Routineaufgaben entlasten können. Durch Künstliche Intelligenz (KI) ist dies schon heute kein Wunschdenken mehr.

Natural Language Processing liefert eine automatisierte Lösung auf höchstem Niveau – bei starker Annäherung an die menschlichen Fähigkeiten!

Umsetzung Informationsextraktion für Pharmakovigilanz

Unsere Aufgabe und Lösung zur Informations-extraktion in Kürze dargestellt: Es sollen alle Fälle von UAW (Nebenwirkungen) im Text der ICSRs und wissenschaftlichen Publikationen erkannt werden. Die Lösung markiert alle Textstellen, in denen eine UAW für einen Patienten beschrieben wird. Das Fundament bilden zwei wesentliche Features des Natural Language Processing – das sog. „Named-Entity Recognition (NER)“ und „Relation Extraction“ (oftmals auch: Relationship Extraction).

Das Fundament bilden zwei wesentliche Features des
Natural Language Processing –
Named-Entity Recognition und Relation Extraction.“

Unser Ansatz für einen Proof of Concept zur Lösung der Herausforderung: im ersten Schritt werden die komplexen Textdokumente in einzelne Sätze aufgespalten.
Mittels NER werden im Anschluss die Sätze nach Schlüsselbegriffen („Entitäten“) geordnet, um durch Relation Extraction die wichtigen Satzfragmente (z.B Medikamente, Nebenwirkung etc.) und deren Beziehung zueinander entschlüsseln zu können.
Dieser Prozess ist in nachstehender Abbildung anhand eines Beispiels dargestellt.

Darstellung von Entitäten (Patient, Medikament, etc.) und deren Beziehungen

Das Ergebnis: Darstellung der Nebenwirkungen mit den Zusammenhängen – bereit zur Implementierung in eine Ergebnisdatenbank.

Trefferquote und Vergleich zu ähnlichen Lösungsansätzen

Wie bereits angesprochen, nähert sich unser Lösungsansatz in seiner Leistung bedeutend an die menschlichen Fähigkeiten an – und dies bereits nach einem geringen Aufwand während des Proof-of-Concepts. Des Weiteren übertrifft lexoro hierbei die Konkurrenz bei den Testergebnissen deutlich.
Bei Machine Learning-Ansätze werden vor allem zwei prozentuale Richtwerte zu Rate gezogen – „Precision“ und „Recall“. Precision bestimmt die Verlässlichkeit einen Treffer (hier: UAW) zu bestimmen – also die „Genauigkeit“, während der Recall das Verhältnis der KI-gefundenen Treffer (hier: UAW) aus der tatsächlichen Trefferliste (100%) beschreibt – also die „Trefferquote“. Precision und Recall können im besten Fall jeweils maximal 100% betragen.

„Unser Ansatz übertrifft die Konkurrenz – mit deutlicher Annäherung an menschliche Fähigkeiten – bereits nach einem Proof of Concept.“

In nachfolgender Grafik sind drei Ergebnisse aufgelistet. Precision/Recall-Resultate unserer Konkurrenz (70/70), menschliche Fähigkeiten (90/90) und die Erkenntnisse unseres Proof of Concepts (80/80). Wie Sie sehen kommt auch der Mensch an seine Grenzen, dicht gefolgt von unserem Proof-of-Concept, entwickelt mit unserer lexoro-Lösung.

Precision/Recall-Resultate für verschiedene Lösungsansätze im Vergleich zum Menschen

Vergleich zur aktuellen IST-Situation enorm gesenkt. Mitarbeiter werden entlastet und können stattdessen anderen Tätigkeiten nachgehen.
Da der Ansatz der Lösung auf Machine Learning beruht, ist die Umsetzung für andere Anwendungsfälle innerhalb und außerhalb der Pharmabranche nur eine Frage des Trainings. Andere Parameter und Modelle machen die Lösung auf so gut wie jede Art der Informationsgewinnung aus Texten sinnvoll. Und das entscheidende hierbei: der Erfolg bzw. die Funktionalität der Informationsextraktion ist durch klare Metriken belegbar. Alles basierend auf einem Proof of Concept mit einer Projektdauer von etwa 3-4 Wochen. Die Trefferquote und Genauigkeit könnten durch weiteres Training und Fine Tuning durch die Implementierung weiterer Daten noch gesteigert werden.

Natural Language Processing Projekte – Allgemein

Die Darstellung oben zeigt, wie wir im Allgemeinen NLP-Projekte strukturiert durchführen. Step 01 beinhaltet ein kostenfreies Brainstorming (Online oder vor Ort), um die Probleme, Ziele und das weitere Vorgehen zu besprechen. Hilfreiche Informationen vorab: eine präzise Prozesserklärung, um die Arbeitsschritte zu verstehen und mögliche Input-/Output-Dateien, die während des Prozesses verarbeitet werden. In Step 02 findet die Einschätzung der Situation und Machbarkeit statt, gefolgt von einem Angebot und der anschließenden Bearbeitung eines Proof of Concepts (PoC). Step 03 dient zur Auslieferung des PoCs mit anschließendem Feedback zur Machbarkeit und eventuellen Änderungen einer Gesamtlösung. Die Demo-Version wird für die erste interne Nutzung bereitgestellt. In Step 04 findet eine umfangreiche Planung zur Implementierung einer Gesamtlösung nach agilem „Sprintmodell“ statt. In der Regel dauert ein NLP-PoC ca. 4-6 Wochen – abhängig von Umfang und Komplexität.

„Ihr Vorteil: unser agiles Sprint-Modell. Anpassungen und Erweiterungen sind jederzeit möglich.“

Für eine umfangreiche NLP-Lösung, wie in diesem Beispiel beschrieben, werden – aufgrund von Komplexität und Umfang – ca. 3-4 Monate veranschlagt.

Ihr Vorteil hierbei: unser agiles Sprint-Modell. Wir teilen unsere Projekte in Sprints von 2 Wochen ein. So können Sie selbst das Budget bestimmen und entscheiden, wie weit die Entwicklungen gemacht werden sollen. Sie entwickeln Ihr eigenes Produkt mit den exakt auf Sie zugeschnittenen Anforderungen.
Somit können Sie zu jeder Zeit Anpassungen und Erweiterungen implementieren.
Sie habe die volle Kontrolle und eines ist sicher: Innerhalb kürzester Zeit werden beachtliche Erfolge sowohl für Ihr Unternehmen, als auch für Ihre Mitarbeiter erzielt.

Wenn Sie erfahren wollen, wie wir Natural Language Processing in weiteren Projekten in der Pharmabranche und anderen Anwendungsbereichen erfolgreich umgesetzt haben, sprechen Sie uns gerne an.

Interesse?

Dann kontaktieren Sie uns direkt persönlich:

    Oder rufen Sie uns an.

    Sebastian van der Meer unter:

    +49 (0) 89 – 588 04 36 – 12