Was bringt KI in der Arzneimittelforschung?

Cognotekt bietet Ihnen kostenlose virtuelle Experten-Gespräche zum Einsatz von stochastischem Lernen (dNN) in der Arzneimittelforschung an. Die drei Termine sind:

  • Montag 24. April 16:00
  • Dienstag 25. April 17:00
  • Mittwoch 26. April 17:00

Melden Sie sich gleich hier an.

Seit etwa 10 Jahren wird versucht, moderne Verfahren maschinellen (stochastischen) Lernens (ML), insbesondere tiefe neuronale Netze (dNN), bei der Entdeckung und Charakterisierung neuer Arzneimittel einzusetzen. Der Hype um die sogenannte “Künstliche Intelligenz” ist groß, Berater wie McKinsey behaupten gar, die Dauer für Forschung und Entwicklung könnte um den Faktor 10 verkürzt werden. Doch darauf weist nichts hin. Die Erfolge sind eher mager. Was kann man wirklich erreichen?

Grundsätzlich ist die Adressierung folgender Bereiche vor dem Tierversuchsstadium denkbar:

  1. Bibliotheksdesign, Molekülgenerierung und Treffersuche (Hitsuche mit virtuellem Screening)
  2. Hit-to-lead-Optimierung durch Modellierung pharmakologischer Eigenschaften (ADMET) und Synthesewege
  3. Simulation von zellfreien oder zellnutzenden in-vitro-Modellen

Traditionell werden in all diesen Bereichen biophysikalische Verfahren eingesetzt. Bevor wir die neuen ML-basierten Verfahren betrachten, schauen wir kurz, was dNN grundsätzlich können. Maschinelles Lernen dient dazu, regelmäßig auftretende Zusammenhänge als Muster in Daten aufzudecken und nutzbar zu machen. Sind solche Muster nicht vorhanden, kann ML nicht wirksam verwendet werden. Im Folgenden zeigen wir auf, wie man solche Muster identifizieren kann, um sie nutzbar zu machen.

Molekülgenerierung

Bis heute sind etwa 100 Millionen kleine Moleküle synthetisiert worden. Doch der Raum möglicher kleiner und stabiler chemischer Verbindungen liegt mit 10^23 bis 10^60 Molekülen deutlich höher. Die Moleküle wurden mit und ohne Hilfe von CADD-Systemen gefunden, ein riesiges Potential bleibt also noch ungenutzt. In silico-Molekülgenerierung könnte dazu beitragen, dieses Potential schneller zu erkunden. Dafür sind folgende Schritte erforderlich:

  1. Virtuelle Moleküle generieren,
  2. Bewertung und
  3. Machbarkeit der Synthese und potentielle Stabilität abschätzen.

Für den ersten Schritt ist es möglich, eine multivariate Repräsentation der bekannten Moleküle in einem stochastischen Vektorraum zu erzeugen. Dabei wird, ähnlich wie bei dem Sprachsequenzmodell GPT4, durch Trainieren eines autoregressiven dNN eine Darstellung regelmäßiger Strukturen innerhalb des verarbeiteten Korpus erzeugt. Bei GPT4 ist dies ein Sprachkorpus, bei Modellen des chemischen Strukturraums verwendet man ein Korpus von Molekülen. Wenn das groß genug ist, wird durch das dNN ein gutes Modell der im Korpus vertretenen Strukturen und ihrer Varianz berechnet. Nun kann man das Modell neue Moleküle erzeugen lassen so wie GPT4 Sprache erzeugt. Diese werden allerdings lediglich Varianten der Strukturen beim Training sein und können keine Strukturen aus heute unbekannten Unterräume des Gesamtraums chemischer Verbindungen erzeugen.

Ein weiteres Problem ist der Mangel an Filteralgorithmen: Wie soll man in silico berechnen, welche Eigenschaften die neuen Moleküle haben? Es gibt für die allgemein wünschenswerten Eigenschaften von Pharmaka: Aufnahme, Verteilung, Metabolisierung, Ausscheidung und Toxizität (ADMET) nicht genug Trainingsmaterial, um diese mit Molekülstrukturen zu korrelieren. Daher müssen fragestellungsspezifische Trainingsdaten erzeugt werden.

Treffersuche

Verfügt man über Kandidatenmoleküle, kann mit Hilfe von maschinellem Lernen (ML) der Versuch gemacht werden, die Bindung an potentielle Liganden mathematisch vorherzusagen. Dafür ist es erforderlich, die Ligandenbindungsstelle, die Affinität der Bindung und die Struktur des Protein-Liganden-Komplexes abzuschätzen. Bindungsstellen oder -taschen können mit ML identifiziert werden, wenn das Zielprotein strukturell mit Proteinen der Trainingsdaten verwandt ist, für die Bindungstaschen bekannt sind. Sind solche Ähnlichkeiten nicht vorhanden, sinkt die Vorhersagekraft der Modelle rasch ab; dies gilt auch trotz der großen Fortschritte im Bereich der Proteinfaltungsvorhersage mit AlphaFold und verwandten Algorithmen. Weil strukturelle Daten zu Proteinen ein entscheidender Faktor zur Identifikation von Bindungstaschen ist, verhindert mangelndes Strutkurwissen bei vielen Proteinen, insbesondere membrangebundenen, eine zuverlässige Vorhersage der Bindungsstellen.

Die mathematische Abschätzung der Affinität von Liganden zu Zielproteinen steckt ebenfalls noch in den Kinderschuhen, weil es nicht gelingt, die komplexe Interaktionskinetik in dicht mit Molekülen gepackten Zellen abzuschätzen. Nicht nur fehlen dafür geeignete Trainingsdaten, sondern die Interaktion von Ligand und Protein hängt von der Verteilung der Zielmoleküle in der Zelle, deren Erreichbarkeit und der Konkurrenz mit anderen interagierenden Molekülen ab.

Antikörperdesign

Nach wie vor sind Antikörper die mit weitem Abstand wichtigste hochwirksame Klasse biologischer Pharmakotherapeutika. Inzwischen werden nicht nur IgG produziert, sondern auch andere Formate entwickelt und verwendet: IgG-Toxin-Konjugate, Antikörperfragmente, bispezifische Antikörper und Antikörperfusionsproteine. Sie alle dienen Zwecken wie der Rezeptor- oder Ligandenblockade, der Zellvernichtung oder der Ligandenbindung im Extrazellulärraum. Das Ausgangsmaterial für den Einsatz von  maschinellem Lernen (ML) im Antikörperdesign sind humane B- und T-Zellbibliotheken, die durch Sequenzierung der für die variablen Regionen kodierenden Nukleinsäuren gewonnen werden und zwischen 10^13 (B-Zellbibliothek) und 10^18 Sequenzen (T-Zellbibliothek) enthalten. Unter anderem kann versucht werden, mit Hilfe dieser Bibliotheken, aus denen wie bei GPT4 mit Hilfe autoregressiver dNN multivariate Sequenzmodelle berechnet werden können, die Antigenspezifität der Sequenzen zu berechnen. Allerdings verstehen wir die Interaktion der VH- mit LH-Kette (variable heavy und light) schlecht und haben noch keine guten Modelle für die Faltung des für die Antigenspezifität entscheidenden CDR-H3-Loops. Daher muss Antikörperdesign heute immer von einer spezifischen Fragestellung ausgehen, für die Daten erzeugt werden, um dedizierte Modelle zu trainieren. Hierfür gibt es schon sehr überzeugende Ergebnisse im Bereich der Anti-Tumorrezeptor-Antikörperforschung.

Die Zukunft des Proteindesigns

Durch den rasanten Fortschritt bei der Proteinstrukturvorhersage mit Modellen wie dem Encoder-Decoder-dNN-Sequenzmodell Alphafold oder ähnlichen Algorithmen wie RoseTTAFOld ist es nun möglich geworden, Proteine de novo zu designen. Dabei können aus zufällig generierten Aminosäuresquenzen mit Hilfe der Modelle oftmals realistische Strukturen vorhergesagt werden. Vor allem können Aminosäuresequenzen ausgegeben werden, die erwünschte funktionale Domänen mit Hilfe weiterer Strukturen zu faltungsfähigen und stabilen Proteinen ergänzen. Außerdem ist es möglich, partielle funktionale Domänen auf Struktur- oder Sequenzebene zu ergänzen. Auf diese Weise ist es nun möglich, Proteine mit vordefinierten funktionalen Eigenschaften zu designen, wie etwa Epitope zur Immunisierung, funktionale katalytische Zentren von Enzymen oder Protein-bindende Proteine. Die besten Modelle sind nun anders als ihre Vorläufer dazu in der Lage, Sequenz und Struktur gemeinsam zu berechnen. Der Weg zum vollständig in silico generierten Designpharmakotherapeutikum ist noch weit, da selbst dann, wenn hochspezifische de-novo-Proteine verfügbar werden, noch Fragen der Expression, Stabilisierung, sinnvollen zellulären oder extrazellulären Lokalisierung und Immugenität/Toxizität gelöst werden, für die wir heute noch keine Antwort haben. Das Feld ist jedoch im gesamten Bereich des in silico-Designs von Makromolekülen am weitesten fortgeschritten.

Cognotekt_RGB_Türkis

Vor welcher Herausforderung
stehen Sie? Schreiben Sie uns.

Dr. Raija Kramer
info@cognotekt.com
+49 221-643065-10