Eine auf trennbaren zeitlichen Faltungsnetzwerken basierende Deep-Learning-Technik zur Entdeckung antiviraler Medikamente
Scientific Reports Band 13, Artikelnummer: 13722 (2023) Diesen Artikel zitieren
2985 Zugriffe
5 Altmetrisch
Details zu den Metriken
Eine alarmierende Zahl von Todesfällen durch die COVID-19-Pandemie hat die wissenschaftliche Gemeinschaft gezwungen, den Prozess der Entdeckung therapeutischer Arzneimittel zu beschleunigen. In diesem Zusammenhang hat die Zusammenarbeit zwischen biomedizinischen Wissenschaftlern und Experten für künstliche Intelligenz (KI) zur Entwicklung einer Reihe von In-silico-Tools für das erste Screening therapeutischer Moleküle geführt. Alle lebenden Organismen produzieren antivirale Peptide (AVPs) als Teil ihrer ersten Verteidigungslinie gegen eindringende Viren. Das in diesem Artikel vorgeschlagene Deep-AVPiden-Modell und die entsprechende Web-App, die unter https://deep-avpiden.anvil.app bereitgestellt wird, sind ein Versuch, neuartige AVPs in Proteomen lebender Organismen zu entdecken. Neben Deep-AVPiden wurde auch ein recheneffizientes Modell namens Deep-AVPiden (DS) entwickelt, das dasselbe zugrunde liegende Netzwerk verwendet, jedoch punktweise trennbare Faltungen aufweist. Die Modelle Deep-AVPiden und Deep-AVPiden (DS) zeigen eine Genauigkeit von 90 % bzw. 88 % und beide haben eine Präzision von 90 %. Außerdem wurden die vorgeschlagenen Modelle mithilfe des Student-t-Tests statistisch verglichen. Beim Vergleich der vorgeschlagenen Modelle mit den Klassifikatoren nach dem neuesten Stand der Technik wurde festgestellt, dass diese viel besser sind als diese. Um das vorgeschlagene Modell zu testen, identifizierten wir einige AVPs in den natürlichen Abwehrproteinen von Pflanzen, Säugetieren und Fischen und stellten fest, dass sie eine erhebliche Sequenzähnlichkeit mit einigen experimentell validierten antimikrobiellen Peptiden aufweisen. Diese AVPs können chemisch synthetisiert und auf ihre antivirale Aktivität getestet werden.
Die Entdeckung neuartiger antimikrobieller Medikamente, die lebensbedrohliche Krankheitserreger abtöten oder hemmen, erregt aufgrund der Unfähigkeit und Ineffizienz herkömmlicher Antibiotika große Aufmerksamkeit. Es ist jedoch wichtig, dass die neue Klasse von Therapeutika eine hohe Wirksamkeit, ein breites Wirkungsspektrum und nur wenige oder keine Nebenwirkungen auf die menschliche Gesundheit aufweisen muss. In dieser Richtung können Medikamente entwickelt werden, die antimikrobielle Peptide (AMPs) verwenden, die einen integralen Bestandteil der natürlichen ersten Verteidigungslinie lebender Organismen bilden. Heutzutage hat die Analyse und Modellierung von AMPs mithilfe von maschinellem/tiefem Lernen an Fahrt gewonnen1,2,3,4,5,6,7. Deep-Learning-basierte Sequenzmodellierungstechniken wie rekurrente neuronale Netze (RNNs), Netze des Langzeit-Kurzzeitgedächtnisses (LSTM), zeitliche Faltungsnetze (TCNs)8,9 usw. können effektiv zur Entwicklung robuster Modelle zur Klassifizierung und Entwicklung eingesetzt werden Entdecken Sie neuartige therapeutische Peptide wie AMPs, Anti-Krebs-Peptide10,11 usw. in Proteomen verschiedener Lebensformen. Beachten Sie, dass es sich bei der Sequenzmodellierung um eine Technik handelt, die sequentielle Daten ein- und ausgibt, die in Form von Text, Audio, Video usw. vorliegen können. Zu diesem Zweck wurde RNN als Deep-Learning-Architektur zur Erfassung von Abhängigkeiten zwischen den Einheiten einer gegebenen Einheit entwickelt Reihenfolge, um Vorhersagen zu treffen. Aufgrund des Problems des verschwindenden Gradienten ist es jedoch nicht möglich, Abhängigkeiten zwischen diesen Einheiten über große Entfernungen zu erfassen. LSTMs wurden als Verbesserung gegenüber RNNs vorgeschlagen, da sie dieses Problem überwinden, indem sie einen Gating-Mechanismus (Eingabe-, Ausgabe- und Vergessenstore) verwenden, um sich die Korrelation zwischen den Einheiten über einen langen Bereich zu merken. Allerdings benötigen LSTMs mehr Speicher als RNNs, um Teilergebnisse zu speichern. Darüber hinaus arbeiten RNN- und LSTM-basierte Modelle sequentiell, sodass die Einheiten einer bestimmten Sequenz (auch Zeitschritte genannt) nicht parallel verarbeitet werden können. Solche Mängel sind bei TCNs jedoch nicht vorhanden. Die von dieser Deep-Learning-Architektur durchgeführten Berechnungen können problemlos auf Multi-Core-Verarbeitungssystemen verteilt und parallelisiert werden und verbrauchen außerdem nicht viel Speicher.
Mithilfe dieser Deep-Learning-Algorithmen wurden mehrere Modelle zur Klassifizierung antiviraler Peptide (AVPs) erstellt. Beachten Sie, dass AVPs eine Unterklasse von AMPs sind, die den Wirt gegen eindringende Viren angreifen, indem sie ihn oder die Wirtszellen angreifen, um die Virusreplikation zu hemmen. Einige AVPs sind viruzid, weil sie entweder das virale Protein außerhalb der Wirtszelle hemmen oder um die Verknüpfungsstelle auf der Zellmembran des Wirts konkurrieren12. Im Gegensatz dazu beeinträchtigen einige andere verschiedene Phasen des viralen Lebenszyklus, wie etwa die virale Genexpression, Replikation usw. Interessanterweise sind zahlreiche AVPs in den Proteomen von Säugetieren, Pflanzen, Fischen und anderen lebenden Organismen vorhanden. Eine Familie von AVPs namens Cyclotide, die in Pflanzen vorkommt, verhindert, dass sich eine Vielzahl menschlicher Viren wie das humane Immundefizienzvirus (HIV)13, H1N114 und Denguefieber15 an die Zellmembran des Wirts binden. Das aus einer Motte gewonnene Cecropin-A wirkt gegen HIV, indem es dessen genetische Expression unterdrückt. In ähnlicher Weise hat eine Familie antimikrobieller Peptide (AMPs), bekannt als Dermaseptine, die in Fröschen der Gattung Phyllomedusa vorkommen, ein viruzides Potenzial gegen HIV-116 gezeigt. Apropos aus Meeresorganismen gewonnene AVPs: Eine als Clavanine bekannte Peptidklasse hemmt die Virulenz des Herpes-simplex-Virus (HSV), des Rotavirus und des Adenovirus17.
Einige der Deep-Learning-basierten Tools zur Klassifizierung von AVPs sind wie folgt. Das Deep-AVPred-Modell verwendet Convolutional Neural Networks (CNNs) für die Vorhersage und Entdeckung von AVPs18, während DeepAVP19 dafür sowohl bidirektionales LSTM als auch CNN verwendet. Im Jahr 20 führten die Autoren mithilfe von Bi-LSTM, CNN und Support Vector Machine (SVM) eine Multi-Label-Klassifizierung durch, um mehrere funktionelle Aktivitäten eines Peptids vorherzusagen (antiviral, anti-HIV, antibakteriell, antimykotisch usw.). Schließlich trainierten die Autoren von21 verschiedene Maschinen-/Deep-Learning-Architekturen wie Transformers, CNNs, Bi-LSTM, Random Forests (RFs) und Support Vector Machine (SVM) auf einer Reihe von AVPs und stellten fest, dass RF mit Word2Vec-Darstellungen am besten ist -Leistungsfähiges Modell (iACVP) zur Vorhersage von Anti-Coronavirus-Peptiden. Deep-Learning-Architekturen wie CNN sind nicht in der Lage, weitreichende Abhängigkeiten zwischen den Einheiten eines AVP, also den Aminosäuren (AAs), zu erfassen. Die Bi-LSTM-basierten Modelle umgehen diesen Nachteil, jedoch nicht bei sehr langen Sequenzen. Außerdem nimmt das Training und die Optimierung eines Bi-LSTM-Modells viel Zeit in Anspruch (aufgrund seiner sequentiellen Ausführung und nicht parallelisierbaren Architektur) und verbraucht auch viel Speicher22. Zusammenfassend lässt sich sagen, dass ein erhebliches Problem für tiefe neuronale Netze die rechenintensive Art des Trainings und Betriebs ist. Mit anderen Worten: Deep-Learning-Modelle verbrauchen beim Training viele Rechenressourcen. Sie sind groß, was ihre Schulung und ihren Einsatz in ressourcenbeschränkten Umgebungen sehr schwierig macht.
Abgesehen von den Deep-Learning-Algorithmen haben Forscher einige quantifizierbare Eigenschaften von Peptiden (bekannt als ihre physikalisch-chemischen, kompositorischen und strukturellen Eigenschaften) mit maschinellen Lernalgorithmen wie SVM, Random Forests (RFs) usw. verwendet, um AVP-Klassifikatoren zu erstellen. Die Autoren von23 nutzten zur Klassifizierung von AVPs mehrere handgefertigte Merkmale, die aus Peptidsequenzen abgeleitet wurden, z. B. Motive, Aminosäurezusammensetzung und einige physikalisch-chemische Eigenschaften. Das AntiVPP 1.0-Modell verwendet den RF-Algorithmus, der Zusammensetzungs- und physikalisch-chemische Merkmale verwendet, um antivirale Peptide vorherzusagen. Pang et al.24 schlugen das auf RFs basierende AVPiden-Modell vor, um eine zweistufige Klassifizierung durchzuführen. In der ersten Stufe werden Peptide in AVPs und Nicht-AVPs kategorisiert, und in der zweiten Stufe wird das Potenzial von AVPs gegen acht Arten von Viren und sechs Virusfamilien vorhergesagt. In25 verwendeten die Autoren vier Algorithmen für maschinelles Lernen, nämlich SVMs, RFs, instanzbasierter Klassifikator und K-Star, um eine AVP-Klassifizierung unter Verwendung physikalisch-chemischer Eigenschaften mit Aminosäurezusammensetzung, dem binären Profil von Resten usw. durchzuführen. Das ENNAVIA-Modell26 nutzt physikalisch-chemische und kompositorische Merkmale einer tiefen neuronalen Netzwerkarchitektur zur Klassifizierung von AVPs und Nicht-AVPs. In einer weiteren Studie27 verwendeten die Autoren zu diesem Zweck sechs Algorithmen für maschinelles Lernen. Das PreTP-Stack-Modell basiert auf zehn Funktionen und vier Algorithmen für maschinelles Lernen28. Schließlich haben Chowdhury et al. im FIRM-AVP-Modell29 verwendete drei Techniken des maschinellen Lernens zum Erstellen eines AVP-Klassifikators und stellte fest, dass das SVM-basierte Modell die beste Leistung erbringt. Der größte Nachteil der Verwendung von Modellen, die auf maschinellem Lernen basieren, ist die zusätzliche Belastung durch das Erstellen, Sammeln und Verfeinern manuell entwickelter Funktionen, die als Eingabe dienen. Außerdem bleiben die Modelle für maschinelles Lernen hinsichtlich der Leistung hinter ihren Deep-Learning-Pendants zurück, wenn der Datensatz groß ist. Ein weiterer Mangel dieser Studien besteht darin, dass die meisten von ihnen nicht über dedizierte Webserver verfügen, um Forschern in Nasslaboren bei der Entdeckung und Klassifizierung von AVPs zu helfen30.
Um die meisten der oben genannten Mängel zu überwinden, schlagen wir ein auf TCNs8,9,22 basierendes Modell namens Deep-AVPiden für die Klassifizierung und Entdeckung von AVPs vor. Die TCNs werden häufig zur Sequenzmodellierung eingesetzt, da sie schneller als Bi-LSTM-Netzwerke sind und im Gegensatz zu CNNs auch weitreichende Abhängigkeiten problemlos erfassen können. Das vorgeschlagene Modell ist darauf trainiert, AVPs in Proteinen verschiedener Organismen wie Säugetiere, Pflanzen, Amphibien, Fische, Arthropoden usw. zu identifizieren. Die Leistung des Modells wurde mit den bestehenden hochmodernen Klassifikatoren wie AVPIden, ENNAVIA, iAMP verglichen. CA2L, Meta-iAVP, PreTP-Stack, iACVP und DeepAVP, und die Ergebnisse zeigen, dass es besser abschneidet als diese. Darüber hinaus haben wir auch ein alternatives Modell mit in der Tiefe trennbaren Faltungen vorgeschlagen, das die Anzahl der Trainingsparameter im Vergleich zu Standardfaltungen drastisch reduziert. Das mit dieser Technik trainierte Modell heißt Deep-AVPiden (DS). Mit beiden Modellen wurde eine Web-App erstellt und unter https://deep-avpiden.anvil.app/ bereitgestellt. Neben der Klassifizierung von AVPs kann diese App auch AVPs in Proteinen entdecken. Um die Funktionsweise dieser App zu veranschaulichen, haben wir einige AVPs in mehreren antiviralen Proteinen gefunden, die in Säugetieren, Pflanzen und Fischen vorkommen. Die wichtigsten Beiträge dieses Papiers werden wie folgt aufgeführt.
Zur Unterscheidung zwischen AVPs und Nicht-AVPs wurde ein neuartiges, auf TCNs basierendes Deep-Learning-Modell namens Deep-AVPiden vorgeschlagen.
Es wurde auch ein alternatives Modell namens Deep-AVPiden (DS) vorgeschlagen, bei dem es sich um eine weniger rechen- und speicherintensive Version von Deep-AVPiden handelt, das punktweise trennbare TCNs verwendet. Dieses Modell kann problemlos auf Geräten mit eingeschränkten Ressourcen zur Erkennung von AVPs eingesetzt werden.
Eine auf diesen Modellen basierende Web-App wurde unter https://deep-avpiden.anvil.app/ erstellt und bereitgestellt, mit der Möglichkeit, AVPs in Proteinsequenzen zu entdecken, um Nasslaborforscher zu unterstützen.
Mithilfe der App wurden 15 AVPs in Proteinen von Pflanzen, Säugetieren und Fischen identifiziert und für die chemische Synthese und experimentelle Validierung vorgeschlagen.
Die vorgeschlagenen Modelle wurden mit den modernsten Klassifikatoren verglichen und zeigten eine bessere Leistung als diese.
Die vorgeschlagenen Modelle wurden statistisch analysiert und mit dem Student-t-Test verglichen.
Der Rest des Papiers ist in Abb. 1 dargestellt und wie folgt gegliedert. Im Abschnitt „Materialien und Methoden“ werden kurz der Datensatz und die Methoden beschrieben, die zum Aufbau des vorgeschlagenen Modells Deep-AVPiden verwendet wurden. Der Abschnitt „Vorgeschlagenes Modell“ enthält eine detaillierte Beschreibung unseres Modells. Der Abschnitt „Ergebnisse und Diskussionen“ umfasst den Vergleich der vorgeschlagenen Modelle untereinander und mit den vorhandenen Klassifikatoren nach dem neuesten Stand der Technik. Hier haben wir auch die vorhergesagten AVPs in antiviralen Proteinen von Pflanzen, Säugetieren und Fischen vorgestellt. Abschließend wurden im Abschnitt „Schlussfolgerung“ die abschließenden Bemerkungen und Ausblicke auf zukünftige Arbeiten erläutert.
Das Layout der vorgeschlagenen Arbeit.
In diesem Abschnitt beschreiben wir den Datensatz und die Sequenzmodellierungstechnik, die zum Aufbau des Deep-AVPiden-Modells verwendet wurden.
Die vorgeschlagenen Modelle verwenden Peptide als Datenpunkte, bei denen es sich im Wesentlichen um alphabetische Zeichenfolgen handelt, bei denen jeder Buchstabe eine Standardaminosäure darstellt. Die AVPs wurden aus verschiedenen Quellen wie AVPdb31, HIPdb32, der starPep-Datenbank33,34,35, DRAMP36 und SATPdb37 gesammelt. Die Nicht-AVPs wurden der Swiss-Prot-Datenbank38 und AVPdb entnommen. Nach dem Sammeln von 10.500 AVPs und 9.000 Nicht-AVPs wurde eine Datenbereinigung durchgeführt. Peptide, die aus nicht standardmäßigen Aminosäuren (B, J, O, U, X und Z) bestanden und weniger als fünf oder mehr als fünfzig Aminosäuren enthielten, wurden entfernt. Dann verwendeten wir das Programm CD-HIT39,40,41 separat für die AVPs und Nicht-AVPs mit einem Schwellenwert von 0,9, um ähnliche Sequenzen aus den AVPs bzw. Nicht-AVPs herauszufiltern. Um Leistungsverzerrungen aufgrund des Ungleichgewichts in der Anzahl der zu jeder Klasse gehörenden Instanzen zu vermeiden, haben wir nach dem Zufallsprinzip 699 Nicht-AVPs entfernt. Der endgültige Datensatz bestand aus 5414 Peptiden (darunter 2707 AVPs und 2707 Nicht-AVPs), die dann in Training (70 % der Datenpunkte), Test (15 % der Datenpunkte) und Validierung (15 % der Datenpunkte) unterteilt wurden der Datenpunkte) setzt.
Die durch alphabetische Zeichenfolgen dargestellten Datenpunkte wurden tokenisiert und mithilfe einer Eins-zu-eins-Zeichen-zu-Ganzzahl-Zuordnung in numerische Zeichenfolgen umgewandelt. Dies geschah, um die Eingabe in ein computerverständliches Format umzuwandeln. Da der Datensatz numerische Zeichenfolgen unterschiedlicher Länge umfasste, wurden die Zeichenfolgen mit Längen im Intervall [5,49] aus Gründen der Einheitlichkeit mit zusätzlichen Nullen aufgefüllt, bis ihre Länge 50 betrug. Dieser resultierende Satz numerischer Zeichenfolgen wurde in das Training dreigeteilt: Validierung und Testsätze. Anschließend wurde der Trainingssatz verwendet, um eine Worteinbettungsmatrix zu generieren (ausführlich beschrieben im Abschnitt „Vorgeschlagenes Modell“).
Worteinbettungstechniken wandeln jedes Wort (die Zahlen, die Aminosäurereste darstellen) in einen Vektor fester Länge um. One-Hot-Encoding (OHE) und Word2vec sind die am häufigsten für diesen Zweck verwendeten Methoden. Es gibt zwei beliebte Word2vec-Algorithmen: das Skip-Gram und den Continuous Bag of Words (CBoW), die jedes Wort (dargestellt durch einen One-Hot-Vektor) unter Verwendung seines Kontexts (der sich auf die umgebenden Wörter bezieht) in einen Merkmalsvektor fester Länge umwandeln ein bestimmtes Wort in den Datenpunkten des Trainingssatzes). Somit erhalten semantisch ähnliche Wörter ähnliche Merkmalsvektordarstellungen.
Temporale Faltungsnetzwerke (TCNs) bestehen aus einem oder mehreren Blöcken eindimensionaler Faltungsschichten (1D-CONV). In diesen Schichten können die Filterabgriffe nicht aufeinanderfolgende auf die Eingabeeinheiten oder Zeitschritte angewendet werden. Mit anderen Worten: Die erweiterten Faltungen werden verwendet. In diesem Fall ist es nicht erforderlich, dass in einer bestimmten 1D-CONV-Schicht die Filterabgriffe in aufeinanderfolgenden Zeitschritten angewendet werden müssen. Dies wird durch die Größe des Dilatationsfaktors (d) gesteuert, der das Empfangsfeld erhöht (was im Wesentlichen bedeutet, dass die Schichten Abhängigkeiten zwischen Zeitschritten über einen langen Bereich erfassen können).
Es gibt zwei Arten zeitlicher Faltungsnetzwerke: akausal und kausal. In kausalen TCNs verwendet eine CONV-Schicht nur die vergangenen Zeitschritte (1 bis t-1), um die Ausgabe zu einem Zeitschritt t zu berechnen, während in akausalen TCNs die vergangenen und zukünftigen Einheiten für diesen Zweck verwendet werden. In dieser Arbeit wurden kausale TCNs zum Aufbau der Modelle verwendet. Die Faltungsoperation (C(t)) an der Position t in einer erweiterten kausalen 1D-CONV-Schicht mit einem Erweiterungsfaktor von d ist durch Gleichung (1) gegeben. (1)22.
Hier ist x die Eingabe in die Ebene, \(*_d\) ist die Faltungsoperation und f ist ein 1D-Filter der Größe k. Wir können Sprungverbindungen in einem TCN-Block verwenden, von denen bekannt ist, dass sie das Problem verschwindender/explodierender Gradienten verhindern und sogar verwendet werden können, um das Degradationsproblem und die Überanpassung zu verhindern42. Jeder Restblock besteht aus zwei 1D-CONV-Schichten, und eine Sprungverbindung wird eingeführt, indem der Eingang eines Blocks mit seinem Ausgang hinzugefügt wird. Dadurch wird ein regulärer TCN-Block in einen restlichen TCN-Block umgewandelt, dessen Ausgabe (y) der angegebenen Gleichung entspricht.
Hier ist F(x) die Ausgabe der letzten Schicht des TCN-Blocks und die Aktivierung ist eine nichtlineare Funktion (z. B. ReLU). Übersprungsverbindungen ermöglichen es dem Restblock, eine Identitätsfunktion der Eingabe zu lernen, was zur Stabilisierung des Lernprozesses in tiefen neuronalen Netzen beitragen kann.
Das Konzept der tiefenweise trennbaren Faltungen (DwSCs) entstand aufgrund des wachsenden Interesses der Forschungsgemeinschaft an der Erstellung kleiner und effizienter Modelle. Vor der Konzeption dieser Idee wurden entweder die vorab trainierten Modelle komprimiert oder die zugrunde liegenden Netzwerke flach gemacht. Als Alternative wurden DwSCs 43 eingeführt und später 44,45 erfolgreich zum Trainieren tiefer ConvNets eingesetzt. Es faktorisiert eine Standardfaltungsoperation in zwei Teile, nämlich Tiefen- und Punktfaltungen, die wie folgt beschrieben werden.
Tiefenweise Faltungen: In dieser Phase wird ein einzelner Filter separat auf jeden Eingangskanal angewendet. Wenn wir also in einer Standardfaltungsoperation N Filter der Größe 1 X \(f_k\) X \(n_c\) anwenden müssten (\(f_k\) ist die angegebene Filtergröße und \(n_c\) ist die Zahl Anzahl der Kanäle) auf einer 2D-Matrix der Größe 1 XMX \(n_c\), würde nur ein Filter der Größe 1 X \(f_k\) 1 X \(M'\) X \(n_c\).
Punktweise Faltungen: Eine 1 x 1-Faltungsschicht mit N Filtern der Größe 1 x 1 x \(n_c\) wird auf die Ausgabe der tiefenweisen Faltungen angewendet. IT=t ergibt eine Ausgabe der Größe 1 X \(M'\) X N.
Diese Art der Faktorisierung reduziert die Anzahl der im Netzwerk verwendeten Trainingsparameter, was zu einer erheblichen Reduzierung der Anzahl der Berechnungen während der Modelltrainingsphase führt. Das resultierende Modell wird in kürzerer Zeit trainiert, verbraucht weniger Platz und kann effizient trainiert und auf Plattformen mit eingeschränkten Ressourcen, einschließlich Mobilgeräten, bereitgestellt werden.
Wie in Abb. 2 dargestellt, besteht das Deep-AVPiden-Modell aus vielen Schichten, die wie folgt beschrieben werden.
Die Deep-AVPiden-Architektur.
Einbettungsschicht: In dieser Arbeit wurde der Skip-Gram-Algorithmus verwendet, um mithilfe der in unserem Trainingssatz enthaltenen Datenpunkte eine Worteinbettungsmatrix für 20 Standard-Aminosäurereste zu erstellen. Diese Ebene wandelt die numerische Zeichenfolge in eine (50,512)-Merkmalsmatrix um (wobei das erste Element die Größe jeder numerischen Zeichenfolge angibt und das andere Element die Größe der Merkmalsvektordarstellung fester Länge einer Aminosäure ist).
Spatial Dropout-Ebene: Diese Ebene führt eine Regularisierung durch, indem sie Spalten (Frames) aus der Feature-Matrix anstelle einzelner Elemente löscht. Diese Schicht wird gegenüber der normalen Dropout-Schicht bevorzugt, wenn die Korrelation zwischen den Frames hoch ist. Das Deep-AVPiden-Modell verwendet eine 1D-räumliche Dropout-Schicht nach der Einbettungsschicht (mit einer Dropout-Rate von 0,5).
TCN-Blöcke: Dieses Modell verwendet eine erweiterte kausale TCN-Architektur. Es enthält zwei parallele TCN-Blöcke bestehend aus 1D-CONV-Schichten mit einer Skip-Verbindung. Der Unterschied zwischen den beiden Blöcken liegt in der Größe der darin verwendeten Filter. Diese Schichten verwendeten eine gleichgerichtete lineare Einheit (ReLU) als Aktivierungsfunktion. Wir haben zwischen den Schichten Batch-Normalisierungsschichten verwendet, um den Lernprozess zu stabilisieren. Was den Dilatationsfaktor d betrifft, erhöht er sich in den aufeinanderfolgenden Schichten um den Faktor 2 (wir haben d= 1, 2 und 4 verwendet).
Global Average Pooling (GAP)-Schicht: Nach jedem TCN-Block wird eine 1D-GAP-Schicht verwendet. Es berechnet den Durchschnitt der aus den TCN-Blöcken erhaltenen Feature-Map.
Verkettungsschicht: Sie kombiniert einfach die Ausgabe der beiden GAP-Schichten zur weiteren Verarbeitung.
Dichte Schicht mit Dropout: Nach der Verkettungsschicht wurde eine dichte Schicht eingefügt. Es enthält 64 Einheiten und verwendet ReLU als Aktivierungsfunktion. Nach dieser Schicht wird eine Dropout-Schicht eingearbeitet, um eine Überanpassung zu verhindern.
Ausgabeschicht: Diese Schicht besteht aus einem Neuron, das die Sigmoidfunktion zur Aktivierung verwendet. Die Ausgabe dieses Neurons ist eine reelle Zahl, die im Intervall [0,1] liegt. Ein Peptid wird als AVP vorhergesagt, wenn die Ausgabe größer oder gleich 0,5 ist.
Neben dem Training des Modells mithilfe von Standardfaltungen wurden auch in der Tiefe trennbare Faltungen verwendet, um ein effizienteres Modell (im Hinblick auf Rechenleistung und Speicherplatz) zu erstellen. Mit anderen Worten, es wurden zwei Modelle vorgeschlagen, von denen ein Modell restliche TCN-Netzwerke umfasst, die Standardfaltungen verwenden. Im Gegensatz dazu wurden die 1D-CONV-Schichten in den TCN-Blöcken durch tiefen- und punktweise Faltungsschichten ersetzt. Diese Modelle wurden im Abschnitt „Ergebnisse und Diskussionen“ verglichen und diskutiert.
In diesem Abschnitt werden die Details zum Setup vorgestellt, das zum Trainieren der Modelle verwendet wurde, gefolgt von ihrem Vergleich mit den hochmodernen Modellen basierend auf den angegebenen Leistungsmetriken. Außerdem wurde eine Pilotstudie der kostenlosen Web-App durchgeführt und anhand einiger repräsentativer Proteinsequenzen aus verschiedenen Organismen ausgearbeitet.
Die vorgeschlagenen Modelle wurden auf einem Rechenknoten mit 2,4-GHz-Intel-Xeon-Skylake-6148-CPU-Prozessoren mit 192 GB RAM und NVIDIA V100-Grafikprozessoreinheiten mit 16 GB RAM trainiert. Wir haben Python zum Codieren und bestimmte Bibliotheken wie Keras mit Tensorflow46 als Backend und die Keras-TCN-Bibliothek47 verwendet. Diese Modelle wurden mithilfe eines Testsatzes mit verschiedenen hochmodernen Klassifikatoren wie DeepAVP19, AVPIden24, iAMP-CA2L20, ENNAVIA26, Meta-iAVP27, PreTP-Stack28 und iACVP21 verglichen. Beachten Sie, dass wir nur mit den Modellen verglichen haben, die identische und homologe Sequenzen aus ihrem Datensatz entfernt haben. Dies ist wichtig, um eine Verzerrung der Leistung eines Modells zu verhindern. Darüber hinaus klassifizieren ENNAVIA und AVPIden nur Sequenzen mit Längen, die im Intervall [7,40] bzw. [8,50] liegen. Außerdem klassifiziert iACVP Sequenzen mit mehr als 5 AA-Resten. Als diese Modelle ausgeführt wurden, wurde der Testsatz entsprechend ihren Spezifikationen zusammengestellt. Außerdem wurde nach Erhalt der Ergebnisse von iAMP-CA2L beobachtet, dass dieses Modell manchmal den Funktionstyp eines AMP nicht kennzeichnet (z. B. ob das klassifizierte AMP antibakteriell oder antiviral ist usw.). Um Unklarheiten zu vermeiden, haben wir solche Instanzen aus dem Testsatz entfernt und gleichzeitig die Ergebnisse für iAMP-CA2L angegeben.
Die Modelle wurden anhand bestimmter Leistungsmetriken wie Genauigkeit, Präzision und der Fläche unter der Receiver Operating Characteristic Curve (AUC-ROC) verglichen. Alle diese Kennzahlen können als True Positives (TPs oder die Anzahl der AVPs, die korrekt identifiziert wurden), False Positives (FPs oder die Anzahl der Nicht-AVPs, die fälschlicherweise als AVPs identifiziert wurden) und True Negatives (TNs) ausgedrückt werden , oder die Anzahl der Nicht-AVPs, die korrekt identifiziert wurden), False Negatives (FNs, oder die Anzahl der AVPs, die fälschlicherweise als Nicht-AVPs identifiziert wurden). Es ist offensichtlich, dass das Deep-AVPiden-Modell andere Modelle deutlich übertrifft.
Bei der Erstellung des Modells wurden sowohl kausale als auch akausale TCNs berücksichtigt. Es gab jedoch keinen großen Unterschied in ihrer Leistung, wie in Tabelle 1 erwähnt, und die mittlere Genauigkeit, Erinnerung und AUROC des mithilfe der kausalen Faltungen erstellten Modells waren höher als die seines akausalen Gegenstücks. Daher wurden kausale TCNs zum Aufbau des Deep-AVPiden-Modells verwendet. Die Leistungsergebnisse verschiedener hochmoderner Modelle, darunter Deep-AVPiden und Deep-AVPiden (DS), sind in Tabelle 2 dargestellt. Es ist offensichtlich, dass beide Modelle andere Modelle in Bezug auf deutlich übertreffen alle Leistungskennzahlen. Die Verwirrungsmatrizen für verschiedene Modelle sind in Abb. 3 dargestellt. Hier ist zu beobachten, dass die vorgeschlagenen Modelle mehr TPs und TNs und weniger FPs und FNs liefern als andere.
Verwirrungsmatrizen, die für verschiedene Modelle, einschließlich Deep-AVPiden, auf dem Testsatz erhalten wurden.
Darüber hinaus ist auch ein Einblick in die Vor- und Nachteile beider Modelle erforderlich. Wie aus Abb. 3 hervorgeht, schneidet das Deep-AVPiden-Modell besser ab als das Deep-AVPiden-Modell (DS). Um die statistische Signifikanz des Unterschieds in der Leistung der vorgeschlagenen Modelle zu überprüfen, wurde der Student-t-Test verwendet. Die Nullhypothese (\(H_0\)) und die Alternativhypothese (\(H_1\)) sind in den Gleichungen angegeben. (8–9). Tabelle 3 zeigt die Ergebnisse dieses statistischen Tests. Beachten Sie, dass beim t-Test, wenn der p-Wert kleiner als der gewählte Alpha-Wert (hier 0,05) ist, behauptet werden kann, dass es einen Unterschied zwischen den Mittelwerten der verglichenen Klassifikatoren gibt.
Da das Alpha-Niveau bei allen Metriken größer als der p-Wert ist, kann man sagen, dass \(H_0 (Genauigkeit), H_0 (Präzision), H_0 (Rückruf), H_0 (AUC)\) nicht wahr sind . Mit anderen Worten: Der Mittelwertunterschied aller zur Bewertung beider Modelle verwendeten Leistungsmetriken ist statistisch signifikant. Es gibt noch weitere wünschenswerte Eigenschaften, die hier erwähnt werden müssen. Wie in Tabelle 4 erwähnt, sind die Größe und Anzahl der trainierbaren Parameter von Deep-AVPiden etwa 2,5-mal größer als die von Deep-AVPiden (DS). Obwohl Letzteres hinsichtlich der Leistung etwas hinter Ersterem zurückbleibt, ist es leicht zu trainieren und auf Geräten mit eingeschränkter Rechenleistung einsetzbar. Mit anderen Worten: Es verbraucht weniger Rechenressourcen und Speicherplatz. Zusammenfassend lässt sich sagen, dass beide Modelle ihre eigenen Vorzüge haben und daher je nach Zweckmäßigkeit und Einschränkungen der Umgebung, in der sie aufgerufen werden müssen, verwendet werden können. Wenn der Server, auf dem wir das Modell bereitstellen möchten, beispielsweise ein Mobiltelefon ist, ist es besser, Deep-AVPiden (DS) zu verwenden. In allen anderen Fällen kann das Deep-AVPiden-Modell verwendet werden.
Eine frei zugängliche Web-App basierend auf Deep-AVPiden (und Deep-AVPiden (DS)) wurde unter https://deep-avpiden.anvil.app bereitgestellt. Mithilfe dieser Methode wurden einige AVPs in den antiviralen Proteinen verschiedener Säugetiere, Pflanzen und Fische entdeckt. Diese antiviralen Proteine gehören zu verschiedenen Familien, darunter unter anderem Ribosomen-inaktivierendes Protein (RIP), RNA-bindendes Protein (RBP) und Dicer-like-Protein (DCL). Die RIPs verfügen über enzymatische Aktivitäten (N-Glycosidase, RNase und DNase), die Ribosomen schädigen und die Proteintranslation beeinträchtigen können. Die RBPs binden, wie der Name schon sagt, an ihre Ziel-RNA und hemmen die Translation und Replikation von RNA-Viren. Die zur DCL-Familie gehörenden Proteine führen eine RNA-Stummschaltung durch, indem sie die Region der doppelsträngigen RNA (dsRNA) von einzelsträngigen RNAs (ssRNAs) spalten48. Die zu diesen Familien gehörenden pflanzlichen antiviralen Proteine, wie das antivirale Protein der Kermesbeere (PAP), das antivirale Protein Phytolacca insularis (PIP), DCL4, Arabidopsis Pumilio-5 (APUM5), Trichosanthin usw., zeigen eine antivirale Aktivität gegen Pflanzenviren wie Kartoffeln Virus Y (PVY), Kartoffelvirus X (PVX), Gurkenmosaikvirus (CMV), Kartoffelblattrollvirus (PLRV), Rübenmosaikvirus (TuMV) usw.
Alpha-helikale Darstellungen von AVPs, die in Pflanzen-, Säugetier- und Fischproteinen entdeckt wurden.
Streudiagramme, die die Verteilung der AVPs, die in den antiviralen Proteinen (a) Pflanzen, (b) Säugetieren und (c) Fischen vorhergesagt wurden, zusammen mit den AVPs und Nicht-AVPs im Trainingssatz zeigen.
Die Interferone (IFNs) sind antivirale Glykoproteine, die (basierend auf der Struktur der Rezeptoren auf der Zelloberfläche) in drei Familien eingeteilt werden können: IFNs vom Typ I, II und III. Von den IFN-alpha-Genen kodierte Proteine haben bekannte antivirale Aktivitäten und werden aktiv bei der Behandlung von Infektionen mit dem Hepatitis-C-Virus (HCV), dem Hepatitis-B-Virus (HBV) und dem humanen Immundefizienzvirus-1 (HIV-1) eingesetzt49,50 ,51. Darüber hinaus nutzen die in Fischen vorkommenden Proteine Tripartite Motiv (TRIM), Ubiquitin-like (Ubl), Peroxiredoxin-1 (PRDX1) und Mx unterschiedliche Mechanismen, um den Eintritt, die Replikation und die Verbreitung von HCV, HIV-1 usw. zu hemmen.52, 53,54. Einige in Tabelle 5 erwähnte Proteinsequenzen wurden mit den folgenden Spezifikationen in die bereitgestellte Web-App eingegeben.
Modell: Deep-AVPiden (DS)
Wahrscheinlichkeitswert: 0,90
Mindestlänge der gewünschten AVPs: 10
Maximale Länge der gewünschten AVPs: 30
Nach der Entdeckung von AVPs in diesen Proteinen wurde das unter http://www.camp3.bicnirrh.res.in/ncbiBlast/55 verfügbare BLAST-Tool eingesetzt, um zu bestätigen, ob die entdeckten AVPs eine Sequenzähnlichkeit mit vorhandenen experimentell validierten AMPs in öffentlichen Datenbanken aufwiesen . Anschließend wurden die AVPs mit ausreichender Ähnlichkeit mit den annotierten AMPs ausgewählt und in Tabelle 5 erwähnt. Darüber hinaus sind die zur Validierung dieser AMPs verwendete Methode und die ähnlichen AA-Positionen mit den entdeckten AVPs in Tabelle 6 hervorgehoben. Die Alpha-Helix-Darstellungen dieser Peptide wurden in Abb. 4 mit einem Online-Tool gezeigt, das unter https://heliquest.ipmc.cnrs.fr/56 verfügbar ist. Die Länge des Pfeils in den Alpha-Helix-Darstellungen ist direkt proportional zum hydrophoben Moment. Es wurde festgestellt, dass ein hohes hydrophobes Moment darauf hinweist, dass das Peptid eine hohe Penetrationseffizienz aufweist (es kann sein Ziel leicht töten/hemmen). Generell ist zu erkennen, dass die entdeckten AVPs ein hohes hydrophobes Moment aufweisen. Es ist sehr wahrscheinlich, dass diese AVPs ein gutes antivirales Potenzial haben, und dies kann durch chemische Synthese im Labor überprüft werden. Es lässt sich beobachten, dass die Länge der entdeckten AVPs viel kleiner ist als die ihrer Ausgangsproteine. Daher identifiziert dieses Tool effizient die antivirale Kernregion eines bestimmten Proteins, die für seine antivirale Aktivität verantwortlich ist. Darüber hinaus führten wir einen CD-HIT mit einem Schwellenwert von 0,9 für die in jedem Protein gefundenen AVPs separat durch und versuchten, ihre Verteilung in Bezug auf die in unserem Trainingssatz vorhandenen AVPs zu visualisieren. Zu diesem Zweck wurde die isometrische Mapping-Technik verwendet58. Die 2D-Visualisierung dieser Datenpunkte ist in Abb. 5 dargestellt. Dort ist zu erkennen, dass die vorhergesagten AVPs und die im Trainingssatz vorhandenen AVPs ähnliche Verteilungen aufweisen. Daher wird angenommen, dass die entdeckten AVPs eine gute antivirale Aktivität zeigen, was durch Synthese und experimentelle Validierung bestätigt werden kann.
In dieser Arbeit wurde das Deep-AVPiden-Modell zur Identifizierung von AVPs in mehreren Proteinsequenzen vorgeschlagen, um die Aufgabe der Entdeckung antiviraler Arzneimittel zu beschleunigen. Es handelt sich um ein auf TCNs basierendes Deep-Learning-Modell, das vorhersagt, ob ein bestimmtes Peptid antiviral ist oder nicht. Es verwendet Peptide (alphabetische Zeichenfolgen) als Eingabe, wandelt sie in Merkmalsmatrizen um und gibt einen Wahrscheinlichkeitswert für sie aus, der zur Interpretation ihres antiviralen Potenzials verwendet wird. Darüber hinaus haben wir in der Tiefe trennbare Faltungen verwendet, um ein weiteres rechen- und platzeffizientes Modell namens Deep-AVPiden (DS) zu erstellen, das auf Geräten mit eingeschränkten Ressourcen eingesetzt werden kann. Die Modelle Deep-AVPiden und Deep-AVPiden (DS) haben eine Genauigkeit von 90 % bzw. 89 %, was viel besser ist als die Leistung der vorhandenen Klassifikatoren.
Darüber hinaus wurde unter https://deep-avpiden.anvil.app/ eine Web-App bereitgestellt, in der Benutzer verschiedene Proteine eingeben und AVPs mit gutem antiviralem Potenzial finden können. Nach der Auswahl von fünfzehn antiviralen Proteinen, die in verschiedenen Säugetieren, Pflanzen und Fischen vorkommen, entdeckte und präsentierte unsere App einige AVPs, denen ein gutes antivirales Potenzial nachgesagt wird (vorbehaltlich experimenteller Validierung und Analyse). In Zukunft möchten wir andere hochmoderne Sequenzmodellierungstechniken wie Transformatoren verwenden, um Klassifizierungsmodelle zu erstellen. Außerdem kann die Entwicklung eines zweistufigen Multi-Label-Klassifikators für AVPs in Betracht gezogen werden. Ein solcher Klassifikator würde in der ersten Stufe vorhersagen, ob ein Peptid antiviral ist oder nicht, und es dann in der zweiten Stufe entsprechend seiner Zielvirusfamilie klassifizieren.
Die während der aktuellen Studie analysierten Datensätze werden den Autoren dieser Studie auf begründete Anfrage zur Verfügung gestellt.
Singh, V., Shrivastava, S., Kumar Singh, S., Kumar, A. & Saxena, S. Stable-abppred: Ein gestapelter Ensemble-Prädiktor basierend auf Bilstm und Aufmerksamkeitsmechanismus für die beschleunigte Entdeckung antibakterieller Peptide. Knapp. Bioinform.https://doi.org/10.1093/bib/bbab439 (2021).
Artikel PubMed PubMed Central Google Scholar
Singh, V., Shrivastava, S., Kumar Singh, S., Kumar, A. & Saxena, S. Beschleunigung der Entdeckung antimykotischer Peptide mithilfe tiefer zeitlicher Faltungsnetzwerke. Knapp. Bioinform.https://doi.org/10.1093/bib/bbac008 (2022).
Artikel PubMed PubMed Central Google Scholar
Veltri, D., Kamath, U. & Shehu, A. Deep Learning verbessert die Erkennung antimikrobieller Peptide. Bioinformatik 34(16), 2740–2747 (2018).
Artikel CAS PubMed PubMed Central Google Scholar
Sharma, R. et al. Aniamppred: Künstliche Intelligenz führte zur Entdeckung neuartiger antimikrobieller Peptide im Tierreich. Knapp. Bioinform.https://doi.org/10.1093/bib/bbab242 (2021).
Artikel PubMed PubMed Central Google Scholar
Sharma, R. et al. Deep-abppred: Identifizierung antibakterieller Peptide in Proteinsequenzen mithilfe von bidirektionalem lstm mit word2vec. Knapp. Bioinform.https://doi.org/10.1093/bib/bbab065 (2021).
Artikel PubMed PubMed Central Google Scholar
Sharma, R. et al. Tiefgreifend: Identifizierung neuer antimykotischer Peptide mithilfe vortrainierter Einbettungen von seq2vec mit 1dcnn-bilstm. Knapp. Bioinform.https://doi.org/10.1093/bib/bbab422 (2021).
Artikel PubMed PubMed Central Google Scholar
Singh, V., Shrivastava, S., Singh, SK, Kumar, A. & Saxena, S. Multiskalige zeitliche Faltungsnetzwerke und kontinuierliches Lernen basierend auf der in-silico-Entdeckung alternativer Antibiotika zur Bekämpfung von Multiresistenzen. Expertensystem. Appl. 215, 119295 (2023).
Artikel Google Scholar
Lea, C., Vidal, R., Reiter, A. & Hager, GD Temporale Faltungsnetzwerke: Ein einheitlicher Ansatz zur Aktionssegmentierung (2016).
Lea, C., Flynn, MD, Vidal, R., Reiter, A. & Hager, GD Temporale Faltungsnetzwerke zur Aktionssegmentierung und -erkennung (2017).
Akbar, S., Hayat, M., Iqbal, M. & Jan, MA iacp-gaensc: Auf einem evolutionären genetischen Algorithmus basierende Ensembleklassifizierung von Antikrebspeptiden unter Verwendung des hybriden Merkmalsraums. Artif. Intel. Med. 79, 62–70 (2017).
Artikel PubMed Google Scholar
Akbar, S., Hayat, M., Tahir, M., Khan, S. & Alarfaj, FK cacp-deepgram: Klassifizierung von Antikrebspeptiden über ein tiefes neuronales Netzwerk und ein Skip-Gram-basiertes Wörterinbettungsmodell. Artif. Intel. Med. 131, 102349 (2022).
Artikel PubMed Google Scholar
Vilas Boas, LCP, Campos, ML, Berlanda, RLA, de Carvalho Neves, N. & Franco, OL Antivirale Peptide als vielversprechende therapeutische Medikamente. Zelle. Mol. Lebenswissenschaft. 76(18), 3525–3542 (2019).
Artikel CAS PubMed PubMed Central Google Scholar
Irland, DC, Wang, CK, Wilson, JA, Gustafson, KR & Craik, DJ Cyclotides als natürliche Anti-HIV-Wirkstoffe. Pept. Wissenschaft. 90(1), 51–60 (2008).
Artikel CAS Google Scholar
Sencanski, M. et al. Naturprodukte als vielversprechende Therapeutika zur Behandlung von Grippeerkrankungen. Curr. Pharm. Des. 21(38), 5573–5588 (2015).
Artikel CAS PubMed Google Scholar
Gao, Y., Cui, T. & Lam, Y. Synthese und Disulfidbindungs-Konnektivitätsaktivitätsstudien eines Kalata-b1-inspirierten Cyclopeptids gegen Dengue-ns2b-ns3-Protease. Bioorg. Med. Chem. 18(3), 1331–1336 (2010).
Artikel CAS PubMed Google Scholar
Wang, G., Watson, KM, Peterkofsky, A. & Buckheit, RW Jr. Identifizierung neuartiger Hemmpeptide des humanen Immundefizienzvirus Typ 1 basierend auf der antimikrobiellen Peptiddatenbank. Antimikrob. Agenten Chemother. 54(3), 1343–1346 (2010).
Artikel CAS PubMed PubMed Central Google Scholar
Carriel-Gomes, MC et al. In vitro antivirale Aktivität antimikrobieller Peptide gegen Herpes-simplex-Virus 1, Adenovirus und Rotavirus. Mem. Inst. Oswaldo Cruz 102(4), 469–472 (2007).
Artikel CAS PubMed Google Scholar
Sharma, R. et al. Deep-avppred: Durch künstliche Intelligenz gesteuerte Entdeckung von Peptid-Medikamenten gegen Virusinfektionen. IEEE J. Biomed. Gesundheitsinform.https://doi.org/10.1109/JBHI.2021.3130825 (2021).
Artikel PubMed PubMed Central Google Scholar
Li, J., Pu, Y., Tang, J., Zou, Q. & Guo, F. Deepavp: Ein zweikanaliges tiefes neuronales Netzwerk zur Identifizierung antiviraler Peptide variabler Länge. IEEE J. Biomed. Gesundheitsinformationen. 24(10), 3012–3019. https://doi.org/10.1109/JBHI.2020.2977091 (2020).
Artikel PubMed Google Scholar
Xiao, X., Shao, YT, Cheng, Knapp. Bioinform. 22(6), bbab209 (2021).
Artikel PubMed Google Scholar
Kurata, H., Tsukiyama, S. & Manavalan, B. iacvp: Deutlich verbesserte Identifizierung von Anti-Coronavirus-Peptiden mithilfe eines datensatzspezifischen word2vec-Modells. Knapp. Bioinform. 23(4), bbac265 (2022).
Artikel PubMed Google Scholar
Bai, S., Kolter, JZ & Koltun, V. Eine empirische Bewertung generischer Faltungs- und wiederkehrender Netzwerke für die Sequenzmodellierung. arXiv-Vorabdruck arXiv:1803.01271 (2018).
Thakur, N., Qureshi, A. & Kumar, M. Avppred: Sammlung und Vorhersage hochwirksamer antiviraler Peptide. Nukleinsäuren Res. 40(W1), W199–W204 (2012).
Artikel CAS PubMed PubMed Central Google Scholar
Pang, Y., Yao, L., Jhong, J.-H., Wang, Z. & Lee, T.-Y. Avpiden: Ein neues Schema zur Identifizierung und funktionellen Vorhersage antiviraler Peptide basierend auf Ansätzen des maschinellen Lernens. Knapp. Bioinform. 22(6), bbab263 (2021).
Artikel PubMed Google Scholar
Qureshi, A., Tandon, H. & Kumar, M. Avp-ic50pred: Auf mehreren Techniken des maschinellen Lernens basierende Vorhersage der antiviralen Aktivität von Peptiden in Bezug auf die halbmaximale Hemmkonzentration (ic50). Pept. Wissenschaft. 104(6), 753–763 (2015).
Artikel CAS Google Scholar
Timmons, PB & Hewage, CM Ennavia ist eine neuartige Methode, die neuronale Netze zur Vorhersage der antiviralen und Anti-Coronavirus-Aktivität für therapeutische Peptide nutzt. Knapp. Bioinform. 22(6), bbab258 (2021).
Artikel PubMed PubMed Central Google Scholar
Schaduangrat, N., Nantasenamat, C., Prachayasittikul, V. & Shoombuatong, W. Meta-iavp: Ein sequenzbasierter Meta-Prädiktor zur Verbesserung der Vorhersage antiviraler Peptide mithilfe einer effektiven Merkmalsdarstellung. Int. J. Mol. Wissenschaft. 20(22), 5743 (2019).
Artikel CAS PubMed PubMed Central Google Scholar
Yan, K. et al. Pretp-Stack: Vorhersage therapeutischer Peptide basierend auf dem Stacked-Ensemble-Lernen. IEEE/ACM-Trans. Berechnen. Biol. Bioinf. 20(2), 1337–1344. https://doi.org/10.1109/TCBB.2022.3183018 (2023).
Artikel CAS Google Scholar
Chowdhury, AS, Reehl, SM, Kehn-Hall, K., Bishop, B. & Webb-Robertson, B.-JM Besseres Verständnis und Vorhersage antiviraler Peptide durch Bedeutung von Primär- und Sekundärstrukturmerkmalen. Wissenschaft. Rep. 10(1), 1–8 (2020).
Artikel Google Scholar
Ali, F., Kumar, H., Alghamdi, W., Kateb, FA & Alarfaj, FK Jüngste Fortschritte bei auf maschinellem Lernen basierenden Modellen zur Vorhersage antiviraler Peptide. Bogen. Berechnen. Methoden Eng. 1–12 (2023).
Qureshi, A., Thakur, N., Tandon, H. & Kumar, M. Avpdb: Eine Datenbank experimentell validierter antiviraler Peptide, die auf medizinisch wichtige Viren abzielen. Nukleinsäuren Res. 42(D1), D1147–D1153 (2014).
Artikel CAS PubMed Google Scholar
Qureshi, A., Thakur, N. & Kumar, M. Hipdb: Eine Datenbank experimentell validierter HIV-hemmender Peptide. PLoS ONE 8(1), e54908 (2013).
Artikel ADS CAS PubMed PubMed Central Google Scholar
Aguilera-Mendoza, L. et al. Überlappung und Diversität in antimikrobiellen Peptiddatenbanken: Zusammenstellung eines nicht redundanten Satzes von Sequenzen. Bioinformatik 31(15), 2553–2559 (2015).
Artikel CAS PubMed Google Scholar
Aguilera-Mendoza, L. et al. Graphbasierte Datenintegration aus bioaktiven Peptiddatenbanken von pharmazeutischem Interesse: Auf dem Weg zu einer organisierten Sammlung, die eine visuelle Netzwerkanalyse ermöglicht. Bioinformatik 35(22), 4739–4747 (2019).
Artikel CAS PubMed Google Scholar
Aguilera-Mendoza, L. et al. Automatischer Aufbau molekularer Ähnlichkeitsnetzwerke für das visuelle Graph-Mining im chemischen Raum bioaktiver Peptide: Ein unüberwachter Lernansatz. Wissenschaft. Rep. 10(1), 1–23 (2020).
Artikel Google Scholar
Kang, X. et al. Dramp 2.0, ein aktualisiertes Datenrepository zu antimikrobiellen Peptiden. Wissenschaft. Daten 6(1), 1–10 (2019).
Artikel ADS MathSciNet CAS Google Scholar
Singh, S. et al. Satpdb: Eine Datenbank mit strukturell annotierten therapeutischen Peptiden. Nukleinsäuren Res. 44(D1), D1119–D1126 (2016).
Artikel CAS PubMed Google Scholar
Konsortium U. Uniprot: Ein weltweites Zentrum für Proteinwissen. Nukleinsäuren Res. 47(D1), D506–D515 (2019).
Artikel Google Scholar
Fu, L., Niu, B., Zhu, Z., Wu, S. & Li, W. Cd-Hit: Beschleunigt für die Clusterung der Sequenzierungsdaten der nächsten Generation. Bioinformatik 28(23), 3150–3152 (2012).
Artikel CAS PubMed PubMed Central Google Scholar
Li, W. & Godzik, A. Cd-hit: Ein schnelles Programm zum Clustering und Vergleich großer Mengen von Protein- oder Nukleotidsequenzen. Bioinformatik 22(13), 1658–1659 (2006).
Artikel CAS PubMed Google Scholar
Huang, Y., Niu, B., Gao, Y., Fu, L. & Li, W. Cd-Hit Suite: Ein Webserver zum Clustering und Vergleich biologischer Sequenzen. Bioinformatik 26(5), 680–682 (2010).
Artikel CAS PubMed PubMed Central Google Scholar
He, K., Zhang, X., Ren, S. und Sun, J. Deep Residual Learning für die Bilderkennung. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 770–778 (2016).
Sifre, L. & Mallat, S. Starrbewegungsstreuung zur Bildklassifizierung (Doktorarbeit). Ecole Polytechnique, CMAP (2014).
Ioffe, S. & Szegedy, C. Batch-Normalisierung: Beschleunigung des Deep-Network-Trainings durch Reduzierung der internen Kovariatenverschiebung (2015).
Howard, AG et al. Mobilenets: Effiziente Faltungs-Neuronale Netze für mobile Vision-Anwendungen. arXiv-Vorabdruck arXiv:1704.04861 (2017).
Abadi, M. et al. Tensorflow: Groß angelegtes maschinelles Lernen auf heterogenen verteilten Systemen. arXiv-Vorabdruck arXiv:1603.04467 (2016).
Remy, P. Temporale Faltungsnetzwerke für Keras. https://github.com/philipperemy/keras-tcn (2020).
Musidlak, O., Nawrot, R. & Goździcka-Józefiak, A. Welche Pflanzenproteine sind an der antiviralen Abwehr beteiligt? Übersicht über die In-vivo- und In-vitro-Aktivitäten ausgewählter Pflanzenproteine gegen Viren. Int. J. Mol. Wissenschaft. 18(11), 2300 (2017).
Artikel PubMed PubMed Central Google Scholar
Lin, F.-C. & Young, HA Interferone: Erfolge in der antiviralen Immuntherapie. Cytokine Growth Factor Rev. 25(4), 369–376 (2014).
Artikel CAS PubMed PubMed Central Google Scholar
Pinto, LA et al. Hemmung der Replikation des humanen Immundefizienzvirus Typ 1 vor der reversen Transkription durch Influenzavirus-Stimulation. J. Virol. 74(10), 4505–4511 (2000).
Artikel CAS PubMed PubMed Central Google Scholar
Gibbert, K., Schlaak, J., Yang, D. & Dittmer, U. Ifn-\(\alpha\)-Subtypen: Deutliche biologische Aktivitäten in der antiviralen Therapie. Br. J. Pharmacol. 168(5), 1048–1058 (2013).
Artikel CAS PubMed PubMed Central Google Scholar
Patil, G. & Li, S. Dreigliedrige Motivproteine: Eine aufstrebende antivirale Proteinfamilie. Zukünftiges Virol. 14(2), 107–122 (2019).
Artikel CAS PubMed PubMed Central Google Scholar
Chen, L. et al. Ubiquitin-ähnliche Proteinmodifikatoren und ihr Potenzial für die antivirale und Anti-HCV-Therapie. Experte Rev. Proteom. 10(3), 275–287 (2013).
Artikel CAS Google Scholar
Verhelst, J., Hulpiau, P. & Saelens, X. Mx-Proteine: Antivirale Gatekeeper, die das Ungebetene zurückhalten. Mikrobiol. Mol. Biol. Rev. 77(4), 551–566 (2013).
Artikel PubMed PubMed Central Google Scholar
Waghu, FH, Barai, RS, Gurung, P. & Idicula-Thomas, S. Campr3: Eine Datenbank zu Sequenzen, Strukturen und Signaturen antimikrobieller Peptide. Nukleinsäuren Res. 44(D1), D1094–D1097 (2016).
Artikel CAS PubMed Google Scholar
Gautier, R., Douguet, D., Antonny, B. & Drin, G. Heliquest: Ein Webserver zum Screening von Sequenzen mit spezifischen \(\alpha\)-helikalen Eigenschaften. Bioinformatik 24(18), 2101–2102 (2008).
Artikel CAS PubMed Google Scholar
Takechi-Haraya, Y. et al. Einfluss des hydrophoben Moments auf die Membraninteraktion und die Zellpenetration von aus Apolipoprotein e abgeleiteten argininreichen amphipathischen \(\alpha\)-helikalen Peptiden. Wissenschaft. Rep. 12(1), 4959 (2022).
Artikel ADS CAS PubMed PubMed Central Google Scholar
Pedregosa, F. et al. Scikit-learn: Maschinelles Lernen in Python. J. Mach. Lernen. Res. 12, 2825–2830 (2011).
MathSciNet MATH Google Scholar
Referenzen herunterladen
Abteilung für Informatik und Ingenieurwesen, Indian Institute of Technology (BHU) Varanasi, Varanasi, Uttar Pradesh, 221005, Indien
Vishakha Singh und Sanjay Kumar Singh
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
VS konzipierte die Idee, setzte sie um und schrieb das Manuskript. SKS überwachte die Arbeit, stellte die Ressourcen bereit und überprüfte das Manuskript.
Korrespondenz mit Vishakha Singh oder Sanjay Kumar Singh.
Die Autoren geben an, dass keine Interessenkonflikte bestehen.
Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.
Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative-Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.
Nachdrucke und Genehmigungen
Singh, V., Singh, SK Eine auf trennbaren zeitlichen Faltungsnetzwerken basierende Deep-Learning-Technik zur Entdeckung antiviraler Medikamente. Sci Rep 13, 13722 (2023). https://doi.org/10.1038/s41598-023-40922-y
Zitat herunterladen
Eingegangen: 09. April 2023
Angenommen: 18. August 2023
Veröffentlicht: 22. August 2023
DOI: https://doi.org/10.1038/s41598-023-40922-y
Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:
Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.
Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt
Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.