Eine Deep-Learning-Methode zur Erkennung von miRNA/isomiR-Zielen

Nachricht

HeimHeim / Nachricht / Eine Deep-Learning-Methode zur Erkennung von miRNA/isomiR-Zielen

Jun 23, 2023

Eine Deep-Learning-Methode zur Erkennung von miRNA/isomiR-Zielen

Scientific Reports Band 12, Artikelnummer: 10618 (2022) Diesen Artikel zitieren 2211 Zugriffe 2 Zitate 3 Details zu altmetrischen Metriken Genaue Identifizierung von microRNA (miRNA)-Zielen am Basenpaar

Wissenschaftliche Berichte Band 12, Artikelnummer: 10618 (2022) Diesen Artikel zitieren

2211 Zugriffe

2 Zitate

3 Altmetrisch

Details zu den Metriken

Die genaue Identifizierung von microRNA (miRNA)-Zielen mit Basenpaarauflösung ist seit über einem Jahrzehnt ein offenes Problem. Die jüngste Entdeckung von miRNA-Isoformen (isomiRs) macht dieses Problem noch komplexer. Obwohl es viele Methoden gibt, berücksichtigt keine isomiRs und ihre Leistung ist immer noch nicht optimal. Wir gehen davon aus, dass wir durch die Berücksichtigung der isomiR-mRNA-Wechselwirkungen und die Anwendung eines Deep-Learning-Modells zur Untersuchung der miRNA-mRNA-Wechselwirkungsmerkmale die Genauigkeit der miRNA-Zielvorhersagen verbessern können. Wir haben ein Deep-Learning-Tool namens DMISO entwickelt, um die komplexen Merkmale von miRNA/isomiR-mRNA-Interaktionen zu erfassen. Basierend auf einer zehnfachen Kreuzvalidierung zeigte DMISO eine hohe Präzision (95 %) und Erinnerung (90 %). Bei der Auswertung von drei unabhängigen Datensätzen war DMISO fünf Tools überlegen, darunter drei beliebte konventionelle Tools und zwei kürzlich entwickelte Deep-Learning-basierte Tools. Durch die Anwendung zweier beliebter Strategien zur Merkmalsinterpretation haben wir die Bedeutung der miRNA-Regionen außer ihren Samen und den möglichen Beitrag der RNA-Bindungsmotive innerhalb von miRNAs/isomiRs und mRNAs zu den miRNA/isomiR-mRNA-Wechselwirkungen gezeigt.

MicroRNAs (miRNAs) sind ca. 22 Nukleotide (nt) lange einzelsträngige, nichtkodierende RNAs, die eine wichtige Rolle bei der Genregulation und dem Krankheitsverlauf spielen1,2,3,4,5. Während der miRNA-Biogenese von Metazoen werden miRNA-Gene in pri-miRNAs transkribiert, die von den Enzymen Drosha und DGCR8 geschnitten werden, um die haarnadelstrukturierten prä-miRNAs zu erzeugen. Die Prä-miRNAs werden dann in das Zytoplasma exportiert und vom Enzym Dicer verarbeitet, um die Duplex-miRNAs zu produzieren. Schließlich werden die miRNAs aus einem oder beiden Strängen der Duplex-miRNAs gereift. Diese reifen miRNAs binden und interagieren direkt mit ihren Ziel-mRNAs in verschiedenen Zelltypen durch die kontextspezifische Auswahl der Zielstellen, was zum Abbau und/oder zur Translationsrepression der Ziel-mRNAs führt1,2,3. Daher ist es wichtig zu untersuchen, wie miRNAs ihre Zielorte auswählen und ihre Ziel-mRNAs identifizieren.

Die Entdeckung verschiedener Arten von miRNA-Isoformen (isomiRs) macht die Gesamtuntersuchung von miRNA-Zielstellen und Zielgenen anspruchsvoller und gleichzeitig faszinierender6. Während der miRNA-Biogenese von Metazoen entstehen IsomiRs durch ungenaue Spaltung von pri-miRNAs und/oder prä-miRNAs7, das Hinzufügen/Löschen von nt an/von den Enden reifer miRNAs8,9 und die Modifikation eines oder mehrerer nt in der Mitte von reifen miRNAs. Dementsprechend werden die resultierenden IsomiRs in Additions-, Löschungs- und polymorphe IsomiRs klassifiziert. Basierend auf dem modifizierten Ende können sowohl Additions- als auch Lösch-IsomiRs weiter in 3′-IsomiRs und 5′-IsomiRs gruppiert werden. Die 3‘-IsomiRs kommen häufiger vor und teilen sich die gleiche Samenregion (Positionen 2–7) wie ihre ursprünglichen miRNAs, während die 5‘-IsomiRs unterschiedliche Samenregionen und damit unterschiedliche Ziel-mRNAs haben. Die resultierenden isomiRs können auch Hybride der oben genannten Typen sein.

Die weit verbreiteten isomiRs in verschiedenen Zelltypen erfordern eine erneute Betrachtung des Problems der miRNA-Zielstellenauswahl und der Ziel-mRNA-Identifizierung10,11,12,13. Unter jeder gegebenen experimentellen Bedingung kommt es wahrscheinlich zu unterschiedlichen Veränderungen in der Sequenz und Expression einzelner miRNAs. Die Diversität impliziert die Existenz verschiedener IsomiRs unterschiedlicher Häufigkeit und die aktive Interaktion der herkömmlichen miRNAs mit ihren jeweiligen Zielgenen unter experimentellen Bedingungen. Frühere Studien haben gezeigt, dass eine solche Mischung aus miRNAs und ihren isomiRs unter bestimmten experimentellen Bedingungen häufig vorkommt und keine Sequenzierungsartefakte verursacht14,15. Die verfügbaren Methoden und Werkzeuge zur Vorhersage von miRNA-Zielen berücksichtigen nur miRNA-mRNA-Wechselwirkungen, die möglicherweise unwissentlich isomiR-mRNA-Wechselwirkungen für miRNA-mRNA-Wechselwirkungen im Training berücksichtigen und somit zu hohen Falsch-Positiv-Raten und einer suboptimalen Leistung führen16,17. Daher ist es wichtig, IsomiRs und miRNAs gemeinsam auf ihre Zielstelle und Ziel-mRNA-Identifizierung zu untersuchen.

CLASH (Vernetzung, Ligation und Sequenzierung von Hybriden) und CLEAR-CLIP (kovalente Ligation endogener Argonaut-gebundener RNAs mit vernetzender Immunpräzipitation) bieten eine beispiellose Gelegenheit, miRNA-Ziele im Kontext von isomiRs zu untersuchen18,19. Beide Experimente liefern chimäre Lesevorgänge, die aus Paaren von miRNA-Varianten und ihren interagierenden Zielstellen in mRNAs bestehen. Diese Daten, insbesondere die CLASH-Daten, wurden häufig zur Untersuchung nichtkanonischer Zielstellen verwendet, die die Bedeutung anderer Regionen als der Samenregionen in miRNAs20,21,22,23 zeigen. Diese Daten wurden jedoch nicht untersucht, um zu untersuchen, wie miRNAs und ihre isomiRs mit ihren Zielen interagieren.

In dieser Studie haben wir versucht, Zielorte und Ziel-mRNAs von miRNAs und isomiRs vorherzusagen, indem wir erstmals miRNA-mRNA-Wechselwirkungen zusammen mit isomiR-mRNA-Wechselwirkungen berücksichtigten. Unser Ziel war es, ein Tool vorzustellen, das ausschließlich darauf trainiert ist, isomiR-mRNA-Wechselwirkungen vorherzusagen und auch die aus isomiR-mRNA-Wechselwirkungen gewonnenen Sequenzinformationen zu nutzen, um die Vorhersageleistung für die kanonischen miRNA-mRNA-Wechselwirkungen zu verbessern. Da die Merkmale von miRNA-Zielstellen und miRNA-mRNA-Wechselwirkungen nicht vollständig verstanden sind und Deep-Learning-basierte Ansätze eine bessere Leistung bei der Analyse genomischer und epigenomischer Daten gezeigt haben24, haben wir eine Deep-Learning-Methode und ein Deep-Learning-Tool für die Vorhersage von miRNA- und isomiR-Zielen (DMISO) entwickelt ). Durch Kreuzvalidierung und unabhängige Datensätze getestet, zeigten wir, dass DMISO im Durchschnitt eine Präzision von 95 % und einen Rückruf von 90 % hatte. Im Vergleich zu drei beliebten Tools und zwei kürzlich entwickelten Deep-Learning-basierten Tools zeigte DMISO in fast allen Metriken eine überlegene Leistung gegenüber den fünf Tools. Das DMISO-Tool und seine Codes sind unter http://hulab.ucf.edu/research/projects/DMISO frei verfügbar.

Um DMISO zu trainieren und zu testen, haben wir miRNA-mRNA- und isomiR-mRNA-Wechselwirkungen aus den CLASH-Experimenten erhalten18. Wir haben die CLASH-Daten in der HEK293-Zelllinie (GSE50452) heruntergeladen, die Rohdaten von sechs menschlichen Proben enthielten. Jede Probe bestand sowohl aus einzelnen als auch aus chimären Lesevorgängen. Nur die chimären Lesevorgänge umfassten die miRNA/isomiR-Sequenzen und ihre interagierenden Zielstellensequenzen in mRNAs. Hier und im Folgenden bezeichnen wir miRNAs als die traditionellen in miRBase25 und verwenden „miRNAs/isomiRs“, um die miRNAs und ihre isomiRs darzustellen.

Wir identifizierten miRNA-mRNA-Wechselwirkungen anhand der chimären Messwerte ähnlich wie in der ursprünglichen Studie 18 (Abb. 1A und Ergänzungstabelle S1). Kurz gesagt, wir haben Rohlesevorgänge heruntergeladen, Adapter aus den Lesevorgängen entfernt, doppelte Lesevorgänge verworfen und schließlich die verbleibenden Lesevorgänge mit BLAST Version 2.10.1+26 separat zwei Datenbanken zugeordnet. Eine Datenbank waren die proteinkodierenden Transkriptsequenzen aus GENCODE Version 3827. Die andere waren die menschlichen reifen miRNA-Sequenzen aus miRBase Version 22.125. Wir benötigten einen BLAST-Treffer mit einem E-Wert ≤ 0,1, um die Zuordnung eines Lesevorgangs zu beanspruchen. Die kartierten Lesevorgänge entlang des Antisense-Strangs eines Transkripts oder mit Ausrichtungsschleifen wurden verworfen. Um die Kartierungsqualität des miRNA-Teils eines chimären Lesevorgangs zu kontrollieren, der viel kürzer als der mRNA-Teil war und daher schwerer von den Sequenzierungsfehlern zu unterscheiden sein kann, erforderten wir, dass derselbe miRNA-Teil in mindestens 10 chimären Lesevorgängen vorkam. Wir haben hier 10 gewählt, weil die Wahrscheinlichkeit, denselben isomiR mindestens zehnmal zu beobachten, bei etwa 8,87E−08 lag, angesichts der durchschnittlichen miRNA-Länge von 22nt, der Fehlerrate des Illumina-Sequenzers von 0,001 und der Anzahl der einer miRNA zugeordneten Lesevorgänge von weniger als 1000 für die meisten (> 95 %) miRNAs. Darüber hinaus lieferte diese Wahl genügend Daten für das Training der Deep-Learning-Modelle. Wir haben eine maximale Lücke oder einen maximalen Abstand von 4 nt zwischen dem kartierten miRNA-Teil und dem kartierten mRNA-Teil in einem chimären Lesevorgang wie zuvor zugelassen18. Der miRNA- und mRNA-Teil eines chimären Lesevorgangs kann auf mehrere miRNA- bzw. mRNA-Transkripte abgebildet werden. Wenn ein Lesevorgang mehreren miRNA- oder mRNA-Transkripten zugeordnet werden konnte, verwendeten wir die folgenden Kriterien der Reihe nach, um das signifikanteste miRNA-mRNA-Paar beizubehalten: (1) das Paar mit den kleineren BLAST-e-Werten; und (2) das Paar mit dem größeren BLAST-Bit punktet, wenn die E-Werte gleich wären.

(A) Die Pipeline zum Erhalten von miRNA/isomiR-mRNA-Wechselwirkungen. (B) Die DMISO-Modellstruktur.

Mit den identifizierten miRNA-mRNA-Kandidatenpaaren verglichen wir den ausgerichteten miRNA-Teil der chimären Lesevorgänge mit den entsprechenden miRNAs, um miRNA-mRNA- und isomiR-mRNA-Wechselwirkungen zu definieren. Wenn ein Lesevorgang perfekt mit einer miRNA übereinstimmte, haben wir dieses Kandidatenpaar als miRNA-mRNA-Paar bezeichnet. Andernfalls, wenn die nt-Sequenzierungsqualitätswerte an den Variationspositionen (im Vergleich zur miRNA-Sequenz) größer als 30 sind, handelt es sich bei diesem Kandidatenpaar um ein isomiR-mRNA-Paar. Um isomiRs sicher auswählen zu können, mussten wir außerdem die isomiR-Sequenzen in mindestens 10 chimären Lesevorgängen sehen. Wir haben diese isomiRs in isomiR-mRNA-Paaren weiter in die folgenden acht Typen eingeteilt: 5'-isomiR (Addition, Deletion und Ersatz), 3'-isomiR (Addition, Löschung und Ersatz), Single Nucleotide Polymorphic (SNP) IsomiR, Multiple Nucleotide Polymorphic ( MNP) isomiR. Ein isomiR kann zu mehreren Typen gehören.

Für die erhaltenen miRNA/isomiR-mRNA-Paare haben wir das 3′-Ende des mRNA-Abschnitts der chimären Sequenzen um 25 nt verlängert, um vollständigere Zielstellen zu erhalten. Die erweiterten mRNA-Zielstellen, die kürzer als 30 nt sind, wurden wie zuvor herausgefiltert18. Die erweiterten Paare wurden als positive Interaktionspaare betrachtet. Für jedes positive Paar wurde ein negatives Paar mit derselben miRNA oder isomiR und einer negativen Stelle in der 3'-untranslatierten Region des entsprechenden positiven mRNA-Transkripts wie zuvor erzeugt28,29. Die negative Seite musste mindestens 10 nt von den positiven Stellen entfernt sein und eine freie Faltungsenergie von < 10 kcal/mol aufweisen, gemessen mit dem RNACoFold-Tool30. Wir haben unseren Trainingsdatensatz erstellt, indem wir 80 % der positiven und negativen Interaktionen zufällig ausgewählt haben. Wir haben DMISO anhand der Trainingsdaten mithilfe einer zehnfachen Kreuzvalidierung getestet. Wir haben DMISO auch für die verbleibenden 20 % der Interaktionen getestet, die nicht für das Training verwendet wurden.

Zusätzlich zu den verbleibenden 20 % der CLASH-Testdaten haben wir miRNA/isomiR-mRNA-Paare als unabhängige Testdaten aus CLEAR-CLIP-Daten extrahiert. Ähnlich wie bei der obigen Analyse der CLASH-Daten analysierten wir die CLEAR-CLIP-Chimärenablesungen in 12 menschlichen Proben der aus Hepatozyten stammenden Karzinomzelllinie HuH-7.5 (GSE73059)19. Wir haben 14.684 positive miRNA/isomiR-mRNA-Paare definiert, die alle isomiRs anstelle der herkömmlichen miRNAs beinhalteten.

Wir haben auch einen weiteren unabhängigen Datensatz aus der kürzlich aktualisierten miRTarBase-Datenbankversion 8.031 erhalten. Diese Datenbank enthält experimentell validierte funktionelle und nicht-funktionale miRNA-Zielstellen, die in diesem Datensatz als positiv betrachtet werden. Wir haben das 3'-Ende der mRNAs in den Interaktionen verlängert und die Interaktionen verworfen, die in den jeweiligen hier verwendeten Datenbanken keine Kartierungs-mRNA- und miRNA-IDs hatten, sowie die Interaktionen, bei denen die mRNA-Sequenzen kürzer als 30 nt waren. Nach dieser Filterung erhielten wir 14.144 miRNA-mRNA-Sequenzpaare, von denen 13.926 funktionsfähig und 226 nicht funktionsfähig waren, basierend auf der ursprünglichen Studie31. Dieser Datensatz enthielt keine Negative.

Wir haben eine Deep-Learning-Methode namens DMISO für miRNA/isomiR-Zielstellen und Ziel-mRNA-Identifizierung entwickelt. DMISO nimmt die miRNAs/isomiRs und ihre entsprechenden mRNA-Zielstellensequenzen als Eingabe und gibt eine Binärzahl aus, um anzuzeigen, ob eine miRNA/isomiR mit ihrer entsprechenden mRNA-Stelle interagiert. Die Architektur von DMISO besteht aus zwei separaten Zweigen, die CNN-Schichten (Convolutional Neural Network), eine LSTM-Schicht (Long Short-Term Memory) und eine vollständig verbundene neuronale Netzwerkschicht enthalten (Abb. 1B). Die beiden Faltungsschichten sind für die miRNA/isomiR- bzw. Zielstellensequenzen vorgesehen. Die LSTM-Schicht kombiniert die von den beiden Faltungsschichten erkannten Merkmale. Die Ausgabe der LSTM-Schicht wird in ein vollständig verbundenes neuronales Netzwerk eingespeist, um die Bezeichnung der Interaktion vorherzusagen.

Die Faltungsschicht in jedem Zweig ist eindimensional und besteht aus einem Array von 10 Kerneln mit einer Größe von jeweils 4 × 8. Die Kernel fungieren als Schiebefenster, um räumliche Merkmale in Eingabesequenzen durch Scannen der Sequenzen zu erfassen. Die Faltungsschicht hat keine Auffüllung um die Eingabe herum (Auffüllung = „gültig“). Die Kernel werden über die Eingabe in einem Schritt gefaltet (Schritt = 1). Nach den 10 Kerneln werden die Ausgaben der beiden Faltungsschichten zu Matrizen der Größe 10 × 23 bzw. 10 × 53. Die nächste Schicht in jedem Zweig ist eine eindimensionale Max-Pooling-Schicht mit einer Pooling-Größe von 4, die die Maximalwerte innerhalb jedes 10 × 4-Fensters erfasst und um 1 Schritt (Schritt = 1) über die Ausgabe der jeweiligen Faltungsschichten gleitet . Die Ausgabe der Max-Pooling-Schichten in den Zweigen miRNA/isomiR und Zielstelle beträgt 10 × 20 bzw. 10 × 50 Matrizen. Die gleichgerichtete lineare Einheit aktiviert die Neuronen in den Faltungsschichten der beiden Zweige und die Neuronen in der dichten Schicht. Nach dem Max-Pooling-Schritt werden die Ausgaben der beiden Zweige zu einer 10 × 70-Matrix zusammengeführt und in eine bidirektionale LSTM-Schicht (BLSTM) eingespeist. Die BLSTM-Schicht verarbeitet die räumlich verbundenen Merkmale sowohl von links nach rechts als auch von rechts nach links und generiert eine 20 × 70-Matrixausgabe, die dann auf einen Vektor der Länge 1400 abgeflacht und in eine dichte Schicht eingespeist wird. Die dichte Schicht ist ein vollständig verbundenes neuronales Netzwerk mit 100 Neuronen, das einen Vektor der Größe 100 ausgibt. Dieser Vektor wird als Eingabe für eine logistische Regressionseinheit verwendet, um die endgültige Vorhersage zu generieren, wobei die Sigmoidfunktion verwendet wird.

Vor dem Training von DMISO werden die miRNA/isomiR- und Zielstellensequenzen in 4 × 30- bzw. 4 × 60-Matrizen umgewandelt, indem auf jedes Nukleotid in den Sequenzen eine One-Hot-Kodierung angewendet wird. Das heißt, „A“, „T“, „C“, „G“ und „N“ werden in [1, 0, 0, 0]T, [0, 1, 0, 0]T, [0, 0, 1, 0]T, [0, 0, 0, 1]T bzw. [0,25, 0,25, 0,25, 0,25]T. Die festen Längen 30 und 60 sind die durchschnittliche Länge der verarbeiteten miRNAs/isomiRs bzw. Zielstellen in chimären Lesevorgängen. Um die festen Längen beizubehalten, haben wir zusätzliche nts von den Enden längerer Sequenzen entfernt und zusätzliche „N“s an den Enden kürzerer Sequenzen hinzugefügt.

Mithilfe der Chargennormalisierung wurde DMISO mit Minichargen von jeweils 100 Proben trainiert. Wir haben den Verlust jeder Vorhersage mithilfe der binären Kreuzentropieverlustfunktion berechnet, die vom Adam-Optimierer mit einer Lernrate von 0,00132 minimiert wird. Um eine Überanpassung zu vermeiden, hatten wir eine Dropout-Schicht mit einer Dropout-Rate von 25 % nach dem Zusammenführen der beiden Zweige und zwei Dropout-Schichten mit einer Dropout-Rate von 50 % nach der BLSTM-Schicht und der dichten Schicht. Auf die beiden Faltungsschichten und die dichten Schichten wurde eine L1-Regularisierung mit dem Parameterwert 0,01 angewendet, um eine Überanpassung zu reduzieren. Für die Implementierung des Deep-Learning-Modells wurde die Version Keras 2.3.1 verwendet (https://github.com/keras-team/keras/releases/tag/2.3.1). Das DMISO-Modell wird mit zwei Eingaben ausgeführt: miRNA/isomiR-Sequenz und mRNA-Sequenz. Das Modell liefert einen Ausgabewahrscheinlichkeitswert von 0 bis 1 und einen binären Vorhersagewert von 0 und 1.

Es wurden viele Methoden des maschinellen Lernens entwickelt, um Funktionen auszuwählen33,34,35,36,37,38,39,40,41,42,43. Deep-Learning-Modelle sind bekannt dafür, dass sie eine Black Box sind, wenn es darum geht, die zugrunde liegenden Funktionen zu verstehen. Doch neuere Studien haben sich auf verschiedene Strategien konzentriert, die die Merkmale oder Muster offenbaren können, die von verschiedenen Arten von Modellen des maschinellen Lernens gelernt werden39,40,41,42,43. Hier wurden zwei der beliebtesten Methoden zur Merkmalsidentifizierung, Faltungskernanalyse und Eingabestörung, angewendet, um wichtige Merkmale für miRNA/isomiR-mRNA-Wechselwirkungen zu entdecken24.

Die Faltungskernanalysemethode eignet sich für ein Deep-Learning-Modell, das eine Faltungsschicht enthält24,39,40,41. Diese Methode wird verwendet, um die Kernelgewichte der Faltungsschicht nach dem Training des Modells zu interpretieren. In dieser Studie wurden die miRNA/isomiR- und mRNA-Sequenzen getrennt von den k-Längenkernen der beiden Faltungsschichten in DMISO gescannt, wodurch die Zusammensetzung von k-meren in Sequenzen erfasst wurde, die für die Interaktion zwischen miRNA/isomiR und mRNA wichtig waren Sequenzen. Da die Faltungsschichten die ersten Schichten in DMISO sind, sollten die erfassten k-mer-Muster wichtige Merkmale darstellen, die für die miRNA/isomiR- und Zielsequenzen spezifisch sind.

Die Eingabemodifikationstechnik ist eine weitere beliebte Methode zur Merkmalsinterpretation24,39,41, bei der ein Teil der Eingabe durch zufälliges Rauschen gestört und die Änderungen in der Modellvorhersage aufgezeichnet werden. Die Änderung der Modellvorhersage nach der Änderung eines Teils der Eingabe stellt die Empfindlichkeit des Modells gegenüber diesem Teil der Eingabe dar. Daher kann diese Methode dabei helfen, die Empfindlichkeitsmuster des Modells gegenüber verschiedenen Regionen in Eingabesequenzen aufzudecken. Hier haben wir jeden zusammenhängenden Bereich der Länge 4 in Eingabesequenzen mit „N“ maskiert und die jeweiligen Änderungen in den Vorhersagewahrscheinlichkeiten der Ausgabeschicht aufgezeichnet. Die Änderungen sollten wichtige Regionen im Hinblick auf die Zielbindung zeigen.

DMISO wurde mit drei beliebten Tools, TargetScan Version 7.244, miRanda 3.3a45 und RNA22 Version 246, sowie zwei kürzlich veröffentlichten Deep-Learning-basierten Tools, miRAW47 und miTAR48, anhand der 20 % CLASH-Testdaten, der CLEAR-CLIP-Daten und der verglichen miRTarBase-Daten. TargetScan und miRanda verwenden zwei separate Dateien für die miRNA- und mRNA-Sequenzen als Eingaben, während miRAW und miTAR die Interaktionen (miRNA-mRNA-Sequenzpaare) als Eingaben verwenden. Im Fall von isomiR-mRNA-Paaren in den Testdaten haben wir die isomiR-Sequenzen anstelle der miRNA-Sequenzen in der Eingabe verwendet. Um RNA22 auszuführen, müssen die eingegebenen miRNA/isomiR- und mRNA-Sequenzen mit tagesbezogenen Verkehrsbeschränkungen auf den RNA22-Server hochgeladen werden. Aus diesem Grund ist es ein zeitaufwändiger Prozess, Ergebnisse vom RNA22-Server für einen großen Datensatz wie unseren zu erhalten. Während die anderen vier Tools auf den Testdatensätzen ausgeführt wurden, wurde RNA22 daher durch Überlappung der Testdatensätze mit den vorberechneten Vorhersagen von RNA22 am Menschen bewertet (https://cm.jefferson.edu/rna22-full-sets- von-Vorhersagen/). Eine Testinteraktion wurde von einem Tool als vorhergesagt positiv angesehen, wenn die miRNA-ID und die mRNA-Gen-ID der Testinteraktion mit einer der vorhergesagten Interaktionen übereinstimmten und die mRNA-Zielsequenzorte mit den entsprechenden vorhergesagten Zielorten überlappten.

Wir identifizierten 12.170 miRNA-mRNA- und 58.043 isomiR-mRNA-Wechselwirkungen aus den sechs CLASH-Proben (Ergänzungstabelle S2). Wir beobachteten jede der acht Arten von isomiRs, wobei ein 3'-Additions-isomiR hsa-miR-4268 bei 3.565 Wechselwirkungen am häufigsten vorkam, während 96 isomiRs nur zehnmal vorkamen (ergänzende Abbildung S1). Darüber hinaus wurde festgestellt, dass 98 isomiRs an mindestens 100 Interaktionen beteiligt waren. In Übereinstimmung mit den vorherigen Studien6 gab es im CLASH-Datensatz mehr 3′-IsomiRs als andere Typen (Ergänzungstabelle S2). Die Anzahl der IsomiRs mit Nukleotidzusatz war höher als bei anderen Typen. Die Anzahl der SNP- und MNP-IsomiRs im Datensatz war ähnlich. Trotz der unterschiedlichen Häufigkeit verschiedener Typen gab es von jedem der acht Typen mindestens 9 IsomiRs (Ergänzungstabelle S3). Beachten Sie, dass diese Statistiken auf allen dokumentierten miRNAs in der miRbase-Datenbank basierten. Wir verglichen die miRNAs auch mit der kuratierten miRNA-Datenbank miRGeneDB49 und stellten fest, dass 66 der dokumentierten 268 miRNAs in miRGeneDB im CLASH-Datensatz enthalten waren. Von diesen war das häufigste isomiR ein 3′-Additions-isomiR von hsa-miR-615-3p, das in 824 Interaktionen auftrat. Die Anzahl der 3'-IsomiRs war immer noch höher (218) als die der 5'-IsomiRs (57) und der polymorphen IsomiRs (10).

Da wir davon ausgegangen sind, dass isomiRs durch mindestens 10 Lesevorgänge abgedeckt wurden, wurden alle de novo identifizierten isomiRs durch ihr wiederkehrendes Auftreten unterstützt. Die mittlere und mittlere Anzahl der Lesevorgänge, die diese isomiRs unterstützten, betrug 53 bzw. 19. Es gab 200 miRNAs mit mindestens einer identifizierten isomiR. Die Anzahl der identifizierten IsomiRs für eine miRNA variierte zwischen 1 und 98. Im Durchschnitt hatte eine miRNA etwa 6 IsomiRs verschiedener Typen. Obwohl es verschiedene Arten von isomiRs gab, war es offensichtlich, dass eine miRNA bestimmte Arten von isomiRs bevorzugte. Mit anderen Worten: Für eine bestimmte miRNA kam ein bestimmter Typ von isomiRs viel häufiger vor. Tatsächlich trat bei allen 67 miRNAs mit mindestens 100 isomiR-mRNA-Wechselwirkungen mindestens ein Typ von isomiRs deutlich häufiger als erwartet auf (korrigierter p-Wert des Binomialtests < 0,01).

Die identifizierten isomiRs waren wahrscheinlich zustandsspezifisch. Wir haben die identifizierten isomiRs in den CLASH-Interaktionen mit den isomiRs in den CLEAR-CLIP-Interaktionen verglichen. Die CLASH-Proben stammten von einer gesunden Nierenzelllinie, während die CLEAR-CLIP-Proben von einer karzinomischen Leberzelllinie stammten. Von den 1226 in den CLASH-Daten identifizierten isomiRs und exakten miRNAs wurden 1203 (98,12 %) in den CLEAR-CLIP-Daten nicht identifiziert. Wenn wir die 1095 isomiRs und exakten miRNAs berücksichtigten, die durch mindestens 50 Lesevorgänge in den CLASH-Daten unterstützt wurden, wurden 1078 (98,45 %) in den CLEAR-CLIP-Daten immer noch nicht identifiziert. Es war also nicht die isomiR-Qualität, die den Unterschied zwischen isomiRs in verschiedenen Experimenten ausmachte. Mit anderen Worten: IsomiRs und ihre Interaktionsstellen sind wahrscheinlich zustandsspezifisch.

Wir untersuchten den Unterschied zwischen den einzigartigen Zielstellen der 5‘- und 3‘-IsomiRs und denen der genauen miRNAs im CLASH-Datensatz. Von den 5742 CLASH-Zielstellen exakter miRNAs waren 355 mit den 5′-IsomiRs gemeinsam, während 2353 mit den 3′-IsomiRs üblich waren. Die geringere Anzahl gemeinsamer Ziele exakter miRNAs mit den 5'- als mit den 3'-IsomiRs bestätigt, dass die 5'-IsomiRs eine veränderte Zielspezifität aufweisen. Interessanterweise zielten die 3′-isomiRs auf viel mehr einzigartige mRNAs (5021) als andere Typen ab, was darauf hindeutet, dass die 3′-miRNA-Regionen auch für das miRNA/isomiR-Targeting wichtig sein könnten.

Wir haben DMISO durch zehnfache Kreuzvalidierung der Trainingsdaten bewertet (Ergänzungstabelle S4). Es zeigte über 99 % der Fläche unter der Receiver Operating Characteristic Curve (AUROC) und der Fläche unter der Precision-Recall-Kurve (AUPR) sowie mehr als 93 % F1-Scores, Präzision und Recall.

Wir haben DMISO auch anhand von drei unabhängigen Datensätzen bewertet: den weggelassenen 20 % CLASH-Testdaten, den CLEAR-CLIP-Daten und den miRTarBase-Daten (Tabelle 1). Die Leistung von DMISO bei den weggelassenen CLASH-Testdaten war ähnlich der der obigen Kreuzvalidierung bei den CLASH-Trainingsdaten. Das heißt, AUROC und AUPR lagen bei über 99 %, und der F1-Score, die Präzision und der Rückruf lagen bei mehr als 93 %. Als DMISO anhand der CLEAR-CLIP-Daten getestet wurde, war die Leistung etwas geringer (94 % AUROC, 99 % AUPR, 94 % F1, 98 % Präzision und 90 % Erinnerung). Da wir im miRTarBase-Datensatz keine negativen Paare hatten, konnten wir den Rückruf von DMISO nur für diesen unabhängigen Datensatz bewerten (Tabelle 2). DMISO hatte einen Rückruf von 92 %, fast so gut wie der Rückruf beim CLEAR-CLIP, und 20 % ließ CLASH-Testdaten aus.

Die obige Analyse bezog sich auf alle Interaktionen in den drei Testdatensätzen. Wir haben weiter untersucht, wie gut DMISO die Wechselwirkungen mit verschiedenen isomiR-Typen anstelle von exakten oder Wildtyp-miRNAs vorhersagte (Ergänzungstabelle S5). DMISO zeigte durchweg gute Leistungen bei verschiedenen Arten von isomiR-mRNA-Wechselwirkungen. Beispielsweise hatte DMISO einen AUROC von 94 %, einen AUPR von 99 %, einen F1-Score von 93 %, eine Präzision von 98 % und einen Recall von 89 % der CLEAR-CLIP-Daten für die 5′-isomiR-mRNA-Wechselwirkungen . Obwohl die Leistung für verschiedene Arten von isomiR-mRNA-Wechselwirkungen ähnlich war, war sie insgesamt bei 3′-isomiR-mRNA-Wechselwirkungen sowohl in CLASH- als auch in CLEAR-CLIP-Datensätzen etwas besser.

Wir haben DMISO auch mit fünf anderen Tools verglichen: miRanda, RNA22, TargetScan, miRAW und miTAR. Die Eingabe für jedes Tool waren die Paare positiver oder negativer miRNA/isomiR-mRNA-Zielstellen. DMISO zeigte in Bezug auf alle berücksichtigten Metriken eine überlegene Leistung gegenüber allen fünf Tools (Tabellen 1 und 2). Beispielsweise hatte DMISO einen AUROC von 94 % und einen AUPR von 99 % bei den CLEAR-CLIP-Daten, verglichen mit dem höchsten AUROC von 69 % und dem höchsten AUPR von 95 % bei den anderen fünf Tools. Die fünf vorhandenen Tools hatten eine geringere Präzision und einen viel geringeren Rückruf als DMISO, was möglicherweise daran liegt, dass DMISO das erste Tool war, das die isomiR-mRNA-Wechselwirkungen beim Training der Modelle berücksichtigte. Es wurde auch hervorgehoben, wie wichtig es ist, solche Wechselwirkungen für zukünftige Vorhersagen von miRNA-Zielen zu berücksichtigen.

Unter den anderen fünf Tools hatten die auf Deep Learning basierenden Tools miRAW und miTAR etwas höhere AUROC- und AUPR-Werte als die drei klassischen Tools (TargetScan, miRanda und RNA22) und viel höhere Erinnerungswerte. Dies weist darauf hin, dass miRAW im Gegensatz zu den drei Tools, die sich auf die Seed-Regionen konzentrierten, in der Lage war, die Informationen in den Nicht-Seed-Regionen zu erfassen. Dies implizierte die Bedeutung der Nicht-Seed-Regionen für die Identifizierung der miRNA-Zielstelle28,50,51. Im miRTarBase-Datensatz hatte DMISO einen Rückruf, der mindestens 10 % höher war als der Rückrufwert anderer Tools. Im Gegensatz dazu hatten miRAW und miTar eine schlechtere Erinnerung als miRanda und TargetScan, was darauf hindeutet, dass die in den beiden Tools verwendeten Deep-Learning-Modelle bestimmte gut untersuchte Merkmale der miRNA-Zielinteraktion, die vom DMISO-Modell erfasst werden, möglicherweise nicht berücksichtigen (Tabelle 2).

Von den oben genannten drei unabhängigen Testdatensätzen enthielten nur die CLASH-Testdaten Zielstellen sowohl für miRNAs als auch für isomiRs; Die CLEAR-CLIP-Daten enthielten nur isomiR-mRNA-Wechselwirkungen. und der miRTarBase-Datensatz enthielt nur miRNA-mRNA-Wechselwirkungen. Um zu untersuchen, wie gut jedes Tool nur miRNA-mRNA-Wechselwirkungen und nur isomiR-mRNA-Wechselwirkungen vorhersagte, verglichen wir DMISO mit den fünf Tools für die getrennten miRNA-mRNA-Wechselwirkungen und isomiR-mRNA-Wechselwirkungen. DMISO zeigte erneut einen viel höheren AUROC, AUPR und F1 als andere Tools zur Vorhersage der Zielstellen sowohl von miRNAs als auch von isomiRs (Ergänzungstabelle S6).

Trotz der hohen Genauigkeit von Deep-Learning-Modellen zur Lösung eines Problems sind diese Modelle dafür bekannt, dass sie nicht in der Lage sind, das zu interpretieren, was sie aus den Daten lernen. Um dieses Problem anzugehen, haben wir zwei Methoden zur Merkmalsinterpretation verwendet, die Faltungskernanalyse und die Eingabestörung24, um den Lernprozess des DMISO-Modells abzuwickeln.

Da DMISO über Faltungsschichten verfügt, haben wir die Methode der Faltungskernanalyse angewendet, um die vom Modell gelernten übergeordneten Merkmale zu extrahieren. In diesem Prozess wurden die 10 Kernelmatrizen der beiden Faltungsschichten für die miRNA- (isomiR) und Zielzweige mit einer Größe von jeweils 4 × 8 analysiert, um die von den Schichten erlernten Gewichte von A, T, C und G zu ermitteln. Zu Beginn des Trainingsprozesses wurden die Gewichtswerte der Kernel im Vorwärtsdurchlauf zufällig initialisiert und durch Rückwärtsausbreitung des Verlusts aktualisiert. Nach 500 Trainingsepochen erfassten 3 der 10 Kernel-Matrizen im miRNA-Zweig (isomiR) und 7 der 10 Kernel-Matrizen im mRNA-Zweig bestimmte Gewichtswerte, die möglicherweise mit den Proteinbindungsmotiven in den miRNA- und mRNA-Sequenzen übereinstimmen . Für die übrigen Kerne in den jeweiligen Zweigen waren die Gewichtswerte zu ähnlich (25 %), um einem der 4 Nukleotide zugeordnet werden zu können. Um die Bindungsproteinmotive herauszufinden, verglichen wir die 4 × 8-Kernelmatrizen sowohl der miRNA- als auch der Zielzweige mit der JASPAR-Motivdatenbank für Wirbeltiere52. Die Top-Motive, mit denen jeder Kernel mit hoher Signifikanz übereinstimmte, waren die Proteinbindungsmotive GATA1::TAL1, ZFP42, RARA::RXRG, RARA::RXRA, ESR2, ZFP42, ZBTB26 usw., die alle Zink vom Typ CCHH und CCCH sind Fingerproteine. Zinkfingerproteine ​​sind als RNA-bindende Proteine ​​bekannt, die für die Bindung an Ribonukleoproteine ​​in einem RNA-induzierten Stummschaltungskomplex unerlässlich sind53. Diese Analyse zeigt, dass DMISO in der Lage war, das Bindungsprofil von RNA-Bindungsmotiven in miRNA/isomiR- und mRNA-Sequenzen durch die Kerne der Faltungsschichten zu erkennen, was in den bestehenden miRNA-Zielvorhersagetools nicht berücksichtigt wurde.

Die andere von uns verwendete Methode zur Merkmalsinterpretation war die Eingabestörungstechnik. In diesem Fall wurde für jede miRNA und Zielsequenz in einem Datensatz eine 4 Nukleotide lange Maske, bestehend aus „N“, auf die Sequenz angewendet, beginnend an jeder Position der miRNA und der Zielsequenzen. Der geänderte Wert der DMISO-Vorhersagewahrscheinlichkeit nach Anwendung der Maske wurde für die Region in den entsprechenden Sequenzen aufgezeichnet. Die Maske wurde dann jedes Mal um ein Nukleotid über die miRNA und die Zielsequenzen geschoben. Die durchschnittlichen Änderungen der Vorhersagewahrscheinlichkeit nach dem Scannen aller miRNA- und Zielsequenzen innerhalb eines Datensatzes ergaben die Regionen, die für DMISO innerhalb aller miRNA- und Zielsequenzen am signifikantesten waren.

Die Eingabestörungsmethode wurde auf die 20 % CLASH-Testdaten und CLEAR-CLIP-Datensätze angewendet (Abb. 2). Für jede Position wurden der Mittelwert (mittleres Blau) und die Variation (grauer Bereich) der Empfindlichkeit von DMISO gegenüber den Änderungen an dieser Position für alle miRNA/isomiR- und mRNA-Sequenzen in einem Datensatz aufgezeichnet. In beiden Datensätzen wiesen die Positionen 1–9 der miRNAs/isomiRs die größte Variation auf, was die Bedeutung der Seed-Region bestätigte. Allerdings waren nicht alle Positionen im Samen von gleicher Bedeutung. Beispielsweise war die erste Position mit der geringsten Variation verbunden, während die Positionen 3–5 im Seed für beide Datensätze die höchsten waren. Auch die Empfindlichkeitsschwankung von DMISO war für beide Datensätze von Position 1 bis Position 18 ähnlich und nahm dann bis zum Ende dramatisch ab. Dies könnte auf den Unterschied in der miRNA/isomiR-Länge zurückzuführen sein (die kürzeste miRNA/isomiR war 17 nt lang). Es deutete auch darauf hin, dass fast alle miRNA-Positionen und nicht nur der Seed für die Zielbindung wichtig sind50. Wenn die Ziel-mRNA-Sequenzen geändert wurden, reagierte DMISO stärker auf die Modifikationen in den 5'-Regionen der Zielsequenzen, was weiter die Bedeutung der 3'-Regionen von miRNAs/isomiRs implizierte, die die 5'-Region der Ziel-mRNA-Sequenzen begrenzten. Zusätzlich zu der hohen Empfindlichkeitsschwankung in der 5′-Region zeigten die Positionen um 50 (3′-Region) der Zielsequenzen in beiden Datensätzen einen Anstieg der Empfindlichkeitsschwankung. Da die 3′-Region des Ziels der Seed-Region der miRNA/isomiR entsprach, bestätigte dies die Bedeutung der qualitativ hochwertigen Übereinstimmung auch in dieser Seed-Region.

Die Änderungen in den Vorhersagewahrscheinlichkeiten von DMISO bei Modifikation verschiedener Regionen der Eingabe-miRNA (isomiR) und Zielsequenzen.

Wir haben miRNAs auch basierend auf den Bindungsempfindlichkeitswerten an jeder Position von miRNAs geclustert. Unsere Intuition war, dass die beiden miRNAs möglicherweise ähnliche Bindungsmuster oder -merkmale aufweisen, wenn das Modell ähnliche Reaktionsmuster auf die Änderungen an zwei miRNAs zeigt (ergänzende Abbildung S2). Wir fanden heraus, dass die meisten dieser miRNA-Cluster viele gemeinsame Ziele hatten und ein Cluster von miRNAs oft auf denselben Wegen wirkt (Ergänzungstabelle S7).

Wir haben eine neue Methode DMISO entwickelt, um miRNA/isomiR-Ziele anhand bloßer Sequenzeingaben effizient vorherzusagen (http://hulab.ucf.edu/research/projects/DMISO). Die Fülle an isomiRs in verschiedenen Zelllinien und Zelltypen macht es unmöglich, sie bei der Vorhersage von miRNA-Zielen zu ignorieren. Die Berücksichtigung von isomiRs in DMISO ermöglicht es uns, die komplexen Sequenzänderungen zu berücksichtigen, die zu den miRNA/isomiR-mRNA-Wechselwirkungen beitragen, und so eine fundiertere Entscheidung bei der Identifizierung von miRNA- und isomiR-Zielstellen und -Zielen zu treffen. DMISO zeigte eine hohe Leistung bei der Kreuzvalidierung und drei unabhängigen Datensätzen. Es übertraf die vorhandenen Tools für diese Datensätze, darunter drei beliebte Tools und zwei kürzlich veröffentlichte Deep-Learning-basierte Tools. Die bessere Leistung kann teilweise durch die allgemeineren Trainingsdaten erklärt werden, die sowohl kanonische als auch nicht-kanonische isomiR/miRNA-Zielstellen enthalten, die Berücksichtigung der Zielunterschiede der isomiRs und miRNAs, das verwendete Deep-Learning-Framework usw. Beachten Sie, dass die Die hier verwendeten CLASH- und CLEAR-CLIP-Datensätze sind die einzigen verfügbaren Datensätze, die sowohl miRNAs/isomiRs als auch ihre interagierenden mRNA-Zielstellen bereitstellen. Die Leistung von DMISO kann weiter evaluiert werden, wenn in Zukunft mehr Daten verfügbar sind.

Wir haben zwei Methoden zur Merkmalsinterpretation angewendet, um die Merkmale der miRNA/isomiR-mRNA-Zielstelle zu verstehen. Die Faltungskernanalyse legte die Rolle der RNA-bindenden proteinspezifischen Regionen in miRNAs/isomiRs und den Ziel-mRNAs bei der Bildung einer Interaktion nahe. Die Eingabestörungstechnik bestätigte, dass die 5‘-Region der miRNA/isomiR und die 3‘-Region der Zielsequenz für ihre Wechselwirkungen von großer Bedeutung waren. Darüber hinaus zeigte sich, dass auch der mittlere Teil der miRNA (isomiRs) und die Zielsequenz einen wesentlichen Beitrag leisten könnten.

Wir haben 80 % der CLASH-Interaktionen zum Trainieren von DMISO und die restlichen 20 % der Interaktionen zum Testen des Tools in der obigen Analyse verwendet. Obwohl sich die miRNA-Zielstellen in den Trainings- und Testdatensätzen nicht überschneiden, enthielten die Trainings- und Testdatensätze Zielstellen gängiger miRNAs. Dies könnte die Frage aufwerfen, ob DMISO gut geeignet ist, Zielorte unbekannter miRNAs vorherzusagen. Um diese Frage zu beantworten, haben wir ein neues DMISO-Modell mit den Interaktionen für die Hälfte der insgesamt 217 CLASH-miRNAs (109 miRNAs) trainiert und es anhand der Interaktionen für die andere Hälfte (108 miRNAs) getestet. Wir haben auch die Leistung von DMISO bei diesem Testdatensatz mit den fünf Tools verglichen. DMISO übertrifft immer noch andere Tools (Ergänzungstabelle S8), was zeigt, dass die Leistung von DMISO miRNA-unabhängig ist.

Wir analysierten auch die Leistung des Modells nach Einbeziehung der Häufigkeit von miRNAs/isomiRs und mRNA-Transkripten. Die Leseabdeckungsinformationen von miRNAs/isomiRs und mRNAs wurden zu den Eingaben der letzten logistischen Regressionsschicht hinzugefügt. Nach dem Training des Modells mit 500 Epochen zeigte das Modell 99 % bzw. 94 % AUROC-, 100 % bzw. 99 % AUPR-Werte für den CLASH-Test und CLEAR-CLIP-Datensätze, was im Vergleich zum ursprünglichen DMISO-Modell für die jeweiligen Datensätze leicht anstieg . Diese Analyse zeigt, dass die Fülle an Informationen das Modell verbessern kann. Da es in der Praxis nicht einfach ist, die Fülle an Informationen zu erhalten, haben wir das ursprünglich trainierte DMISO-Modell bevorzugt.

Wir haben keine verfügbaren Tools zum Erkennen von isomiR in chimären Lesevorgängen verwendet, da solche Tools die Flexibilität wegnahmen, eine bestimmte Länge der Sequenzänderung in einem isomiR zu definieren. Zusätzlich zur Betrachtung nur des oberen Paares von miRNA/isomiR-mRNA-Zielstellen aus einem chimären Lesevorgang oben haben wir auch die fünf besten potenziellen Paare aus jedem chimären Lesevorgang ausprobiert, um Trainings- und Testdaten zu generieren. Die oben gezogenen Schlussfolgerungen gelten weiterhin, insbesondere die bessere Leistung von DMISO (Ergänzungstabelle S9). Mit einem besseren Verständnis der isomiR-mRNA-Wechselwirkungen können wir chimäre Lesevorgänge in Zukunft möglicherweise besser in miRNA/isomiR-mRNA-Zielstellen umwandeln.

Die CLASH- und CLEAR-CLIP-Daten wurden jeweils von der Zugangsnummer GSE5045218 und GSE7305919 des NCBI Genome Expression Omnibus heruntergeladen. Die miRTarBase-Release 8.0-Daten31 wurden von den miRNA-Zielseiten heruntergeladen, die in den Originalliteraturen bereitgestellt werden, die unter https://mirtarbase.cuhk.edu.cn/~miRTarBase/miRTarBase_2022/php/download.php aufgeführt sind. Das TargetScan-Tool wurde aus dem TargetScan Human-Code der Version 7.2 unter https://www.targetscan.org/cgi-bin/targetscan/data_download.vert72.cgi heruntergeladen. Die miRanda-Tool-Version 3.3a wurde von https://anaconda.org/bioconda/miranda/files heruntergeladen. Die vollständigen Vorhersagesätze für RNA22 Version 2 wurden für „Homo Sapiens, mRNA, ENSEMBL65, miRBase18“ von https://cm.jefferson.edu/rna22-full-sets-of-predictions/ heruntergeladen. Das miRAW-Tool wurde von https://bitbucket.org/bipous/miraw_dl4mirna_binaries/src/master/ heruntergeladen. Das miTAR-Tool wurde von https://github.com/tjgu/miTAR heruntergeladen.

Der Quellcode und das Tool sind unter http://hulab.ucf.edu/research/projects/DMISO verfügbar.

Bartel, DP MicroRNAs: Genomik, Biogenese, Mechanismus und Funktion. Zelle 116, 281–297 (2004).

Artikel CAS Google Scholar

Macfarlane, LA & Murphy, PR MicroRNA: Biogenese, Funktion und Rolle bei Krebs. Curr. Genom. 11, 537–561. https://doi.org/10.2174/138920210793175895 (2010).

Artikel CAS Google Scholar

Pritchard, CC, Cheng, HH & Tewari, M. MicroRNA-Profiling: Ansätze und Überlegungen. Nat. Rev. Genet. 13, 358–369. https://doi.org/10.1038/nrg3198 (2012).

Artikel CAS PubMed PubMed Central Google Scholar

Ruppert, SM et al. Die durch JunD/AP-1 vermittelte Genexpression fördert das Lymphozytenwachstum in Abhängigkeit von der Interleukin-7-Signaltransduktion. PLoS ONE 7, e32262. https://doi.org/10.1371/journal.pone.0032262 (2012).

Artikel CAS PubMed PubMed Central ADS Google Scholar

Wang, Y., Goodison, S., Li, X. & Hu, H. Prognostische Krebsgensignaturen weisen gemeinsame regulatorische Motive auf. Wissenschaft. Rep. 7, 4750. https://doi.org/10.1038/s41598-017-05035-3 (2017).

Artikel CAS PubMed PubMed Central ADS Google Scholar

Neilsen, CT, Goodall, GJ & Bracken, CP IsomiRs – Das übersehene Repertoire im dynamischen microRNAom. Trends Genet. 28, 544–549. https://doi.org/10.1016/j.tig.2012.07.005 (2012).

Artikel CAS PubMed Google Scholar

Gebert, LFR & Macrae, IJ Regulierung der microRNA-Funktion bei Tieren. Nat. Rev. Mol. Zellbiol. https://doi.org/10.1038/s41580-018-0045-7 (2019).

Artikel PubMed PubMed Central Google Scholar

Burroughs, AM et al. Eine umfassende Übersicht über 3′-tierische miRNA-Modifikationsereignisse und eine mögliche Rolle der 3′-Adenylierung bei der Modulation der miRNA-Targeting-Wirksamkeit. Genomres. 20, 1398–1410. https://doi.org/10.1101/gr.106054.110 (2010).

Artikel CAS PubMed PubMed Central Google Scholar

Wyman, SK et al. Die posttranskriptionelle Erzeugung von miRNA-Varianten durch mehrere Nukleotidyltransferasen trägt zur Komplexität des miRNA-Transkriptoms bei. Genomres. 21, 1450–1461. https://doi.org/10.1101/gr.118059.110 (2011).

Artikel CAS PubMed PubMed Central Google Scholar

Lee, LW et al. Komplexität des microRNA-Repertoires durch Next-Generation-Sequenzierung aufgedeckt. RNA 16, 2170–2180. https://doi.org/10.1261/rna.2225110 (2010).

Artikel CAS PubMed PubMed Central Google Scholar

Cloonan, N. et al. MicroRNAs und ihre IsomiRs funktionieren kooperativ, um auf gemeinsame biologische Pfade abzuzielen. Genombiol. 12, R126. https://doi.org/10.1186/gb-2011-12-12-r126 (2011).

Artikel CAS PubMed PubMed Central Google Scholar

Llorens, F. et al. Ein hochexprimiertes miR-101-IsomiR ist eine funktionelle, stummschaltende kleine RNA. BMC-Genom. 14, 104. https://doi.org/10.1186/1471-2164-14-104 (2013).

Artikel CAS Google Scholar

Loher, P., Londin, ER & Rigoutsos, I. IsomiR-Expressionsprofile in menschlichen lymphoblastoiden Zelllinien weisen Populations- und Geschlechtsabhängigkeiten auf. Oncotarget 5, 8790–8802. https://doi.org/10.18632/oncotarget.2405 (2014).

Artikel PubMed PubMed Central Google Scholar

Martí, E. et al. Eine Vielzahl von miRNA-Varianten in Kontroll- und Huntington-Gehirnregionen, die durch massiv parallele Sequenzierung entdeckt wurden. Nukleinsäuren Res. 38, 7219–7235. https://doi.org/10.1093/nar/gkq575 (2010).

Artikel CAS PubMed PubMed Central Google Scholar

Telonis, AG, Loher, P., Jing, Y., Londin, E. & Rigoutsos, I. Jenseits des One-Locus-one-miRNA-Paradigmas: microRNA-Isoformen ermöglichen tiefere Einblicke in die Heterogenität von Brustkrebs. Nukleinsäuren Res. 43, 9158–9175. https://doi.org/10.1093/nar/gkv922 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Pinzón, N. et al. Programme zur Vorhersage von microRNA-Zielen sagen viele falsch positive Ergebnisse voraus. Genome Res. 27, 234–245. https://doi.org/10.1101/gr.205146.116 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Ding, J., Li, X. & Hu, H. CCmiR: Ein rechnerischer Ansatz zur kompetitiven und kooperativen Vorhersage der microRNA-Bindung. Bioinformatik https://doi.org/10.1093/bioinformatics/btx606 (2017).

Artikel PubMed PubMed Central Google Scholar

Helwak, A., Kudla, G., Dudnakova, T. & Tollervey, D. Die Kartierung des menschlichen miRNA-Interaktoms durch CLASH zeigt häufige nichtkanonische Bindungen. Zelle 153, 654–665. https://doi.org/10.1016/j.cell.2013.03.043 (2013).

Artikel CAS PubMed PubMed Central Google Scholar

Moore, MJ et al. MiRNA-Ziel-Chimären zeigen, dass die Paarung der miRNA-3′-Enden ein wichtiger Faktor für die Argonaute-Zielspezifität ist. Nat. Komm. 6, 1–17. https://doi.org/10.1038/ncomms9864 (2015).

Artikel CAS Google Scholar

Bhattacharya, A. & Cui, Y. SomamiR 2.0: Eine Datenbank mit somatischen Krebsmutationen, die die microRNA-ceRNA-Wechselwirkungen verändern. Nukleinsäuren Res. 44, D1005-1010. https://doi.org/10.1093/nar/gkv1220 (2016).

Artikel CAS PubMed Google Scholar

Ding, J., Li, X. & Hu, H. MicroRNA-Module binden bevorzugt schwache und unkonventionelle Zielstellen. Bioinformatik 31, 1366–1374 (2014).

Artikel Google Scholar

Liu, W. & Wang, X. Vorhersage funktioneller microRNA-Ziele durch integrative Modellierung von microRNA-Bindungs- und Zielexpressionsdaten. Genombiol. 20, 18. https://doi.org/10.1186/s13059-019-1629-z (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Wang, X. Verbesserung der microRNA-Zielvorhersage durch Modellierung mit eindeutig identifizierten microRNA-Zielpaaren aus CLIP-Ligationsstudien. Bioinformatik 32, 1316–1322. https://doi.org/10.1093/bioinformatics/btw002 (2016).

Artikel CAS PubMed PubMed Central Google Scholar

Talukder, A., Barham, C., Li, X. & Hu, H. Interpretation von Deep Learning in der Genomik und Epigenomik. Knapp. Bioinform. 22, bbaa177. https://doi.org/10.1093/bib/bbaa177 (2021).

Artikel CAS PubMed Google Scholar

Kozomara, A., Birgaoanu, M. & Griffiths-Jones, S. miRBase: Von microRNA-Sequenzen zur Funktion. Nukleinsäuren Res. 47, D155–D162. https://doi.org/10.1093/nar/gky1141 (2019).

Artikel CAS PubMed Google Scholar

Camacho, C. et al. BLAST+: Architektur und Anwendungen. BMC Bioinform. https://doi.org/10.1186/1471-2105-10-421 (2009).

Artikel Google Scholar

Frankish, A. et al. GENCODE-Referenzanmerkung für das Genom von Mensch und Maus. Nukleinsäuren Res. 47, D766–D773. https://doi.org/10.1093/nar/gky955 (2019).

Artikel CAS PubMed Google Scholar

Ding, J., Li, X. & Hu, H. TarPmiR: Ein neuer Ansatz für die Vorhersage von microRNA-Zielstellen. Bioinformatik 32, btw318 (2016).

Google Scholar

Li, J. et al. Identifizierung von mRNA-Sequenzelementen für die Zielerkennung durch menschliche Argonaute-Proteine. Genomres. 24, 775–785. https://doi.org/10.1101/gr.162230.113 (2014).

Artikel CAS PubMed PubMed Central Google Scholar

Lorenz, R. et al. ViennaRNA-Paket 2.0. Algorithmen Mol. Biol. https://doi.org/10.1186/1748-7188-6-26 (2011).

Artikel PubMed PubMed Central Google Scholar

Huang, HY et al. MiRTarBase 2020: Aktualisierungen der experimentell validierten microRNA-Target-Interaktionsdatenbank. Nukleinsäuren Res. 48, D148–D154. https://doi.org/10.1093/nar/gkz896 (2020).

Artikel CAS PubMed ADS Google Scholar

Kingma, DP & Ba, J. in der 3. Internationalen Konferenz zum Thema Lernen von Repräsentationen. (Hrsg. Yoshua Bengio und Yann LeCun).

Kim, S. & Xing, EP Statistische Schätzung korrelierter Genomassoziationen zu einem quantitativen Merkmalsnetzwerk. PLoS Genet. 5, e1000587. https://doi.org/10.1371/journal.pgen.1000587 (2009).

Artikel CAS PubMed PubMed Central Google Scholar

Tibshirani, R. Regressionsschrumpfung und Selektion über das Lasso. JR-Stat. Soc. B Methodol. 58, 267–288 (1996).

MathSciNet MATH Google Scholar

Zhou, J., Liu, J., Narayan, VA & Ye, J. Modellierung des Krankheitsverlaufs mittels fusioniertem Sparse-Group-Lasso. KDD 1095–1103, 2012. https://doi.org/10.1145/2339530.2339702 (2012).

Artikel Google Scholar

Ding, J., Cai, X., Wang, Y., Hu, H. & Li, X. ChIPModule: Systematische Entdeckung von Transkriptionsfaktoren und ihren Cofaktoren aus ChIP-seq-Daten. Im Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing, 320–331 (2013).

Talukder, A., Saadat, S., Li, X. & Hu, H. EPIP: Ein neuartiger Ansatz zur zustandsspezifischen Vorhersage der Enhancer-Promoter-Interaktion. Bioinformatik 35, 3877–3883. https://doi.org/10.1093/bioinformatics/btz641 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Zhao, C., Li, X. & Hu, H. PETModule: Ein auf Motivmodulen basierender Ansatz zur Vorhersage von Enhancer-Zielgenen. Wissenschaft. Rep. 6, 30043. https://doi.org/10.1038/srep30043 (2016).

Artikel CAS PubMed PubMed Central ADS Google Scholar

Alipanahi, B., Delong, A., Weirauch, MT & Frey, BJ Vorhersage der Sequenzspezifitäten von DNA- und RNA-bindenden Proteinen durch Deep Learning. Nat. Biotechnologie. 33, 831–838. https://doi.org/10.1038/nbt.3300 (2015).

Artikel CAS PubMed Google Scholar

Quang, D. & Xie, X. DanQ: Ein hybrides Faltungs- und wiederkehrendes tiefes neuronales Netzwerk zur Quantifizierung der Funktion von DNA-Sequenzen. Nukleinsäuren Res. https://doi.org/10.1093/nar/gkw226 (2016).

Artikel PubMed PubMed Central Google Scholar

Singh, S., Yang, Y., Póczos, B. & Ma, J. Vorhersage der Enhancer-Promoter-Interaktion aus der Genomsequenz mit tiefen neuronalen Netzwerken. Quant. Biol. 7, 122–137. https://doi.org/10.1007/s40484-019-0154-0 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Cha, M. et al. Ein zweisträngiges Faltungs-Neuronales Netzwerk für die Integration und Identifizierung von Merkmalen der Startstelle der microRNA-Transkription. Wissenschaft. Rep. 11, 5625. https://doi.org/10.1038/s41598-021-85173-x (2021).

Artikel CAS PubMed PubMed Central ADS Google Scholar

Barham, C., Cha, M., Li, X. & Hu, H. Im Jahr 2019 IEEE 7. Internationale Konferenz für Bioinformatik und Computational Biology (ICBCB). 22–28.

Agarwal, V., Bell, G., Nam, J. & Bartel, D. Vorhersage effektiver microRNA-Zielstellen in Säugetier-mRNAs. Elife https://doi.org/10.7554/eLife.05005 (2015).

Artikel PubMed PubMed Central Google Scholar

Betel, D., Koppal, A., Agius, P., Sander, C. & Leslie, C. Umfassende Modellierung von microRNA-Zielen sagt funktionelle, nicht konservierte und nicht kanonische Stellen voraus. Genombiol. 11, R90. https://doi.org/10.1186/gb-2010-11-8-r90 (2010).

Artikel CAS PubMed PubMed Central Google Scholar

Miranda, K. et al. Eine musterbasierte Methode zur Identifizierung von microRNA-Bindungsstellen und ihren entsprechenden Heteroduplexen. Zelle 126, 1203–1217. https://doi.org/10.1016/j.cell.2006.07.031 (2006).

Artikel CAS PubMed Google Scholar

Pla, A., Zhong, X. & Rayner, S. miRAW: Ein auf Deep Learning basierender Ansatz zur Vorhersage von microRNA-Zielen durch Analyse ganzer microRNA-Transkripte. PLoS Comput. Biol. https://doi.org/10.1371/journal.pcbi.1006185 (2018).

Artikel PubMed PubMed Central Google Scholar

Gu, T., Zhao, X., Barbazuk, WB & Lee, J.-H. miTAR: Ein hybrider, auf Deep Learning basierender Ansatz zur Vorhersage von miRNA-Zielen. BMC Bioinform. 22, 1–16. https://doi.org/10.1186/s12859-021-04026-6 (2021).

Artikel CAS Google Scholar

Fromm, B. et al. MirGeneDB 2.1: Auf dem Weg zu einer vollständigen Probenahme aller wichtigen Tierstämme. Nukleinsäuren Res. 50, D204–D210. https://doi.org/10.1093/nar/gkab1101 (2021).

Artikel CAS PubMed Central Google Scholar

Talukder, A., Li, X. & Hu, H. Die positionsbezogene Bindungspräferenz ist wichtig für die Vorhersage der miRNA-Zielstelle. Bioinformatik 36, 3680–3686. https://doi.org/10.1093/bioinformatics/btaa195 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Wang, XW Die Zusammensetzung der Samensequenz ist ein wichtiger Faktor für die Targeting-Muster von microRNA. Bioinformatik 30, 1377–1383. https://doi.org/10.1093/bioinformatics/btu045 (2014).

Artikel CAS PubMed PubMed Central Google Scholar

Fornes, O. et al. JASPAR 2020: Aktualisierung der Open-Access-Datenbank der Transkriptionsfaktor-Bindungsprofile. Nukleinsäuren Res. 48, D87–D92. https://doi.org/10.1093/nar/gkz1001 (2019).

Artikel CAS PubMed Central Google Scholar

Stefl, R., Skrisovska, L. & Allain, FHT in EMBO Reports, vol. 6, 33–38 (European Molecular Biology Organization, 2005).

Referenzen herunterladen

Diese Arbeit wurde von der National Science Foundation unterstützt [Grants 2120907, 1661414 und 2015838].

Institut für Informatik, University of Central Florida, Orlando, FL, 32816, USA

Amlan Talukder & Haiyan Hu

Burnett School of Biomedical Science, University of Central Florida, Orlando, FL, 32816, USA

Wencai Zhang & Xiaoman Li

Cluster für Genomik und Bioinformatik, University of Central Florida, Orlando, FL, 32816, USA

Haiyan Hu

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

HH und XL konzipierten und gestalteten die Studie. AT führte die Experimente durch. AT, XL und HH analysierten die Daten. AT, XL und HH haben das Manuskript geschrieben. Alle Autoren haben das Manuskript Korrektur gelesen.

Korrespondenz mit Xiaoman Li oder Haiyan Hu.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Talukder, A., Zhang, W., Li, X. et al. Eine Deep-Learning-Methode zur Erkennung von miRNA/isomiR-Zielen. Sci Rep 12, 10618 (2022). https://doi.org/10.1038/s41598-022-14890-8

Zitat herunterladen

Eingegangen: 29. März 2022

Angenommen: 14. Juni 2022

Veröffentlicht: 23. Juni 2022

DOI: https://doi.org/10.1038/s41598-022-14890-8

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.