Informations

Mapper les identifiants de gène sur l'identifiant de gène Ensembl


Excusez-moi si cette question est trop triviale.

J'ai les identifiants de gènes du type suivant

EOG6STSR2 EOG60ZRJB EOG6SBFJ2 EOG6P5KX3 EOG6B5PRW

du premier dossier supplémentaire dans Validation comparative de l'annotation transcriptome D. melanogaster modENCODE.

Je ne suis pas sûr du type d'identifiants. J'ai appris que les identifiants commençant par EOG sommes Groupe orthologue eucaryote ID, mais je n'ai pu les trouver dans aucune des bases de données.

Est-il possible de les mapper sur Ensemble ID ou l'un des autres couramment utilisés?


Ce ne sont pas des identifiants de gènes, mais des groupes de gènes orthologues -- essayez de rechercher les identifiants sur Google, je peux trouver cette page http://cegg.unige.ch/orthodb6/fasta.fasta?ogs=EOG6STSR2&swaptree= et donc vous devrait pouvoir télécharger les séquences et les identifiants depuis OrthoDB.

Notez que, à proprement parler, il n'y a pas d'identifiants Ensembl pour Drosophila, seulement des identifiants FlyBase qui sont également utilisés par Ensembl.


Mappage d'identifiants

Ce protocole vous montrera comment mapper ou traduire les identifiants d'une base de données (par exemple, Ensembl) à une autre (par exemple, Entrez Gene). Il s'agit d'une exigence courante pour l'analyse des données. Dans le contexte de Cytoscape, par exemple, le mappage d'identifiants est nécessaire lorsque vous souhaitez importer des données à superposer sur un réseau mais que les clés des données ne correspondent pas à celles du réseau. Ce protocole comprend deux exemples distincts mettant en évidence différentes leçons qui peuvent s'appliquer à votre cas d'utilisation, la cartographie spécifique à l'espèce et la cartographie protéine-gène.

Des informations détaillées sur l'outil Cytoscape ID Mapper sont disponibles dans Identifier Mapping dans Cytoscape : idmapper (F1000 Research)


PyEnsembl autorise également les génomes arbitraires via la spécification de chemins de fichiers locaux ou d'URL distantes vers les fichiers GTF et FASTA Ensembl et non-Ensembl. (Avertissement : les formats GTF peuvent varier et la gestion des données non-Ensembl est encore en cours de développement.)

L'objet EnsemblRelease a des méthodes pour vous permettre d'accéder à toutes les combinaisons possibles des fonctionnalités d'annotation nom_gène, gène_id, transcript_name, id_transcription, exon_id ainsi que la localisation de ces éléments génomiques (contig, position de départ, position de fin, brin).


Cartographie d'ID de gène à l'aide de R

L'inter-conversion des identifiants de gènes est l'aspect le plus important permettant l'analyse des données génomiques et protéomiques. Il existe plusieurs outils disponibles, chacun avec ses propres inconvénients. Lors de l'analyse d'enrichissement sur les ensembles de données de spectrométrie de masse, j'ai toujours eu du mal à préparer les fichiers d'entrée requis pour chacun des packages dans R. Il faut quelques ajustements et nettoyages des données pour permettre aux outils ou packages R de les accepter comme entrée. La lutte est plus dans le cas des identifiants UniProt car très peu d'applications les acceptent comme entrée. Bien qu'UniProt fournisse la fonction de mappage d'identifiant de récupération, il ne prend pas en compte le nombre de lignes, ce qui signifie que tout identifiant de protéine ou de gène qui ne peut pas être mappé est simplement omis du fichier de sortie. Cela rend difficile la combinaison des ensembles de données.

Il existe de nombreux outils disponibles pour ce type de mappage d'ID. Ici, je présente quelques packages R que j'ai utilisés et que j'ai travaillés sans problème.

Les org.Hs.eg.db paquet ou le org.Mm.eg.db l'emballage doit être utilisé respectivement pour l'homme et la souris. mapIds peut prendre n'importe quelle forme d'entrée comme l'identifiant UniProt, le symbole HGNC, l'identifiant Ensembl et l'identifiant Entrez et les interconvertir.

mapIds() renvoie un vecteur nommé d'identifiants.

La sortie peut être fusionnée avec l'ensemble de données d'origine à l'aide de « cbind » pour une analyse en aval plus poussée. Le seul avantage que j'ai remarqué avec mapIds est qu'il correspond à l'identifiant de gène ligne par ligne et insère NA lorsqu'il ne peut pas trouver de noms de gènes ou de symboles pour certains identifiants UniProt. C'est une bouée de sauvetage énorme lorsque vous travaillez avec d'énormes ensembles de données.

Pour l'humain hgnc_symbol et pour la souris mgi_symbol est à utiliser.

Généralement, avec biomart, un travail supplémentaire est nécessaire après avoir effectué le mappage initial. Vous noterez que biomart ne renvoie même pas les gènes dans le même ordre dans lequel ils ont été soumis.

Les ClusterProfiler paquet a été développé par Guangchuang Yu pour l'analyse statistique et la visualisation des profils fonctionnels des gènes et des groupes de gènes. Les org.Hs.eg.db ou la org.Mm.eg.db l'emballage doit être utilisé respectivement pour l'homme et la souris. Les types de clé peuvent être obtenus en tapant keytypes(org.Mm.eg.db) .

Outre les fonctions R énumérées ci-dessus, il existe divers outils pour la conversion d'identifiant de gène comme DAVID, le convertisseur d'identifiant de gène UCSC, etc. pour les non-programmeurs.


Est-ce que l'Ensembl ID à la plate-forme de mappage Gene Symbol est spécifique ?

J'ai un jeu de données GEO RNA-Seq mais ses données d'annotation de plate-forme sont manquantes. Je veux mapper ses ID ENSG sur des symboles de gènes, par ex. "ENSG00000223972.5" et "ENSG00000078808.16". Est-il possible de les mapper avec des symboles de gènes de manière précise sans annotations spécifiques à la plate-forme ?

FWIW, la plate-forme est GPL11154 et l'ensemble de données est GSE107011

Quel environnement logiciel utiliserez-vous ? Dans R, vous pouvez utiliser AnnotationDbi couplé à org.Hs.eg.db pour mapper les identifiants Ensembl sur les symboles des gènes. Vous devez d'abord supprimer le .[0-5] à la fin de chaque ID Ensembl, qui représente la version du gène (source). Ensuite, vous pouvez mapper les ID d'Ensembl aux symboles de gènes.

En supposant que vous travailliez dans R et que vous ayez effectué l'analyse DE et stocké les résultats dans un objet appelé degs , mon code ressemblerait à ceci :

Notez que certains identifiants d'Ensembl peuvent avoir plusieurs symboles de gènes (c'est aussi pourquoi il n'est généralement pas conseillé d'utiliser des symboles de gènes comme identifiants de gènes avant d'exécuter l'analyse). Le code ci-dessus le renvoie au premier uniquement.

Je suis presque sûr que quelque chose de similaire serait possible en Python ou dans d'autres langages. La seule chose dont vous auriez besoin est une base de données contenant à la fois le symbole du gène et les identifiants Ensembl (Biomart est généralement un bon choix).


Mapper les identifiants des gènes sur l'identifiant du gène Ensembl - Biologie

8 heures en raison de la maintenance dans notre centre de données. Cet intervalle pourrait éventuellement être plus court en fonction de l'avancement des travaux. Nous nous excusons pour tout inconvénient. *** --> *** DAVID sera en panne de 17h00 HNE le vendredi 24/06/2011 à 15h00 HNE dimanche 6/26/2011 en raison d'une maintenance dans notre centre de données. Cet intervalle pourrait éventuellement être plus court en fonction de l'avancement des travaux. Nous nous excusons pour tout inconvénient. *** --> *** Nous acceptons actuellement les utilisateurs bêta pour notre nouveau service Web DAVID qui permet d'accéder à DAVID à partir de divers langages de programmation. Veuillez nous contacter pour y accéder. *** --> *** Le mappage des symboles génétiques pour le téléchargement et la conversion de liste a changé. Veuillez consulter l'annonce du forum DAVID pour plus de détails. --> *** Annonce du nouveau service Web DAVID qui permet d'accéder à DAVID à partir de divers langages de programmation. Plus d'informations. *** --> *** DAVID 6.8 sera indisponible pour maintenance le jeudi 23/02/2016, de 9 h 00 à 13 h 00 HNE *** -->
*** Bienvenue à DAVID 6.8 ***
*** Si vous recherchez DAVID 6.7, veuillez visiter notre site de développement. ***
-->
*** Bienvenue dans DAVID 6.8 avec la base de connaissances mise à jour (plus d'informations). ***
*** Si vous recherchez DAVID 6.7, veuillez visiter notre site de développement. ***
-->
*** Bienvenue dans DAVID 6.8 avec la base de connaissances mise à jour (plus d'informations). ***
*** Le serveur DAVID 6.7 est actuellement en panne pour maintenance. ***
--> *** Veuillez lire : En raison de la maintenance du centre de données, DAVID sera hors ligne du vendredi 17 juin à 16 h HNE au dimanche 19 juin avec la possibilité d'être de nouveau en ligne plus tôt. *** -->


Outils de conversion des identifiants de sonde

Quel que soit l'outil que vous utilisez, n'oubliez pas de prendre note de la cartographie sous-jacente des sondes aux bioentités (c'est-à-dire transcrits/gènes/protéines) qui est utilisée. Bien que les séquences de sonde ne changent pas, les assemblages de génomes (par exemple, les séquences chromosomiques) et l'annotation des bioentités sont tous deux sujets à changement au fil du temps. Vous constaterez peut-être qu'une certaine sonde mappée sur le gène X il y a six mois est maintenant mappée sur le gène Y parce que le gène X est devenu obsolète ou que sa structure exon-intron a changé à la lumière de nouvelles preuves à l'appui.

Si tu as un petite liste d'ID de sonde, vous pouvez utiliser l'outil de conversion dans Ensembl Genome Browser. Pour certaines plates-formes de puces à ADN courantes (Affymetrix, Agilent et Illumina), Ensembl mappe régulièrement les sondes/ensembles de sondes par rapport au dernier ensemble de transcription des modèles. Pour effectuer une recherche, utilisez simplement les identifiants de sonde individuels comme termes de recherche dans Ensembl (par exemple, Agilent probe ID A_14_P109686). Alternativement, différents outils Web offrent une conversion de sonde, tels que DAVID.

Si tu as un longue liste d'ID de sonde, R/Bioconductor propose une gamme de packages d'annotation qui peuvent être utilisés pour convertir les identifiants de sonde pendant le flux de travail d'analyse de puces à ADN.


Mapper les identifiants des gènes sur l'identifiant du gène Ensembl - Biologie

GeneWalk détermine pour les gènes individuels les fonctions qui sont pertinentes dans un contexte biologique particulier et dans des conditions expérimentales. GeneWalk quantifie la similitude entre les représentations vectorielles d'un gène et les termes GO annotés grâce à l'apprentissage des représentations avec des marches aléatoires sur un réseau de régulation génique spécifique à une condition. L'importance de la similarité est déterminée par comparaison avec des similarités de nœuds provenant de réseaux randomisés.

Pour installer la dernière version de GeneWalk (de préférence) :

Pour installer le dernier code de Github (généralement avant les versions) :

GeneWalk utilise un certain nombre de fichiers de ressources qu'il télécharge selon les besoins pendant l'exécution. Pour éventuellement pré-télécharger ces fichiers de ressources dans le dossier de ressources par défaut, la commande

GeneWalk requiert toujours en entrée un fichier texte contenant une liste de gènes d'intérêt pertinents pour le contexte biologique. Par exemple, des gènes exprimés de manière différentielle à partir d'une expérience de séquençage qui compare une condition expérimentale à une condition de contrôle. GeneWalk prend en charge les fichiers de liste de gènes contenant des symboles de gènes humains HGNC, des identifiants HGNC, des identifiants de gènes Ensembl humains, des identifiants de gènes de souris MGI, des identifiants de gènes de rat RGD ou des identifiants d'entrée humains ou de souris. GeneWalk mappe en interne ces identifiants sur les gènes humains.

Pour les organismes autres que l'humain, la souris ou le rat, il existe deux options. La première consiste à mapper vous-même les gènes aux orthologues humains, puis à saisir la liste des orthologues humains comme décrit ci-dessus. Utilisez cette stratégie si vous considérez que l'organisme est suffisamment lié à l'homme. La deuxième option consiste à fournir un fichier de gène d'entrée avec des identifiants de gène personnalisés. Ceux-ci ne sont pas mappés aux gènes humains. Utilisez des identifiants de gènes personnalisés pour des organismes plus divergents, tels que la drosophile, le ver, la levure, les plantes ou les bactéries. Dans ce cas, l'utilisateur doit également fournir un réseau de gènes personnalisé avec des annotations GO en entrée. Voir la section Réseaux d'entrée personnalisés pour plus de détails.

Chaque ligne du fichier d'entrée de gène contient un identifiant de gène de l'un des types ci-dessus.

Interface de ligne de commande GeneWalk

Une fois installé, GeneWalk peut être exécuté à partir de la ligne de commande en tant que genewalk , avec un ensemble d'arguments obligatoires et facultatifs. Les arguments requis incluent le nom du projet, un chemin d'accès à un fichier texte contenant une liste de gènes et un argument spécifiant le type d'identifiants de gènes dans le fichier.

Vous trouverez ci-dessous la documentation complète de l'interface de ligne de commande :

GeneWalk crée automatiquement un dossier genewalk dans le dossier de départ de l'utilisateur (ou le dossier_base spécifié par l'utilisateur). Lors de l'exécution de GeneWalk, l'une des entrées requises est un nom de projet. Un sous-dossier est créé pour le nom de projet donné où tous les résultats intermédiaires et finaux sont stockés. Les fichiers stockés dans le dossier du projet sont :

  • genewalk_results.csv - Le tableau principal des résultats, un fichier texte de valeurs séparées par des virgules. Voir ci-dessous pour une description détaillée.
  • genes.pkl - Une représentation traitée de la liste de gènes donnée, au format de fichier binaire Python pickle (.pkl).
  • multi_graph.pkl - Un multigraphe networkx ressemblant au réseau GeneWalk qui a été assemblé sur la base de la liste donnée de gènes, d'un réseau d'interaction, d'annotations GO et de l'ontologie GO.
  • deepwalk_node_vectors_*.pkl - Un ensemble de vecteurs de nœuds appris pour chaque répétition d'analyse pour le graphe.
  • deepwalk_node_vectors_rand_*.pkl - Un ensemble de vecteurs de nœuds appris pour chaque répétition d'analyse pour un graphe aléatoire.
  • genewalk_rand_simdists.pkl - Distributions construites à partir de répétitions.
  • deepwalk_*.pkl - Un objet DeepWalk pour chaque répétition d'analyse sur le graphique (présent uniquement si l'argument save_dw est défini sur True).
  • deepwalk_rand_*.pkl - Un objet DeepWalk pour chaque répétition d'analyse sur un graphique aléatoire (présent uniquement si l'argument save_dw est défini sur True).

GeneWalk génère également automatiquement des figures pour visualiser ses résultats dans le sous-dossier projet/figures :

  • index.html : une page HTML qui comprend toutes les figures générées, comme décrit ci-dessous.
  • barplots avec des annotations GO classés par pertinence pour chaque gène d'entrée pour lequel GeneWalk a pu générer des résultats. Les noms de fichiers contiennent le symbole du gène humain correspondant et l'identifiant du gène d'entrée : barplot_[symbol]_[gene id]_x_mlog10global_padj_y_GO.png .
  • régulateurs_x_gene_con_y_frac_rel_go(.png et .pdf) : nuage de points pour identifier les gènes régulateurs d'intérêt. Ceux-ci ont une grande connectivité génétique et une fraction élevée d'annotations GO pertinentes. Pour plus d'informations, consultez notre publication.
  • genewalk_regulators.csv : liste des gènes régulateurs nommés dans le nuage de points des régulateurs.
  • moonlighters_x_go_con_y_frac_rel_go(.png et .pdf) : nuage de points pour identifier les gènes du clair de lune : gènes avec de nombreuses annotations GO dont une faible fraction est pertinente. Pour plus d'informations, consultez notre publication.
  • genewalk_moonlighters.csv : liste des gènes de clair de lune nommés dans le nuage de points de clair de lune.
  • genewalk_scatterplots.csv : données correspondant aux nuages ​​de points du régulateur et du clair de lune. Ce fichier peut être utilisé pour d'autres analyses de priorisation des gènes.

Description du fichier de résultats GeneWalk

genewalk_results.csv est la table de sortie principale de GeneWalk, un fichier texte de valeurs séparées par des virgules avec les en-têtes de colonne suivants :

  • hgnc_id - identifiant HGNC du gène humain.
  • hgnc_symbol - symbole du gène humain.
  • go_name - GO nom du terme.
  • go_id - Identificateur de terme GO.
  • go_domain - Domaine d'ontologie auquel appartient le terme GO (processus biologique, composant cellulaire ou fonction moléculaire).
  • ncon_gene - nombre de connexions à gene dans le réseau GeneWalk.
  • ncon_go - nombre de connexions au terme GO dans le réseau GeneWalk.
  • global_padj - la valeur p ajustée du taux de fausses découvertes (FDR) de la similarité entre le gène et le terme GO, lors de la correction des tests sur toutes les paires de termes gène-GO présentes dans le fichier de sortie. Il s'agit de la statistique clé qui indique la pertinence de la paire de termes gène-GO (fonction du gène) dans le contexte biologique particulier ou dans la condition testée. Global_padj doit être utilisé pour les analyses globales qui prennent en compte toutes les sorties GeneWalk simultanément, telles que les procédures de hiérarchisation des gènes. GeneWalk détermine une valeur p ajustée avec la correction FDR de Benjamini Hochberg pour des tests multiples de tous les termes GO connectés pour chaque analyse répétée nreps_graph. La valeur présentée ici est la moyenne (estimation moyenne) de toutes les valeurs d'ajustement p de toutes les analyses répétées nreps_graph.
  • gene_padj - Valeur p ajustée par le FDR de la similitude entre le gène et le terme GO, lors de la correction des tests multiples sur toutes les annotations GO de ce gène. Il s'agit de la statistique clé lors de l'étude des fonctions d'un (ou de quelques) gène(s) d'intérêt prédéfini(s). Gene_padj détermine la signification statistique de chaque annotation GO (fonction) et gene_padj peut être utilisé pour classer avec sensibilité les annotations GO afin de refléter la pertinence du gène d'intérêt dans le contexte biologique particulier ou dans la condition testée. Lorsque vous considérez tous (ou plusieurs) gènes d'entrée simultanément, utilisez plutôt global_padj. Moyenne sur les répétitions de nreps_graph comme pour global_padj.
  • pval - valeur p du gène - similarité de terme GO, non corrigée pour les tests d'hypothèses multiples. Moyenne sur les répétitions de nreps_graph.
  • sim - gène - similitude du terme GO (cosinus), moyenne sur les répétitions nreps_graph.
  • sem_sim - erreur standard sur sim (estimation moyenne).
  • cilow_global_padj - limite inférieure de l'intervalle de confiance à 95% sur global_padj (estimation moyenne) à partir des analyses répétées nreps_graph.
  • ciupp_global_padj - limite supérieure de l'intervalle de confiance à 95% sur global_padj.
  • cilow_gene_padj - limite inférieure de l'intervalle de confiance à 95% sur gene_padj (estimation moyenne) à partir des analyses répétées nreps_graph.
  • ciupp_gene_padj - limite supérieure de l'intervalle de confiance à 95% sur gene_padj.
  • cilow_pval - limite inférieure de l'intervalle de confiance à 95 % sur pval (estimation moyenne) à partir des analyses répétées de nreps_graph.
  • ciupp_pval - limite supérieure de l'intervalle de confiance à 95% sur pval.
  • mgi_id, rgd_id, ensembl_id, entrez_human ou entrez_mouse - dans le cas où l'un de ces identifiants de gènes a été fourni en entrée, le tableau des résultats GeneWalk commence par une colonne supplémentaire pour indiquer les identifiants de gènes. Dans le cas des gènes de souris, les hgnc_id et hgnc_symbol correspondants ressemblent à son gène orthologue humain utilisé pour l'analyse GeneWalk.

Temps d'exécution et étapes de l'algorithme GeneWalk

Le nombre de processeurs recommandé (argument facultatif : nproc) pour une durée d'exécution courte (1-2 h) est de 4 :

Par défaut, GeneWalk fonctionnera avec 1 processeur, ce qui se traduira par un temps d'exécution global plus long : 6-12h. Étant donné une liste de gènes, GeneWalk exécute trois étapes d'analyse :

  1. Assemblage d'un réseau GeneWalk et apprentissage des représentations vectorielles de nœuds en exécutant DeepWalk sur ce réseau, pour un nombre spécifié de répétitions. Durée de fonctionnement typique : une à quelques heures.
  2. Apprendre des représentations vectorielles de nœuds aléatoires en exécutant DeepWalk sur un ensemble de versions aléatoires du réseau GeneWalk, pour un nombre spécifié de répétitions. Durée de fonctionnement typique : une à quelques heures.
  3. Calcul des statistiques de similitudes entre les gènes et les termes GO, et sortie des résultats GeneWalk dans un tableau. Temps d'exécution typique : quelques minutes.
  4. Visualisation des résultats GeneWalk générés dans le sous-dossier projet/figures. Durée d'exécution typique : 1 à 10 minutes selon le nombre de gènes d'entrée.

GeneWalk peut être exécuté une fois pour terminer toutes ces étapes (par défaut), ou appelé séparément pour chaque étape (argument facultatif : étape). Disponibilité de mémoire recommandée sur votre système d'exploitation : 16 Go ou 32 Go de RAM. GeneWalk génère l'incertitude (intervalles de confiance à 95 %) de la signification de la similarité (globale et gène p-ajustement). Selon la topologie du réseau spécifique au contexte, cette incertitude peut être importante pour les associations gène-fonction individuelles. Cependant, si globalement les incertitudes s'avèrent très importantes, on peut définir les arguments optionnels nreps_graph à 10 (ou plus) et nreps_null à 10 pour augmenter la précision de l'algorithme. Cela se fait au prix d'un temps d'exécution accru.

Par défaut, GeneWalk utilise la ressource PathwayCommons ( --network_source pc ) pour créer un réseau de gènes humains. Il ajoute ensuite automatiquement des arêtes représentant les annotations GO pour les gènes d'entrée et les relations d'ontologie entre les termes GO. Cependant, il existe des options pour exécuter GeneWalk avec un réseau personnalisé en entrée.

Tout d'abord, spécifiez l'argument --network_source comme l'une des sources alternatives : .

Si des identifiants de gènes personnalisés sont utilisés ( --id_type custom ) dans la liste des gènes d'entrée, par exemple à partir d'un organisme modèle : choisissez comme source réseau sif_annot ou sif_full .

Ensuite, incluez l'argument --network_file avec le chemin d'accès au fichier d'entrée réseau personnalisé. Le format de fichier réseau doit correspondre à --network_source , comme suit.

Les options sif/sif_annot/sif_full nécessitent le fichier réseau dans un format de fichier d'interaction simple (SIF). Chaque ligne du fichier texte SIF se compose de trois entrées séparées par des virgules représentant la source, le type de relation et la cible. Le type de relation n'est pas explicitement utilisé par GeneWalk et peut être défini sur une étiquette arbitraire.

La différence entre les options sif , sif_annot et sif_full :

  • sif : le SIF d'entrée ne peut contenir que Humain relations gène-gène. Les gènes doivent être codés en tant que symboles du gène HGNC humain (par exemple KRAS). Les annotations GO pour les gènes, ainsi que les relations d'ontologie entre les termes GO sont ajoutées automatiquement par GeneWalk.
  • sif_annot : le SIF d'entrée doit contenir à la fois des relations gène-gène et des annotations GO pour les gènes : des lignes où la source est un gène et la cible un terme GO. Utilisez les ID GO avec préfixe (par exemple GO:0000186) pour encoder les termes GO. Les gènes doivent être codés de la même manière que dans la liste d'entrée de gènes et ne doivent pas nécessairement correspondre à des gènes humains. Les relations d'ontologie entre les termes GO sont ensuite ajoutées automatiquement par GeneWalk.
  • sif_full : le SIF d'entrée doit contenir tous les bords du réseau GeneWalk : relations gène-gène, annotations GO pour les gènes et relations d'ontologie entre les termes GO. GeneWalk n'ajoute plus d'arêtes au réseau. Encodez les gènes et les termes GO de la même manière que pour sif_annot .

L'option edge_list est une version simplifiée de l'option sif. Il nécessite un fichier texte réseau contenant des lignes de deux colonnes chacune, une source et une cible. En d'autres termes, il omet la colonne de type de relation du format SIF. Les autres exigences de préparation des fichiers sont les mêmes que pour l'option sif.

L'option indra nécessite comme fichier d'entrée réseau personnalisé un fichier pickle Python contenant une liste d'instructions INDRA. Ces déclarations peuvent représenter des relations gène-gène humain, ainsi que des relations gène-GO à partir desquelles les bords du réseau sont dérivés. Les annotations GO humaines et les relations d'ontologie entre les termes GO sont ensuite ajoutées automatiquement par GeneWalk lors de la construction du réseau.

Pour un didacticiel et des informations plus générales, consultez le site Web de GeneWalk.
Pour plus de documentation sur le code, consultez notre page readthedocs.

Robert Ietswaart, Benjamin M. Gyori, John A. Bachman, Peter K. Sorger et L. Stirling Churchman
GeneWalk identifie les fonctions génétiques pertinentes pour un contexte biologique en utilisant l'apprentissage de la représentation en réseau,
Biologie du génome 22, 55 (2021). https://doi.org/10.1186/s13059-021-02264-8

Ce travail a été soutenu par la subvention 5R01HG007173-07 (L.S.C.) du National Institutes of Health, la bourse EMBO ALTF 2016-422 (R.I.) et les subventions DARPA W911NF-15-1-0544 et W911NF018-1-0124 (P.K.S.).


Usage

Un vecteur de caractères des noms latins des espèces présentes dans cet ensemble de données scRNA-seq. Ceci est utilisé pour récupérer les informations Ensembl de biomart.

Vecteur de caractères des chemins vers les fichiers FASTA du transcriptome utilisés pour construire l'index kallisto. Exactement l'une des espèces et fasta_file peut être manquant.

Chemin d'accès au répertoire de sortie du bus kallisto.

Un vecteur de caractère indiquant le type de chaque espèce. Chaque élément doit être l'un des "vertébrés", "métazoaires", "plante", "champignon" et "protiste". Si la longueur est 1, alors ce type sera utilisé pour toutes les espèces spécifiées ici. Peut être manquant si fasta_file est spécifié.

D'autres arguments passés à tr2g_ensembl tels que other_attrs , ensembl_version et les arguments passés à useMart . Si fasta_files est fourni à la place de species , alors ce seront des arguments supplémentaires pour tr2g_fasta , tels que use_transcript_version et use_gene_version .


Et pour le faire en utilisant des transcriptions, vous procédez comme ceci :

La principale différence est que le TXSTART fait référence au début d'une transcription et provient de l'objet TxDb du package TxDb.Hsapiens.UCSC.hg19.knownGene, tandis que le CHRLOC fait référence à la même chose mais provient de l'objet OrgDb de l'organisation. .Hs.eg.db package. Le point d'origine est important car l'objet TxDb représente un transcriptome de l'UCSC et l'OrgDb est principalement des données centrées sur les gènes qui proviennent du NCBI. Le résultat est que CHRLOC n'aura pas autant de régions représentées que TXSTART, car il doit y avoir un gène officiel pour qu'il y ait même un record. Les données CHRLOC sont également verrouillées pour org.Hs.eg.db en tant que données pour hg19, alors que vous pouvez échanger un objet TxDb différent pour correspondre au génome que vous utilisez pour le rendre hg18, etc. Pour ces raisons, nous vous recommandons fortement d'utiliser TXSTART au lieu de CHRLOC. Cependant, CHRLOC reste dans les packages d'organisation pour des raisons historiques.