Informations

Pourquoi codons-nous les informations dans l'ADN en binaire et non en base 4 ?


J'ai récemment lu un article sur des scientifiques de Harvard codant 700 To de données dans des brins d'ADN. Mais ils ont encodé l'information en base 2, donc T et G étaient un 1 et C et A étaient un 0. Mais pourquoi binaire ? Pourquoi n'ont-ils pas simplement utilisé la base 4 ? Ce serait beaucoup plus efficace !

EDIT : voici le lien


Dans l'article de recherche sur l'effort, ils donnent l'explication suivante pour doubler les nucléotides, plutôt que de faire en sorte que chaque nucléotide représente deux bits :

Cela nous permet d'encoder les messages de plusieurs manières afin d'éviter les séquences difficiles à lire ou à écrire telles que les GC extrêmes

En pratique, ils ont choisi de quelle base de la paire il s'agissait de manière aléatoire (donc une teneur en GC de 50 %), tout en interdisant les essais d'homopolymère supérieurs à trois.

Leur système utilise également des codes-barres et des adresses comme « table des matières »/« index »/« numéros de page ». (Les données n'étaient pas stockées sur un seul long morceau d'ADN, mais sur un grand nombre de fragments plus courts.) En ayant un schéma de codage légèrement flexible, cela leur permet d'éviter potentiellement d'insérer ces éléments d'annotation dans le contenu.

De plus, un schéma de codage légèrement flexible leur permettrait d'éviter de coder accidentellement un texte avec une partie du génome d'un agent sélectionné. (C'est-à-dire que vous ne voudriez pas synthétiser une partie du génome de la variole lorsque vous stockez votre roman. Si vous pouvez changer les nucléotides utilisés, vous pouvez éviter cela.)


Encodage One-Hot vs. Encodage d'étiquettes à l'aide de Scikit-Learn

Ce sont des questions typiques d'entretien en science des données auxquelles chaque aspirant scientifique des données doit connaître la réponse. Après tout, vous vous retrouverez souvent à devoir faire un choix entre les deux dans un projet de science des données !

Les machines comprennent les nombres, pas le texte. Nous devons convertir chaque catégorie de texte en nombres pour que la machine les traite à l'aide d'équations mathématiques. Vous êtes-vous déjà demandé comment nous pouvons faire cela? Quelles sont les différentes manières ?

C'est là qu'interviennent l'encodage d'étiquettes et l'encodage à chaud. Nous allons discuter des deux dans cet article et comprendre la différence entre eux.

Remarque : Vous commencez votre parcours d'apprentissage automatique ? Je recommande de suivre notre cours complet et populaire Applied Machine Learning !


Le texte chiffré peut être sorti au format binaire. Par exemple, gpg est par défaut au format binaire, et vous devez spécifier --armor pour le rendre base64 :

La raison pour laquelle vous voyez plus souvent ASCII/base64 est qu'il est plus facile à transférer et à manipuler que binaire. Les e-mails SMTP, par exemple, ne peuvent pas gérer les données binaires sans les coder. Par conséquent, le fait d'avoir un format non binaire facilite l'envoi de texte crypté par e-mail. FTP peut passer par défaut en mode non binaire, ce qui introduira des erreurs lors du transfert d'un fichier binaire. Même quelque chose d'aussi simple que d'ouvrir un fichier dans un éditeur pour s'assurer qu'il « a l'air d'être là » est plus facile avec les formats non binaires.


10.4 Structure et fonction des génomes cellulaires

Jusqu'à présent, nous avons discuté de la structure et de la fonction de morceaux individuels d'ADN et d'ARN. Dans cette section, nous discuterons de la façon dont tout le matériel génétique d'un organisme - collectivement appelé son génome - est organisé à l'intérieur de la cellule. Étant donné que la génétique d'un organisme dicte dans une large mesure ses caractéristiques, il ne devrait pas être surprenant que les organismes diffèrent dans la disposition de leur ADN et de leur ARN.

Génotype versus phénotype

Toutes les activités cellulaires sont codées dans l'ADN d'une cellule. La séquence de bases au sein d'une molécule d'ADN représente l'information génétique de la cellule. Les segments de molécules d'ADN sont appelés gènes et les gènes individuels contiennent le code d'instruction nécessaire à la synthèse de diverses protéines, enzymes ou molécules d'ARN stables.

La collection complète de gènes qu'une cellule contient dans son génome est appelée son génotype. Cependant, une cellule n'exprime pas tous ses gènes simultanément. Au lieu de cela, il active (exprime) ou désactive certains gènes si nécessaire. L'ensemble des gènes exprimés à un moment donné détermine les activités de la cellule et ses caractéristiques observables, appelées son phénotype. Les gènes qui sont toujours exprimés sont appelés gènes constitutifs. Certains gènes constitutifs sont appelés gènes de ménage car ils sont nécessaires aux fonctions de base de la cellule.

Alors que le génotype d'une cellule reste constant, le phénotype peut changer en réponse à des signaux environnementaux (par exemple, des changements de température ou de disponibilité des nutriments) qui affectent les gènes non constitutifs exprimés. Par exemple, la bactérie orale Streptocoque mutant produit une couche visqueuse collante qui lui permet d'adhérer aux dents, formant la plaque dentaire cependant, les gènes qui contrôlent la production de la couche visqueuse ne sont exprimés qu'en présence de saccharose (sucre de table). Ainsi, alors que le génotype de S. mutans est constante, son phénotype change en fonction de la présence et de l'absence de sucre dans son environnement. La température peut également réguler l'expression des gènes. Par exemple, la bactérie gram-négative Serratia marcescens , un agent pathogène fréquemment associé aux infections nosocomiales, produit un pigment rouge à 28 °C mais pas à 37 °C, la température interne normale du corps humain (Figure 10.24).

Organisation du matériel génétique

La grande majorité du génome d'un organisme est organisée dans les chromosomes de la cellule, qui sont des structures d'ADN discrètes au sein des cellules qui contrôlent l'activité cellulaire. Rappelons que, bien que les chromosomes eucaryotes soient logés dans le noyau lié à la membrane, la plupart des procaryotes contiennent un seul chromosome circulaire qui se trouve dans une zone du cytoplasme appelée nucléoïde (voir Caractéristiques uniques des cellules procaryotes). Un chromosome peut contenir plusieurs milliers de gènes.

Organisation du chromosome eucaryote

La structure chromosomique diffère quelque peu entre les cellules eucaryotes et procaryotes. Les chromosomes eucaryotes sont généralement linéaires et les cellules eucaryotes contiennent plusieurs chromosomes distincts. De nombreuses cellules eucaryotes contiennent deux copies de chaque chromosome et sont donc diploïdes.

La longueur d'un chromosome dépasse largement la longueur de la cellule, de sorte qu'un chromosome doit être emballé dans un très petit espace pour tenir dans la cellule. Par exemple, la longueur combinée de l'ensemble des 3 milliards de paires de bases 18 d'ADN du génome humain mesurerait environ 2 mètres s'il était complètement étiré, et certains génomes eucaryotes sont plusieurs fois plus gros que le génome humain. Le surenroulement de l'ADN fait référence au processus par lequel l'ADN est tordu pour s'adapter à l'intérieur de la cellule. Le superenroulement peut entraîner un ADN sous-enroulé (moins d'un tour d'hélice pour 10 paires de bases) ou surenroulé (plus d'un tour pour 10 paires de bases) par rapport à son état normal de relaxation. Les protéines connues pour être impliquées dans le superenroulement comprennent les topoisomérases. Ces enzymes aident à maintenir la structure des chromosomes superenroulés, empêchant le surenroulement de l'ADN au cours de certains processus cellulaires comme la réplication de l'ADN.

Au cours de l'empaquetage de l'ADN, des protéines de liaison à l'ADN appelées histones effectuent divers niveaux d'emballage d'ADN et de fixation aux protéines d'échafaudage. La combinaison de l'ADN avec ces protéines attachées est appelée chromatine. Chez les eucaryotes, l'empaquetage de l'ADN par les histones peut être influencé par des facteurs environnementaux qui affectent la présence de groupes méthyle sur certains nucléotides de cytosine de l'ADN. L'influence des facteurs environnementaux sur l'emballage de l'ADN est appelée épigénétique. L'épigénétique est un autre mécanisme de régulation de l'expression des gènes sans altérer la séquence des nucléotides. Les changements épigénétiques peuvent être maintenus à travers plusieurs cycles de division cellulaire et, par conséquent, peuvent être héréditaires.

Lien vers l'apprentissage

Regardez cette animation du DNA Learning Center pour en savoir plus sur l'emballage de l'ADN chez les eucaryotes.

Organisation des chromosomes procaryotes

Les chromosomes des bactéries et des archées sont généralement circulaires et une cellule procaryote ne contient généralement qu'un seul chromosome dans le nucléoïde. Parce que le chromosome ne contient qu'une seule copie de chaque gène, les procaryotes sont haploïdes. Comme dans les cellules eucaryotes, le surenroulement de l'ADN est nécessaire pour que le génome s'adapte à la cellule procaryote. L'ADN du chromosome bactérien est organisé en plusieurs domaines superenroulés. Comme chez les eucaryotes, les topoisomérases sont impliquées dans le surenroulement de l'ADN. L'ADN gyrase est un type de topoisomérase, présent dans les bactéries et certaines archées, qui aide à prévenir le surenroulement de l'ADN. (Certains antibiotiques tuent les bactéries en ciblant l'ADN gyrase.) De plus, les protéines de type histone se lient à l'ADN et aident à l'empaquetage de l'ADN. D'autres protéines se lient à l'origine de la réplication, l'emplacement du chromosome où s'amorce la réplication de l'ADN. Étant donné que différentes régions d'ADN sont emballées différemment, certaines régions d'ADN chromosomique sont plus accessibles aux enzymes et peuvent donc être utilisées plus facilement comme matrices pour l'expression génique. Fait intéressant, plusieurs bactéries, y compris Helicobacter pylori et Shigella flexneri , ont montré qu'ils induisaient des changements épigénétiques chez leurs hôtes lors de l'infection, entraînant un remodelage de la chromatine pouvant avoir des effets à long terme sur l'immunité de l'hôte. 19

Vérifie ta compréhension

  • Quelle est la différence entre le génotype d'une cellule et son phénotype ?
  • Comment l'ADN s'intègre-t-il à l'intérieur des cellules ?

ADN non codant

En plus des gènes, un génome contient également de nombreuses régions d'ADN non codant qui ne codent pas pour des protéines ou des produits d'ARN stables. L'ADN non codant se trouve généralement dans les zones précédant le début des séquences codantes des gènes ainsi que dans les régions intergéniques (c'est-à-dire les séquences d'ADN situées entre les gènes) (Figure 10.25).

Les procaryotes semblent utiliser leurs génomes de manière très efficace, avec seulement 12% en moyenne du génome occupé par des séquences non codantes. En revanche, l'ADN non codant peut représenter environ 98% du génome chez les eucaryotes, comme on le voit chez l'homme, mais le pourcentage d'ADN non codant varie selon les espèces. 20 Ces régions d'ADN non codantes étaient autrefois appelées « ADN poubelle », mais cette terminologie n'est plus largement acceptée car les scientifiques ont depuis trouvé des rôles pour certaines de ces régions, dont beaucoup contribuent à la régulation de la transcription ou de la traduction par la production de petites molécules d'ARN non codantes, emballage d'ADN et stabilité chromosomique. Bien que les scientifiques ne comprennent peut-être pas pleinement les rôles de toutes les régions non codantes de l'ADN, on pense généralement qu'elles ont des objectifs au sein de la cellule.

Vérifie ta compréhension

ADN extrachromosomique

Bien que la plupart de l'ADN soit contenu dans les chromosomes d'une cellule, de nombreuses cellules ont des molécules d'ADN supplémentaires à l'extérieur des chromosomes, appelées ADN extrachromosomique, qui font également partie de son génome. Les génomes des cellules eucaryotes incluraient également les chromosomes de tous les organites tels que les mitochondries et/ou les chloroplastes que ces cellules maintiennent (Figure 10.26). Le maintien de chromosomes circulaires dans ces organites est un vestige de leurs origines procaryotes et soutient la théorie endosymbiotique (voir Fondements de la théorie cellulaire moderne). Dans certains cas, les génomes de certains virus à ADN peuvent également être maintenus indépendamment dans les cellules hôtes au cours d'une infection virale latente. Dans ces cas, ces virus sont une autre forme d'ADN extrachromosomique. Par exemple, le virus du papillome humain (VPH) peut être maintenu dans les cellules infectées de cette manière.

Outre les chromosomes, certains procaryotes ont également de plus petites boucles d'ADN appelées plasmides qui peuvent contenir un ou quelques gènes non essentiels à une croissance normale (figure 3.12). Les bactéries peuvent échanger ces plasmides avec d'autres bactéries dans un processus connu sous le nom de transfert horizontal de gènes (HGT). L'échange de matériel génétique sur des plasmides fournit parfois aux microbes de nouveaux gènes bénéfiques pour la croissance et la survie dans des conditions particulières. Dans certains cas, les gènes obtenus à partir de plasmides peuvent avoir des implications cliniques, codant pour des facteurs de virulence qui donnent à un microbe la capacité de provoquer une maladie ou de rendre un microbe résistant à certains antibiotiques. Les plasmides sont également largement utilisés en génie génétique et en biotechnologie comme moyen de déplacer des gènes d'une cellule à une autre. Le rôle des plasmides dans le transfert horizontal de gènes et la biotechnologie sera discuté plus en détail dans Mécanismes de la génétique microbienne et applications modernes de la génétique microbienne.

Vérifie ta compréhension

Exemple concret

Plasmides létaux

Maria, une étudiante en anthropologie de 20 ans originaire du Texas, est récemment tombée malade dans la nation africaine du Botswana, où elle menait des recherches dans le cadre d'un programme d'études à l'étranger. Les recherches de Maria se sont concentrées sur les méthodes africaines traditionnelles de tannage des peaux pour la production de cuir. Pendant trois semaines, elle a visité une tannerie quotidiennement pendant plusieurs heures pour observer et participer au processus de bronzage. Un jour, après son retour de la tannerie, Maria a développé une fièvre, des frissons et un mal de tête, ainsi que des douleurs thoraciques, des douleurs musculaires, des nausées et d'autres symptômes pseudo-grippaux. Au début, elle n'était pas inquiète, mais lorsque sa fièvre a grimpé et qu'elle a commencé à cracher du sang, sa famille d'accueil africaine s'est alarmée et l'a emmenée d'urgence à l'hôpital, où son état a continué de s'aggraver.

Après avoir pris connaissance de son récent travail à la tannerie, le médecin soupçonna que Maria avait été exposée au charbon. Il a ordonné une radiographie pulmonaire, un échantillon de sang et une ponction lombaire, et l'a immédiatement initiée à une cure de pénicilline intraveineuse. Malheureusement, les tests de laboratoire ont confirmé le diagnostic présomptif du médecin. La radiographie pulmonaire de Maria a montré un épanchement pleural, l'accumulation de liquide dans l'espace entre les membranes pleurales, et une coloration de Gram de son sang a révélé la présence de bactéries gram-positives en forme de bâtonnet en chaînes courtes, compatibles avec Bacillus anthracis . Il a également été démontré que du sang et des bactéries étaient présents dans son liquide céphalo-rachidien, indiquant que l'infection avait évolué vers une méningite. Malgré un traitement de soutien et une antibiothérapie agressive, Maria est tombée dans un état insensible et est décédée trois jours plus tard.

L'anthrax est une maladie causée par l'introduction d'endospores de la bactérie gram-positive B. anthracis dans le corps. Une fois infectés, les patients développent généralement une méningite, souvent fatale. Dans le cas de Maria, elle a inhalé les endospores en manipulant les peaux d'animaux infectés.

Le génome de B. anthracis illustre comment de petites différences structurelles peuvent conduire à des différences majeures de virulence. En 2003, les génomes de B. anthracis et Bacillus cereus , une bactérie similaire mais moins pathogène du même genre, ont été séquencés et comparés. 21 Les chercheurs ont découvert que les séquences du gène de l'ARNr 16S de ces bactéries sont identiques à plus de 99 %, ce qui signifie qu'elles sont en fait membres de la même espèce malgré leur classification traditionnelle en tant qu'espèces distinctes. Bien que leurs séquences chromosomiques aient également révélé une grande similitude, plusieurs facteurs de virulence de B. anthracis se sont avérés être codés sur deux grands plasmides non trouvés dans B. cereus. Le plasmide pX01 code une toxine en trois parties qui supprime le système immunitaire de l'hôte, tandis que le plasmide pX02 code un polysaccharide capsulaire qui protège davantage la bactérie du système immunitaire de l'hôte (figure 10.27). Depuis B. cereus manque de ces plasmides, il ne produit pas ces facteurs de virulence, et bien qu'il soit toujours pathogène, il est généralement associé à des cas bénins de diarrhée dont le corps peut se remettre rapidement. Malheureusement pour Maria, la présence de ces plasmides codant pour la toxine dans B. anthracis lui donne sa virulence mortelle.

  • Que pensez-vous qu'il adviendrait de la pathogénicité de B. anthracis s'il perdait un ou ses deux plasmides ?

Orientation clinique

Résolution

Dans les 24 heures, les résultats de l'analyse du test de diagnostic de l'échantillon de selles d'Alex ont révélé qu'il était positif pour l'entérotoxine thermolabile (LT) , l'entérotoxine thermostable (ST) et le facteur de colonisation (CF) , confirmant la suspicion du médecin de l'hôpital de ETEC. Lors d'un suivi avec le médecin de famille d'Alex, ce médecin a constaté que les symptômes d'Alex ne se résorbaient pas rapidement et qu'il ressentait une gêne qui l'empêchait de retourner en classe. Le médecin de famille a prescrit à Alex une cure de ciprofloxacine pour résoudre ses symptômes. Heureusement, la ciprofloxacine a résolu les symptômes d'Alex en quelques jours.

Alex a probablement contracté l'infection en ingérant de la nourriture ou de l'eau contaminée. Les pays industrialisés émergents comme le Mexique développent encore des pratiques d'assainissement qui empêchent la contamination de l'eau par des matières fécales. Les voyageurs dans ces pays doivent éviter l'ingestion d'aliments insuffisamment cuits, en particulier les viandes, les fruits de mer, les légumes et les produits laitiers non pasteurisés. Ils doivent également éviter d'utiliser de l'eau qui n'a pas été traitée, notamment de l'eau potable, des glaçons et même de l'eau utilisée pour se brosser les dents. L'utilisation d'eau en bouteille à ces fins est une bonne alternative. Une bonne hygiène (lavage des mains) peut également aider à prévenir une infection à ETEC. Alex n'avait pas fait attention à sa consommation de nourriture ou d'eau, ce qui a conduit à sa maladie.

Les symptômes d'Alex étaient très similaires à ceux du choléra, causé par la bactérie gram-négative Vibrio cholerae , qui produit également une toxine similaire à ST et LT. À un moment donné de l'histoire de l'évolution d'ETEC, une souche non pathogène de E. coli similaires à ceux typiquement trouvés dans l'intestin peuvent avoir acquis les gènes codant les toxines ST et LT de V. cholerae. Le fait que les gènes codant pour ces toxines soient codés sur des plasmides extrachromosomiques dans ETEC soutient l'idée que ces gènes ont été acquis par E. coli et sont probablement maintenus dans les populations bactériennes par transfert horizontal de gènes.

Revenez à la case Clinical Focus précédente.

Génomes viraux

Les génomes viraux présentent une grande diversité de structure. Certains virus ont des génomes constitués d'ADN comme matériel génétique. Cet ADN peut être simple brin, comme illustré par les parvovirus humains, ou double brin, comme observé dans les virus de l'herpès et les poxvirus. De plus, bien que toute la vie cellulaire utilise l'ADN comme matériel génétique, certains génomes viraux sont constitués de molécules d'ARN simple brin ou double brin, comme nous l'avons vu. Les génomes viraux sont généralement plus petits que la plupart des génomes bactériens, ne codant que quelques gènes, car ils dépendent de leurs hôtes pour exécuter bon nombre des fonctions nécessaires à leur réplication. La diversité des structures du génome viral et leurs implications pour les cycles de vie de la réplication virale sont discutées plus en détail dans The Viral Life Cycle.

Vérifie ta compréhension

Micro-connexions

La taille du génome compte

Il existe une grande variation dans la taille des génomes entre les différents organismes. La plupart des eucaryotes conservent plusieurs chromosomes humains, par exemple 23 paires, ce qui leur donne 46 chromosomes. Malgré sa taille de 3 milliards de paires de bases, le génome humain est loin d'être le plus grand génome. Les plantes conservent souvent de très grands génomes, jusqu'à 150 milliards de paires de bases, et sont généralement polyploïdes, ayant plusieurs copies de chaque chromosome.

La taille des génomes bactériens varie également considérablement, bien qu'ils aient tendance à être plus petits que les génomes eucaryotes (figure 10.28). Certains génomes bactériens peuvent être aussi petits que 112 000 paires de bases. Souvent, la taille du génome d'une bactérie est directement liée à la mesure dans laquelle la bactérie dépend de son hôte pour sa survie. Lorsqu'une bactérie s'appuie sur la cellule hôte pour exécuter certaines fonctions, elle perd les gènes codant pour les capacités à exécuter elle-même ces fonctions. Ces types d'endosymbiontes bactériens rappellent les origines procaryotes des mitochondries et des chloroplastes.

D'un point de vue clinique, les agents pathogènes intracellulaires obligatoires et facultatifs ont également tendance à avoir de petits génomes (environ 1 million de paires de bases). Parce que les cellules hôtes peuvent fournir la plupart de leurs nutriments, elles ont tendance à avoir un nombre réduit de gènes codant pour les fonctions métaboliques, ce qui rend leur culture en laboratoire difficile, voire impossible. En raison de leur petite taille, les génomes d'organismes comme Mycoplasme génital (580 000 paires de bases), Chlamydia trachomatis (1,0 million), Rickettsia prowazekii (1,1 million), et Treponema pallidum (1,1 million) faisaient partie des premiers génomes bactériens séquencés. Respectivement, ces agents pathogènes provoquent une urétrite et une inflammation pelvienne, la chlamydia, le typhus et la syphilis.

Alors que les agents pathogènes intracellulaires obligatoires ont des génomes inhabituellement petits, d'autres bactéries avec une grande variété de capacités métaboliques et enzymatiques ont des génomes bactériens inhabituellement grands. Pseudomonas aeruginosa, par exemple, est une bactérie que l'on trouve couramment dans l'environnement et qui est capable de se développer sur une large gamme de substrats. Son génome contient 6,3 millions de paires de bases, ce qui lui confère une capacité métabolique élevée et la capacité de produire des facteurs de virulence qui provoquent plusieurs types d'infections opportunistes..

Il est intéressant de noter qu'il existe également une variabilité significative de la taille du génome chez les virus, allant de 3 500 paires de bases à 2,5 millions de paires de bases, dépassant de manière significative la taille de nombreux génomes bactériens. La grande variation observée dans les tailles des génomes viraux contribue en outre à la grande diversité des caractéristiques du génome viral déjà discutées.

Lien vers l'apprentissage

Visitez la base de données du génome du National Center for Biotechnology Information (NCBI) pour voir les génomes qui ont été séquencés et leurs tailles.

Notes de bas de page

    Institut national de recherche sur le génome humain. « Achèvement du projet du génome humain : questions fréquemment posées ». https://www.genome.gov/11006943. Consulté le 10 juin 2016 H. Bierne et al. « Epigénétique et infections bactériennes ». Perspectives de Cold Spring Harbor en médecine 2 non. 12 (2012):a010272. R.J. Taft et al. "La relation entre l'ADN non codant pour les protéines et la complexité eucaryote." Essais biologiques 29 non. 3 (2007) : 288-299. N. Ivanova et al. « Séquence du génome de Bacillus cereus et analyse comparative avec Bacillus anthracis. La nature 423 non. 6935 (2003) : 87-91.

En tant qu'associé Amazon, nous gagnons des achats éligibles.

Vous voulez citer, partager ou modifier ce livre ? Ce livre est Creative Commons Attribution License 4.0 et vous devez attribuer OpenStax.

    Si vous redistribuez tout ou partie de ce livre dans un format imprimé, vous devez alors inclure sur chaque page physique l'attribution suivante :

  • Utilisez les informations ci-dessous pour générer une citation. Nous vous recommandons d'utiliser un outil de citation comme celui-ci.
    • Auteurs : Nina Parker, Mark Schneegurt, Anh-Hue Thi Tu, Philip Lister, Brian M. Forster
    • Éditeur/site Web : OpenStax
    • Titre du livre : Microbiologie
    • Date de parution : 1 nov. 2016
    • Lieu : Houston, Texas
    • URL du livre : https://openstax.org/books/microbiology/pages/1-introduction
    • URL de la section : https://openstax.org/books/microbiology/pages/10-4-structure-and-function-of-cellular-genomes

    © 20 août 2020 OpenStax. Le contenu des manuels produit par OpenStax est sous licence Creative Commons Attribution License 4.0. Le nom OpenStax, le logo OpenStax, les couvertures de livres OpenStax, le nom OpenStax CNX et le logo OpenStax CNX ne sont pas soumis à la licence Creative Commons et ne peuvent être reproduits sans le consentement écrit préalable et exprès de Rice University.


    Pourquoi la modélisation des données est importante (et pourquoi elle ne l'est pas)

    La base de données est maintenant l'objet, et la lutte entre la signalisation et l'encapsulation continue. [+] au rythme.

    ©2018 KURT CAGLE. TOUS LES DROITS SONT RÉSERVÉS

    La modélisation des données n'excite pas la passion des programmeurs. Votre développeur Java ou Python moyen ne réalise probablement même pas qu'il le fait lorsqu'il écrit des programmes, en grande partie parce qu'un modèle de données en lui-même ne le fait pas vraiment. faire n'importe quoi. C'est simplement est. En termes informatiques, faire des choses est la marque des langages orientés impératifs (commandes), tout simplement étant est déclaratif programmation orientée (assertionnelle ou existentielle).

    Les choses « excitantes » que les programmeurs aiment faire bouger les choses – au fond, tous les programmeurs ont fait leurs débuts parce qu’ils voulaient écrire des jeux vidéo. Voir une page Web ou une application prendre vie est le moment pour lequel les programmeurs vivent, et pour y arriver, vous devez avoir quelque chose qui déplace réellement ces éléments.

    Ceux d'entre nous qui sont dans la mi-cinquantaine et plus se souviennent de l'époque où la programmation orientée objet n'existait pas. Vous aviez des "types", qui étaient essentiellement des ensembles statiques de variables liées, dont chacun pouvait contenir d'autres variables dans des tableaux ou des tables de hachage, et la plupart des algorithmes sur lesquels Don Knuth a écrit impliquaient la façon dont vous manipuliez les données contenues dans ces types pour les changer en d'autres types, qui ont ensuite été introduits en tant que structures de données dans des instructions qui liraient ces informations de type pour créer l'effet secondaire approprié.

    L'avènement de Smalltalk, C++, Java et d'autres langages similaires a imposé une certaine discipline sur le fonctionnement de ces structures de types. Premièrement, il a introduit la notion de Classer, dans lequel, plutôt que d'avoir des structures de type passées à des fonctions définies dans une bibliothèque, cela a été inversé par la structure de données vivant dans la classe.

    Cette idée, appelée encapsulation, peut sembler insignifiant aujourd'hui, mais son effet était à peu près analogue à ce qui s'est passé il y a trois milliards et demi d'années lorsque des brins d'ARN de base flottant librement, des ordinateurs biologiques de base, ont développé un ensemble de codages qui utilisaient l'ARN pour construire des parois cellulaires protoplasmiques précoces à partir de protéines. Entre autres choses, cela a fourni une couche de protection afin que l'ARN puisse commencer à durer assez longtemps pour se différencier et construire d'autres capacités. De plus, une mutation mineure de l'un des quatre nucléotides qui composent l'ARN, l'introduction d'un groupe méthyle qui a transformé l'uracile en thymine, a permis à l'ARN modifié de créer un double brin permanent et donc de rester suffisamment stable pour se répliquer. L'encapsulation a permis à la chimie de devenir biologie.

    À cet égard, il y a ici une analogie très réelle entre une classe et une instance. La classe est l'ADN - elle identifie les différentes structures qu'une instance donnée devrait avoir, décrit comment elles se déplacent d'un état à l'autre (où l'état indique dans quelle facette se trouve une variable interne donnée à un moment donné). La classe n'est pas l'instance - le brin filandreux d'une molécule d'ADN n'est en aucun cas la même chose qu'une personne composée de toutes les cellules codées dans cet ADN - mais la classe est nécessaire pour que la personne existe.

    Dans le domaine biologique, rien n'est gratuit - vous avez besoin de matières premières pour créer des choses comme des protéines, et vous avez également besoin de sources d'énergie, généralement sous forme de sucres, ainsi qu'un mécanisme pour convertir cette source d'énergie en énergie nécessaire pour construire ces protéines. Dans la cellule, cela se fait généralement via l'adénotriphosphate, plus fréquemment connu sous son acronyme ATP. Dans le domaine numérique, l'énergie se présente sous la forme de cycles informatiques alimentés par l'électricité, travaillant sur des structures de données plus simples pour en construire des plus complexes. (Cette métaphore, soit dit en passant, est EXTRÊMEMENT fuyante, alors soyez indulgents avec moi ici.)

    Les objets, créés par les classes, ont un état interne. Un autre aspect de l'encapsulation est la notion qu'en général, cet état interne est « caché ». Une fois que vous avez mis les informations d'état dans une encapsulation, ces informations disparaissent à toutes fins utiles. Ce qui reste, ce sont les signaux qu'un objet donné émet (« mon état interne a changé ! », alias événements) et les gestionnaires des signaux que l'objet absorbe de l'environnement extérieur (méthodes). L'appel d'une méthode sur un objet est simplement une forme spécialisée de gestionnaire d'événements.

    L'encapsulation (bien plus que l'héritage ou le polymorphisme) qui définit les classes, mais la faiblesse de l'encapsulation est que ce qui existe en tant que cascade d'instances de classe en mémoire ne persiste pas nécessairement bien lorsqu'il doit être gelé dans un type de support de stockage. Différents types d'ordinateurs, de systèmes d'exploitation et de langages ont différentes manières de représenter les objets binaires, et cela s'aggrave lorsque vous devez stocker un état qui vous permet de « ressusciter » un objet gelé dans un environnement différent exécutant une application différente.

    Sérialisation est le processus de conversion d'une cascade d'objets dans un format persistant et est essentiel pour des choses telles que l'écriture d'un objet sur le disque, dans une base de données ou dans un flux. L'inverse, lire une sérialisation pour créer une cascade d'objets, s'appelle analyse. Dans les objets autonomes, la sérialisation et l'analyse sont généralement effectuées relativement rarement, généralement au moment où vous enregistrez ou chargez un fichier, respectivement. Cependant, au moment où votre application commence à faire partie d'un réseau plus large, la sérialisation et l'analyse finissent par jouer un rôle beaucoup plus important, ce rôle devenant d'autant plus important plus vous parlez haut dans la pile d'entreprise et plus les gens utilisent non seulement le données mais le modèle lui-même.

    La modélisation des données d'entreprise n'a émergé que relativement récemment (au cours de la dernière décennie environ), car le champ des applications est devenu suffisamment large pour qu'un vocabulaire cohérent devienne nécessaire. La plupart des premiers vocabulaires de ce type ont été créés à l'aide de XML, mais bien que XML soit un excellent mécanisme pour contenir un contenu hiérarchique structuré (bien mieux que les bases de données relationnelles), il fonctionne beaucoup moins bien lorsqu'il s'agit de références à des objets partagés. C'est l'une des principales raisons pour lesquelles la plupart des efforts d'entreprise basés sur XML n'ont au mieux réussi qu'à moitié.

    RDF, le cadre de description des ressources, s'est imposé comme un outil privilégié pour effectuer une telle modélisation au niveau de l'entreprise. Il fonctionne en divisant les structures de données en déclarations simples qui peuvent ensuite être enchaînées en ensembles de données liés appelés graphiques. Ce qui suit illustre à quoi pourrait ressembler un tel graphique (pour un client) :

    Un modèle (ou plus exactement un exemplaire) montrant comment un client peut être modélisé.

    ©2018 Kurt Cagle. Tous les droits sont réservés.

    Chacun des rectangles arrondis en bleu sont des « nœuds » dans le graphique, représentant des entités, des choses telles que des personnes, des lieux, des organisations, etc. Le vert foncé représente les nœuds qui sont plus descriptifs et tombent généralement dans le domaine des données de référence. Ils classent efficacement les informations en bleu. Les champs jaunes représentent à leur tour des données littérales - des chaînes de texte, des nombres, des dates, etc., généralement qualifiées par une sorte de type de données (les cases vertes fléchées).

    Les flèches représentent les relations entre les autres types de nœuds. Pensez à une feuille de calcul montrant une table des matières, où chaque ligne représente un élément d'un type donné dans la table, chaque colonne représente une relation, chaque cellule représente une valeur ou un lien vers une autre entrée dans une autre feuille d'un classeur, et chaque feuille (table) représente une classe quelconque. À partir de l'un de ces nœuds, vous pouvez alors avoir une perspective de ce à quoi ressemble le modèle de données à partir du le contexte de ce nœud.

    Le diagramme ci-dessus n'est pas lui-même le modèle de données. C'est plutôt ce qu'on appelle un exemple, un exemple montrant ce que le modèle de données produirait une fois rempli de données et exprimé dans une représentation de type Tinker Toy. Le modèle, cependant, contient ce que vous vous attendez à trouver dans un modèle - des informations schématiques et des annotations sur les classes, les propriétés et les contraintes (ce n'est tout simplement pas aussi explicite visuellement). Ce qui rend RDF si extraordinaire, c'est qu'il s'agit d'un cadre abstrait, de sorte que vous pouvez représenter les mêmes informations de différentes manières, des diagrammes aux fichiers texte en passant par XML et JSON et même des feuilles de calcul. De plus, vous pouvez également exprimer le modèle lui-même de la même manière, ce qui signifie que le modèle devient juste une autre partie du graphique global.

    Avec RDF (et toute la discipline de la sémantique), vous pouvez mélanger les données et les métadonnées, réduisant ainsi le nombre d'hypothèses à faire sur les données elles-mêmes. Un tel modèle peut faire des choses comme coder les types attendus d'unités (mètres contre pieds) ou de devises (dollars américains contre yens japonais), peut fournir des annotations descriptives et des références à des dispositions spécifiques d'une norme ou d'un contrat (ce qui rend la sémantique et technologies complémentaires blockchain). Vous pouvez également utiliser RDF pour gérer l'un des problèmes les plus épineux de la gestion des données d'entreprise : la résolution d'identifiants provenant de divers systèmes pour représenter la même personne, le même lieu ou la même chose.

    Cette capacité à référencer des métadonnées devient importante dans un autre domaine : créer une association entre un concept métier et une implémentation technique de ce concept. Les analystes métier travaillent fréquemment avec des « dictionnaires de données », des concepts spécifiques qu'ils souhaitent capturer, mais trop souvent il existe un réel décalage entre la terminologie métier utilisée et la représentation de ces données dans diverses applications. La sémantique peut fournir le lien nécessaire pour assurer une gouvernance plus cohérente entre la C-Suite et la salle des serveurs.

    Cependant, la sémantique - et l'utilisation d'un modèle unifié - a également ses propres coûts et disciplines. Il est possible de construire des modèles de données sémantiques capables de fédérer des systèmes de données externes, mais ceux-ci ont souvent des coûts de performances importants, ce qui les rend utiles peut-être pour des ingestions ponctuelles mais pas nécessairement pour des requêtes de données complexes. Au lieu de cela, il est généralement préférable de créer un modèle de données distribué autour de principes de données liées ouvertes, où vous créez plusieurs nœuds qui partagent un modèle unifié et fonctionnent intrinsèquement avec RDF, en téléchargeant dans chaque nœud un sous-ensemble des informations qu'une organisation utilise afin pour mieux assurer une gouvernance des données plus efficace (un sujet pour un futur article).

    Alors, étant donné cela, avez-vous besoin d'un modèle de données d'entreprise ? Si vous créez une application plus ou moins autonome dans laquelle les données ne sont pas réutilisées de manière significative, la modélisation des données est souvent contre-productive. D'un autre côté, si votre organisation est suffisamment grande et diversifiée où différents départements travaillent avec différents aspects du même ensemble de ressources, alors un modèle de données peut être essentiel pour l'échange de données, d'autant plus que les limites qui font que la POO fonctionne au niveau le niveau micro ne fonctionne généralement pas aussi bien lorsqu'on parle de systèmes complexes.

    En effet, il se peut que, du point de vue informatique, nous soyons à un niveau où les mêmes processus qui ont incité l'encapsulation de données dans des objets basés sur des classes en premier lieu se reproduisent maintenant, mais maintenant au niveau de l'entreprise. Pour l'instant, cette discipline est au niveau de la convention sémantique, mais avec l'apprentissage automatique, la blockchain, l'Internet des objets et des technologies similaires qui commencent tous à converger, il se peut très bien qu'un nouveau paradigme évolue pour traiter de tels systèmes macroscopiques d'objets. .


    ADN recombinant

    10.7.3 Hybridation à l'aide de sondes ADN double brin

    L'hybridation peut également être réalisée à l'aide d'une sonde d'ADNdb préparée par translation de coupure. Lors de l'utilisation d'une température d'hybridation de 68°C en solution aqueuse ou 42°C dans 50 % de formamide, Maniatis et al. (1982) recommandent l'utilisation de l'équation suivante pour estimer le temps nécessaire pour obtenir une hybridation semi-complète :

    X est la quantité de sonde ajoutée à la réaction d'hybridation (en µg) Oui est la complexité de la sonde, qui pour la plupart des sondes est proportionnelle à la longueur de la sonde, en kb et Z est le volume de la réaction d'hybridation (en mL).

    L'hybridation presque complète est obtenue après trois fois la t1/2 période.

    Problème 10.18 Les filtres préparés pour l'hybridation sur plages sont placés dans un sac en plastique avec 15 ml d'un tampon d'hybridation aqueux et 0,5 ug d'une sonde à translation de coupure de 7500 pb de longueur. On laisse l'hybridation se dérouler à 68°C. Combien de temps la réaction d'hybridation doit-elle se poursuivre pour une hybridation presque complète de la sonde à cibler ?

    Solution 10.18

    En utilisant l'équation précédente, X est de 0,5 g, Oui est de 7,5 ko (7500 pb = 7,5 ko), et Z est de 15 ml. Placer ces valeurs dans l'équation pour l'hybridation semi-complète donne

    Par conséquent, la réaction d'hybridation est à moitié terminée en 9 h. On peut laisser la réaction se dérouler pendant trois fois plus longtemps (27 h) pour assurer une hybridation presque complète.


    ADN indésirable - pas si inutile après tout

    En rapport

    Jonque. Dénudé. Ne fonctionnant pas. Matière noire. C'est ainsi que les scientifiques ont décrit les 98% du génome humain qui se trouvent entre nos 21 000 gènes, depuis le premier séquençage de notre ADN il y a environ une décennie. La déception dans ces descripteurs était intentionnelle et palpable.

    On croyait que le génome humain – les fondements du modèle pour les espèces parlantes, bâtissant un empire et socialement évoluées que nous sommes – serait bourré de gènes sophistiqués, codant pour des protéines critiques d'une complexité inégalée. Mais quand tout a été dit et fait, et que le Human Genome Project a finalement déterminé la séquence entière de notre ADN en 2001, les chercheurs ont découvert que les 3 milliards de paires de bases qui comprenaient nos 21 000 gènes seulement constituaient un dérisoire 2% de l'ensemble du génome. Le reste, reconnaissaient les généticiens avec une gêne non dissimulée, était une apparente friche biologique.

    Mais il s'avère qu'ils avaient tort. Dans une impressionnante série de plus de 30 articles publiés dans plusieurs revues, dont La nature, Recherche sur le génome, Biologie du génome, Science et Cellule, les scientifiques rapportent maintenant que ces vastes étendues d'ADN apparent "junk" sont en fait le siège d'une activité cruciale de contrôle des gènes - des changements qui contribuent à des centaines de maladies courantes.Les nouvelles données proviennent du projet Encyclopedia of DNA Elements, ou ENCODE, une entreprise de 123 millions de dollars lancée par le National Human Genome Research Institute (NHGRI) en 2003, qui comprend 442 scientifiques dans 32 laboratoires à travers le monde.

    ENCODE a révélé qu'environ 80 % du génome humain est biochimiquement actif. «Ce qui est remarquable, c'est à quel point [le génome] fait au moins quelque chose. Cela a changé ma perception du génome », déclare Ewan Birney, coordinateur principal de l'analyse d'ENCODE à l'Institut européen de bioinformatique.

    Plutôt que d'être inertes, les portions d'ADN qui ne codent pas pour les gènes contiennent environ 4 millions de soi-disant commutateurs génétiques, des facteurs de transcription qui contrôlent l'activation et la désactivation de nos gènes et la quantité de protéines qu'ils produisent, affectant non seulement toutes les cellules et organes de notre corps, mais en le faisant à différents moments de notre vie. Quelque part au milieu de ces 80 % de l'ADN, par exemple, se trouvent les instructions qui amènent une cellule non engagée dans un embryon en croissance à former un neurone cérébral, ou dirigent une cellule du pancréas pour produire de l'insuline après un repas, ou guident une cellule de la peau vers bourgeonner et remplacer un prédécesseur qui s'est desséché.

    "Ce que nous avons appris d'ENCODE, c'est à quel point le génome humain est compliqué et l'incroyable chorégraphie qui se déroule avec l'immense nombre de commutateurs qui chorégraphient la façon dont les gènes sont utilisés", a déclaré Eric Green, directeur de NHGRI, aux journalistes lors d'une téléconférence discutant les résultats. "Nous commençons à répondre à des questions fondamentales telles que quelles sont les parties actives du génome humain, la liste des parties du génome humain et ce que font ces parties."

    Si le projet du génome humain a établi les lettres du génome humain, ENCODE fournit le récit du roman génétique en façonnant des chaînes d'ADN en mots moléculaires significatifs qui, ensemble, racontent non seulement comment nous devenons qui nous sommes, mais comment nous obtenons malade aussi.

    Depuis que le génome humain a été cartographié, les scientifiques l'ont exploité à la recherche d'indices sur les déclencheurs génétiques et, finalement, sur les traitements de diverses maladies - maladies cardiaques, diabète, schizophrénie, autisme, pour n'en nommer que quelques-unes. Mais des centaines d'études d'association à l'échelle du génome (GWAS) qui ont comparé l'ADN d'individus sains à ceux atteints de maladies spécifiques ont révélé que les changements pertinents dans l'ADN ne se produisaient pas dans les gènes eux-mêmes, mais dans le noir génétique non codant. des trous. Jusqu'à présent, les chercheurs ne comprenaient pas pleinement ce que faisaient ces régions non codantes si les variations dans ces zones ne faisaient pas partie d'un gène connu, ils ne pouvaient pas dire quel impact, le cas échéant, le changement génétique avait.

    ENCODE, qui fournit une carte de ces commutateurs génétiques, permettra désormais aux scientifiques de déterminer ce que font exactement ces variantes. . "Nous devons revoir l'interprétation de ces études", a déclaré le Dr John Stamatoyannopoulos, professeur agrégé de médecine et de sciences du génome à l'Université de Washington, lors de la téléconférence. « Dans de nombreux cas, ces études ont conclu que 10 ou 15 variantes pourraient être importantes pour une maladie particulière. Les données d'ENCODE indiquent qu'il s'agit probablement d'une sous-estimation importante, qu'il peut y avoir des dizaines, voire des centaines de variantes atterrissant dans les commutateurs, il y a donc une énorme quantité d'informations encore cachées dans ces études qui doivent être réanalysées dans le contexte de la nouvelles données."

    Désireux de mettre en pratique leurs nouvelles connaissances scientifiques, les scientifiques ont déjà commencé certaines de ces études. À l'Université de Washington, Stamatoyannopoulos et ses collègues ont découvert que les modifications génétiques identifiées par GWAS comme étant impliquées dans 17 types de cancer différents semblent affecter près de deux douzaines de facteurs de transcription qui traduisent l'ADN brut en ARN qui se transforme en protéines fonctionnelles. Ce fil conducteur moléculaire pourrait conduire à de nouveaux traitements qui contrôlent la fonction de ces facteurs de transcription non pas dans un seul mais dans tous les 17 cancers, y compris les maladies de l'ovaire, du côlon et du sein. "Cela indique que de nombreux cancers peuvent avoir une prédisposition génétique sous-jacente commune", a-t-il déclaré aux journalistes. "Nous pouvons donc établir des liens entre les maladies et les circuits de contrôle du génome pour comprendre les relations là où auparavant il n'y avait aucune preuve d'un lien entre les maladies."

    ENCODE peut apporter un éclairage significatif sur nos maladies chroniques les plus courantes, notamment le diabète, les maladies cardiaques et l'hypertension, qui résultent d'une recette complexe de dysfonctionnements, non seulement dans des gènes uniques, mais dans une variété d'hormones, d'enzymes et d'autres facteurs métaboliques. Des changements dans la façon dont certains gènes sont activés ou désactivés peuvent expliquer la majeure partie de ces conditions et les rendre finalement plus traitables. "Dans l'ensemble, nous pensons que les maladies rares peuvent être causées par des mutations dans la région codant pour la protéine [ou le gène]", déclare Green, tandis que les maladies "plus courantes et compliquées" peuvent être attribuées à des changements génétiques dans les commutateurs. .”

    Dans un autre exemple de la puissance d'ENCODE, Birney dit que l'encyclopédie génétique a également identifié une nouvelle famille de régulateurs qui affectent la maladie de Crohn, une maladie auto-immune qui amène les cellules immunitaires du corps à activer les cellules intestinales. Cette découverte pourrait conduire à de nouvelles thérapies potentiellement plus efficaces. « J'ai eu plus de chercheurs cliniques venus à ma porte au cours des deux dernières années qu'au cours des 10 précédentes », a déclaré Birney. « Ce sera très amusant de produire de nombreuses informations sur la maladie au cours des deux prochaines années. »

    ENCODE ouvre non seulement des portes à de nouvelles thérapies, mais améliore également notre compréhension de base du développement humain. Au cœur des recherches de nombreux chercheurs en génétique se trouve le désir de comprendre comment chaque cellule de notre corps, de celles qui composent nos cheveux à celles qui résident dans nos ongles, peut contenir l'intégralité de notre génome tout en réussissant à ressembler et à fonctionner de telle manière. manières très divergentes. Les scientifiques d'ENCODE savaient que certains mécanismes de régulation dictaient quand et où certains gènes étaient exprimés et en quelle quantité afin de donner naissance à la diversité des cellules et des tissus qui composent le corps humain, mais même eux ont été surpris par la complexité du processus. la chorégraphie s'est avérée être. "La plupart des gens sont surpris qu'il y ait plus d'ADN codant pour les éléments de contrôle régulateurs, ou les éléments de commutation pour les gènes, que pour les gènes eux-mêmes", Michael Snyder, directeur du centre de génomique et de médecine personnalisée à l'Université de Stanford et membre de l'équipe ENCODE , a déclaré Healthland.

    Conformément au modèle d'accès ouvert mis en place par le Projet du génome humain, les données d'ENCODE sont disponibles dans leur intégralité pour les chercheurs gratuitement sur le site Web du consortium. La base de données alimentera sans aucun doute un regain d'intérêt pour les approches basées sur le génome pour le diagnostic et le traitement des maladies. Malgré l'enthousiasme initial sur le terrain, au cours des années qui ont suivi la cartographie du génome, les traitements guidés par les gènes et les approches de thérapie génique pour traiter la maladie se sont avérés difficiles à apporter à la clinique. Selon les généticiens, une partie du défi pourrait être liée à le fait qu'ils ne comprenaient pas parfaitement comment contrôler les gènes affectés par la maladie.

    "Je suis presque sûr que c'est la science de ce siècle", a déclaré Birney. « Nous allons déterminer comment nous fabriquons des humains, à partir du simple manuel d'instructions. » Et peut-être trouverons-nous aussi comment rendre les humains plus sains.

    Alice Park est écrivain à TIME. Retrouvez-la sur Twitter à @aliceparkny. Vous pouvez également poursuivre la discussion sur la page Facebook de TIME et sur Twitter à @TIME.


    Détruire l'ADN indésirable : les 80 % notoires

    La semaine dernière, j'ai noté certains des titres hyperboliques accompagnant la publication coordonnée d'un grand nombre d'ensembles de données du projet ENCODE. Le résumé de l'article de haut niveau commence comme suit :

    Le génome humain code le modèle de la vie, mais la fonction de la grande majorité de ses près de trois milliards de bases est inconnue. Le projet Encyclopedia of DNA Elements (ENCODE) a systématiquement cartographié les régions de transcription, d'association de facteurs de transcription, de structure de la chromatine et de modification des histones. Ces données nous ont permis d'attribuer des fonctions biochimiques pour 80 % du génome, notamment en dehors des régions codantes pour les protéines bien étudiées. 1/

    Dans l'espoir de déchiffrer ces phrases, j'ai lu sur la régulation des gènes. Ce modeste effort n'est pas le fruit d'une simple curiosité académique. Si l'on en croit la presse populaire et même une partie de la presse scientifique, ENCODE a exorcisé « l'ADN indésirable » du corps des connaissances scientifiques. 2/ La lumière vive éclairant soudain la “matière noire” du génome (pour introduire une autre métaphore bâclée) 3/ soulève un point d'interrogation géant pour le système de justice pénale. Les autorités chargées de l'application des lois ont toujours insisté sur le fait que les extraits d'ADN utilisés pour générer des profils d'identification ADN ne sont que des « poubelles » non fonctionnelles. 4/ Maintenant, selon New York Times correspondante scientifique Gina Kolata,

    Alors que les scientifiques fouillaient dans les parties « indésirables » de l'ADN qui ne sont pas de véritables gènes contenant des instructions pour les protéines, ils ont découvert un système complexe qui contrôle les gènes. Au moins 80 pour cent de cet ADN est actif et nécessaire. … [ ] … L'idée avant le début du projet, a déclaré Thomas Gingeras, un chercheur d'Encode du Cold Spring Harbor Laboratory, était que seulement 5 à 10 % de l'ADN d'un être humain était réellement utilisé. 5/

    Cette juxtaposition de pourcentages suggère que la communauté scientifique est passée de l'idée que « seulement 5 à 10 % du génome est fonctionnel (nécessaire pour que l'organisme fonctionne normalement) à une soudaine réalisation que 80 % tombent. dans cette catégorie.

    Mais plus je lisais, plus il devenait clair que cette description d'une transition de phase soudaine dans la science est extrêmement inexacte. Le biostatistien de Johns Hopkins, Steve Salzberg, dans une interview provocante en podcast de Simply Statistics, décrit le chiffre de 80 % présenté dans l'article d'ENCODE comme irresponsable. 6/ Le biochimiste de l'Université de Toronto, Lawrence Moran, y a vu une répétition d'une performance similaire et problématique il y a cinq ans, à la fin de la phase pilote d'ENCODE. 7/ En réponse aux critiques, le chef du projet ENCODE, Ewan Birney, a expliqué les nouvelles connaissances de cette façon :

    Après tout, 60 % du génome avec la nouvelle annotation détaillée manuellement révisée (GenCode) est soit exonique, soit intronique, et un certain nombre de nos tests (tels que PolyA-RNA et H3K36me3/H3K79me2) devraient marquer toute transcription active. Ainsi, voir 20 % supplémentaires par rapport aux 60 % attendus n'est pas si surprenant. 8/

    “Pas si surprenant”? Un énorme 60%–pas un mineur 5 ou 10%–était déjà estimé comme “actif” ? Qu'est-ce qui se passe ici?

    La réponse réside dans la définition de certains termes clés (comme les exons, les introns et la transcription) et nécessite une compréhension rudimentaire des principes fondamentaux de l'expression des gènes et de sa régulation chez les êtres humains. Cet article présente la terminologie et les concepts essentiels. Une suite les appliquera pour expliquer ce que signifie l'attribution de fonctions biochimiques par ENCODE à 80% du génome. Quiconque sait ce que font les transcrits d'ARN et les facteurs de transcription peut sauter cette première partie (ou peut la lire pour me faire part de mes inexactitudes).

    Pour éviter tout suspense, j'exposerai mes conclusions ici et maintenant : (1) si ENCODE donne un nombre clair pour un pourcentage du génome qui régule les gènes, les promoteurs, les amplificateurs, les silencieux, les ARNnc, les gènes, etc. sur–Je ne l'ai pas encore trouvé (2) ce nombre est presque sûrement inférieur au chiffre de 80 % signalé pour la fonctionnalité et (3) “élément fonctionnel” tel que défini par le projet ENCODE n'est pas un terme qui a une signification claire ou directe implications pour les affirmations de la communauté des forces de l'ordre selon lesquelles les loci utilisés dans l'identification médico-légale ne sont pas codants et donc non informatifs. Ces affirmations de zéro information sont quelque peu exagérées, mais c'est une autre histoire. Pour l'instant, je me contente de décrire quelques bases de l'expression et de la régulation des gènes.

    Les gènes fabriquent des protéines. Mais comment? Il y a trois grandes étapes (avec de nombreuses activités au sein de chaque étape) : la modification post-transcription de la transcription et le transport et la traduction. Tous impliquent de l'ARN, une molécule simple brin liée à l'ADN, et des protéines. L'image de base est

    • Transcription en ARN messager précurseur : ADN + protéines –> pré-ARNm (dans le noyau)
    • Modification et transport post-transcriptionnels : pré-ARNm + protéines et ARN -> ARNm mature (dans le cytoplasme)
    • Traduction en protéine : ARNm + ARNt et protéines –> protéine exprimée (dans le cytoplasme)

    Dans la première grande étape, les paires de bases du gène sont transcrites point par point en une molécule d'ARN (ARN messager précurseur, ou pré-ARNm). Dans la deuxième étape majeure, le transcrit est modifié à ses extrémités, édité pour éliminer les parties qui ne codent pas pour la protéine qui sera fabriquée (épissage), et l'ARN messager mature (ARNm) est déplacé hors du noyau. Dans la troisième phase, un autre type d'ARN (ARN de transfert ou ARNt) assemble des acides aminés individuels dans l'ordre dicté par le transcrit de l'ARNm pour former une protéine, traduisant ainsi la séquence d'ADN reflétée dans l'ARNm en acide aminé. ordre de la protéine. La traduction se produit sur une sorte d'établi microscopique (un ribosome) constitué d'un autre ARN (ARN ribosomal ou ARNr).

    Pour que tout cela se produise, l'ADN, qui est étroitement enroulé dans les chromosomes (dans une matrice protéine-ADN connue sous le nom de chromatine), doit s'ouvrir pour que la transcription se produise. Ainsi, des changements dans la chromatine régulent la transcription, et ces changements peuvent être provoqués de plusieurs manières. Les facteurs de transcription (protéines spécialisées) se lient à l'ADN. Les facteurs de transcription liés recrutent alors une enzyme (ARN polymérase) qui produit de l'ARN. Cela se produit dans une région de l'ADN, connue sous le nom de promoteur, près du début de l'ADN codant pour la protéine (le gène de structure). Le niveau de transcription est influencé par des protéines activatrices ou répressives qui se lient à d'autres petites régions (respectivement amplificateurs et silencieux) qui se trouvent également à l'extérieur du gène de structure. En bref, les interactions chimiques qui ouvrent ou ferment la chromatine qui abrite l'ADN et les facteurs de transcription régulent la première étape du processus ADN-protéine.

    Au cours de la dernière décennie, d'autres mécanismes de régulation ou de contrôle de l'expression des gènes ont été découverts. De nombreuses séquences d'ADN ne sont pas transcrites en ARN messager, mais elles sont transcrites en une variété d'autres ARN. Ces séquences d'ADN non codantes pour les protéines peuvent être considérées comme des gènes d'ARN. Pour éviter la confusion, ils sont généralement appelés « non codants » (ADNc) « car ils ne codent pas pour les protéines », mais ils codent certainement pour les ARN qui sont essentiels à la traduction « ARNr et ARNt » et pour d'autres ARN qui affectent la transcription, la traduction , et la réplication de l'ADN. Il s'avère donc que le génome regorge d'activité de transcription en ARN et d'autres événements qui alimentent l'expression de l'ADN codant pour les (protéines).

    Pourtant, cela ne signifie guère que chaque événement biochimique le long de l'ADN est fonctionnellement important. Certains, peut-être beaucoup, des transcrits non-ARNm ne sont que du « bruit ». Ils peuvent flotter pendant un certain temps, mais ils peuvent ne rien faire d'autre que dépérir. De plus, de larges segments de l'ADN transcrit au cours de la fabrication de l'ARNm apparaissent dans le transcrit initial (le pré-ARNm) mais ne le transforment jamais en ARNm mature. Ces parties inutilisées des transcrits pré-ARNm correspondent à de longues étendues d'ADN, appelées introns, qui interrompent les plus petites parties codantes - les exons - qui sont traduites en protéines. Les parties introniques initialement transcrites sont retirées du pré-ARNm dans un processus appelé épissage de l'ARN. La plupart de l'ARN des introns se dissipe probablement. 9/

    Tous ces termes ne sont qu'une bouchée, mais armés de cette compréhension de base des gènes, de l'ARN et des protéines, nous pouvons voir pourquoi le chiffre de 80% ne signifie pas ce que l'on pourrait penser. Nous verrons également que la proportion estimée du génome qui code la structure des protéines ou régule l'expression des gènes n'est pas passée de 5 ou 10 % à 80 %.

    2. Par exemple, Elizabeth Pennisi, ENCODE Project Writes Eulogy for Junk DNA, 337 Science 1159 (2012).

    3. Par exemple, Gina Kolata, Bits of Mystery DNA, Far From ‘Junk,’ Play Crucial Role, N.Y. Times, 5 septembre 2012. À un certain égard, la métaphore de la “matière noire” dénature la matière noire. La présence de matière noire est déduite de ses effets gravitationnels sur la matière visible. La présence d'ADN non codant est connue à partir d'expériences qui le détectent et le caractérisent tout comme elles le font pour l'ADN codant. Peut-être que la métaphore signifie que la séquence de l'ADN de la "matière noire" ne peut pas être déduite de la structure d'une protéine fabriquée dans une cellule. Ceci, cependant, revient à dire que la matière noire est une matière qui ne peut pas être vue à l'œil nu. Et ce n'est pas ce que les astronomes entendent par matière noire.

    4. Par exemple, House Committee on the Judiciary, Report on the DNA Analysis Backlog Elimination Act of 2000, 106th Cong., 2d Sess., HR Rep. No. 106-900(1), at 27 (“les marqueurs génétiques utilisés pour les tests ADN médico-légaux … montre uniquement la configuration de l'ADN sur des ‘sites indésirables’ sélectionnés qui ne contrôlent ni n'influencent l'expression d'un trait quelconque.”) New York State Law Enforcement Council, Legislative Priorities 2012 : DNA at Arrestation, à 5, http://nyslec.org/pdfs/2012/1_DNA_2012.pdf (“Les morceaux d'ADN qui sont analysés pour la banque de données ont été spécifiquement choisis parce qu'ils sont de l'ADN indésirable.’).

    6. Entretien de Roger Peng avec Steven Salzberg, podcast sur Simply Statistics, 7 septembre 2012, http://simplystatistics.org/post/31056769228/interview-with-steven-salzberg-about-the-encode (“Why ressentent-ils le besoin de dire que 80% du génome est fonctionnel ? " Ils savent que ce n'est pas vrai. Ils ne devraient pas le dire. " Vous ne déformez pas la science pour faire la une des journaux. ”).

    7. Laurence A. Moran, The ENCODE Data Dump and the Responsibility of Scientists, 6 septembre 2012, http://sandwalk.blogspot.com/2012/09/the-encode-data-dump-and-responsibility_6.html (Ceci est, malheureusement, un autre cas d'un scientifique agissant de manière irresponsable en déformant l'importance et la signification des données.”).

    8. Ewan Birney, ENCODE : Mes propres pensées, 5 septembre 2011

    9. Le traitement post-épissage d'une petite fraction de l'ARN des introns peut produire des ARN non codants qui peuvent réguler l'expression des protéines. L. Fedorova1 & A. Fedorov, Puzzles du génome humain : pourquoi avons-nous besoin de nos introns ?, 6 Current Genomics 589, 592 (2005).


    Quel est Codon?

    La séquence génique codée dans l'ADN et transcrite dans l'ARNm se compose d'unités trinucléotidiques appelées codons, dont chacune code pour un acide aminé. Chaque nucléotide est constitué de phosphate, de saccharide désoxyribose et de l'une des quatre bases azotées, il y a donc un total de 64 (4 3 ) codons possibles.

    Sur les 64 codons, 61 sont des acides aminés codants. Les trois autres, UGA, UAG et UAA ne codent pas d'acide aminé mais servent de signaux pour arrêter la synthèse des protéines et sont appelés codons d'arrêt. Le codon méthionine, AUG, sert de signal d'initiation de la traduction et est appelé codon d'initiation. Cela signifie que toutes les protéines commencent par la méthionine, bien que parfois cet acide aminé soit supprimé.

    Comme le nombre de codons est supérieur au nombre d'acides aminés, de nombreux codons sont « redondants », c'est-à-dire qu'un même acide aminé peut être codé par deux ou plusieurs codons. Tous les acides aminés, à l'exception de la méthionine et du tryptophane, sont codés par plus d'un codon. Les codons redondants diffèrent généralement par leur troisième position. La redondance est nécessaire pour garantir suffisamment de codons différents codant pour les 20 acides aminés et les codons d'arrêt et de démarrage, et rend le code génétique plus résistant aux mutations ponctuelles.

    Un codon est entièrement déterminé par la position de départ choisie. Chaque séquence d'ADN peut être lue dans trois “cadres de lecture”, dont chacun donnerait une séquence d'acides aminés complètement différente selon la position de départ. En pratique, dans la synthèse de la protéine, une seule de ces trames a des informations significatives sur la synthèse des protéines, les deux autres trames aboutissent généralement à des codons stop qui empêchent leur utilisation pour la synthèse directe des protéines. Le cadre dans lequel une séquence protéique est réellement traduite est déterminé par le codon de départ, généralement le premier AUG rencontré dans la séquence d'ARN. Contrairement aux codons stop, un codon start seul n'est pas suffisant pour initier le processus. Des amorces voisines sont également nécessaires pour induire la transcription de l'ARNm et la liaison au ribosome.

    On pensait à l'origine que le code génétique était universel et que tous les organismes interprétaient un codon comme le même acide aminé. Bien que ce soit le cas en général, quelques rares différences dans le code génétique ont été identifiées. Par exemple, dans les mitochondries, UGA, qui est normalement un codon stop, code le tryptophane, tandis que AGA et AGG, qui codent normalement le tryptophane, sont des codons stop. D'autres exemples de codons inhabituels ont été trouvés chez les protozoaires.


    Conférence 10 : Biologie Moléculaire 1

    Téléchargez la vidéo depuis iTunes U ou Internet Archive.

    Sujets couverts: Biologie moléculaire 1

    Instructeurs : Pr Eric Lander

    Conférence 10 : Biolo Moléculaire.

    Conférence 11 : Biolo moléculaire.

    Conférence 12 : Biolo moléculaire.

    Conférence 13 : Régulation des gènes

    Conférence 14 : Protéine Localiz.

    Conférence 15 : ADN recombinant 1

    Conférence 16 : ADN recombinant 2

    Conférence 17 : ADN recombinant 3

    Conférence 18 : ADN recombinant 4

    Leçon 19 : Cycle Cellulaire/Signe.

    Conférence 26 : Système Nerveux 1

    Conférence 27 : Système Nerveux 2

    Conférence 28 : Système Nerveux 3

    Conférence 29 : Cellules souches/Clon.

    Conférence 30 : Cellules souches/Clon.

    Conférence 31 : Médecine moléculaire.

    Cours 32 : Evolu Moléculaire.

    Conférence 33 : Médecine moléculaire.

    Conférence 34 : Polymorphe humain.

    Conférence 35 : Polymorphe humain.

    Bonjour. Oui. D'accord. Bon.

    Quelque chose pour contrer les jours de pluie que nous avons ici.

    D'accord. Aujourd'hui, nous allons faire une transition très importante.

    La transition revient à cette image.

    Bien sûr, ce que nous voulons faire, c'est comprendre la fonction biologique en adoptant nos deux approches préférées.

    Comprendre l'organisme moins un gène individuel.

    Comprendre un organisme moins un composant individuel et comprendre les composants individuels moins l'organisme, la génétique et la biochimie. Et, comme nous le savons, le généticien est parti sur sa route pour trouver des mutants, faire des chasses aux mutants, faire des croisements, faire des cartes génétiques, etc. ils ont produit des phénotypes lorsqu'ils ont été mutés.

    Et le biochimiste s'est mis à purifier les enzymes, à travailler sur des voies biochimiques, et cetera, et cetera.

    Nous avons commencé à voir un lien lorsque nous avons parlé un peu des mutants qui affectent la capacité de fabriquer de l'arginine et du fait qu'ils pourraient coder différentes étapes enzymatiques. Et, en particulier, j'ai souligné le travail d'Archibald Garrett qui, au début du siècle, a vraiment reconnu que d'une manière ou d'une autre, les mutations génétiques étaient responsables d'affecter d'une manière ou d'une autre la production d'enzymes dans des voies biochimiques importantes.

    Donc, c'était en quelque sorte une connexion entre la génétique et les protéines, mais toujours plutôt ténue. La véritable prochaine étape pour relier ces deux serait de faire la biochimie des gènes. Alors, comment un biochimiste aborderait-il l'hérédité ? Un biochimiste broierait l'organisme, le fractionnerait en différents composants et tenterait de trouver l'hérédité, de purifier l'hérédité, de devenir une pure solution d'hérédité. Et c'est fou, non ?

    L'idée que vous pourriez purifier l'hérédité en tant qu'entité biochimique, car comment sauriez-vous que vous l'avez ? Mais, bien sûr, c'est exactement ce qui s'est passé. C'est ce qui s'est passé, la biochimie a-t-elle été suffisamment développée pour que les gens soient réellement capables de purifier des substances, pas seulement capables de digérer un sucre particulier ou des substances qui pourraient, vous savez, glisser les unes sur les autres comme les actinomycines des muscles, mais des substances qui étaient en fait hérédité. Et cela a commencé la véritable unification de ceux-ci, et c'est le point d'aujourd'hui.

    Et c'est le domaine de la biologie moléculaire. Et nous allons couvrir un territoire immense en unifiant ces deux domaines différents.

    D'ACCORD. Alors, plongeons-nous dedans. La découverte du principe de transformation. C'est un genre de mot merveilleusement démodé. Personne n'utiliserait un langage comme celui-ci aujourd'hui.

    La découverte du principe transformateur. Donc, ça commence, cette histoire de chien hirsute commence vers 1928 avec le travail de Griffiths. Griffiths n'avait aucun intérêt particulier pour l'ADN, la génétique ou la biochimie d'ailleurs.

    Griffith s'intéressait aux bactéries. Il voulait comprendre les bactéries.

    Et, en particulier, il a étudié les bactéries pneumocoques, qui pourraient infecter et tuer les souris. Et il était très intéressé par le mécanisme par lequel ces pneumocoques pouvaient tuer les souris.

    Maintenant, il s'avère que la bactérie pneumocoque était de deux types différents. Premièrement, les bactéries, lorsqu'elles se sont développées sur une plaque de Pétri, ont produit une colonie scintillante, lisse et brillante. Nous les appellerons ici des bactéries lisses.

    Et ces bactéries, en plus d'être lisses et luisantes, étaient virulentes. Autrement dit, si vous injectez dans la souris, ces bactéries tueraient la souris. Ils sont lisses car ils sont entourés de cette couche de polysaccharide encapsulant.

    Et ce n'est pas nécessairement ce qui les rend virulents, bien que cela ait en fait un rôle à jouer là-dedans, mais il est vrai qu'ils sont lisses et virulents. Donc, vous injectez dans une souris, la souris meurt parce que la souris n'est pas résistante à ces bactéries. En revanche, il y avait des souches de pneumocoques qui étaient rugueuses. Ils n'avaient pas le même type de revêtement polysaccharidique et avaient donc un aspect très rugueux. Ils ne brillaient pas.

    Et ceux-ci étaient non virulents. Si vous les injectez dans la souris, le système immunitaire de la souris était capable de combattre ces bactéries rugueuses particulières. D'ACCORD. Alors, Griffith a fait les expériences évidentes. Alors, prenez des bactéries, nous prendrons des bactéries virulentes lisses, nous injecterons dans une souris. Et que va-t-il se passer ?

    La souris va mourir. C'est l'un des tests les plus faciles en laboratoire.

    C'est le test pieds en l'air, pieds en bas, vous avez une souris morte.

    D'ACCORD. Numéro deux. Ensuite, prenez les bactéries rugueuses, injectez-les dans une souris, que se passe-t-il ?

    Désolé? Cela vit. La souris vit car ceux-ci ne sont pas virulents. D'ACCORD. Maintenant, faisons juste quelques contrôles simples. Prenons les bactéries lisses et autoclavons-les, chauffons-les à très haute température pour les tuer.

    Comment saurons-nous qu'ils sont morts ? Vous essayez de les plaquer. Ils ne poussent plus, donc ils sont morts.

    Donc, prenez la chaleur tuée, et vous pouvez vérifier en laboratoire qu'ils sont tués, la chaleur tuée en douceur, vérifiez qu'ils ont vraiment été tués par la chaleur, injectez-les dans la souris.

    Et que se passe-t-il ? Il vit parce que, je veux dire, ce sont des bactéries, n'est-ce pas ? D'ACCORD. Enfin, nous prenons les bactéries rugueuses totalement inoffensives, plus les bactéries lisses totalement inoffensives tuées par la chaleur, nous les injectons dans la souris, et que se passe-t-il ?

    Il meurt. C'est un résultat notable car les bactéries rugueuses à elles seules ne tueront pas cette souris et les bactéries lisses qui ont été tuées par la chaleur ne tueront pas cette souris, mais ensemble, elles ont tué la souris.

    C'est très déroutant. Ce qui était encore plus déroutant, c'est que lorsque vous avez autopsié la souris, vous pouvez isoler de cette souris des bactéries vivantes, lisses et virulentes, mais vous n'en avez pas mis. Très étrange. Ainsi, cela donne en fait des bactéries virulentes lisses et vivantes bien qu'elles n'en aient pas mis.

    Bactéries virulentes. D'une manière ou d'une autre, nous avons pu créer des bactéries lisses et virulentes, même si nous n'en avons pas mis ici. Alors, bien sûr, Griffith a ensuite tenté de dire, eh bien, qu'est-ce qui a permis que cela se produise?

    Ainsi, il pourrait essayer de mettre des bactéries rugueuses mortes avec des bactéries lisses mortes. Cela ne fait rien. Vous devez avoir quelque chose de vivant.

    Donc, vous devez avoir des bactéries rugueuses vivantes. Vous pouvez alors dire laissez-moi prendre les bactéries virulentes mortes et commencer à les fractionner biochimiquement et demander quelle fraction de ce matériel des bactéries mortes nous permet de récupérer, d'avoir cette propriété de pouvoir maintenant produire des bactéries virulentes qui ont tué les souris ?

    Et vous rendez-vous compte à quel point cette expérience est fastidieuse et douloureuse ? Vous prenez les bactéries mortes, vous les fractionnez en de nombreuses fractions biochimiques différentes.

    Pour chaque fraction, comment testez-vous si elle a la propriété ?

    Vous devez tirer sur un tas de souris. C'est une procédure très fastidieuse. Je veux dire, vous savez, vous ne pouvez pas sous-estimer l'importance de l'analyse, à quel point il est important de trouver des moyens simples de faire les choses afin de pouvoir accélérer les progrès.

    Griffith a fait de gros efforts et a grossièrement commencé à purifier les fractions et à obtenir des informations sur ce qu'étaient les fractions. Mais, en fait, ce travail n'a jamais vraiment abouti à une conclusion claire.

    Mais cela a dit aux gens qu'il y avait du matériel, qui a été nommé The Transforming Principle. C'est presque comme un vieux mot alchimique, un principe étant une composition chimique particulière de la matière, que si vous ne savez pas ce que c'est, vous l'appelez Le Principe Vivant ou quelque chose comme ça.

    Alors, quel était ce principe de transformation ?

    Eh bien, il a vraiment fallu travailler environ 15 ans plus tard par Avery, McCarty et MacLeod pour régler ce problème. Ce qu'Avery, McCarty et MacLeod ont fait était essentiellement la même expérience, sauf les souris.

    Ce qu'ils ont trouvé, c'est que vous pouviez prendre les bactéries mortes, les combiner, les bactéries virulentes mortes, les bactéries lisses mortes, les combiner avec les bactéries rugueuses vivantes, et en les combinant de la bonne manière dans un tube à essai, vous seriez capable de plaquer sur une plaque de Petri et voir des bactéries lisses sortir.

    Sans souris. Donc, ils n'avaient pas besoin de la souris.

    Ce travail a considérablement accéléré car si vous pouviez simplement prendre des fractions des bactéries mortes, les ajouter aux bactéries vivantes et rechercher la présence de certaines bactéries lisses qui en sortaient, vous seriez en mesure de travailler beaucoup plus rapidement. Et ils l'ont fait.

    Et ils ont commencé à se purifier. Et ils ont commencé à purifier et ils ont essayé d'isoler la fraction qui contenait cette nouvelle capacité pour faire acquérir à ces bactéries une nouvelle propriété. Et ils savaient qu'ils transformaient l'hérédité de cette bactérie.

    Ils transformaient les traits de cette bactérie.

    Ils transmettaient en fait l'hérédité.

    Et ils se sont purifiés et purifiés et purifiés. Et finalement, en testant de très nombreuses fractions et en les rendant de plus en plus pures et de plus en plus pures, ils ont découvert que la fraction qui contenait l'hérédité était systématiquement la fraction qui contenait de l'ADN.

    Maintenant, c'était beaucoup plus de travail que cela parce qu'aucune fraction n'est pure.

    L'ADN est en plusieurs fractions. Mais, vous savez, ils ont continué à essayer de le purifier. Et cela ressemblait bien au principe de transformation. La propriété de pouvoir se transformer était co-purifiante avec la fraction d'ADN.

    Et vous savez quelle a été la réaction ? Eh bien, la plupart du temps, c'était qu'ils avaient dû faire une gaffe parce que tous les gens intelligents savaient que l'ADN était une molécule absolument ennuyeuse.

    Parce que la molécule intéressante à cette époque était les protéines.

    Tout le monde savait qu'il y avait des zillions, il y avait 20 acides aminés, ils venaient dans des zillions de combinaisons, ils avaient toutes sortes de formes et de propriétés différentes, et des hydrophobes, des hydrophiles qui sont des enzymes. Et, clairement, rien d'aussi important que l'hérédité n'allait être codé dans une molécule structurelle totalement ennuyeuse qui n'était qu'un long polymère de quatre unités pratiquement identiques. Et donc, le genre de réaction était intéressant, mais il doit y avoir une astuce, quelque chose ne va pas dans cette expérience, à donner ou à prendre.

    Maintenant, pourquoi les gens pensaient-ils que l'ADN était si ennuyeux ?

    Or, l'ADN était connu depuis longtemps, depuis les années 1860.

    Beaucoup de molécules étaient connues, mais pourquoi l'ADN était-il ennuyeux et pourquoi les protéines étaient-elles si excitantes ? Donc, pour cela, nous devons vraiment examiner de plus près la structure de l'ADN.

    Je veux revoir la structure de l'ADN ici parce que nous allons l'utiliser beaucoup. Ainsi, l'ADN a trois composants, comme vous le savez sans doute. Il a d'abord un sucre, ou presque du sucre, deux premiers désoxyribose, deux premiers désoxyribose, donc c'est un pentose, ou presque le désoxypentose. Et sa structure, et c'est une structure importante. Pour être un vrai sucre, pour être du ribose, vous auriez un hydroxyle. Le désoxyribose a juste un hydrogène là-bas. Et la façon dont nous numérotons ces carbones autour de ce sucre à cinq carbones est très importante et nous en parlerons toujours, les carbones un premier, deux premiers, trois premiers, quatre premiers et cinq premiers de ce désoxyribose.

    Et vous remarquerez que ce sont les deux premiers carbones qui sont le dioxi.

    Alors, c'est le sucre. Le prochain élément important au fur et à mesure que nous construisons l'ADN est la base, d'accord ? La base est posée ici.

    Maintenant, je vais commencer à simplifier notre sucre.

    Base. Donc, il y a quatre types de bases qui peuvent aller ici.

    Et ce sont l'adénine, la guanine, la thymine, la cytosine.

    C'est donc la deuxième partie importante de la constitution de l'ADN.

    La troisième partie importante dans la construction de l'ADN est de fabriquer les monomères qui sont utilisés pour produire de l'ADN, nous devons mettre un triphosphate. Et lui on y va. Nous prendrons notre sucre ici, notre base ici, et puis à partir de ce carbone, nous aurons notre phosphate. Et nous avons un triphosphate.

    On y va. C'est donc le monomère qui est utilisé pour construire l'ADN.

    Ce type ici s'appelle un nucléoside, notez le S.

    Ce type ici avec le triphosphate dessus s'appelle un nucléotide.

    Ce n'est généralement pas écrit avec une si grosse lettre majuscule, mais je le signale néanmoins. Et, évidemment, qu'est-ce que ce triphosphate va faire pour nous ? Il va fournir l'énergie pour nous permettre de fabriquer des chaînes polymères d'ADN. Nous allons faire une synthèse de déshydratation où nous cassons deux de ces phosphates et l'utilisons pour que l'énergie puisse catalyser les chaînes d'ADN à fabriquer.

    D'ACCORD. Maintenant, lorsque vous combinez des nucléotides dans un brin d'ADN, vous le faites pour créer une épine dorsale de phosphate de sucre. Et vous verrez pour beaucoup de molécules, peu m'importe que vous connaissiez très bien leurs structures. Mais pour la structure de base de l'ADN, y compris son squelette sucre phosphate, cela va être important pour tout ce dont nous parlons. Donc, ce qui se passe, c'est que nous avons une chaîne d'ADN qui grandit comme ça, et nous avons notre OH ici.

    Nous avons notre base ici. Et de quel carbone s'agit-il ?

    Cinq premiers, c'est vrai. D'ACCORD. De quel carbone s'agit-il ? Celui-ci.

    Super. C'est les trois premiers, deux premiers, un premier.

    Super. D'ACCORD. À ce carbone trois premiers, nous ajoutons ce triphosphate qui y sépare deux phosphates. Le diphosphate se brise, le pyrophosphate. Et nous obtenons une seule liaison phosphate à la sous-unité suivante de la chaîne. Alors, voilà le phosphate, le sucre, le phosphate, le sucre. Et si nous ignorons ces bases, qui, vous savez, qui se soucient des bases de toute façon, ce que nous avons c'est juste du phosphate, du sucre, du phosphate, du sucre, du phosphate, du sucre, du phosphate, du sucre. D'ACCORD? C'est donc une structure très simple.

    Il n'y a rien de difficile à retenir à ce sujet. Et le phosphate est toujours attaché aux trois premiers carbones du sucre précédent et aux cinq premiers carbones du sucre suivant.

    D'ACCORD? Ainsi, nous parlons souvent de chaînes d'ADN allant de l'extrémité cinq premières à l'extrémité trois premières. Et cela confond les biologistes non moléculaires à l'infini. De quoi parlons-nous, cinq extrémités premières et trois extrémités premières ? C'est de cela dont nous parlons.

    Mais les ajouts sont catalysés sur les trois premiers carbones de ce sucre. Il grandit chez lui trois premiers bouts. Donc, vous avez du sucre, du phosphate, du sucre, du phosphate, du sucre, du phosphate. Alors c'est tout.

    Nous avons tous terminé. Eh bien, il y a les bases, je suppose aussi, non? Donc, nous allons mentionner ces bases.

    Les bases sont, elles se déclinent en deux types. Il y a des purines.

    L'adénine et la guanine sont des purines. Et il y a un anneau de six membres avec un anneau de cinq membres. Et il y a deux bases que l'on appelle pyrimidines, elles sont plus petites, la thymine et la cytosine. Et il y a six anneaux membres. Et ils ont du carbone, de l'azote, de l'oxygène et de l'hydrogène.

    Mais, vous devez admettre que comparé aux protéines, c'est assez ennuyeux. C'est juste une longue chaîne de phosphate de sucre. Et deux purines, des choses légèrement plus grosses, deux pyrimidines, des choses légèrement plus petites. Des structures très similaires pour ces deux-là. Je n'ai même pas pris la peine de me concentrer sur la différence. Et par rapport à la richesse des protéines, il n'y a aucun moyen que quelque chose d'intéressant puisse se produire avec cela. C'était certainement la pensée à l'époque.

    Vous devez comprendre à quel point les idées antérieures, les préjugés antérieurs sont importants pour la science. Les gens le regardent et disent que ce doit être une molécule structurelle. C'est un échafaudage.

    C'est comme les poteaux dans le mur de la maison que vous construisez ou quelque chose comme ça. Pas trop intéressant.

    Alors, que se passe-t-il ? Eh bien, vous savez, il faut du temps pour régler les choses. Les gens reviennent sur ce problème. Des pensées?

    Je veux dire, je vous ai donné une raison pour laquelle cela n'a pas eu un impact énorme, parce que c'était, vous savez, l'ADN était une sorte de molécule ennuyeuse et les gens n'étaient pas vraiment sûrs que ce soit juste. Cela pourrait être un artefact, non? Peut-être qu'une protéine importante était venue avec la faction ADN, n'est-ce pas ? Quelle est l'autre raison pour laquelle les gens n'ont peut-être pas prêté une grande attention à ce résultat ?

    Désolé? C'était juste des bactéries. Rien d'autre? Je ne pouvais pas imaginer comment cet ADN pourrait coder l'enzyme. Rien d'autre? Date.

    C'est en pleine Seconde Guerre mondiale.Peut-être que les gens avaient des choses plus importantes à faire, non ? Donc, c'est aussi en plein milieu de la Seconde Guerre mondiale. Il est juste intéressant de noter que ces gars-là travaillent au milieu de New York à l'Institut Rockefeller et c'est au milieu de la Seconde Guerre mondiale.

    Quoi qu'il en soit, la guerre est finie et certains travaux se poursuivent à ce sujet.

    Et le travail prend une attaque quelque peu différente.

    Au lieu de travailler sur des bactéries comme c'est le cas maintenant, il y a du travail ici sur certains virus bactériens. Donc, au lieu de cela, voyez, les bactéries s'approprient ici. Au lieu d'utiliser des bactéries pour infecter les souris, Hershey et Chase, et d'autres à l'époque, ont utilisé des virus pour infecter les bactéries. Donc, ici, la bactérie est la victime. Et les gens avaient trouvé et étudié ces petites choses incroyablement intéressantes qui pouvaient affecter une bactérie et la tuer. Ces particules qui avaient ces formes amusantes étaient appelées bactériophage. Que signifie phage ? Manger.

    Mangeurs de bactéries. Les bactériophages étaient ces petits virus. Ils étaient incroyablement petits. Vous pouvez les filtrer à travers de très petits filtres. Et pourtant, lorsque vous les ajoutez à des bactéries, ils tuent les bactéries.

    C'étaient des choses très simples. J'hésite à les appeler des créatures. Sont-ils vivants ? C'est une question favorite que les gens aimeraient débattre. Ils disent que les virus sont vivants ?

    Et la réponse est qui s'en soucie ? Je veux dire, cela dépend de ce que vous voulez définir comme vivant. Pour moi, ce n'est pas vivant dans la mesure où il ne peut pas se répliquer tout seul sans hôte, donc je ne l'appellerai pas vivant.

    Mais, de toute façon, je les appellerai vaguement ces créatures qui mangent des bactéries. Ils étaient très simples. Et tout ce qu'ils avaient vraiment en eux, c'était de l'ADN dans leur capside, cette capside ici, et des protéines. Mais ils pourraient s'attacher à une bactérie et, après un certain temps, provoquer l'éclatement de la bactérie et produire beaucoup de phages filles, beaucoup de bactériophages filles. Il pourrait se répliquer au sein de cette bactérie.

    Donc, d'une manière ou d'une autre, bien que je ne veuille pas l'appeler vivant, peut certainement se reproduire, ou du moins avec l'aide d'une bactérie peut se reproduire. Lorsque les gens ont découvert ce bactériophage pour la première fois, que pensez-vous qu'ils voulaient en faire ? Désolé? Oui. Où? Chez les humains.

    La première réflexion sur ce qu'il faut faire avec le bactériophage a été toute une bande de Russes intéressants qui voulaient fabriquer de grandes quantités de bactériophage et les faire boire.

    Ainsi, ils tueraient toutes leurs bactéries. Et ce furent les premières idées pour les antibiotiques. Cela ne s'est pas tout à fait déroulé de cette façon.

    Mais, vous savez, les gens ont toutes ces idées très excitantes de, wow, j'ai quelque chose pour tuer les bactéries, jetons-le sur un patient et voyons si cela fait quelque chose de bien pour eux.

    Vous savez, c'est pourquoi il y a aussi des commissions d'examen institutionnel, pour s'assurer que vous ne pouvez pas le faire tout de suite.

    Quelqu'un d'autre doit y penser aussi.

    Il s'avère que ce n'est pas un excellent moyen de tuer des patients, de tuer des bactéries, désolé. Non, cela ne tue pas vraiment les patients, mais cela ne tue pas aussi bien les bactéries chez les êtres humains.

    De toute façon. Alors, la question était de savoir comment se fait-il que ces virus tuent les bactéries ? D'une manière ou d'une autre, ils injectent quelque chose dans la bactérie, quelque chose provoque quelque chose, ce qui provoque la formation de particules virales. Je n'insiste pas trop là-dessus parce que c'est tout ce qu'on peut vraiment dire à ce moment-là, quelque chose entre et quelque chose sort.

    Alors, qu'est-ce qui entre? Comment savoir ce qui entre ?

    Ouais. En voyant ce qui est laissé de côté. Comment pourrions-nous voir ce qui est laissé de côté?

    Juste pour être vraiment pratique, comment allons-nous le dire ?

    Regardez visuellement, mais cela s'avère être une chose terriblement difficile à faire.

    Vous devez avoir de très bons yeux pour pouvoir dire que la protéine est toujours là mais pas l'ADN, ni l'ADN.

    Parce que la pensée était que si cette chose injecte son ADN, alors l'ADN doit porter les instructions pour fabriquer le phage, et ce serait du matériel héréditaire. Donc, ce que nous voulons montrer, c'est que la protéine reste à l'extérieur et que l'ADN entre. Mais comment cela va-t-il se passer, comment le faire concrètement ?

    L'étiquetage radioactif s'avère être le meilleur moyen d'y parvenir.

    Si nous pouvions marquer radioactivement l'ADN avec un marqueur et la protéine avec un marqueur différent, nous pourrions voir quel isotope radioactif pénètre dans la bactérie. Des candidats pour un élément que nous pourrions utiliser pour marquer l'ADN qui ne sera pas dans la protéine ?

    Désolé? Je suis désolé? Oh, qui en avait un ? Uranium.

    Quelqu'un pense à la Seconde Guerre mondiale ici, n'est-ce pas, il y aurait de l'uranium de rechange dans le coin. Le problème avec cela, c'est que l'ADN ne contient pas réellement d'uranium, et donc quand vous mettez de l'uranium dedans, ce ne serait toujours pas de l'ADN. Nous aimerions l'étiqueter avec un élément qui est en fait dans l'ADN. Donc la seule différence est que c'est un radio-isotope. Phosphore. Phosphore.

    Eh bien, il y a manifestement du phosphore dans cette épine dorsale de phosphate de sucre.

    Y a-t-il du phosphore dans un acide aminé typique ? L'un des 20 acides aminés ? Pas de phosphore. Super. Donc, nous pourrions utiliser un isotope du phosphore. On pourrait marquer l'ADN par P32.

    Mais comment faire des bactériophages vivants marqués au phosphore radioactif ? Je veux dire de quel genre de chimie de fantaisie avez-vous besoin pour faire ça? Oui? Parfait si vous cultivez les bactéries de manière radioactive, en milieu. Si vous cultivez le virus et les bactéries dans un milieu contenant du phosphate radioactif, les bactéries et le virus s'en chargent pour vous.

    Le phosphate est automatiquement incorporé. Donc, vous n'avez pas à faire de chimie. Vous introduisez simplement du phosphate, du phosphate radioactif dans le milieu. Et les phages produits seront marqués radioactivement.

    Purifiez-les et utilisez-les dans votre expérience. De même, avec quoi allons-nous étiqueter nos protéines ?

    Carbone? Non. De l'hydrogène ? Non. Oxygène ? Azote? Non, car les bases contiennent de l'azote. Sulfa. Nous n'avons que du sulfa.

    Où va être le sulfa ? Ainsi, par exemple, les cystéines avec les thiamines, d'accord, nous avons du sulfa. Voici S35.

    Donc, nous pouvons prendre des bactéries et nous pouvons, nous pouvons prendre des phages, et en les cultivant en présence d'ADN radioactif, non, de phosphore radioactif, P32 et en les faisant croître en présence de sulfa radioactif, S35, nous sommes sur le point de produire un bactériophage qui sont étiquetés. D'ACCORD? Donc, P32, S35. Maintenant, nous infectons les bactéries avec eux. Laissez-moi prendre un gros tube ici.

    Je vais ajouter des bactéries. J'ai le phage ici. Les particules de phage sont attachées aux bactéries et elles vont injecter tout ce qu'elles injectent. Maintenant qu'avons-nous à faire ? Nous devons éliminer les particules de bactériophage de la bactérie.

    Je veux les faire tomber et voir ce qui reste avec les particules virales et ce qui entre dans les bactéries. Alors, comment puis-je y entrer avec une pince à épiler et séparer, décoller chaque virus de la bactérie ?

    Le lavage s'avère ne pas être assez fort. Vous devez prendre les devants pour vous débarrasser de ces choses, vous avez donc vraiment besoin d'une agitation incroyablement forte. Ainsi, des appareils spécialisés ont été utilisés pour créer une agitation intense. À votre connaissance, quels appareils spécialisés font cela ? Mélangeurs. Mixeurs de cuisine.

    Le mélangeur Waring s'avère être l'appareil de laboratoire parfait pour cette expérience. Et c'est ce qu'on appelle en fait l'expérience Waring Blender. Vous prenez les bactéries auxquelles est attaché le phage, vous les laissez s'attacher et faire tout ce qu'elles vont faire, injecter leur ADN, car nous savons que c'est la bonne réponse. Et puis vous appuyez sur purée puis sur vrrrr, et les particules virales tombent. Il est donc important de savoir comment les choses se passent réellement. Alors, ce qui se passe, c'est que les bactéries sont séparées de ces particules.

    Et il s'avère que ces particules sont, les particules virales sont beaucoup plus légères, beaucoup moins denses que les bactéries. Alors, comment les séparer ?

    Centrifugez-les. Nous les centrifugons.

    Les particules bactériennes présentes dans le surnageant s'avèrent être nos capsides phagiques. Et maintenant, qu'est-ce qu'on fait ?

    On prend ce truc, on mesure la radioactivité dans le surnageant, c'est-à-dire la matière qui reste au-dessus, et on mesure la radioactivité dans la pastille. Et qu'est-ce qu'on finit par voir ?

    D'où vient la plupart des P32, qu'est-ce qui apparaît dans le culot ?

    La plupart du temps, P32 apparaît dans le culot. N'y a-t-il pas de S35 dans la pastille ? Vous savez, dans l'histoire du manuel, bien sûr, il n'y a pas de S35 parce qu'ils veulent qu'il soit beau et propre. Mais en réalité, il va y avoir du S35. Mais c'était, vous savez, moins de 1% du S35 se retrouve dans la pastille. La plupart du S35 reste ici dans le surnageant. Est-ce que tout le phosphore entre?

    Non bien sûr que non. Certains virus ne se sont même pas attachés et tout n'entre pas. Donc, il y a toujours du phosphate radioactif dans le surnageant. Mais ce qui est frappant, c'est que la pastille contient principalement du phosphore radioactif, pas du sulfa radioactif, et donc nous pouvons conclure que quoi ? Eh bien, il y a plus d'ADN que de protéines. Avons-nous donc le droit d'inclure que l'ADN est le matériel héréditaire ? Pourquoi?

    Eh bien, je veux dire, supposons que 1% de sulfate traque une protéine mineure qui est le secret. Vous ne pouvez pas, il est très difficile d'exclure qu'il n'y ait pas de contaminants voyageant avec l'ADN.

    Et si vous ne croyez vraiment pas à l'ADN, vous pourriez être grossier et dire, eh bien, je ne pense pas que vous l'ayez tellement purifié que vous puissiez complètement exclure qu'un composant protéique mineur confère vraiment l'hérédité. En fait, quand vous regardez vraiment de près, la biochimie d'Avery, McCarty et McLeod, je crois, était plus pure que la pureté de cette expérience.

    Mais à ce stade, la pensée avait commencé à s'orienter vers l'ADN comme une molécule héréditaire raisonnable. De plus, c'était la deuxième ligne de preuve, différente du pneumocoque, utilisant un système différent, les deux pointant vers la même réponse. Et la vague intellectuelle s'est déplacée vers la reconnaissance que c'était probablement juste, et la raison pour laquelle ces expériences indiquaient l'ADN était que l'ADN devait être la bonne réponse. Mais, bien sûr, comment était-ce la bonne réponse? Qu'y avait-il dans l'ADN qui pouvait conférer ces propriétés ? Cela n'était pas encore clair en 1953, mais pas pour si longtemps. Cela s'est clarifié relativement peu de temps après.

    Et, bien sûr, cela s'est clarifié avec la compréhension de la structure de l'ADN, la double hélice.

    Personne ici n'a entendu parler de la double hélice. Il n'y a probablement personne, aucun adulte qui ne connaisse la double hélice et tout ça, mais j'ai quand même envie de m'arrêter et de réfléchir un peu aussi, je dirai sur une note personnelle, c'est la première année que j'enseigne ce cours après, la première fois que j'ai enseigné ce cours alors que Crick et Watson n'étaient pas tous les deux en vie.

    Certains d'entre vous savent peut-être que Frances Crick est décédée l'été dernier.

    Ce qui était très triste. C'était une personne incroyable et, vous savez, comme je l'ai dit, Mendel était l'un de mes héros.

    Francis Crick était aussi l'un de mes héros. C'était juste une personne extraordinaire. Mais Jim Watson est toujours vivant et toujours très actif. Et donc, en tout cas, vous n'êtes pas loin. Alors, je vous parle un peu de ce truc en tant qu'histoire, mais cette histoire dont je vous parle, ces gens sont, pour la plupart, malgré le décès de François, vivants et actifs. Jim Watson est encore bien vivant.

    En fait, McCarty est toujours en vie. C'est vraiment, de toute façon.

    Ainsi, en 1953, un an plus tard, Jim Watson et Francis Crick travaillent en Angleterre. Watson est un étudiant de l'Indiana, un ancien ornithologue, qui s'intéressait à l'origine à l'ornithologie, puis étudie davantage la biologie et est venu en Angleterre parce qu'il voulait étudier le gène. Francis Crick, un physicien qui a travaillé dans l'amirauté pendant la Seconde Guerre mondiale.

    Et, bien sûr, ce qu'ils ont fait était sur la base de beaucoup de modélisation et de voir des images expérimentales de diffraction des rayons X de Roselyn Franklin de Londres qui a fait un modèle.

    Et le modèle est si beau, et je ne l'ai pas dessiné dans ses proportions, mais cette belle structure à double hélice.

    Cinq premiers, une chaîne d'ADN dans une direction, cinq premiers à trois premiers. Une chaîne d'ADN anti-parallèle allant dans cette direction, cinq premiers à trois premiers.

    C'était une belle structure. Jim Watson a écrit un livre entier sur la découverte de la structure en double hélice, et nous n'en sommes qu'à 51 ans. C'était, toute personne qui n'a pas lu The Double Helix, ce livre, devrait vraiment le faire. C'est l'un des livres de régal de la littérature scientifique et figure en fait sur la liste de nombreuses personnes de certains des grands livres du 20e siècle.

    C'est une merveilleuse histoire de compétition de Crick et Watson contre Linus Pauling. C'est, vous savez, que quelqu'un est venu et a déjeuné à Cambridge avec Crick et Watson.

    Et ils sont partis et ont dit, c'était avant qu'ils ne découvrent la structure, environ un an avant, et ont dit que ces gars sont des idiots.

    Ils ne peuvent même pas mémoriser la structure de A et T et C et G, et ils essaient de trouver, vous savez, la structure de l'ADN.

    Ces gars n'iront jamais nulle part. Alors, cette personne, sur laquelle nous reviendrons dans un instant, s'est trompée sur ce point particulier. Parce que ce que Crick et Watson ont fait, c'est qu'ils ont joué avec les modèles, et ce qu'ils ont fini par remarquer, c'est deux ou trois choses. Tout d'abord, d'après les photos de Rosalyn Franklin, que c'était hélicoïdal. Les images radiographiques en fractions pourraient vous dire en un coup d'œil que la structure était hélicoïdale.

    Ils ont vu ça. Ils ont ensuite essayé de faire des hélices. Maintenant, d'autres personnes, Linus Pauling savaient quelque chose que l'ADN devait probablement être hélicoïdal, et d'une manière ou d'une autre, il s'est complètement trompé.

    Il n'a fait qu'un modèle d'ADN dingue. Linus Pauling, le chimiste le plus intelligent du siècle a fait un modèle fou d'ADN où il a pris les squelettes de phosphate de sucre et a mis tous les squelettes de phosphate de sucre au milieu, et en avait trois. Il avait un modèle à triple hélice avec des phosphates de sucre au milieu. Et que pouvez-vous me dire au sujet de la charge sur ces épines dorsales de phosphate de sucre ? Très négatif.

    Vous allez coller tout un tas de charges négatives les unes à côté des autres au milieu ? Certainement pas. N'importe qui aurait pu le savoir.

    C'était une erreur de la ligue de brousse, alors Crick et Watson ont dit ouf, Pauling s'est trompé. Ils ont monté ce modèle.

    Et la clé du modèle était la reconnaissance de l'appariement des bases, la reconnaissance de l'appariement des bases. Que si je prends une thiamine ici et je prends une adénine ici. Que ces deux groupes se pointeraient l'un vers l'autre de manière à faire deux liaisons hydrogène avec une certaine distance caractéristique. Et, non seulement cela, mais la cytosine et la guanine pourraient également être adaptées à cette même distance.

    Et ils auraient trois liaisons hydrogène.

    Et ici NH, H, doo, doo, doo, doo, doo, doo, doo, trois liaisons hydrogène. Et ils conviendraient, qu'est-ce que j'ai ? Oups. Merci. Bon point.

    C'est le problème. Ouais. Bon, c'est un peu brouillon mais quand même. L'objectif commercial ici est de trois liaisons hydrogène et de deux liaisons hydrogène, et elles s'intègrent parfaitement à la même distance. Ainsi, cette double hélice ici pourrait avoir soit As et Ts ou Gs et Cs ou Cs et Gs ou Ts et As.

    Et ils allaient tous parfaitement les uns avec les autres.

    Maintenant, il y avait une vieille observation, pas si vieille, il y avait une observation qui flottait à l'époque qui disait que lorsque vous analysez la quantité d'As et de T dans l'ADN, vous découvrez toujours que la quantité de A a tendance à être très proche de la quantité de T. La quantité de C avait tendance à être très proche de la quantité de G.

    Bien que ces montants puissent être différents. Cela était dû à un biochimiste appelé Chargaff. Et ils s'appellent, cela s'appelait la règle de Chargaff ou la loi de Chargaff ou l'observation de Chargaff.

    Chargaff a noté que le pourcentage de ces montants avait tendance à être égal mais ne savait pas quoi en faire. Cela expliquait parfaitement cela.

    C'était très bon. Souvenez-vous que j'ai dit que quelqu'un est venu par Cambridge et a dit que ces gars étaient des dindes, Crick et Watson étaient des dindes parce qu'ils ne pouvaient même pas se souvenir de la structure et tout ça ? C'était un chimiste très distingué qui parlait de Crick et Watson. C'était Chargaff.

    Chargaff est venu et a dit que ces gars sont des dindes.

    Mais c'était la règle de Chargaff dont Chargaff avait manqué l'importance. Il était assez amer à ce sujet pendant une grande partie de sa vie.

    Et il y a une merveilleuse citation mordante que Chargaff dit quand Crick et Watson deviennent célèbres pour la double hélice d'ADN.

    Voyons si je peux bien faire les choses. Il dit que de tels pygmées devraient projeter de telles ombres géantes, se référant à Crick et Watson, que de tels pygmées devraient projeter de telles ombres géantes montre seulement à quel point il est tard dans la journée. De toute façon, il n'était pas content.

    Alors, d'accord. Maintenant, c'était une grosse affaire.

    Crick et Watson savaient que c'était très important. Ils se sont précipités pour publier un article à ce sujet. Ils l'ont envoyé à la Nature.

    C'est un bijou de papier. C'est une page grossièrement en texte.

    C'est très court, très net, a cette belle photo tirée de la femme de Francis Crick, Odile. Et c'est juste un papier charmant. Ils savent qu'ils ont percé le secret de la vie. Pourquoi savent-ils qu'ils ont percé le secret de la vie ? Car le plus important dans ce modèle ici n'est pas sa structure en soi.

    Mais cela explique comment il se fait qu'une molécule d'ADN peut être répliquée, que d'une manière ou d'une autre, tout ce qu'il faut, c'est que ces deux brins se séparent, qui sait comment, et que lorsqu'ils se séparent, chacun peut servir de modèle à l'autre parce que depuis Comme toujours, les T correspondent et les C correspondent toujours aux G, chaque brin a suffisamment d'informations pour l'autre.

    C'est ainsi que la réplication se produit. Vous disposez de deux brins, chacun contenant suffisamment d'informations pour coder l'autre.

    Ils se séparent en quelque sorte. Ils servent chacun de modèle à l'autre. Et c'est ça. C'est le secret de la vie, comment la vie se reproduit. Pas seulement ça. Nous avons expliqué la réplication. Qu'en est-il des mutations. Qu'est-ce que la mutation ? Il se trompe parfois. Ça s'emballe parfois. Donc, pour un petit modèle biochimique, nous avons expliqué la réplication et la mutation. C'est plutôt bien.

    Maintenant, le fait est qu'en écrivant cet article et en l'envoyant au Journal, ce n'était pas une chose facile à faire rapidement.

    Vous ne pouviez pas, vous n'aviez tout simplement pas le temps d'expliquer tous ces détails.

    Ils voulaient revendiquer leur droit à ce sujet, alors ils ont rédigé la structure. Et au lieu de parler longuement de la façon dont cela explique la réplication et dah, dah, dah, dah, dah, dah, dah, dah, il y a une phrase dans le journal, la dernière phrase du journal dans laquelle ils disent simplement que ce n'est pas le cas. nous a échappé que ce modèle explique la réplication et tout le reste. Fondamentalement, la dernière phrase dit, oh, et d'ailleurs, il ne nous a pas échappé que cela explique le secret de la vie. Bien qu'il ne l'ait pas dit comme ça.

    C'est la phrase la plus coquette de la littérature scientifique.

    C'est vraiment juste une phrase incroyable là.

    Et puis ils reviennent quelques minutes plus tard et écrivent un papier expliquant ce qu'ils veulent dire et tout ça, mais c'est juste une belle phrase.

    Alors, vous entendrez des biologistes moléculaires faire référence, utiliser dans leur discours l'expression, cela ne nous a pas échappé.

    Et c'est toujours un hommage à cette phrase particulière dans cet article de Crick et Watson. OK, maintenant, dernière chose. Oui?

    Jim Watson avait 25 ans et Francis avait 35 ans quand il a fait ça.

    Oui. C'était un gamin de 25 ans quand il a fait ça. C'est exact.

    Des trucs assez incroyables. Donc, dernier point que je veux aborder, et je ne suis pas sûr d'y arriver, aller jusqu'ici, mais ce modèle, ce modèle ici d'ADN qui se sépare et chaque brin servant de modèle pour l'autre brin s'appelle la réplication semi-conservatrice. C'est-à-dire qu'un brin est utilisé comme modèle pour l'autre brin, donc il y a un ancien brin et un nouveau brin qui est fait. En théorie, vous pouvez imaginer que la réplication de l'ADN ne s'est pas produite comme ça.

    Mais à la place, d'une manière ou d'une autre, je ne peux pas imaginer comment, mais vous pouvez imaginer, et les gens étaient prêts à l'imaginer, que les anciens brins sont restés ensemble mais sont devenus en quelque sorte un modèle pour créer une nouvelle double hélice sans les utiliser réellement. Ce modèle des brins servant réellement de matrice prédirait que chaque nouvelle double hélice d'ADN était, en fait, composée d'un ancien et d'un nouveau brin.

    Si vous pouviez le prouver, vous auriez une réelle confirmation de ce modèle de Crick Watson, la réplication semi-conservatrice. Et donc, un jeune étudiant, deux jeunes étudiants, Matt Meselson, qui travaille toujours et est sur la route à Harvard et une personne merveilleuse, et Frank Stahl, qui travaille toujours dans l'Oregon, ont prouvé que les nouveaux ADN qui ont été créés après chaque génération étaient, en fait, composés d'un ancien et d'un nouveau.

    Comment pourrais-tu faire ça ? Désolé? Marquage radioactif. Mais comment le marquer de manière radioactive pour que vous puissiez voir que c'est, que vous avez une double hélice qui est la moitié de l'une et la moitié de l'autre ?

    Les anciens étiquetés avec, eh bien, avec un isotope. Il s'avère en fait que c'est de l'azote. Le nouveau avec un nouvel isotope.

    Dites N14. Vous pouvez faire de l'azote lourd et de l'azote ordinaire.

    Et si vous pouviez faire grandir votre ADN, lorsque vous le cultivez pour la première fois dans de l'azote normal, puis vous passez au N15, l'azote lourd, vous pourriez fabriquer des molécules d'ADN à moitié anciennes, à moitié nouvelles, et donc à moitié marquées avec de l'azote normal. , à moitié marqué à l'azote lourd. Et comment prouverais-je que ces molécules d'ADN étaient un hybride 50/50 ? Quelle serait la propriété que je pourrais tester ? Eh bien, la radioactivité s'avère vraiment difficile à pondérer. Il s'avère que la densité, si je pouvais juste mesurer la densité de l'ADN, je montrerais que si le modèle semi-conservateur est vrai, les molécules auront maintenant une densité intermédiaire entre tout l'azote lourd et tout l'azote léger.

    Ils ont dû mettre au point une technique de centrifugation si sensible, une centrifugation en gradient de sel où l'on pouvait mettre de l'ADN dessus. Vous avez fait tourner un gradient de sel très fin dans une centrifugeuse.

    Et selon l'endroit où l'ADN a migré, vous pouvez mesurer la densité de l'ADN. Et ils ont pu montrer qu'en fait, les brins d'ADN nouvellement répliqués avaient cette densité intermédiaire qui serait attendue du modèle semi-conservateur.

    Et donc, en fait, à ce stade, le modèle semi-conservateur, je pense, est bien établi. Dans un certain sens, vous diriez que la beauté de la double hélice était presque l'un de ces résultats scientifiques très rares où quand vous la regardez, vous dites qu'elle ne peut pas être fausse. Ça explique trop.

    C'est trop beau. Mais, comme nous en avons déjà discuté, cela ne suffit pas. Vous avez besoin de preuves que c'est réel.


    Voir la vidéo: ihanaa ohjelmoijat ihanaa (Décembre 2021).