De Russische astrofysicus George Gamow geldt als de vader van de oerknal. Die titel dankt hij aan zijn voorspelling van de kosmische achtergrondstraling. Gamow was een creatieve denker die niet vies was van een uitstapje naar een ander vakgebied. Zijn bijdrage aan de oplossing van de genetische code is wel eens benoemd als "het laatste voorbeeld van amateurisme in groots wetenschappelijk werk". Het was namelijk Gamows idee dat de basenvolgorde in DNA de code is achter de eiwitsynthese.
In het voorjaar van 1953 ontrafelden James Watson en Francis Crick de structuur van DNA. Zij ontdekten dat DNA — de moleculaire basis van erfelijkheid — bestaat uit twee in elkaar gedraaide ketens die in tegenovergestelde richting lopen. Iedere keten is een lange molecule bestaande uit een aaneenschakeling van eenheden die gevormd worden door een suiker, een fosfaatgroep en één van de volgende vier basen: adenine (A), thymine (T), cytosine (C) of guanine (G). Maar de volgende prangende vraag diende zich al snel aan: "hoe wordt de informatie in DNA vertaald in de aanmaak van eiwitten?".
Nadat de astrofysicus George Gamow het werk van Watson en Crick had gelezen, schrijft hij het tweetal in de zomer van 1953 een brief. Hij oppert het idee dat de basenvolgorde in DNA de code vormt voor de eiwitsynthese. Gamows idee slaat in de wereld van de biologen in als een bom. Wat tot dan toe door iedereen als een chemisch probleem werd benaderd, verandert Gamow in een informatietheoretisch vraagstuk. De onderliggende chemie is daarbij niet belangrijk. Gamow had het probleem gereduceerd tot de volgende vraag: "hoe kan een taal van vier letters coderen voor twintig aminozuren?". Men bedacht al snel dat de vier verschillende basen in drietallen gegroepeerd moesten zijn — in deze context worden dergelijke tripletten codons genoemd — om een unieke codering voor elk van de twintig aminozuren mogelijk te maken. Tweetallen geven immers maar 16 ($$4 \times 4$$) mogelijkheden, en codons geven 64 ($$4\times 4 \times 4$$) mogelijkheden.
Gamow kwam zelf met het eerste voorstel, de zogenaamde diamantcode. In zijn gedachtengang vond de eiwitsynthese plaats direct tussen de twee strengen van DNA. Vier basen vormen een ruimte waar volgens Gamow precies één aminozuur in zou passen. Het type aminozuur was dan afhankelijk van de basen op de vier hoekpunten, vandaar de naam 'diamant'. De basen die het linker- en rechterhoekpunt van de diamant vormen liggen op dezelfde streng, gescheiden door één andere base. Die laatste vormt samen met haar complement op de tegenoverliggende streng het onderste en bovenste hoekpunt (A is complementair met T, en C is complementair met G). In essentie was Gamows code een drielettercode omdat het onderste en bovenste hoekpunt complementair zijn, zodat van dat tweetal slechts één base werkelijk informatie draagt.
Gamows diamantcode was ook een overlappende code. Iedere base was onderdeel van drie opeenvolgende codons. De basenvolgorde ATCGAT bestond bijvoorbeeld uit de vier codons ATC, TCG, CGA en GAT. Voor het probleem van de 64 mogelijke codons voor slechts 20 aminozuren bedacht Gamow een originele oplossing. Hij stelde dat de diamanten als het ware gedraaid konden worden over beide assen, zonder dat de betekenis zou veranderen. Het codon ACT wordt bij spiegeling over de verticale as omgezet in TCA. Bij spiegeling over de horizontale as verandert de middelste base in haar complement, en ontstaat dus AGT. Indien al deze symmetriën worden uitgewerkt, kom je uit op twintig mogelijkheden. Precies wat Gamow zocht.
Zowel DNA- als eiwitsequenties worden in deze opgave voorgesteld als strings die enkel bestaan uit hoofdletters. Bij DNA beperkt de reeks van letters zich tot A, C, G en T, die in dit geval nucleotiden voorstellen. Een codon is dan een DNA-sequentie die bestaat uit drie letters. Eiwitsequenties kunnen alle mogelijke hoofdletters bevatten, die in dit geval aminozuren voorstellen. Je opdracht bestaat erin DNA-sequenties om te zetten naar eiwitsequenties volgens het principe van Gamows diamantcode. Hiervoor ga je als volgt te werk:
Schrijf een functie canonisch die de canonische voorstelling teruggeeft van het codon dat als argument aan de functie wordt doorgegeven. De canonische voorstelling van een gegeven codon wordt bepaald door het codon te spiegelen over de horizontale en/of verticale as van de diamantvoorstelling van het codon. De canonische voorstelling is de alfabetisch eerst gerangschikte van de (maximaal) vier codons die hieruit resulteren.
Gebruik de functie canonisch om een functie codon2aa te schrijven waaraan een codon als argument moet doorgegeven worden. De functie moet één enkele letter teruggeven die het aminozuur voorstelt dat correspondeert met het gegeven codon. Deze letter moet op de volgende manier bepaald worden:
Bepaal de canonische voorstelling $$b_1b_2b_3$$ van het gegeven codon.
Bereken \[ p = (w_1 + 4w_2 + 16w_3)\!\!\!\!\mod 25 \] Hierbij stelt $$w_i$$ de waarde voor van de nucleotide $$b_i$$ ($$1 \leq i \leq 3)$$, waarbij de nucleotide G de waarde 0 heeft, T de waarde 1, C de waarde 2 en A de waarde 3.
De waarde $$p$$ geeft de positie in het alfabet aan van de letter die het gezochte aminozuur voorstelt. De posities in het alfabet worden hierbij genummerd vanaf nul, dus staat A op positie 0, B op positie 1, C op positie 2, …
Gebruik de functie codon2aa om een functie dna2eiwit te schrijven. Aan deze functie moet een DNA-sequentie doorgegeven worden die uit minstens drie nucleotiden bestaat. De functie moet de corresponderende eiwitsequentie teruggeven die men bekomt door Gamows diamantcode toe te passen. We herinneren je er nogmaals aan dat dit een overlappende code is.
>>> canonisch('ACT')
'ACT'
>>> canonisch('CGC')
'CCC'
>>> canonisch('GTC')
'CAG'
>>> codon2aa('ACT')
'C'
>>> codon2aa('CGC')
'R'
>>> codon2aa('GTC')
'O'
>>> dna2eiwit('ATCGAT')
'WYSD'
>>> dna2eiwit('CCCTCCATCTAGTGCGTGTTCTGTCCGAAGGTATGTCATATCAC')
'RBVBSFWAWDCMBIBMADFAOAOBKSPPLYPEPAOCFNEWCV'
>>> dna2eiwit('ATTTAACGAATCTACCCGGAGTGGCAACTCAGGAGGACTCTTG')
'GEGGWLSPGWAWFSRKKLMCMYKLWWCVCOLLMLLOCVAFD'
Ten tijde van zijn uitstapje naar de biologie was Gamow vijftig jaar en had hij al een hele wetenschappelijke carrière achter de rug. Hij was vooral beroemd vanwege zijn werk over kwantummechanica en nucleire fysica. Gamow kwam voor die tijd tot opmerkelijke voorspellingen, simpelweg door het toepassen van geaccepteerde natuurwetten op ongebruikelijke situaties. Zo voorspelde hij in 1948 dat er een meetbare hoeveelheid kosmische achtergrondstraling aanwezig moet zijn indien het universum een heet en compact begin heeft gekend. Bijna twintig jaar later werd het bestaan van de kosmische achtergrondstraling inderdaad met metingen bevestigd.
Al vrij snel realiseerde Gamow zich dat zijn diamantcode niet de juiste oplossing was. En gelukkig maar voor ons, want een groot nadeel van zijn idee was de grote gevoeligheid voor mutaties. Bij een overlappende code zal één mutatie van een base namelijk doorwerken in drie opeenvolgende aminozuren. Maar Gamow liet zich niet snel uit het veld slaan. Inmiddels had hij een informeel forum gevormd van wetenschappers die zich in meer of mindere mate bezig hielden met het codeerprobleem, de RNA Tie Club. De club bestond uit twintig gewone leden, één voor elk aminozuur, en vier ereleden, één voor elke base. Gamow zelf was alanine (ALA), Watson was proline (PRO) en Crick tyrosine (TYR). Ieder lid kreeg een speciaal ontworpen stropdas met een afbeelding van een dubbele helix, en een bijhorende dasspeld met de afkorting van zijn eigen persoonlijk aminozuur.
Na het struikelen van de diamantcode passeerden diverse coderingen de revue, de één nog mooier dan de ander. Ondertussen was men ervan overtuigd geraakt dat de eiwitsynthese niet direct aan het DNA plaatsvond, maar dat RNA een intermediair was tussen DNA en eiwitsynthese. Gamow kwam zelf nog met een driehoekscode op de proppen, terwijl Crick het idee lanceerde van een zogenaamde kommavrije code, een niet-overlappende drielettercode. Achteraf gezien heeft men zich te veel vastgebeten in het zoeken naar een fraaie oplossing die impliciet zou verklaren waarom er 64 codes zijn voor maar twintig aminozuren.
De grote ontnuchtering kwam in 1961 toen Marshall Nirenberg en Heinrich Matthaei — beiden geen lid van de RNA Tie Club — aankondigden dat ze in staat waren om eiwit te produceren met kunstmatig geproduceerd RNA. Het eerste RNA dat ze testten was poly-U, een aaneenschakeling van uracilbasen (in RNA neemt uracil de plaats in van thymine in DNA). Daaruit bleek dat UUU codeerde voor het aminozuur fenylalanine (PHE). Vier jaar later was het hele codeerprobleem opgelost. In vergelijking met de eerdere oplossingen was de echte oplossing maar een slordig geheel. Sommige aminozuren hebben één codon, andere aminozuren vier en sommige zelfs zes. Hoewel de werkelijke oplossing wiskundig minder geraffineerd is dan zijn eigen idee, had het — aldus Gamow — wel het grote voordeel de waarheid te zijn.
Sanger F, Tuppy H (1951). The amino acid sequence in the phenylalanyl chain of insulin. I. The identification of lower peptides from partial hydrolysates. Biochemical Journal 49, 463-481. 1
Watson JD, Crick FHC (1953). A structure of deoxyribose nucleic acid. Nature 171, 737-738. 2
Gamow G (1954). Possible relation between deoxyribonucleic acid and protein structures. Nature 173, 318. 3
Brenner S (1957). On the impossibility of all overlapping triplet codes in information transfer from nucleic acid to proteins. Proceedings of the National Academy of Sciences of the USA 43, 687-694. 4
Crick FHC, Griffith JS, Orgel LE (1957). Codes without commans. Proceedings of the National Academy of Sciences of the USA 43, 416-421. 5
Marshall NW, Matthaei J (1961). The dependence of cell-free protein synthesis in E. coli upon naturally occurring or synthetic polyribonucleotides. Proceedings of the National Academy of Sciences of the USA 47, 1588-1602. 6
Hayes B (1998). The invention of the genetic code. American Scientist 86, 814. 7
Patel A (2001). Why genetic information processing could have a quantum basis. Journal of Biosciences 26(2), 145-151. 8
Sarabhai A (2003). After DNA at the MRC. Journal of Biosciences 28(6), 665-669. 9
Freeland SJ, Hurst LD (2004). Evolution encoded. Scientific American 290(4), 84-91. 10