kemisk stof, som bærer genetisk information, kimplasma eller From Wikipedia, the free encyclopedia
Deoxyribonukleinsyre (DNA, fra det engelske ord Deoxyribonucleic acid) er et molekyle, som bærer på de fleste af de genetiske instruktioner, der bruges ved vækst, udvikling, funktion og reproduktion af alle kendte levende organismer og mange vira. DNA og RNA er nukleinsyrer, som sammen med proteiner, lipider og komplekse kulhydrater udgør de fire store typer makromolekyler, der er essentielle for alle kendte former for liv.
De fleste DNA-molekyler består af to biopolymer-strenge snoet omkring hinanden i en dobbelthelix. De to DNA-strenge er kendt som polynukleotider, siden de består af simplere enheder kaldet nukleotider. Hvert nukleotid består af en nitrogenholdig nukleobase — enten cytosin (C), guanin (G), adenin (A) eller thymin (T) — såvel som en sukker kaldet deoxyribose og en fosfatgruppe. Nukleotiderne forbindes med hinanden i en kæde af kovalente bindinger mellem sukker fra det ene nukleotid og fosfat fra det andet, hvilket resulterer i en alternerende sukker-fosfat-rygrad.[1][2]
DNA kaldes organismens byggeplan fordi det opbevarer biologisk information.[3] DNA-rygraden er resistent over for spaltning, og begge strenge af den dobbelt-strengede struktur opbevarer den samme biologiske information. Biologisk information replikeres, idet de to strenge separeres. En betragtelig del af DNA (mere end 98 % for mennesker) er ikke-kodende, hvilket betyder, at disse sektioner ikke fungerer som koder for proteinsekvenser.
Inde i celler organiseres DNA i lange strukturer kaldet kromosomer. Under celledeling duplikeres disse kromosomer ved en proces kaldet DNA-replikation, hvilket giver hver celle sit eget komplette sæt af kromosomer. Eukaryote organismer (dyr, planter, svampe og protister) opbevarer det meste af deres DNA i cellekernen og noget af deres DNA i organeller, såsom mitokondrier eller grønkorn.[4] I modsætning hertil opbevarer prokaryoter (bakterier og arkæer) kun deres DNA i cytoplasmaet. Inde i kromosomerne komprimeres og organiseres DNA'en af kromatinproteiner såsom histon. Disse kompakte strukturer guider interaktionerne mellem DNA og andre proteiner, og hjælper med at kontrollere, hvilke dele af DNA'en der transskriberes.
DNA er en lang polymer lavet af gentagende enheder kaldet nukleotider.[5][6] DNA's struktur er ikke-statisk,[7] alle arter består af to heliske kæder, der hver snor sig om den samme akse, og hver med en bane på 34 ångström (3,4 nanometer) og en radius på 10 ångström (1,0 nanometer).[8] Ifølge et andet studium kan DNA-kæden, i en bestemt opløsning, måles til at være 22 til 26 ångström bred (2,2 til 2,6 nanometer), og en nukleotidenhed blev målt til at være 3,3 Å (0,33 nm) lang.[9] Selvom hver individuel gentagende enhed er meget lille, kan DNA-polymerer være meget store molekyler indeholdende millioner af nukleotider. For eksempel består DNA'en i det største menneskekromosom, kromosom nummer 1, af omkring 220 millioner basepar[10] og ville være 85 mm langt, hvis det blev rettet ud.
I levende organismer eksisterer DNA normalt ikke som et enkelt molekyle, men derimod som et molekylepar, der holdes stramt sammen.[11][12] Disse to lange strenge flettes omkring hinanden i form af en dobbelthelix. Hver nukleotidenhed indeholder både en del af molekylets rygradssegment, som holder kæden sammen, og en nukleobase, som interagerer med den anden DNA-streng i helixen. En nukleobase, der er forbundet med en sukker, kaldes et nukleosid, mens en base, der er forbundet med en sukker og en eller flere fosfatgrupper, kaldes et nukleotid. En polymer bestående af flere forbundne nukleotider (som i DNA) kaldes et polynukleotid.[13]
DNA-strengens rygrad består af alternerende fosfat- og sukkergrupper.[14] Sukkeret i DNA er 2-deoxyribose, som er en pentose (fem-carbon-sukker). Sukkeret bindes sammen af fosfatgrupper, som danner fosfodiesterbindinger mellem det tredje og femte carbonatom på nærliggende sukkerringe. Disse asymmetriske bindinger betyder, at en DNA-streng har en retning. I en dobbelthelix er retningen på nukleotiderne i en streng modsat af nukleotidernes retning i den anden streng: Strengene er antiparallelle. DNA-strengenes asymmetriske ender kaldes 5′-enden og 3′-enden, hvor 5′-enden har en terminal fosfatgruppe og 3′-enden har en terminal hydroxylgruppe. En stor forskel mellem DNA og RNA er sukkeret, der i DNA er 2-deoxyribose og i RNA den alternative pentosesukker ribose.[12]
DNA-dobbelthelixen stabiliseres primært af to kræfter: hydrogenbindinger mellem nukleotider og basestablingsinteraktioner mellem aromatiske nukleobaser.[16] I cellens vandige miljø tilpasser nukleobasernes konjugerede π-bindinger sig vinkelret på DNA-molekylets akse, hvilket minimerer deres interaktion med solvatiseringsskallen og derfor deres Gibbs fri energi. De fire baser i DNA er adenin (forkortet A), cytosin (C), guanin (G) og thymin (T). Disse fire baser forbindes til sukkeret/fosfatet for at danne det komplette nukleotid, som vist for adenosinmonofosfat. Adenin parres med thymin, mens guanin parres med cytosin. Det blev repræsenteret af A-T-basepar og G-C-basepar.[17][18]
Nukleobaserne klassificeres i to typer: purinerne, A og G, som er fusionerede fem- og seksdelte heterocykliske forbindelser, og pyrimidinerne, de seksleddede ringe C og T.[12] En femte pyrimidinnukleobase, uracil (U), erstatter normalt thymin i RNA og adskiller sig fra thymin idet den mangler en methylgruppe på sin ring. Udover RNA og DNA er der også blevet skabt en lang række kunstige nukleinsyreanaloger til brug ved studier i nukleinsyrernes egenskaber, eller i bioteknologi.[19]
Uracil findes normalt ikke i DNA og opstår kun som et nedbrydningsprodukt af cytosin. I en række bakteriofager – Bacillus subtilis-bakteriofagerne PBS1 og PBS2 og Yersinia-bakteriofagen piR1-37 – er thymin erstattet af uracil.[20] En anden fag – stafylokokkerfag S6 – er blevet identificeret som et genom, hvor thymin er erstattet af uracil.[21]
Base J (beta-d-glukopyranosyloxymethyluracil), en modificeret form af uracil, findes også i en række organismer: flagellaterne Diplonema og Euglena, og alle slægter af kinetoplastider.[22] Biosyntese af J sker i to trin: i det første trin konverteres en specifik thymidin i DNA til hydroxymethyldeoxyuridin; i det andet glykosyleres HOMedU til at danne form J.[23] Der er blevet fundet proteiner, der binder specifikt til denne base.[24][25][26] Disse proteiner lader til at være en fjern slægtning til det Tet1-onkogen, der er involveret i patogenesen af akut myeloid leukæmi.[27] J lader til at opføre sig som et terminationssignal for RNA polymerase II.[28][29]
To heliske strenge udgør DNA'ens rygrad. En anden dobbelthelix kan findes ved at følge rummene, eller rillerne (på engelsk kaldet "grooves"), mellem strengene. Disse hulrum støder op til baseparrene og kan udgøre et bindingssted. Da strengene ikke ligger symmetrisk i forhold til hinanden, er rillerne af forskellig størrelse. En rille, den store rille, er 22 Å bred, mens den anden, den lille rille, er 12 Å bred.[30] Bredden af den store rille medfører, at kanterne på baserne er mere tilgængelige i den store rille end i den lille. Som følge heraf får proteiner såsom transskriptionsfaktorer, der kan binde til specifikke sekvenser i dobbelt-strenget DNA, normalt kontakt med siderne af de baser, der er blotlagt i den store rille.[31] Denne situation varierer i nogle usædvanlige DNA-konformere i cellen, men navnene "store" og "lille" rille er til for at reflektere de forskelle i størrelse, der ville ses, hvis DNA'en drejedes tilbage til almindelig B-form.
I en DNA-dobbelthelix binder hver type nukleobase på en streng kun til en bestemt type nukleobase på den anden streng. Dette kaldes komplementær baseparring. Her danner puriner hydrogenbindinger til pyrimidiner, idet adenin kun binder til thymin via to hydrogenbindinger, og cytosin kun binder til guanin via tre hydrogenbindinger. Dette arrangement af to nukleotider, der binder sig sammen på tværs af en dobbelthelix, kaldes et basepar. Da hydrogenbindinger ikke er kovalente, kan de brydes og genforenes relativt nemt. DNA's to strenge i en dobbelthelix kan derfor trækkes fra hinanden som en lynlås, enten ved mekanisk kraft eller høje temperaturer.[32] Som følge af denne komplementaritet duplikeres al information i den dobbelt-strengede sekvens i en DNA-helix på hver streng, hvilket er livsvigtigt i DNA-replikation. Denne reversible og specifikke interaktion imellem komplementære basepar er kritisk for alle DNA's funktioner i levende organismer.[6]
De to typer basepar danner forskellige antal hydrogenbindinger, hvor AT danner to hydrogenbindinger og GC danner tre. DNA med højt GC-indhold er mere stabilt end DNA med lavt GC-indhold.
Som bemærket ovenfor er de fleste DNA-molekyler i virkeligheden to polymerstrenge, bundet sammen i helisk form af ikke-kovalente bindinger; denne dobbeltstrengede struktur (dsDNA) vedligeholdes hovedsageligt af intrastrengs-basestablingsinteraktioner, som er stærkest for G,C-stakke. De to strenge kan adskilles fra hinanden – en proces kendt som smeltning – for at danne to enkelt-strengede DNA-molekyler (ssDNA, efter engelsk single-stringed DNA). Smeltning sker ved høje temperaturer, lav saltkoncentration og høj pH (lav pH smelter også DNA, men siden DNA er ustabilt pga. syreafpurinering bruges lav pH sjældent).
dsDNA-formens stabilitet afhænger ikke kun af GC-indholdet (% G,C-basepar), men også af sekvensen (siden stabling er sekvensspecifikt) og af længden (længere molekyler er mere stabile). Stabiliteten kan måles på forskellige måder; en udbredt måde er "smeltetemperaturen", hvilket er temperaturen hvor 50% af ds-molekylerne konverteres til ss-molekyler; smeltetemperaturer er afhængige af ionisk styrke og DNA'ens koncentration. Som følge heraf er det både procentdelen af GC-basepar og den overordnede længde af DNA-dobbelthelixen, der afgør styrken af forbindelsen mellem de to DNA-strenge. Lange DNA-helixer med højt GC-indhold har stærkere-interagerende strenge, mens korte helixer med højt AT-indhold har svagere-interagerende strenge.[33] Inden for biologien er der en tendens til, at dele af DNA-dobbelthelixen, som skal kunne separere nemt, såsom TATAAT Pribnow-boksen i nogle promotere, har højt AT-indhold, hvilket gør strengene lettere at trække fra hinanden.[34]
I laboratoriet kan styrken af denne interaktion måles ved at finde den temperatur, der er nødvendig for at bryde hydrogenbindingerne, deres smeltetemperatur (også kaldet Tm-værdien). Når alle baseparrene i en DNA-dobbelthelix smelter, adskilles og eksisterer strengene i opløsning som to fuldstændigt uafhængige molekyler. Disse enkeltstrengede DNA-molekyler (ssDNA) har ingen almindelig form, men nogle konformere er mere stabile end andre.[35]
En DNA-sekvens kaldes "sense" hvis dens sekvens er den samme som en messenger RNA-kopi, der translateres til protein.[36] Sekvensen på den modsatte streng kaldes "antisense"-sekvensen. Både sense- og antisense-sekvenser kan eksistere på forskellige dele af den samme DNA-streng (dvs. begge strenge kan indeholde både sense- og antisensesekvenser). Antisense-RNA-sekvenser produceres i både prokaryoter og eukaryoter, men disse RNA'ers funktioner er ikke helt visse.[37] En mulighed er, at antisense-RNA er involveret i reguleringen af genudtryk gennem RNA-RNA-baseparring.[38]
Nogle få DNA-sekvenser i prokaryoter og eukaryoter, og flere i plasmider og vira, slører grænsen mellem sense- og antisense-strenge ved at have overlappende gener.[39] I disse tilfælde fungerer nogle DNA-sekvenser dobbelt, og koder et protein når de læser langs en streng, og et andet protein når de læses i den modsatte retning langs den anden streng. I bakterier kan dette overlap være involveret i reguleringen af gentransskription,[40] mens overlappende gener hos vira kan øge mængden af information, der kan indkodes i det lille virale genom.[41]
DNA kan snos som et reb ved en proces kaldet DNA supercoiling. I DNA'ens "afslappede" tilstand cirkler en streng normalt omkring dobbelthelixens akse en gang hvert 10,4 basepar, men hvis DNA'en snos, bliver strengene strammere eller løsere bundet.[42] Hvis DNA'en snos i samme retning som helixen, kaldes dette positiv supercoiling, og baserne holdes strammere sammen. Hvis de snos i den modsatte retning, kaldes det negativ supercoiling, og baserne kan nemmere adskilles. I naturen har den meste DNA en let negativ supercoiling, der skyldes enzymerne topoisomerase.[43] Disse enzymer behøves også for at aflaste de snoede spændinger, der introduceres i DNA-strenge under processer såsom transskription og DNA-replikation.[44]
DNA eksisterer i mange mulige konformere, der inkluderer A-DNA, B-DNA og Z-DNA, selvom kun B-DNA og Z-DNA er blevet direkte observeret i funktionelle organismer.[14] Den konformer som DNA indtager afhænger af hydratiseringsniveauet, DNA-sekvensen, mængden og retningen af supercoiling, kemiske modifikationer af baserne, typen og koncentrationen af metalioner, såvel som tilstedeværelsen af polyaminer i opløsningen.[45]
De første offentliggjorte rapporter om A-DNA-røntgendiffraktionsmønstre – såvel som B-DNA – brugte analyser baseret på Patterson-metoden, der kun gav begrænsede mængder strukturel information om orienterede DNA-fibre.[46][47] En alternativ analyse blev efterfølgende foreslået af Wilkins et al., i 1953, for in vivo B-DNA røntgendiffraktionsmønstre af højt hydratiserede DNA-fibre i form af kvadrater af Besselfunktioner.[48] I den samme journal præsenterede James Watson og Francis Crick deres molekylærmodelleringsanalyse af DNA-røntgendiffraktionsmønstrene for at sandsynliggøre at strukturen var en dobbelthelix.[8]
Selvom "B-DNA-formen" er den mest almindelige under de forhold, der findes i celler,[49] er den ikke en veldefineret konformer, men en familie af relaterede DNA-konformere,[50] der finder sted på de høje hydratiseringsniveauer i levende celler. Deres tilsvarende røntgendiffraktions- og spredningsmønstre er karakteristiske for molekylære parakrystaller med en signifikant grad af uorden.[51][52]
Sammenlignet med B-DNA er A-DNA-formen en bredere, højrehåndet spiral, med en overfladisk, bred lille rille og en smallere, dybere stor rille. A-formen fremkommer under ikke-fysiologiske forhold i delvist dehydrerede DNA-prøver, mens den i cellen kan produceres i hybridparringer af DNA- og RNA-strenge, såvel som i enzym-DNA-komplekser.[53][54] Segmenter af DNA, hvor baserne er blevet kemisk modificeret ved methylering, kan undergå en større forandring i konformer og indtage Z-form. Her drejer strengene omkring den heliske akse i en venstrehåndet spiral, det modsatte af den mere almindelige B-form.[55] Disse usædvanlige strukturer kan genkendes på specifikke Z-DNA-bindingsproteiner og kan være involveret i reguleringen af transskription.[56]
I en række år har exobiologer foreslået, at der findes en skyggebiosfære, en postuleret mikrobiel biosfære af Jorden som anvender radikalt anderledes biokemiske og molekylære processer end det liv der kendes i dag. Et af forslagene var eksistensen af livsformer, som bruger arsen i stedet for fosfor i DNA. En rapport om denne mulighed i bakterien GFAJ-1 blev bebudet i 2010,[57][57][58] selvom forskningen var omstridt,[58][59] og beviserne peger i retning af, at bakterien aktivt forhindrer inkorporeringen af arsen i DNA-rygraden og andre biomolekyler.[60]
I enderne af de lineære kromosomer findes specialiserede DNA-regioner kaldet telomerer. Disse regioners centrale funktion er at tillade cellen at replikere kromosomender ved brug af enzymet telomerase, da enzymerne som normalt replikerer DNA ikke kan kopiere de yderste 3′-ender af kromosomer.[62] Disse specialiserede 'kromosomdæksler' hjælper også med at beskytte DNA-enderne og stoppe DNA-reparationssystemerne i cellen fra at behandle dem som skade, der skal repareres.[63] I menneskeceller har telomerer normalt en længde på enkelt-strenget DNA indeholdende flere tusinde gentagelser af en simpel TTAGGG-sekvens.[64]
Disse guaninrige sekvenser kan stabilisere kromosomender ved at danne strukturer af stablede sæt af fire-baseenheder, snarere end de normale basepar i andre DNA-molekyler. Her danner fire guaninbaser en flad tallerken, og disse flade firebaseenheder stables derefter ovenpå hinanden for at danne en stabil G-quadruplexstruktur.[65] Disse strukturer stabiliseres af hydrogenbindinger mellem basekanterne og chelat fra en metalion i midten af hver firebase-enhed.[66] Der kan også dannes andre strukturer, hvor det centrale sæt af fire baser kommer fra enten en enkelt streng foldet omkring baserne, eller flere forskellige parallelle strenge, der hver bidrager med en base til den centrale struktur.
Udover disse stablede strukturer danner telomerer også store loopende strukturer kaldet telomerloops, eller T-loops. Her krøller den enkelt-strengede DNA sig sammen til en lang cirkel stabiliseret af telomerbindende proteiner.[67] I den sidste ende af T-loopet holdes den enkelt-strengede telomer-DNA på en region af dobbelt-strenget DNA af den telomerstreng, der splitter den dobbeltheliske DNA og baseparring til en af de to strenge. Denne trippel-strengede struktur kaldes et D-loop.[65]
DNA "flosser", når ikke-komplementære regioner eksisterer i enden af en ellers komplementær dobbelt-strenget DNA. Forgrenet DNA kan dog opstå, hvis en tredje streng af DNA introduceres og indeholder tilstødende regioner i stand til at hybridisere med de flossede regioner i den allerede eksisterende dobbelt-streng. Selvom det mest simple eksempel på forgrenet DNA kun involverer tre DNA-strenge, er det også muligt at skabe komplekser med yderligere strenge og flere grene.[68] Forgrenet DNA kan bruges i nanoteknologi til at konstruere geometriske former.
Ekspressionen af gener påvirkes af, hvordan DNA'en pakkes i kromosomer, i en struktur kaldet kromatin. Basemodifikationer kan også være involverede i pakningen, hvor regioner med lav eller ingen genekspression normalt indeholder store mængder methylering af cytosinbaser. DNA-pakning og dens indflydelse på genekspression kan også ske ved kovalente modifikationer af histonproteinkernen, som DNA er pakket omkring i kromatinstrukturen, eller ved remodellering udført af kromatinremodelleringskomplekser. Herudover er der krydstale mellem DNA-methylering og histonmodifikation, så de kan koordinere deres påvirkning af kromatin og genekspression.[69]
For at tage et eksempel, producerer cytosinmethylering 5-methylcytosin, som er vigtigt for X-kromosominaktivering.[70] Det gennemsnitlige methyleringsniveau varierer mellem organismer – ormen Caenorhabditis elegans har ingen cytosinmethylering, mens hvirveldyr har højere niveauer, med 5-methylcytosin i op til 1% af deres DNA .[71] På trods af 5-methylcytosins vigtighed har det den ulempe, at det kan deamineres til en thyminbase, hvilket gør methylerede cytosiner særligt sårbare over for mutationer.[72] Blandt andre basemodifikationer er adeninmethylering i bakterier, tilstedeværelsen af 5-hydroxymethylcytosin i hjernen[73] og glykosyleringen af uracil til "J-basen" i kinetoplastider.[74][75]
DNA kan beskadiges af mange typer mutagener, som kan ændre DNA-sekvensen. Blandt disse mutagener er oxidations- og alkyleringsmidler, såvel som højenergi-elektromagnetisk stråling såsom ultraviolet lys og røntgenstråling. Typen af skade på DNA'en afhænger af typen af mutagen. For eksempel kan UV-lys beskadige DNA ved at producere thymindimerer, som er krydsbindinger mellem pyrimidinbaser.[77] Omvendt forårsager oxidanter såsom frie radikale eller brintoverilte flere typer skade, heriblandt basemodifikationer, særligt af guanosin, og dobbelt-streng-brud.[78] En typisk menneskecelle indeholder omkring 150.000 baser, som har lidt oxidativ skade.[79] Af disse oxidative læsioner er de farligste dobbelt-strengede brud, da disse er svære at reparere og kan producere punktmutationer, indsættelser og deletioner fra DNA-sekvensen, såvel som kromosomale translokationer.[80] Disse mutationer kan forårsage kræft. På grund af iboende begrænsninger i DNA-reparationsmekanismerne ville alle mennesker, såfremt de levede længe nok, før eller siden udvikle kræft.[81][82] DNA-skader, som opstår naturligt på grund af normale cellulære processer, der producerer reaktive oxygenforbindelser, cellulært vands hydrolytiske aktiviteter osv., sker også ofte. Selvom de fleste af disse skader repareres, kan der i enhver celle være nogle rester af DNA-skade på trods af reparationsprocesserne. Disse tilbageværende DNA-skader ophober sig med alderen i postmitotisk pattedyrsvæv. Denne ophobning lader til at være en vigtig underliggende årsag til aldring.[83][84][85]
Mange mutagener passer ind i rummet mellem to tilstødende basepar – dette kendes som interkalation. De fleste interkalatorer er aromatiske og plane molekyler; eksempler kunne være ethidiumbromid, akridiner, daunomycin og doxorubicin. En interkalator kan kun passe mellem basepar, hvis baserne separeres, og DNA-strengene forvrides ved at dreje dobbelthelixen ud. Dette hæmmer både transskriptionen og DNA-replikationen, hvilket skaber toxicitet og mutationer.[86] Som resultat heraf kan DNA-interkalatorer være carcinogene, og i thalidomids tilfælde, et teratogen.[87] Andre, såsom benzo[a]pyrenoxid og aflatoksin, danner DNA-addukter, som fremkalder fejl i replikationen.[88] Alligevel bruges andre lignende toksiner også i kemoterapi til at sløve hurtigtvoksende kræftceller, pga. deres evne til at hæmme transskription og DNA-replikation.[89]
Der er gjort forsøg med at udvide den genetiske kode med flere syntetiske bogstaver, se hachimoji DNA. Fordelene ved en udvidet kode kunne omfatte lagring af stærkt komprimerede data, dvs. en forbedret genetisk kode, samt indsigt i livets generelle kemiske forudsætninger dvs. hvad man også kunne forvente af eventuelt udenjordisk liv.
DNA forekommer normalt som lineære kromosomer i eukaryoter og cirkulære kromosomer i prokaryoter. Kromosomsættet i en celle udgør dens genom; menneskets genom har omkring 3 milliarder DNA-basepar arrangeret i 46 kromosomer.[90] Informationen i DNA ligger i sekvensen af DNA-stykker, der kaldes gener. Transmission af genetisk information i gener opnås ved hjælp af komplementær baseparring. For eksempel kopieres DNA-sekvensen ved hjælp af transskription ind i en komplementær RNA-sekvens gennem tiltrækningen mellem DNA'en og de korrekte RNA-nukleotider når en celle bruger informationen i et gen. Normalt bruges denne RNA-kopi derefter til at skabe en matchende proteinsekvens ved en proces kaldet translation, som afhænger af den samme interaktion mellem RNA-nukleotider. Alternativt kan en celle simpelthen kopiere sin genetiske information ved DNA-replikation.[91]
Genomisk DNA pakkes stramt og velordnet ved en proces kaldet DNA-kondensering for at passe ind i cellens små tilgængelige voluminer. I eukaryoter befinder DNA sig i cellekernen, såvel som små mængder i mitokondrier og grønkorn. I prokaryoter holdes DNA'en i et uregelmæssigt formet legeme i cytoplasmaen kaldet nukleoiden.[92] Et genoms genetiske information ligger i generne, og det fuldstændige informationssæt i en organisme kaldes dens genotype. Et gen er en arvelig enhed og er en DNA-region, som påvirker en bestemt egenskab i en organisme. Gener indeholder en åben læseramme, der kan transskriberes, såvel som regulerende sekvenser såsom promotere og enhancere, som kontrollerer transskriptionen af den åbne læseramme.
I mange arter er det kun en lille fraktion af den samlede genomsekvens der koder protein. For eksempel er det kun omkring 1,5% af det menneskelige genom, som består af proteinkodende exoner, mens over 50% af menneskelig DNA består af ikke-kodende repetitive sekvenser.[93] Det har længe været en gåde hvorfor der findes så store mængder ikke-kodende DNA og ekstraordinære forskelle i genomstørrelse (kendt som C-værdi) i eukaryotiske genomer arterne imellem.[94] Nogle af de DNA-sekvenser, som ikke koder protein, kan dog stadig kode funktionelle ikke-kodende RNA-molekyler, som er involverede i reguleringen af genekspression.[95]
Nogle ikke-kodende DNA-sekvenser spiller en strukturel rolle i kromosomer. Telomerer og centromerer indeholder typisk kun få gener, men er vigtige for kromosomernes funktion og stabilitet.[63][97] En talstærk form for ikke-kodende DNA i mennesker er pseudogener, som er kopier af gener, der er blevet deaktiveret af mutation.[98] Disse sekvenser er normalt kun molekylære fossiler, omend de en gang imellem kan fungere som råt genetisk materiale for skabelsen af nye gener gennem en proces kendt som genduplikation og divergens.[99]
En del vira har DNA i deres arvemateriale – eksempelvis kopper (dobbeltstrenget) og lussingesyge (enkeltstrenget) – mens andre anvender RNA.[100]
Et gen er en DNA-sekvens, der indeholder genetisk information og kan påvirke en organismes fænotype. Inde i et gen definerer sekvensen af baser langs en DNA-streng en messenger RNA-sekvens, som så til gengæld definerer en eller flere proteinsekvenser. Forholdet mellem geners nukleotidsekvenser og proteiners aminosyresekvenser bestemmes af reglerne for translation, der overordnet kendes som den genetiske kode. Den genetiske kode består af tre-bogstav 'ord' kaldet codoner, der dannes fra en sekvens af tre nukleotider (f.eks. ACT, CAG, TTT).
Under transskriptionen kopieres et gens codoner ind i messenger-RNA (mRNA) ved hjælp af RNA-polymerase II. Denne RNA-kopi afkodes derefter af et ribosom, som læser RNA-sekvensen ved at baseparre mRNA'et med transfer RNA (tRNA), som bærer aminosyrer. Da der er 4 baser i 3-bogstavkombinationer, er der 64 mulige codoner (43 kombinationer). Disse koder så de tyve standardaminosyrer og giver de fleste aminosyrer mere end ét muligt komplementært codon. Der findes også tre 'stop'-codoner ('nonsense'-codoner), der indikerer slutningen af kodningsregionen; disse er de tre codoner TAA, TGA og TAG, idet der ikke findes en tRNA, der er komplementær til disse.
Transskriptionen af DNA behøver dog ikke have dannelsen af mRNA, der skal translateres til et protein, som mål, da det ved transskriptionens producerede RNA i sig selv kan være målet. Dette kan f.eks. være tilfældet ved dannelsen af det omtalte tRNA (her bruges dog RNA-polymerase III frem for II) eller andre typer RNA, f.eks. precursor-miRNA, der regulerer den cellulære proteinudtrykkelse ved processen RNA-interferens.
Celledeling er essentiel for at en organisme kan vokse, men når en celle deler sig, skal den replikere DNA'en i sit genom, så de to datterceller har samme genetiske information som deres forælder. DNA's dobbeltstrengede struktur sørger for en simpel mekanisme til DNA-replikation. Her separeres de to strenge, hvorefter hver strengs komplementære DNA-sekvens genskabes af et enzym kaldet DNA-polymerase. Dette enzym skaber den komplementære streng ved at finde den korrekte base gennem komplementær baseparring, og binder den derefter med den oprindelige streng. Da DNA-polymeraser kun kan udvide en DNA-streng i retningen 5′ til 3′, bruges andre mekanismer til at kopiere dobbelthelixens antiparallelle strenge.[101] På denne måde bestemmer basen på den gamle streng, hvilken base der dannes på den nye streng, og cellen ender op med en perfekt kopi af sin DNA.
Nøgen ekstracellulær DNA (eDNA), som oftest udsendes ved celledød, er næsten allestedsnærværende i miljøet. Dets koncentration i jordbunden kan være helt op til 2 μg/L, og dets koncentration i naturlige vandmiljøer kan være helt op til 88 μg/L.[102] Der er blevet spekuleret i flere mulige funktioner, som eDNA varetager: det kan være involveret i horisontal genoverførsel;[103] det kan levere næringsstoffer;[104] og det kan fungere som en buffer til at rekruttere eller titrere ioner eller antibiotika.[105] Ekstracellulær DNA opfører sig som en funktionel ekstracellulær matrixkomponent i en række bakteriearters biofilm. Det kan opføre sig som en genkendelsesfaktor til at regulere tilknytning og spredning af bestemte celletyper i biofilmen;[106] det kan bidrage til dannelsen af biofilm;[107] og det kan bidrage til biofilmens fysiske styrke og modstandsdygtighed over for biologisk pres.[108]
Alle DNA's funktioner afhænger af samspillet med proteiner. Disse proteininteraktioner kan være ikke-specifikke, eller proteinet kan binde sig specifikt til en enkelt DNA-sekvens. Enzymer kan også binde til DNA og af disse er polymeraserne, som kopierer DNA-basesekvensen i transskription og DNA-replikation, særligt vigtige.
Strukturelle proteiner, som binder DNA, er velkendte eksempler på ikke-specifikke interaktioner mellem DNA og protein. Inde i kromosomer holdes DNA i komplekser med strukturelle proteiner. Disse proteiner organiserer DNA'en i en kompakt struktur kaldet kromatin. I eukaryoter involverer denne struktur DNA-binding til et kompleks af små, basiske proteiner kaldet histoner, mens der er flere typer proteiner involveret i prokaryoter.[109][110] Histonerne danner et pladeformet kompleks kaldet et nukleosom, som indeholder to komplette drejninger af dobbelt-strenget DNA viklet omkring dets overflade. Disse ikke-specifikke interaktioner udgøres af ionbindinger mellem basiske grupper i histonerne og sure fosfatgrupper i DNA'ens sukker-fosfat-rygrad og er derfor mestendels uafhængige af basesekvensen.[111] Kemiske modifikationer af disse basiske grupper (der sidder på sidekæderne af aminosyrer) inkluderer methylering, fosforylering og acetylering.[112] Disse kemiske modifikationer ændrer styrken af interaktionen mellem DNA'en og histonerne, hvilket gør DNA'en mere eller mindre tilgængelig for transskriptionsfaktorer og ændrer transskriptionshastigheden.[113]
En særlig gruppe DNA-bindende proteiner er de DNA-bindende proteiner, som specifikt binder enkeltstrenget DNA. I mennesker er replikationsprotein A det bedst kendte eksempel fra denne familie og bruges i processer, hvor dobbelthelixen er separeret, heriblandt ved DNA-replikation, rekombination og DNA-reparation.[114] Disse bindingsproteiner lader til at stabilisere enkeltstrenget DNA og beskytte det fra at danne hårnålsstrukturer eller blive nedbrudt af nukleaser.
I modsætning hertil er der andre proteiner, som har udviklet sig til at binde til bestemte DNA-sekvenser. De mest intensivt studerede af disse er de forskellige transskriptionsfaktorer, som er proteiner, der regulerer transskription. Hver transskriptionsfaktor binder til et bestemt sæt af DNA-sekvenser og aktiverer eller hæmmer transskriptionen af gener, som har disse sekvenser tæt på deres promotere. Transskriptionsfaktorerne gør dette på to måder. For det første kan de binde RNA-polymerasen ansvarlig for transskription, enten direkte eller gennem andre mediatorproteiner; dette lokaliserer polymerasen ved promoteren og lader den begynde transskription.[115] Alternativt kan transskriptionsfaktorer binde enzymer, som modificerer histonerne ved promoteren. Dette ændrer på DNA-skabelonens tilgængelighed for polymerasen.[116]
Da disse DNA-targets kan forekomme overalt i en organismes genom, kan ændringer i en type transskriptionsfaktors aktivitet påvirke tusinder af gener.[117] Som følge heraf er disse proteiner ofte mål for de signaltransduktionsprocesser, som styrer responset på miljøforandringer eller cellulær differentiering og udvikling. Specificiteten af disse transskriptionsfaktorers interaktioner med DNA kommer af, at proteinerne har flere kontakter til DNA-basernes kant, hvilket tillader dem at "læse" DNA-sekvensen. De fleste af disse baseinteraktioner sker i den store rille, hvor baserne er mest tilgængelige.[31]
Nukleaser er enzymer, som skærer DNA-strenge ved at katalysere hydrolyse af fosfodiesterbindingerne. Nukleaser som hydrolyserer nukleotider fra enderne af DNA-strenge kaldes exonukleaser, mens endonukleaser skærer inde i strenge. De oftest brugte nukleaser i molekylærbiologi er restriktionsendonukleaser, som skærer DNA ved bestemte sekvenser. For eksempel genkender EcoRV-enzymet den 6-basede sekvens 5′-GATATC-3′. I naturen beskytter disse enzymer bakterier mod faginfektion ved at fordøje fag-DNA'en, når den kommer ind i den bakterielle celle, og opfører sig som en del af restriktionsmodifikationssystemet.[119] Inden for teknologi bruges disse sekvensspecifikke nukleaser i molekylær kloning og til at tage DNA-fingeraftryk.
Enzymer kaldet DNA-ligaser kan genforbinde skårede eller brækkede DNA-strenge.[120] Ligaser er særligt vigtige i DNA-replikation af tilbagestående strenge, da de forbinder de korte DNA-segmenter, der produceres ved replikationsgaflen til en fuldstændig kopi af DNA-skabelonen. De bruges også i DNA-reparation og genetisk rekombination.[120]
Topoisomeraser er enzymer med både nuklease- og ligaseaktivitet. Disse proteiner ændrer mængden af supercoiling i DNA. Nogle af disse enzymer fungerer ved at skære DNA-helixen og lader en sektion rotere, hvorved de reducerer mængden af supercoiling; enzymet forsegler derefter DNA-bruddet.[43] Andre typer af disse enzymer er i stand til at skære en DNA-helix og derefter sende en anden DNA-streng igennem dette brud, før det genforbinder helixen.[121] Topoisomeraser er nødvendige for mange processer, der involverer DNA, såsom DNA-replikation og transskription.[44]
Helicaser er proteiner, der er en form for molekylær motor. De bruger den kemiske energi i nukleosidtrifosfater, særligt ATP, til at bryde hydrogenbindinger mellem baser og strække DNA-dobbelthelixen ud i enkelte strenge.[122] Disse enzymer er essentielle for de fleste processer hvor enzymer skal have adgang til DNA-baserne.
Polymeraser er enzymer, der syntetiserer polynukleotidekæder fra nukleosidtrifosfater. Deres produkters sekvens skabes på basis af eksisterende polynukleotidkæder – kaldet "skabeloner". Disse enzymer fungerer ved at føje et nukleotid til 3′-hydroxylgruppen i enden af den voksende polynukleotidkæde gentagne gange. Som konsekvens heraf arbejder alle polymeraser i en 5′- til 3′-retning.[123] I disse enzymers aktive sæde baseparres den nye nukleosidtrifosfat til skabelonen: Dette lader polymeraser syntetisere deres skabelons komplementære streng på korrekt vis. Polymeraser klassificeres efter den type skabelon, som de anvender.
Ved DNA-replikation tager DNA-afhængige DNA-polymeraser kopier af DNA-polynukleotidkæder. For at kunne bevare biologisk information er det essentielt, at sekvensen af baser i hver kopi er præcist komplementær til sekvensen af baser i skabelonstrengen. Mange DNA-polymeraser har en korrekturlæsende aktivitet. Her genkender polymerasen den lejlighedsvise fejl i syntesereaktionen ud fra manglen på baseparring mellem de fejlmatchede nukleotider. Hvis der opdages en fejlmatch, aktiveres en 3′ til 5′ exonukleaseaktivitet, og den ukorrekte base fjernes.[124] I de fleste organismer fungerer DNA-polymeraser i et stort kompleks kaldet replisomet, der indeholder flere tilhørende underenheder, såsom DNA-klemmen eller helicaserne.[125]
RNA-afhængige DNA-polymeraser er en specialiseret klasse af polymeraser, som kopierer en RNA-strengs sekvens ind i DNA. De omfatter revers transkriptase, som er et viralt enzym involveret i retroviras infektion af celler, og telomerase, som er påkrævet ved replikation af telomerer.[62][126] Telomerase er en usædvanlig polymerase, fordi den indeholder sin egen RNA-skabelon som en del af sin struktur.[63]
Transskription udføres af en DNA-afhængig RNA-polymerase, der kopierer en DNA-strengs sekvens ind i RNA. For at påbegynde transskriptionen af et gen binder RNA-polymerasen til en DNA-sekvens kaldet en promoter og separerer DNA-strengene. Derefter kopierer den gensekvensen ind i en messenger RNA-udskrift, indtil den når en DNA-region kaldet terminatoren, hvor den stopper og afkobles fra DNA'en. Ligesom det er tilfældet med menneskelige DNA-afhængige DNA-polymeraser, opererer RNA polymerase II, det enzym, der transskriberer de fleste af generne i det menneskelige genom, som en del af et stort proteinkompleks med flere regulerende og tilhørende underenheder.[127]
En DNA-helix interagerer normalt ikke med andre DNA-segmenter, og i menneskeceller er de forskellige kromosomer oven i købet placeret i separate områder i cellekernen kaldet "kromosomterritorier".[129] Denne fysiske adskillelse af forskellige kromosomer er vigtig for DNA'ens evne til at fungere som et stabilt informationsarkiv, da en af de få gange kromosomer interagerer er ved overkrydsning, der sker under kønnet formering, hvor genetisk rekombination finder sted. "Overkrydsning" betegner når to DNA-helixer brydes op, udveksler en sektion og derefter genforenes.
Rekombination lader kromosomer udveksle genetisk information og producerer nye kombinationer af gener, som øger naturlig selektions effektivitetet, og kan være vigtigt i den hurtige udvikling af nye proteiner.[130] Genetisk rekombination kan også være involveret i DNA-reparation, særligt i cellens respons på dobbeltstrengsbrud.[131]
Den mest almindelige form for overkrydsning er homolog rekombination, hvor de to involverede kromosomer deler meget ens sekvenser. Ikke-homolog rekombination kan være skadelig for celler, da det kan producere kromosomale translokationer og genetiske abnormiteter. Rekombinationsreaktionen katalyseres af enzymer kendt som rekombinaser, såsom RAD51.[132] Det første skridt ved rekombination er et dobbeltstrenget brud forårsaget af enten en endonuklease eller beskadigelse af DNA'en.[133] En række skridt delvist katalyseret af rekombinasen fører derefter til sammenføjningen af de to helixer ved mindst et Hollidaykors, hvori et segment af en enkelt streng i hver helix knyttes til den komplementære streng i den anden helix. Hollidaykorset er en tetraedrisk knudepunktsstruktur, der kan flyttes langs kromosomparret, og udskifter en streng med en anden. Rekombinationsreaktionen stoppes derefter af spaltning af knudepunktet og re-ligeringen af det frigivne DNA.[134]
DNA indeholder den genetiske information, der lader alle moderne levende ting fungere, vokse og reproducere. Det er dog uklart, hvor langt tilbage i livets fire milliarder år lange historie DNA har haft denne funktion, og det har været foreslået at de tidligste livsformer kan have anvendt RNA som deres genetiske materiale.[135][136] RNA kan have opført sig som den centrale del af tidlig cellemetabolisme, da det både kan transmittere genetisk information og udføre katalyse som en del af ribozymer.[137] Denne urgamle RNA-verden, hvor nukleinsyrer i så fald blev brugt til både katalyse og genetik, kan have påvirket udviklingen af den nuværende genetiske kode baseret på fire nukleotidbaser. Dette ville ske fordi antallet af forskellige baser i en sådanne organisme er en afvejning mellem et lille antal baser med bedre replikationspræcision og et stort antal baser med bedre katalytisk ribozymeffektivitet.[138] Der er dog ingen direkte beviser på urgamle genetiske systemer, da det er umuligt at isolere DNA fra de fleste fossiler, idet DNA kun overlever i miljøet i mindre end en million år og langsomt nedbrydes til korte fragmenter i opløsning.[139] Der er blevet fremsat påstande om ældre DNA; bedst kendt er en rapport om isoleringen af en levedygtig bakterie fra en 250 millioner år gammel saltkrystal,[140] men disse påstande er kontroversielle.[141][142]
DNA-byggesten (adenin, guanin og relaterede organiske forbindelser) kan være blevet dannet uden for Jordens atmosfære, i det ydre rum.[143][144][145] Komplekse DNA- og RNA-forbindelser, heriblandt uracil, cytosin og thymin, er også blevet dannet i laboratorier under forhold der efterligner dem, der findes i det ydre rum, ved brug af udgangsstoffer (såsom pyrimidin) fundet i meteoritter. Pyrimidin kan, ligesom polycykliske aromatiske hydrocarboner (PAH'er), de mest carbon-rige kemiske forbindelser i universet, være blevet dannet i røde kæmper eller i kosmisk støv og gasskyer.[146]
Der er blevet udviklet metoder til at oprense DNA fra organismer, såsom fenol-kloroformudvinding, og til at manipulere det i laboratorier, såsom restriktionsfordøjelser og polymerasekædereaktion. Moderne biologi og biokemi gør intensivt brug af disse teknikker i rekombinant DNA-teknologi. Rekombinant DNA er menneskeskabte DNA-sekvenser, der er blevet samlet fra andre DNA-sekvenser. De kan transformeres til organismer i form af plasmider eller i passende format ved brug af en viral vektor.[147] Genetisk modificerede organismer kan bruges til at producere produkter såsom rekombinante proteiner, til brug i biomedicinsk forskning,[148] eller dyrkes i landbruget.[149][150]
Kriminalteknikere kan bruge DNA i blod, sæd, hud, spyt eller hår fundet på et gerningssted til at identificere matchende DNA fra et individ, såsom en gerningsmand. Denne proces kendes formelt som etablering af en DNA-profil, men kan også kaldes "genetiske fingeraftryk". I DNA-profiler sammenlignes længderne på variable sektioner af repetitiv DNA, såsom mikrosatellitter, mellem to mennesker. Denne metode er normalt en ekstremt troværdig teknik til at identificere matchende DNA.[151] Identifikation kan dog være kompliceret, hvis stedet er forurenet med DNA fra flere mennesker.[152] DNA-profiler blev udviklet i 1984 af den britiske genetiker Sir Alec Jeffreys[153] og brugt første gang inden for kriminalteknik til at dømme Colin Pitchfork i Enderby-mordene i 1988.[154]
Udviklingen af kriminalteknik, og evnen til nu at fremskaffe genetisk match på små prøver af blod, hud, spyt eller hår, har ført til en genundersøgelse af en række sager. Mennesker, der er anklaget for en alvorlig forbrydelse, kan blive afkrævet en DNA-prøve til sammenligning. I Danmark har et af de mest notable eksempler på en sag, hvor DNA-profil var af afgørende betydning, været ved efterforskningen af de drab og voldtægter, der blev begået af Marcel Lychau Hansen, bedre kendt som "Amagermanden"[155]. Det mest åbenlyse forsvar imod kriminaltekniske DNA-matches er at påstå at der er blevet byttet rundt på beviser. Dette har resulteret i omhyggelige og strenge håndteringsprocedurer i alle nye sager. DNA-profiler bruges også til at identificere ofre for hændelser med mange omkomne,[156] såvel som til at identificere lig eller kropsdele i alvorlige ulykker og sågar til at identificere individuelle ofre i massegrave – ved at sammenligne med familiemedlemmer.
DNA-profiler bruges også til faderskabstests for at afgøre, hvorvidt en person er biologisk forælder eller bedsteforælder til et barn med en sandsynlighedsgrad på 99,99% for, hvorvidt den angivelige forælder er biologisk beslægtet med barnet. Normale DNA-sekventeringsmetoder sker efter fødslen, men der findes nye metoder, hvorved man kan teste for faderskab mens moderen stadig er gravid.[157]
Deoxyribozymer, også kaldet DNAzymer eller katalytisk DNA, blev opdaget i 1994.[158] Det er for det meste enkeltstrengede DNA-sekvenser, der er isoleret fra en stor pulje af tilfældige DNA-sekvenser gennem en kombineret tilgang kaldet in vitro-selektion eller SELEX. DNAzymer katalyserer en række kemiske reaktioner, heriblandt RNA/DNA-spaltning, RNA/DNA-ligering, aminosyrefosforylering/defosforylering, o.a. DNAzymer kan øge hastigheden af kemiske reaktioner op til 100.000.000.000 gange hastigheden af den ukatalyserede reaktion.[159] Den mest studerede klasse af DNAzymer er RNA-spaltende DNAzymer, som er blevet brugt til opdagelse af forskellige metalioner og til at designe terapeutiske midler. Der er fundet flere metalspecifikke DNAzymer, heriblandt GR-5-DNAzymet (bly-specifikt),[158] CA1-3-DNAzymet (kobber-specifikt),[160] 39E-DNAzymet (uranyl-specifikt) og NaA43-DNAzymet (natrium-specifikt).[161]
Bioinformatik involverer udviklingen af teknikker til at opbevare, data mine, søge i og manipulere biologiske data, heriblandt DNA-sekvensdata. Dette har ført til vidt anvendte fremskridt inden for datalogi, særligt string-searching-algoritmer, maskinelæring og databaseteori.[162] String-searching eller matchingalgoritmer, som genkender en bogstavsekvens inde i en større sekvens af bogstaver, blev udviklet til at søge efter bestemte nukleotidsekvenser.[163] DNA-sekvensen bliver sammenstillet med andre DNA-sekvenser for at identificere homologe sekvenser og lokalisere de specifikke mutationer, der gør dem specielle. Disse teknikker, særligt multiple sekvenssammenstillinger, bruges til at studere fylogenetiske forhold og proteinfunktioner.[164] Datasæt, der repræsenterer hele genomers DNA-sekvenser, såsom de der er produceret af Human Genome Project, er svære at bruge uden de annoteringer, der identificerer generne og de regulerende elementers beliggenhed på hvert kromosom. DNA-sekvensregioner, der har de karakteristiske mønstre, som associeres med protein- eller RNA-kodende gener, kan identificeres ved genfindende algoritmer, som tillader forskere at forudsige tilstedeværelsen af bestemte genprodukter og deres mulige funktioner i en organisme, selv før de er blevet isoleret eksperimentelt.[165] Hele genomer kan også sammenlignes, hvilket kan skabe klarhed omkring en bestemt organismes evolutionære historie og tillade undersøgelsen af komplekse evolutionære begivenheder.
DNA-nanoteknologi anvender DNA's og andre nukleinsyrers unikke molekylære genkendelsesegenskaber til at skabe selvsamlende forgrenede DNA-komplekser med nyttige egenskaber.[166] DNA bruges således som et strukturelt materiale snarere end som en bærer af biologisk information. Dette har ført til skabelsen af to-dimensionelle periodiske gitre (der begge er flise-baserede og anvender "DNA-origami"-metoden) såvel som tredimensionelle strukturer i form af polyedre.[167] Nanomekaniske enheder og algoritmisk selv-samling er også blevet demonstreret,[168] og disse DNA-strukturer er blevet anvendt som skabeloner for arrangeringen af andre molekyler såsom guldnanopartikler og streptavidin-proteiner.[169]
Fordi DNA undergår mutationer over tid, som derefter nedarves, indeholder det historisk information, og ved at sammenligne DNA-sekvenser kan genetikere udlede organismers evolutionære historie, deres fylogeni.[170] Feltet fylogenetik er et vigtigt værktøj inden for evolutionsbiologi. Hvis der sammenlignes DNA-sekvenser inden for samme art, kan populationsgenetikere lære om en bestemt populations historie. Dette kan bruges i studier af alt fra økologisk genetik til antropologi; for eksempel benyttes DNA-beviser til at forsøge at identificere Israels ti forsvundne stammer.[171][172]
I en rapport udgivet i Nature i januar 2013 foreslog forskere fra European Bioinformatics Institute og Agilent Technologies en mekanisme til at benytte DNA's evne til at kode information som en måde at lagre digitale data. Gruppen var i stand til at kode 739 kilobyte data ind i DNA-kode, syntetisere den faktiske DNA og derefter sekventere DNA'en og afkode informationen tilbage til dens oprindelige form, med 100% nøjagtighed. Den kodede information bestod af tekst- og lydfiler. Et tidligere eksperiment blev udgivet i august 2012, udført af forskere ved Harvard University, hvor man kodede teksten til en 54.000 ord lang bog ind i DNA.[173][174]
DNA blev identificeret og isoleret for første gang af den schweiziske læge Friedrich Miescher, som i 1869 opdagede en mikroskopisk substans i materie fra kasserede kirurgibandager. Da det var placeret i cellernes kerner (latin: nukleus, flertal nuklei) kaldte han det "nuklein".[175][176]
I 1878 isolerede Albrecht Kossel ikke-protein-komponenten af "nuklein", nukleinsyre, og isolerede senere dets fem primære nukleobaser.[177][178] I 1919 identificerede Phoebus Levene de grundlæggende sukker- og fosfat-nukleotidenheder.[179] Levene foreslog, at DNA bestod af en streng af nukleotidenheder, der er forbundet via fosfatgrupperne. Levene troede, at kæden var kort, og at baserne blev gentaget i en fast rækkefølge. I 1937 producerede William Astbury de første røntgendiffraktionsmønstre, der viste, at DNA har en regelmæssig struktur.[180]
I 1927 foreslog Nikolai Koltsov, at nedarvede egenskaber blev nedarvet gennem et "enormt arveligt molekyle" bestående af "to spejlede strenge, der ville replikere på en semi-konservativ måde ved at bruge hver streng som en skabelon".[181][182] I 1928 opdagede Frederick Griffith i sit eksperiment, at træk fra den "glatte" form for Pneumococcus kunne overføres til den "ru" form af den samme bakterie ved at blande dræbte "glatte" bakterier med levende "ru" former.[183][184] Dette system gav den første klare indikation af, at DNA bærer på genetisk information – Avery-MacLeod-McCarty-eksperimentet – da Oswald Avery, sammen med kollegaerne Colin MacLeod og Maclyn McCarty, identificerede DNA som det transformerende princip i 1943.[185] DNA's rolle i arv blev bekræftet i 1952, da Alfred Hershey og Martha Chase i Hershey-Chase-eksperimentet påviste, at DNA er T2 fagens genetiske materiale.[186]
I 1953 foreslog James Watson og Francis Crick det, der nu er accepteret som den første korrekte dobbelthelix-model af DNA-strukturen, i tidsskriftet Nature.[8] Deres dobbeltheliske, molekylære DNA-model var dengang baseret på et enkelt røntgendiffraktionsbillede (kaldt "Foto 51")[187] taget af Rosalind Franklin og Raymond Gosling i maj 1952, såvel som informationen om, at DNA-baserne er parrede – også opnået gennem privat kommunikation fra Erwin Chargaff i de tidligere år.
Eksperimentelt bevis til støtte for Watson og Cricks model blev udgivet i en serie af fem artikler i den samme udgave af Nature.[188] Ud af disse var Franklin og Goslings rapport den første udgivelse af deres egne røntgendiffraktionsdata og originale analyse, som delvist understøttede Watson og Cricks model;[47][189] denne udgave indeholdt også en artikel om DNA-strukturen af Maurice Wilkins og to af hans kollegaer, hvis analyse og in vivo B-DNA røntgenmønstre også understøttede tilstedeværelsen in vivo af dobbelthelix-DNA-konfigurationer som foreslået af Crick og Watson.[48] I 1962, efter Franklin's død, blev Watson, Crick og Wilkins i fællesskab tildelt Nobelprisen i fysiologi eller medicin[190] (nobelpriser tildeles kun levende personer). Der er fortsat debat omkring, hvem der bør tilskrives opdagelsen.[191]
I en indflydelsesrig præsentation i 1957 forklarede Crick molekylærbiologiens centrale dogme, som forudsagde forholdet mellem DNA, RNA og proteiner, og formulerede "adaptorhypotesen".[192] Den endelige bekræftelse af replikationsmekanismen, der blev antydet af dobbelthelix-strukturen, fulgte i 1958 i form af Meselson-Stahl-eksperimentet.[193] Yderligere arbejde af Crick og kollegaer viste, at den genetiske kode blev baseret på ikke-overlappende basetripletter, kaldet codoner, hvilket gjorde Har Gobind Khorana, Robert W. Holley og Marshall Warren Nirenberg i stand til at dechifrere den genetiske kode.[194] Disse fund kom til at repræsentere molekylærbiologiens fødsel.