Bioinformatika

From Wikipedia, the free encyclopedia

Bioinformatika

Bioinformatika (grčki: - život; engleski: ) je interdisciplinarna oblast koja razvija metode i alate za razumevanje bioloških podataka. Kao interdisciplinarno polje nauke, bioinformatika kombinuje informacione tehnologije, statistiku, matematiku i inžinjerstvo kako bi analizirala i interpretirala biološke podatke. Bioinformatika se koristi u analizama simulacija bioloških pojava koristeći matematičke i statističke tehnike.

Thumb
DNK sekvencijalna analiza

Bioinformatika je zajednički termin za oblast bioloških studija koje koriste kompjutersko programiranje kao deo svoje metodologije, i kao referenca za specifične analize "toka podataka" koje se često koriste, posebno u području genomike. Tipična primena bioinformatike podrazumeva identifikaciju kandidata gena i nukleotida. Često je cilj njihove identifikacije bolje razumevanje genetske osnove raznih bolesti, specifičnih prilagođavanja organizama, željenih osobina (npr. u poljoprivrednim kulturama), ili razlika između populacija. U manje formalnom tipu, bioinformatika takođe pokušava da otkrije organizacione principe unutar nukleinskih kiselina i proteinskih sekvenci.

Osnove

Bioinformatika je postala značajna oblast mnogih bioloških oblasti. U eksperimentalnoj molekularnoj biologiji tehnike poput vizuelizacije bioloških podataka i procesiranja signala omogućavaju izolovanje korisnih rezultata iz velike količine neobrađenih podataka. U genetici i genomici to pomaže da se sekvencionišu i obeleže genomi i njihove primećene mutacije. Takođe pomaže da se u biološkoj literaturi razviju biološke i genetske ontologije zbog organizovanja i klasifikacije bioloških podataka. Značajna je prilikom analize gena i odnosa između proteina. Bioinformatički alati pomažu pri poređenju genetičkih i genomskih podataka, što olakšava razumevanje evolutivnih aspekata molekularne biologije. Na kompaktnijem nivou, pomaže da se analiziraju i klasifikuju biološke putanje i mreže koje imaju značajnu ulogu u biologiji sistema. U strukturalnoj biologiji, pomaže pri simulaciji i modelovanju DNA, RNA i strukture proteina, kao i molekularnih interakcija.

Istorijat

Istorijski, termin bioinformatika nije imao isto značenje kao danas. Paulin Hogveg i Ben Hesper su njim 1970. godine označili istraživanje informacionih procesa u biotskim sistemima.[1][2][3] Ta definicija klasifikuje bioinformatiku u oblasti srodne biofizici (istraživanje fizičkih procesa u biološkim sistemima) ili biohemiji (istraživanje hemijskih procesa u biološkim sistemima).[1]

Sekvence

Thumb
Sekvence genetskog materijala se često koriste u bioinformatici, obzirom da je njima lakše manipulisati korišćenjem kompjutera nego ručno.

Kompjuteri su postali neophodni u molekularnoj biologiji kada su sekvence proteina postale poznate nakon što je Frederik Sanger odredio sekvencu insulina ranih pedesetih godina. Ručno poređenje višestrukih sekvenci pokazalo se nepraktičnim. Pionir u ovoj oblasti bila je Margaret Oklej Dejhof, koju je David Lipman, direktor Nacionalnog centra za biotehnološke informacije, proglasio "majkom i ocem bioinformatike".[4] Margaret je napravila jednu od prvih baza podataka proteinskih sekvenci, koje su najpre objavljene kao knjige[5] i začela je metode poravnanja sekvenci i molekularne evolucije.[6] Drugi rani doprinos bioinformatici dao je Elvin A. Kabat, koji je započeo sa analizom bioloških sekvenci 1970 sa obimnim izdanjima sekvenci antitela koje je objavio sa Tai Te Vuom između 1980 i 1991. godine.[7]

Ciljevi

Da bi se istražilo kako se normalne ćelijske aktivnosti menjaju u različitim fazama oboljenja, biološki podaci moraju da budu kombinovani kako bi pružili jasniju sliku o ovim aktivnostima. Stoga se oblast bioinformatike razvila tako da najznačajniji deo podrazumeva analizu i interpretaciju različitih tipova podataka. To uključuje nukleotide i sekvence amino kiselina, oblast proteina i proteinskih struktura.[8] Konkretan proces analiziranja i interpretacije ovih podataka smatra se informacionom biologijom. Značajne oblasti bioinformatike i informacione biologije podrazumevaju:

  • Razvoj i implementaciju kompjuterskih programa koji omogućavaju efikasan pristup i upravljanje različitim tipovima informacija
  • Razvoj novih algoritama (matematičkih formula) i statističkih mera kojima se procenjuju odnosi između članova velikog skupa podataka. Na primer, postoje metode za lociranje gena unutar sekvence, da se predvidi struktura proteina i/ili njena funkcija, i da se klaster analizom klasifikuju sekvence proteina u okviru familija srodnih sekvenci.

Osnovni cilj bioinformatike je povećanje razumevanja bioloških procesa. Ono što je izdvaja od drugih procesa je fokus na razvoj i primenu informatički intenzivnih tehnika za postizanje tog cilja. Primeri uključuju prepoznavanje obrazaca, analizu podataka, mašinsko učenje, i vizuelizaciju bioloških podataka. Fokus istraživanja u ovim oblastima uključuje poravnanje sekvenci, predviđanje gena, genomski projekat, dizajn leka, otkrivanje leka, strukturno poravnanje proteina, predviđanje strukture proteina, predviđanje ekspresije gena, protein-protein interakcije, izučavanje genomskih asocijacija, modelovanje evolucije i deobe ćelija - mitoze.

Bioinformatika danas podrazumeva stvaranje i razvoj baza podataka, algoritama, informatičkih i statističkih tehnika, kao i teorijske osnove za rešavanje formalnih i praktičnih problema koji se javljaju u upravljanju i analizi bioloških podataka.

Tokom nekoliko prethodnih decenija brz razvoj genomike i drugih tehnologija molekularnog istraživanja kao i razvoj informacionih tehnologija proizveo je značajnu količinu informacija koje se odnose na molekularnu biologiju. Bioinformatika je naziv kojim se opisuju matematički i informatički pristupi korišćeni za potpunije razumevanje bioloških procesa.

U uobičajene aktivnosti u bioinformatici spadaju mapiranje i analiziranje DNA i sekvenci proteina, poravnanje DNA i proteinskih sekvenci radi njihovog poređenja i izrada trodimenzionalnih modela proteinskih struktura.

Srodne oblasti

Bioinformatika je naučna oblast koja je slična, ali različita od biološke komputacije i komputacione biologije. Biološka komputacija koristi bioinžinjering i biologiju kako bi izgradila biologičke kompjutere, dok bioinformatika koristi kompjutere za bolje razumevanje biologije. Bioinformatika i komputaciona biologija imaju slične ciljeve i pristupe, međutim razlikuju se u obimu: bioinformatika organizuje i analizira osnovne biološke podatke, dok komputaciona biologija gradi teoretske modele bioloških sistema, isto kao što matematička biologija gradi matematičke modele.

Analiziranje bioloških podataka kako bi se dobile sadržajne informacije podrazumeva pravljenje i upotrebu kompjuterskih programa koji koriste algoritme iz teorije grafova, veštačke inteligencije, algoritme sa slabo definisanim rezultatima, analize podataka, prepoznavanja obrazaca, procesiranja slika i kompjuterske simulacije. Ovi algoritmi oslanjaju se na saznanja iz diskretne matematike, kontrolne teorije, sistemske teorije, informacione teorije i statistike.

Sekvencijalna analiza

Thumb
Sekvence različitih gena ili proteina mogu da se poravnaju jedna do druge kako bi se izmerila njihova sličnost. Ovo poravnanje poredi proteinsku sekvencu koja sadrži WPP domene.

Otkad je ΦX174 genom virusa sekvenciran 1977 godine,[9] DNA sekvence hiljada organizama su dekodirane i prikupljene u bazama podataka. Ove informacione sekvence se analiziraju kako bi se odredili geni koji kodireju proteine, RNA geni, regulacione sekvence, strukturalne karakteristike i višestruko ponovljene sekvence. Poređenjem gena unutar vrste ili između različitih vrsti može da pokaže sličnosti između funkcija proteina, ili odnose između vrsta (korišćenje molekularne filogenije radi izgradnje filogenetskog stabla). Rastom količine podataka odavno je postalo nepraktično da se DNA sekvence analiziraju ručno. Danas se računarski programi kao što je BLAST koriste kako bi pretražili sekvence više od 260.000 organizama, koje sadrže više od 190 milijardi nukleotida.[10] Takvi programi mogu da kompenzuju mutacije (izmešane, obrisane ili ubačene osnove) u DNA sekvenci, i da identifikuju sekvence koje su srodne, ali nisu identične. Varijanta ovakvog poravnanja sekvenci se koristi u samom procesu sekvenciranja. Takozvanim "šotgan sekvenciranjem" (koje je korišćeno u J. Kreg Venter Institutu za sekvenciranje prvog bakterijskog genoma Haemophilus influenzae)[11] nije moguće očitati kompletne hromozome. Taj metod daje sekvence više hiljada malih DNA fragmenata (od 35 do 900 nukleotida, zavisno od tehnologije sekvenciranja). Krajevi ovih fragmenata se preklapaju i, kada su ispravno spojeni programom za poravnanje genoma, mogu se koristiti za rekonstrukciju kompletnog genoma. Šotgan sekvenciranjem brzo se dobijaju sekvence podataka, međutim potreba za spajanjem fragmenata većih genoma može da bude veoma komplikovana. Za genom veličine genoma čoveka, može da bude potrebno nekoliko dana rada na snažnim multiprocesorskim kompjuterima sa velikom memorijom za spajanje fragmenata, a rezultat spajanja obično sadrži brojne propuste koji moraju da budu popunjeni kasnije. Šotgan sekvenciranje je izborni metod gotovo svih današnjih sekvencioniranih genoma, a algoritmi za spajanje, odnosno predviđanje genoma su kritična oblast bioinformatičkih istraživanja.

Sledeći smernice koje je postavio projekat ljudskog genoma nakon zatvaranja 2003. godine, Institut za nacionalna istraživanja ljudskog genoma je u U.S. razvio novi projekat. Takozvani ENCODE projekat je kolaborativni skup podataka funkcionalnih elemenata ljudskog genoma koji koristi napredne DNA sekvencionirajuće tehnologije i genomske tiling nizove, tehnologije koje su sposobne da automatski generišu velike količine podataka sa nižim troškovima istraživanja, ali uz isti kvalitet i pouzdanost.

Sledeći aspekat bioinformatike u analizi sekvenci je označavanje. Ono podrazumeva komputaciono predviđanje gena kako bi se pronašli geni koji kodiraju proteine, RNA geni i ostale funkcionalne sekvence unutar genoma. Nisu svi nukleotidi u genomu delovi gena. U genomima viših organizama veliki deo DNA nema nikakvu očiglednu funkciju.

Označavanje genoma

Glavni članak: Predviđanje gena

U kontekstu genomike označavanje je proces obeležavanja gena i njihovih bioloških osobina u DNA sekvenci. Poželjno je da je ovaj proces automatizovan jer je većina genoma prevelika za ručno označavanje, pa proces predstavlja "usko grlo" pri pokušaju da se što više gena što pre označi. Označavanje je moguće usled činjenice da geni imaju prepoznatljive regione početka i kraja, iako tačna sekvenca u ovim regionima može da se razlikuje.

Prvi softver za označavanje genoma napravio je 1995. godine Oven Vajt (Owen White), dok je bio u timu J. Kreg Venter Instituta za genomska istraživanja, gde je sekvencionirao i analizirao prvi genom živog organizma, baktriju Haemophilus influenzae.[11] Vajt je napravio softverski sistem koji pronalazi gene (delove genomske sekvence koji kodiraju proteine), prelazne RNA i određuje njihove osnovne funkcije. Većina trenutnih sistema za obeležavanje gena funkcioniše po sličnom principu, međutim programi koji se koriste za analizu genoma DNA, kao što je GeneMark, program koji je korišćen za pronalaženje gena koji kodiraju proteine u pomenutoj bakteriji konstantno se menjaju i unapređuju.

Komputaciona evoluciona biologija

Evoluciona biologija je oblast koja izučava poreklo i izumiranje vrsta, kao i njihovu promenu tokom vremena. Informatika pomaže evolucionim biolozima omogućavajući istraživačima da:

  • prate evoluciju velikog broja organizama merenjem promena u njihovom DNA, umesto samo kroz fizičke i fiziološke opservacije,
  • porede kompletne genome, što dozvoljava istraživanje složenih evolucionih događaja, poput dupliranja gena, horizontalnog transfera gena i predviđanje bitnih faktora bakterijskih specijacija,
  • grade složene komputacione modele populacija radi predviđanja ishoda sistema tokom vremena[12]
  • prate i dele informacije o sve većem broju vrsta i organizama.

Budući koraci usmereni su ka rekonstruisanju sve kompleksnijeg filogenetskog stabla.

Oblast istraživanja unutar kompjuterskih nauka koja koristi genetske algoritme se nekada meša sa komputacionom evolucionom biologijom, ali ove dve oblasti ne moraju da budu povezane.

Komparativna genomika

Osnova komparativne analize genoma je utvrđivanje odnosa između gena i ortološke analize ili drugih genomskih osobina u različitim organizmima. Uz pomoć takvih, intergenomskih mapa moguće je pratiti evolucioni proces odgovoran za razlike između dva genoma. Više takvih evolucionih događaja, na raznim organizacionim nivoima oblikuje evoluciju genoma. Na najnižem nivou, tačkaste mutacije menjaju pojedinačne nukleotide. Na većem nivou, na velikim segmentima hromozoma javlja se dupliranje, transfer, inverzija, transpozicija, brisanje i ubacivanje.[13] Na kraju, čitavi genomi učestvuju u procesu hibridizacije, poliploidizacije i endosimbioze, često vodeći ka ubrzanom razdvajanju vrsta. Složenost evolucije genoma donosi mnoge uzbudljive izazove za razvoj matematičkih modela i algoritama, širokog spektra razvoja algoritma, statističkih i matematičkih tehnika u opsegu od egzaktne heuristike, fiksnih parametara i aproksimacionih algoritama za probleme zasnovane na štedljivim modelima do Monte Karlo metode Markovog lanca za Bajesovsko zaključivanje u analizi problema zasnovanih na modelima verovatnoće.

Mnoga od ovih istraživanja zasnovana su na homološkoj detekciji i komputaciji familije proteina.[14]

Pan genomika

Pan genomika je koncept koji su Tetelin (Tettelin) i Medini (Medini) predstavili 2005 godine, a koji je kasnije kasnije razvio osnovu za bioinformatiku. Pan genom je kompletan repertoar gena konkretne taksonomske grupe: iako je inicijalno bio primenjen na evolutivno bliskim rodovima vrsti, može da bude primenjen u širem kontekstu poput roda, razdela itd. Podeljen je u dva dela - izvorni genom: set gena zajedničkih za sve genome unutar istraživanja (ovo su obično geni ključni za opstanak organizma) i promenljivi/fleksibilni genom: set gena koji nije prisutan u svim, već u pojedinim ili u više genoma unutar istraživanja.

Genetika bolesti

Razvojem naprednih sekvencionirajućih tehnologija posedujemo dovoljno sekvencnih podataka, tako da možemo da mapiramo gene složenih bolesti kao što su Šećerna bolest,[15] neplodnost,[16] rak dojke[17] ili Alchajmerovu bolest.[18] Studije asocijacije genoma predstavljaju koristan pristup pronalaženja tačnih mutacija odgovornih za te složene bolesti.[19] Kroz ove studije identifikovano je na hiljade DNA varijacija koje su povezane sa sličnim bolestima i predispozicijama.[20] Štaviše, verovatnoća da se geni koriste pri prognoziranju, dijagnozi ili tretmanu bolesti je jedna od najosnovnijih aplikacija. Mnoge studije istražuju načine za precizan izbor odgovornih gena i probleme i stranputice korišćenja gena za predviđanje ili prognozu bolesti.[21]

Analiza mutacija u raku

Kod raka, genomi zaraženih ćelija se preraspoređuju na složene ili čak nepredvidljive načine. Veliki napori pri sekvencionisanju ulažu se kako bi se identifikovale ranije nepoznate genske mutacije u raznmim genima u raku. Bioinformatika nastavlja da proizvodi specijalizovane automatske sisteme za obradu obimnih podataka koji su proizvedeni sekvencionisanjem podataka, i da napravi nove algoritme i programe koji bi poredili sekvencionisane rezultate sa rastućom kolekcijom sekvenci genoma čoveka i germinativnih polimorfoza. Razvijaju se nove, fizičke tehnologije detekcije, poput mikronizova oligonukleotida kako bi se identifikovale hromozomske prednosti i nedostaci (tzv. komparativna hibridizacija genoma), i nizova jednonukleotidnih polimorfizama za detekciju poznatih genskih mutacija. Ove metode detekcije istovremeno mere nekoliko stotina hiljada oblasti genoma i kada se koriste sa velikim obuhvatom podataka za merenje hiljada semplova, generišu terabajte podataka po eksperimentu. Ogromna količina i novi tipovi podataka pružaju nove šanse za bioinformatiku. Često se u podacima nalazi značajna varijabilnost, ili šum, pa se stoga razvijaju skriveni Markovljev model i metode analiza sa promenom tačke kako bi vernije predstavile varijabilnost nastalih promena.

Uz napredak koji razvoj naprednih sekvencionirajućih tehnologija obezbeđuje oblasti bioinformatike, genomika kancera mogla bi da se drastično promeni. Nove metode i algoritmi omogućavaju bioinformatičarima brzo i lako sekvencionisanje mnogih genoma kancera. Ovo bi moglo da dovede do fleksibilnijeg procesa za klasifikaciju tipova raka analizom mutacija koje su u genomu nastale pod njegovim dejstvom. Štaviše, u budućnosti bi verovatno bilo moguće individualno praćenje stanja pacijenta na osnovu sekvenci uzoraka raka.[22]

Drugi tip podataka koji zahteva značajan informatički razvoj je analiza lezija koje se javljaju pri mnogim tumorima.

Ekspresija gena i proteina

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.