Сметачка геномика

From Wikipedia, the free encyclopedia

Remove ads

Сметачка геномика се однесува на употребата на пресметковна и статистичка анализа за дешифрирање на биологијата од секвенците на геномот и поврзаните податоци,[1] вклучувајќи ја и ДНК и РНК секвенцата како и други „постгеномски“ податоци (т.е. експериментални податоци добиени со технологии кои бараат геномската секвенца, како што се микронизите на геномската ДНК). Овие, во комбинација со пресметковни и статистички пристапи за разбирање на функцијата на гените и анализа на статистичката асоцијација, ова поле често се нарекува и пресметковна и статистичка генетика/геномика. Како таква, сметачката геномика може да се смета како подмножество на биоинформатиката и пресметковната биологија, но со фокус на користење на цели геноми (наместо поединечни гени) за да се разберат принципите за тоа како ДНК на еден вид ја контролира неговата биологија на молекуларно ниво и подалеку. Со сегашното изобилство на масивни биолошки збирки на податоци, пресметковните студии станаа едно од најважните средства за биолошко откритие.[2]

Remove ads

Историја

Корените на пресметковната геномика се споделени со оние на биоинформатиката. Во текот на 1960-тите, Маргарет Дејхоф и други во Националната фондација за биомедицински истражувања собраа бази на податоци со хомологни протеински секвенци за еволутивно проучување.[3] Нивното истражување развило филогенетско дрво кое ги одредува еволутивните промени кои биле потребни за одреден протеин да се промени во друг протеин врз основа на основните секвенци на аминокиселини. Ова ги навело да создадат матрица за бодување што ја проценува веројатноста еден протеин да биде поврзан со друг

Почнувајќи од 1980-тите, базите на податоци на геномските секвенци почнале да се снимаат, но ова претставувало нови предизвици во форма на пребарување и споредување на базите на податоци на генски информации. За разлика од алгоритмите за пребарување текст што се користат на мрежни места како што се Google или Wikipedia, пребарувањето за делови од генетска сличност бара да се најдат низи кои не се едноставно идентични, туку слични. Ова довело до развој на Нидлман–Вуншовиот алгоритам, кој е динамичен програмски алгоритам за споредување на множества од секвенци на аминокиселини едни со други со користење на матрици за бодување добиени од претходното истражување на Дејхоф. Подоцна, алгоритмот BLAST бил развиен за извршување на брзи, оптимизирани пребарувања на бази на податоци за генската секвенца. BLAST и неговите деривати се веројатно најкористените алгоритми за оваа намена. .[4]

Појавата на фразата „сметачка геномика“ се совпаѓа со достапноста на комплетни секвенционирани геноми во средината до крајот на 1990-тите. Првиот состанок на Годишната конференција за сметачка геномика беше организиран од научници од Институтот за геномски истражувања (ТИГР) во 1998 година, обезбедувајќи форум за оваа специјалност и ефективно разликувајќи ја оваа област на наука од поопштите области на геномијата или сметачката биологија.[5] Првата употреба на овој термин во научната литература, според апстрактите на MEDLINE, била само една година порано во истражувањето за нуклеинските киселини. Последната конференција за сметачка геномика била одржана во 2006 година, на која имало главен говор на нобеловецот Бери Маршал, ко-откривач на врската помеѓу Helicobacter pylori и чир на желудникот. Од 2014 година, водечките конференции во областа вклучуваат Интелигентни системи за молекуларна биологија (ISMB) и Истражување во сметачка молекуларна биологија (RECOMB).

Развојот на сметачки потпомогната математика (со користење на производи како што се Mathematica или Matlab) им помогна на инженерите, математичарите и сметачките научници да почнат да работат во овој домен, а јавната колекција на студии на случај и демонстрации расте, почнувајќи од споредби на целиот геном до генска анализа. [6] Ова го зголемило воведувањето на различни идеи, вклучувајќи концепти од системи и контрола, теорија на информации, анализа на жици и ископување податоци. Се очекува дека пресметковните пристапи ќе станат и ќе останат стандардна тема за истражување и настава, додека студентите кои течно зборуваат за двете теми ќе почнат да се формираат во повеќекратните курсеви создадени во изминатите неколку години.

Remove ads

Придонеси од сметачко геномско истражување во биологијата

Придонесите од истражувањето на сметачката геномика во биологијата вклучуваат

  • предлагање мрежи за мобилна сигнализација
  • предлагање механизми за еволуција на геномот
  • предлагање прецизни локации на сите човечки гени користејќи компаративна геномика техники со неколку видови цицачи и 'рбетници
  • предвидување зачувани геномски региони кои се поврзани со раниот ембрионски развој
  • откривање потенцијални врски помеѓу мотивите на повторените секвенци и ткивната специфична генска експресија
  • мерење на регионите на геномите кои претрпеле невообичаено брза еволуција
Remove ads

Споредба на геном

Развиени се сметачки алатки за да се процени сличноста на геномските секвенци. Некои од нив се растојанија засновани на порамнување, како што е просечен идентитет на нуклеотид.[7] Овие методи се многу специфични, додека се пресметковно бавни. Други методи без усогласување, вклучуваат статистички и веројатни пристапи. Еден пример е Mash,[8] веројатен пристап кој користи минхаш. Во овој метод, со даден број k, геномската секвенца се трансформира во пократка скица преку случајна хаш-функција на можните k-mers. На пример, ако k=2, се конструираат скици со големина 4 и им е дадена следнава хаш функција

(AA,0) (AC,8) (AT,2) (AG,14)
(CA,6) (CC,13) (CT,5) (CG,4)
(GA,15) (GC,12) (GT,10) (GG,1)
(TA,3) (TC,11) (TT,9) (TG,7)

скицата на низата

CTGACCTTAACGGGAGACTATGATGACGACCGCAT

е {0,1,1,2} кои се најмалите хаш вредности на неговите k-мери со големина 2. Овие скици потоа се споредуваат за да се процени фракцијата на споделени k-мери ( Џакард индекс ) од соодветните секвенци. Вреди да се забележи дека хаш-вредноста е бинарен број. Во вистински геномски амбиент, корисната големина на k-mers се движи од 14 до 21, а големината на скиците би била околу 1000.

Со намалување на големината на низите, дури и стотици пати, и споредувајќи ги на начин без порамнување, овој метод значително го намалува времето на проценка на сличноста на низите.

Наводи

Надворешни врски

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads