BLAST

BLAST adalah program pencarian similaritas pangkalan data yang banyak digunakan untuk pencarian sekuens.^[2]^[3] Program ini dinilai dapat mengatasi masalah mendasar dalam penelitian bioinformatika. Algoritma heuristik yang digunakannya lebih cepat untuk pencarian skala besar dibandingkan dengan metode seperti Smith-Waterman. Penekanan pada kecepatan ini sangat penting untuk menjadikan algoritma ini praktis pada basis data genom besar yang tersedia saat ini, meskipun algoritma selanjutnya dapat lebih cepat lagi.^[4]

Sejarah

Program BLAST dirancang oleh Eugene Myers, Stephen Altschul, Warren Gish, David J. Lipman, dan Webb Miller di Institut Kesehatan Nasional Amerika Serikat dan diterbitkan dalam Journal of Molecular Biology pada tahun 1990. BLAST dibentuk di atas FASTA, program yang sebelumnya dikembangkan untuk pencarian kesamaan sekuens protein dan DNA. Program ini menggabungkan model stokastik baru yang dikembangkan oleh Samuel Karlin dan Stephen Altschul.^[5] Mereka mengusulkan "sebuah metode untuk memperkirakan kesamaan antara urutan DNA yang diketahui dari satu organisme dengan yang lain",^[1] dan pekerjaan mereka dinilai sebagai "fondasi statistik untuk BLAST.^[6] Selanjutnya, Altschul, Gish, Miller, Myers, dan Lipman merancang dan menerapkan program BLAST, yang diterbitkan dalam Journal of Molecular Biology pada tahun 1990 dan telah dikutip lebih dari 100.000 kali sejak saat itu.^[7]

Algoritma

Meski BLAST dinilai lebih cepat daripada implementasi Smith-Waterman mana pun untuk sebagian besar kasus, BLAST tidak dapat "menjamin penyelarasan optimal antara kueri dan sekuens basis data" seperti yang dilakukan algoritma Smith-Waterman. Algoritma Smith-Waterman merupakan pengembangan dari metode optimal sebelumnya, yaitu algoritma Needleman–Wunsch, yang merupakan algoritma penyelarasan sekuens pertama yang dijamin akan menemukan penyelarasan terbaik. Namun, kebutuhan waktu dan ruang dari algoritma optimal ini jauh melebihi kebutuhan BLAST.^[4]^[8]

BLAST dinilai lebih efisien waktu daripada FASTA karena hanya mencari pola yang lebih signifikan dalam sekuens sehingga lebih cepat, namun dengan sensitivitas yang relatif.^[9]^[10] BLAST dinilai dapat menentukan protein yang terdapat pada spesies mikrobia yang terkait dalam garis keturunan dengan protein tertentu dengan sekuens asam amino yang diketahui dan menentukan gen lain yang mengkode protein sehingga menunjukkan struktur atau motif tertentu,

BLAST juga sering digunakan sebagai bagian dari algoritma lain yang memerlukan pencocokan sekuens perkiraan.

BLAST tersedia di situs web NCBI. Berbagai jenis BLAST tersedia berdasarkan urutan kueri dan basis data target. Implementasi alternatif meliputi AB-BLAST (sebelumnya dikenal sebagai WU-BLAST), FSA-BLAST (terakhir diperbarui pada tahun 2006), dan ScalaBLAST.^[11]^[12] Ada juga beberapa jenis BLAST, mulai yang dasar seperti BLAST-N (membandingkan urutan nukleotida dengan urutan nukleotida), BLASTP (membandingkan urutan protein dengan urutan protein), BLAST-X (membandingkan urutan nukleotida dengan urutan protein), tBLAST-N (membandingkan urutan protein dengan enam translasi kerangka urutan nukleotida), dan TBLAST-X (membandingkan enam translasi kerangka urutan nukleotida dengan enam translasi kerangka urutan protein), hingga yang terspesialisasi seperti IG-BLAST yang menggunkana pangkalan data urutan imonuglobin dan reseptor sel T, pembuatan primer, pencarian domain terkonversi, penjajaran urutan banyak, atau kaitan BLAST terhadap urutan dalam pangkalan data REFSEQ (suatu koleksi iyang menyediakan serangkaian urutan yang komprehensif, terintegrasi, tidak redundan, dan beranotasi dengan baik, termasuk DNA genom, transkrip, dan protein).^[3]^[13]^[14]

Masukan

Urutan masukan (dalam format FASTA atau Genbank), basis data untuk pencarian, dan parameter opsional lainnya seperti matriks skor.^[15]

Keluaran

Keluaran BLAST dapat dikirimkan dalam berbagai format. Format ini mencakup HTML, teks biasa, dan format XML. Untuk halaman web Pusat Nasional Informasi Bioteknologi Amerika Serikat (NCB), format standar untuk keluaran adalah HTML. Saat melakukan BLAST di NCBI, hasilnya ditampilkan dalam format grafis yang menunjukkan hit yang ditemukan, tabel yang menunjukkan pengidentifikasi sekuens untuk hit tersebut dengan data terkait skor, serta penyelarasan untuk sekuens yang diinginkan dan hit yang diterima dengan skor BLAST yang sesuai. Tabel yang muncul ini mungkin merupakan cara yang dinilai paling mudah dibaca dan paling informatif.

Jika seseorang mencoba mencari sekuens proprietary atau sekuens yang tidak tersedia dalam basis data yang tersedia untuk umum melalui sumber seperti NCBI, terdapat program BLAST yang dapat diunduh ke komputer mana pun, tanpa biaya. Program ini dapat ditemukan di berkas BLAST+ yang dapat dieksekusi. Program komersial juga tersedia untuk dibeli. Basis data dapat ditemukan di situs NCBI, serta di Indeks basis data BLAST (FTP).

Penentuan kata (Seeding)

Pada tahap ini, BLAST membuat serangkaian urutan pendek dari kueri yang diesbut sebagai "kata". Panjang urutan DNA berbeda dengan panjang urutan protein, di mana urutan DNA menggunakan 11 residu dan urutan protein menggunakan 3 residu. Pengaturan secara manual untuk panjang urutan juga dapat dilakukan untuk menyesuaikan tingat sensitivitas dan spesialisasinya. Kemudian, daftar kata tersebut digunakan untuk mencari urutan dalam pangkalan data yang memiliki kecocokan dengannya, di mana hubungan tersebut dihitung tingkat similaritasnya dengan menggunakan matriks substitusi seperti pada metode pemrograman dinamis meskipun hanya sebagian kecil urutan saja yang dicari. Suatu kata dikatakan cocok dengan suatu urutan pangkalan data jika nilai similaritasnya berada di ambang minimal yang telah ditetapkan dan ini berlaku sebagai kriteria pertama untuk menyeleksi urutan pangkalan data yang tidak berhubunagn dengan kueri.

Pemanjangan kata (Extension)

Setelah melakukan tahap penentuan kata, pasangan kata yang memenuhi kriteria akan dihitung skor similaritasnya dari kiri ke kanan kata hingga mencakup keseluruhan urutan kueri. Secara bersamaan, dilakukan juga penghitungan skor berdasarkan pasangan segmen yang memiliki skor tinggi (high-scoring segmen pair/ HSP), yang merupakan skor similaritas total setiap kali dilakukan pencocokan antar residu. Pada tahap ini, skor minimal HSP juga ditetapkan dan menjadi kriteria penyeleksi, yaitu jika nilai HSP turun di bawah ambang batas minimal, maka proses pemanjangan akan berhenti dan pasangan tersebut dikeluarkan dari daftar kandidat urutan yang cocok dengan kueri. Proses ini dilakukan terhadap seluruh pasangan kata yang ada di dalam daftar.

Penyajian hasil

Pada tahap ini, pasangan kata dengan skor di atas ambang minimal akan diurutkan dari yang memiliki skor HSP atau BLAST Hit yang tertinggi sampai yang terendah. Selain HSP, beberapa parameter seperti E-value, bit score, persentase identitas pasangan urutan, dan nomor akses dari setiap urutan pangkalan data juga ditampilkan.

Latar belakang

Sejarah

Algoritma

Masukan

Keluaran

Tahapan[3]

Penentuan kata (Seeding)

Pemanjangan kata (Extension)

Penyajian hasil

Referensi

Pranala luar

Wikiwand - on