Топ питань
Часова шкала
Чат
Перспективи
Bioconductor
програмне забезпечення для аналізу експериментальних геномних даних З Вікіпедії, вільної енциклопедії
Remove ads
Bioconductor — це масштабний FLOSS-проєкт для аналізу та інтерпретації геномних даних, отриманих в результаті лабораторних експериментів у молекулярній біології.
Bioconductor базується переважно на статистичній мові програмування R, але також містить модулі, написані іншими мовами. Проєкт має два релізи на рік, які синхронізовані з напіврічними випусками R. У будь-який момент часу існує стабільна версія, що відповідає релізній версії R, та розробна версія, що відповідає розробній версії R. Більшості користувачів підійде стабільна версія. Крім того, існує безліч пакетів для анотування геномів, які в основному, але не виключно, орієнтовані на різні типи мікрочипів.
Проєкт було започатковано восени 2001 року, і ним керує основна команда Bioconductor, яка базується переважно в Онкологічному дослідницькому центрі імені Фреда Гатчінсона, до складу якої також входять члени з інших міжнародних установ.
Remove ads
Пакети
Більшість компонентів Bioconductor поширюються у вигляді пакетів R — додаткових модулів для середовища R. Спочатку більшість програмних пакетів Bioconductor були зосереджені на аналізі одноканальних мікрочипів Affymetrix та двох- або більше канальних кДНК/олігонуклеотидних мікрочипів. У міру розвитку проєкту функціональна сфера пакетів розширилася і почала включати аналіз усіх типів геномних даних, таких як SAGE, дані секвенування або SNP-дані.
Remove ads
Цілі
Широкими цілями проєкту є:
- Забезпечити широкий доступ до потужних статистичних і графічних методів аналізу геномних даних.
- Сприяти включенню біологічних метаданих до аналізу геномних даних, наприклад, даних літератури з PubMed чи даних анотування з LocusLink/Entrez.
- Надати спільну програмну платформу, яка дозволяє швидку розробку та впровадження плагінних, масштабованих і сумісних програмних рішень.
- Сприяти науковому розумінню шляхом створення якісної документації та відтворюваних досліджень.
- Навчати дослідників методам обчислювального аналізу та статистики для роботи з геномними даними.
Remove ads
Основні особливості
- Документація та відтворювані дослідження. Кожен пакет Bioconductor містить принаймні один віньєт (vignette) — документ, який надає текстовий, практично-орієнтований опис функціональності пакета. Ці віньєти існують у кількох формах. Багато з них є простими «Як зробити» (How-to), призначеними для демонстрації того, як виконати певне завдання за допомогою програмного забезпечення пакета. Інші надають більш детальний огляд пакета або навіть обговорюють загальні питання, пов'язані з пакетом. У майбутньому проєкт Bioconductor планує надавати віньєти, які не є специфічно прив'язаними до одного пакета, а демонструють складніші концепції. Як і у всіх аспектах проєкту Bioconductor, користувачі заохочуються до участі в цій роботі.
- Статистичні та графічні методи. Проєкт Bioconductor має на меті забезпечити доступ до широкого спектру потужних статистичних і графічних методів для аналізу геномних даних. Доступні пакети для: попередньої обробки даних мікрочипів Affymetrix та Illumina, кДНК-мікрочипів; ідентифікації генів, що диференційно експресуються; графо-теоретичного аналізу; побудови графіків для геномних даних. Крім того, сама система пакетів R надає реалізації для широкого спектру сучасних статистичних і графічних методів, включаючи лінійне та нелінійне моделювання, кластерний аналіз, прогнозування, перевибірку (resampling), аналіз виживаності та аналіз часових рядів.
- Геномна анотація. Проєкт Bioconductor надає програмне забезпечення для зв'язування даних мікрочипів та інших геномних даних у реальному часі з біологічними метаданими з веб-баз даних, таких як GenBank, LocusLink і PubMed (пакет annotate). Також надаються функції для включення результатів статистичного аналізу в HTML-звіти з посиланнями на ресурси анотацій у Всесвітній павутині (WWW). Доступні інструменти для збирання та обробки даних геномної анотації з таких баз даних, як GenBank, Gene Ontology Consortium, LocusLink, UniGene, UCSC Human Genome Project та інших, за допомогою пакета AnnotationDbi. Поширюються пакети даних для надання відповідностей між різними ідентифікаторами проб (наприклад, Affy IDs, LocusLink, PubMed). Також можна збирати власні бібліотеки анотацій. Цей проєкт також містить кілька функцій для геномного аналізу та філогенетики (наприклад, пакети ggtree, phytools тощо).
- Відкритий код. Проєкт Bioconductor дотримується принципів повного відкритого коду, з розповсюдженням через платформу, подібну до SourceForge.net. Очікується, що всі внески будуть існувати під відкритою ліцензією, такою як Artistic 2.0, GPL2 чи BSD. Існує багато різних причин, чому програмне забезпечення з відкритим кодом є корисним для аналізу даних мікрочипів і для обчислювальної біології в цілому. До причин належать:
- Забезпечення повного доступу до алгоритмів та їх реалізації
- Сприяння вдосконаленню програмного забезпечення шляхом виправлення помилок і додавання плагінів
- Заохочення хорошої наукової обчислювальної та статистичної практики шляхом надання відповідних інструментів та інструкцій
- Надання верстаку інструментів, який дозволяє дослідникам досліджувати та розширювати методи, що використовуються для аналізу біологічних даних
- Гарантія того, що міжнародна наукова спільнота є власником програмних інструментів, необхідних для проведення досліджень
- Лідерство та заохочення комерційної підтримки та розвитку тих інструментів, які виявилися успішними
- Сприяння відтворюваним дослідженням шляхом надання відкритих і доступних інструментів для їх проведення (відтворюване дослідження відрізняється від незалежної верифікації)
- Відкрита розробка. Користувачі заохочуються ставати розробниками — шляхом внесення пакетів або документації, що відповідають вимогам Bioconductor. Крім того, Bioconductor надає механізм для об'єднання різних груп зі спільними цілями для сприяння співпраці над програмним забезпеченням, можливо, на рівні спільної розробки.
Remove ads
Віхи розвитку
Узагальнити
Перспектива
Кожен випуск Bioconductor розроблений для оптимальної роботи з обраною версією R.[1] Окрім виправлень помилок та оновлень, новий реліз зазвичай додає пакети. У таблиці нижче наведено відповідність версій Bioconductor версіям R та показано кількість доступних програмних пакетів Bioconductor для кожного випуску.
Remove ads
Застосування Bioconductor для аналізу даних мікроРНК та секвенування малих РНК
Узагальнити
Перспектива
Вступ
Секвенування малих РНК — це широко використовувана методика для вивчення мікроРНК (miRNAs), малих інтерферуючих РНК (siRNAs), piwi-взаємодіючих РНК (piRNAs), які відіграють вирішальну роль у процесі РНК-інтерференції. Процес РНК-інтерференції використовує різні типи субстратів, що породжує різні типи популяцій РНК, а саме мікроРНК, siRNAs тощо. У лабораторних умовах секвенування малих РНК зазвичай починається з екстракції РНК з клітин або тканин, після чого слідує лігація адаптерів до 5'- та 3'-кінців малих РНК, потім зворотня транскрипція та ПЛР-ампліфікація для отримання бібліотек кДНК. На завершення, для отримання мільйонів коротких прочитань використовується високопродуктивне секвенування (найчастіше платформи Illumina). Ці отримані дані потім піддаються обчислювальній обробці для вирівнювання прочитань щодо референтних геномів певних видів або баз даних мікроРНК.
Bioconductor у біології РНК
Bioconductor(BioC)[2] — це широко використовувана платформа з відкритим кодом для аналізу різних типів даних секвенування малих РНК та геномних даних. Вона перш за все використовує мову програмування R і пропонує широкий спектр пакетів для біоінформатики та обчислювальної біології. Bioconductor надає великий вибір пакетів[3] для роботи з даними секвенування малих РНК, серед яких кілька є особливо популярними у дослідників. Такі популярні пакети Bioconductor, як DESeq2,[4] edgeR,[5] limma + voom,[6][7] GenomicAlignments,[8] GenomicFeatures,[8] Rsubread,[9] ShortRead,[10] featureCounts[11] забезпечують надійний аналіз даних RNA-seq.[12]
DESeq2
Він використовує моделювання за допомогою **негативного біномного розподілу** для аналізу диференційної експресії підрахунків прочитань (read count) з даних RNA-seq.[13] Він популярний для оцінки дисперсії, нормалізації даних та візуалізації за допомогою PCA-plot або MA-plot діаграм.[4]
edgeR
Він також використовує моделювання за допомогою **негативного біномного розподілу** для аналізу диференційної експресії підрахунків прочитань з даних RNA-seq. На відміну від DESeq2, його використовують, коли кількість зразків є відносно невеликою.[5][14]
limma + voom
Цей підхід використовується для оцінки **зв'язку між середнім значенням і дисперсією** (mean-variance relationship) для підрахунків і перетворює їх у **log2-кількість на мільйон** (log2-counts per million, CPM). Він використовується для аналізу даних мікрочипів, а також для розрахунку CPM значень з даних RNA-seq.[15]
GenomicAlignments
Цей пакет широко використовується для **прив'язки вирівняних прочитань** з файлів BAM і SAM до генів або мікроРНК для подальшого аналізу.[8][16]
GenomicFeatures
Він використовується для створення **транскриптомо-центричних баз анотацій**, таких як об'єкти TxDb, які зберігають інформацію про гени, ексони та транскрипти з файлів GTF/GFF.[8][17]
Rsubread
Він використовується переважно для **підсумовування та картування (mapping) прочитань**, де функції, такі як `align()` та `featureCounts()`, надають ефективну альтернативу зовнішнім програмам вирівнювання, таким як STAR чи HISAT2.[18]
ShortRead
Його часто використовують для **попередньої обробки** сирих файлів FASTQ, щоб перевірити їхню якість. Ці файли надходять з платформ секвенування, таких як Illumina тощо.[10]
Обчислювальний конвеєр (Workflow)
Імпорт даних та контроль якості
Файли FASTQ[19] зазвичай імпортуються за допомогою різних пакетів Bioconductor, таких як **ShortRead**[10], який надає звіти про оцінку якості.
Підрізання адаптерів та фільтрація
Для видалення послідовностей адаптерів із сирих файлів FASTQ використовуються різні зовнішні інструменти, такі як **Cutadapt**[20] чи **Trimmomatic**[21]. Це допомагає покращити якість прочитань.
Вирівнювання прочитань
Оброблені прочитання вирівнюються щодо **референтного геному**. Це вирівнювання може бути виконане різними програмами, такими як **Rsubread**, або зовнішніми інструментами, як-от **STAR**. Результати зберігаються у стандартних форматах файлів, таких як **SAM** (Sequence Alignment Map) або **BAM** (Binary Alignment Map).
Анотування мікроРНК
Bioconductor підтримує інтеграцію даних з miRBase. Для анотування прочитань відомими мікроРНК використовуються різні пакети, такі як **miRBaseConverter**,[22] **AnnotationHub**,[23] **org.Mm.eg.db**.[24]
Квантифікація
Підраховуються прочитання, що відобразилися на відомих генах або мікроРНК, і результати підрахунку агрегуються для кожного зразка.
Аналіз диференційної експресії
Після вирівнювання та квантифікації експресії мікроРНК для аналізу диференційної експресії використовуються різні well-established пакети, такі як DESeq2 та **edgeR**.
Візуалізація
Для інтерпретації та представлення результатів експресії мікроРНК використовуються різні пакети для візуалізації, такі як **ggplot2**,[25] **pheatmap**,[26] **ComplexHeatmap**. Для візуалізації даних диференційної експресії генеруються діаграми вулкана (Volcano plot), графіки головних компонент (PCA plot, PCA), MA-plot діаграми та теплові карти (heatmaps).
Remove ads
Джерела
- Gentleman, R.; Carey, V.; Huber, W.; Irizarry, R.; Dudoit, S. (2005). Bioinformatics and Computational Biology Solutions Using R and Bioconductor. Springer. ISBN 978-0-387-25146-2.
- Gentleman, R. (2008). R Programming for Bioinformatics. Chapman & Hall/CRC. ISBN 978-1-4200-6367-7.
- Hahne, F.; Huber, W.; Gentleman, R.; Falcon, S. (2008). Bioconductor Case Studies. Springer. ISBN 978-0-387-77239-4.
- Gentleman, Robert C.; Carey, Vincent J.; Bates, Douglas M.; Bolstad, Ben; Dettling, Marcel; Dudoit, Sandrine; Ellis, Byron; Gautier, Laurent; Ge, Yongchao; Gentry, Jeff; Hornik, Kurt; Hothorn, Torsten; Huber, Wolfgang; Iacus, Stefano; Irizarry, Rafael; Leisch, Friedrich; Li, Cheng; Maechler, Martin; Rossini, Anthony J.; Sawitzki, Gunther; Smith, Colin; Smyth, Gordon; Tierney, Luke; Yang, Jean Y. H.; Zhang, Jianhua (2004). Bioconductor: open software development for computational biology and bioinformatics. Genome Biology. 5 (10): R80. doi:10.1186/gb-2004-5-10-r80. PMC 545600. PMID 15461798.
Remove ads
Див. також
- Обчислювальна біологія
- Біоінформатика
- R (мова програмування)
- ДНК-мікрочип
- Affymetrix — платформа технології мікрочипів
Примітки
Зовнішні посилання
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads