Лучшие вопросы
Таймлайн
Чат
Перспективы

FASTA

формат файла Из Википедии, свободной энциклопедии

Remove ads

FASTA — текстовый формат для нуклеотидных или полипептидных последовательностей, в котором нуклеотиды или аминокислоты обозначаются при помощи однобуквенных кодов. Из-за своей простоты и практичности в настоящее время используется большинством программ работы с биологическими последовательностями. Файлы данного формата могут содержать названия последовательностей, их идентификаторы в базах данных и комментарии. В зависимости от природы содержащихся в нем биологических последовательностей файл формата FASTA может иметь различные расширения.

Краткие факты Расширение, MIME-тип ...
Remove ads

История и распространение

Формат придуман Дэвидом Липманом[англ.] и Уильямом Пирсоном[англ.][2][3] в 1985 году для одноименной программы[англ.], предназначенной для поиска в больших базах последовательностей, гомологичных данной. Первичное описание формата было произведено ими в документации этой программы, а сейчас его описание является частью документации программы BLAST[4].

Простота FASTA-формата позволяет легко осуществлять различные действия с последовательностями при помощи инструментов редактирования текста и скриптовых языков программирования, таких как Python[5], Ruby[6], Perl[7], Java[8].

Форматы FASTA и FASTQ (Sanger Institute) наиболее популярны для представления данных о биологических последовательностях[9]. Существуют также другие форматы, в том числе используемые в банках данных GenBank[10], EMBL[11] и UniProt[12].

Remove ads

Формат

Суммиров вкратце
Перспектива

Последовательности в формате FASTA начинаются с однострочного описания, за которым следуют строки, содержащие собственно последовательность. Описание отмечается символом «больше» («>») в первой колонке. Слово за этим символом и до первого пробела является идентификатором последовательности, далее следует опциональное описание. Следующие несколько строк могут иметь первым символом точку с запятой («;»), и тогда они будут восприниматься как комментарии. На данный момент многие базы данных и программы не распознают комментарии, поэтому они мало распространены. Дальше следуют строки, содержащие собственно биологические последовательности. Обычно строки в формате FASTA ограничены длиной от 80 до 120 символов (по историческим причинам), но современные программы распознают последовательности, записанные полностью в одну строку. В один файл могут быть записаны несколько последовательностей, таким образом получается мульти-FASTA файл, однако перед каждой последовательностью должен стоять свой идентификатор[13]. Пример одной последовательности в формате FASTA:[14]

   >gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens]
   MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI
   IRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE

Идентификатором этой последовательности является gi|31563518|ref|NP_852610.1|.

Последовательности записываются в виде однобуквенных кодов нуклеотидов или аминокислот, совпадающих с их стандартными однобуквенными обозначениями, принятыми IUB[англ.]/ИЮПАК, в порядке от 5'- к 3'-концу для нуклеиновых кислот и от N- к С-концу для аминокислот, в них допускаются пробелы, символы могут быть как в верхнем, так и в нижнем регистре. Числа, служебные символы конца строки и табуляции игнорируются программами работы с последовательностями[4].

Нуклеиновые кислоты обозначаются[15]:

Подробнее Код, Значение ...

Для аминокислот есть 22 обычных кода (канонические аминокислоты, селеноцистеин и пирролизин), 4 специальных (обозначения множеств аминокислот) и * для обозначения стоп-кодона (в формальных трансляциях генов)[16][17].

Fasta-формат используется также для файлов, содержащих выравнивания биологических последовательностей. В этом случае в каждую последовательность в места, соответствующие позициям, не представленным в данной последовательности, вставляются символы «гэпов» (обычно это дефис или точка), в результате все последовательности в файле должны иметь одинаковую длину[18].

Remove ads

Идентификаторы последовательностей

Суммиров вкратце
Перспектива

Центр NCBI определил правила создания уникальных идентификаторов последовательностей (SeqID). В строку описания допускается вносить следующие варианты идентификаторов[19]:

Подробнее Тип, Формат(ы) ...

Вертикальные чёрточки («|») в списке сверху являются не разделителями, а частью формата. Можно ставить идентификаторы подряд, разделяя их чертами. В случае, если какое-то из полей идентификатора оставлено пустым, для обеспечения совместимости с программами необходимо ставить две черты подряд[20].

Расширения файлов

Файлы формата fasta могут иметь различное расширение в зависимости от природы представленных в них биологических данных[21][22].

Подробнее Расширение, Значение ...
Remove ads

Примечания

Ссылки

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads