GenBank: различия между версиями
[непроверенная версия] | [непроверенная версия] |
Содержимое удалено Содержимое добавлено
Vanilin (обсуждение | вклад) Номинирование статьи в добротные с помощью гаджета QA (v. 0g6qksk) |
Vanilin (обсуждение | вклад) Нет описания правки |
||
Строка 44:
[[Файл:Statistics of sequences.png|мини|331x331пкс|Рост количества последовательностей в GenBank с декабря 1982 года по февраль 2017]]
== Аннотация записи GenBank
Аннотированный образец GenBank в формате ''GenBank Flat File'' имеет следующие разделы<ref>{{Cite web|url=https://www.ncbi.nlm.nih.gov/genbank/samplerecord/#KeywordsB|title=Sample GenBank Record|publisher=www.ncbi.nlm.nih.gov|lang=en|accessdate=2017-04-14}}</ref>:
{| class="wikitable"
!Название поля
Строка 54:
|Поле LOCUS содержит несколько различных элементов данных, включая имя локуса (Locus Name), длину последовательности (Sequence Length), тип молекулы (Molecule Type), раздел GenBank (GenBank Division) и дату изменения (Modification Date).
▲====== Длина последовательности ======
Количество нуклеотидных пар оснований (или аминокислотных остатков) в записи последовательности.
Поле поиска Entrez: ''длина последовательности [SLEN]''
Тип молекулы, которая была секвенирована. Каждая запись GenBank должна содержать данные последовательности одного типа молекулы: геномная ДНК, геномная РНК, несозревшая РНК, матричная РНК (кДНК), рибосомная РНК, транспортная РНК, малая ядерная РНК и малая цитоплазматическая РНК.
Поле поиска Entrez: ''тип молекулы'' ''[PROP].'' Пример biomol_genomic, biomol_mRNA и т. д.
Раздел GenBank, к которому относится запись, обозначается аббревиатурой из 3 букв. База данных GenBank делится на 18 разделов:
* '''''PRI''''' ''(primate)'' - последовательности приматов
Строка 78 ⟶ 81 :
* '''PHG''' ''(bacteriophage)'' - последовательности бактериофагов
* '''SYN''' ''(synthetic)'' - синтетические последовательности
* '''UNA''' ''(unannotated)'' -
* '''EST''' ''(expressed sequence tags)'' - последовательности тегов
* '''PAT''' ''(patent)'' -
* '''STS''' ''(sequence tagged sites)'' - тегированные последовательности
* '''GSS''' ''(genome survey sequences)'' - исследование последовательности генома
* '''HTG''' ''(high-throughput genomic sequences)'' -
* '''HTC''' ''(
* '''ENV''' ''(environmental)'' - последовательности образца окружающей среды
<small>''Отдел ENV GenBank поддерживает последовательности, полученные с помощью отбора проб окружающей среды, в которых исходный организм неизвестен. Многие последовательности ENV возникают в следствие метагеномного анализа микробиоты различных тканей животного происхождения, например, в кишечнике или коже, или особых средах обитания, таких как пресноводные отложения, термальные источники или участки дренажа шахты. ENV последовательности, как правило, предоставлены данными секвенирования полного метагенома методом дробовика или исследований последовательностей на основе таргетных генов, таких как 16S рРНК. NCBI продолжает поддерживать поиск BLAST метагеномных последовательностей ENV, но последовательности в рамках WGS проектов теперь являются частью базы данных WGS BLAST.''</small>
Некоторые из разделов содержат последовательности конкретных групп организмов, тогда как другие (EST, GSS, HTG и т. д.) содержат данные, полученные с помощью специальных технологий секвенирования из множества различных организмов. Разделение организмов является историческим и не отражает текущую [https://www.ncbi.nlm.nih.gov/taxonomy/ таксономию NCBI
Поле поиска Entrez: ''раздел [PROP]''. Пример: gbdiv_pri, gbdiv_est и т. д.
Строка 96 ⟶ 100 :
Поле поиска Entrez: ''дата [MDAT].'' Пример 1999/07/25, 1999/07/25:1999/07/31 (обязателен формат гггг/мм/дд)
|-
|
|Краткое описание последовательности; включает в себя следующую информацию - организм, имя гена/белка, описание функций последовательности (если последовательность является некодирующей). Если последовательность имеет кодирующую область (CDS), за описанием может следовать показатель полноты, такой как «complete cds».
Поле поиска Entrez: ''описание [TITL].''
|-
|
|Уникальный идентификатор записи последовательности ([[:en:Accession number (bioinformatics)|accession number]] <sub>англ.</sub>)<sub>.</sub> Идентификатор относится к полной записи и представляет собой комбинацию букв и цифр. Обычно это одна буква, за которой следуют пять цифр (например, U12345) или две буквы, а затем шесть цифр (например, AF123456). Некоторые идентификаторы могут быть длиннее, в зависимости от типа записи последовательности. Номер записи не изменяется, даже если информация в записи изменена по запросу автора.
Поле поиска Entrez: ''идентификатор [ACCN].''
|-
|
|Идентификационный номер нуклеотидной последовательности, который представляет собой одну конкретную последовательность в базе данных GenBank. Этот идентификационный номер использует формат "accession.version", реализованный GenBank / EMBL / DDBJ в феврале 1999 года.
Строка 115 ⟶ 122 :
Поле поиска Entrez: ''используйте значение по умолчанию «All Fields».''
|-
|
==== GI ====
|Идентификационный номер последовательности «GenInfo Identifier». Если последовательность изменяется каким-либо образом, будет назначен новый номер GI. Отдельный номер GI также присваивается каждому транслированному с нуклеотидной записи белку, и новый GI присваивается, если транслированный белок изменяется каким-либо образом.
Поле поиска Entrez: ''используйте значение по умолчанию «All Fields»''
|-
|
|Слово или фраза, описывающие последовательность. Если запись не содержит ни одно ключевое слово, поле содержит только точку.
Строка 127 ⟶ 136 :
Поле поиска Entrez: ''ключевое слово [KYWD]'' (поскольку ключевые слова не присутствуют во многих записях, лучше не искать это поле).
|-
|
==== SOURCE ====
|Информация о названии организма, откуда взята последовательность; представлена в свободной формате и иногда сопровождается типом молекулы.
Строка 134 ⟶ 144 :
Поле поиска Entrez: ''организм [ORGN].'' Пример ''Saccharomyces cerevisiae''
|-
|
|Публикации авторов записи, в которых обсуждают данные, указанные в записи. Ссылки автоматически сортируются по дате публикации, причем сначала отображаются самые старые ссылки. Не опубликованные в научных статьях последовательности отображает статус "unpublished" или "in press".
Строка 167 ⟶ 178 :
Поле поиска Entrez: Невозможно выполнить поиск по PubMed ID, однако можно выполнить поиск в базе данных PubMed.
|-
|
|Поле содержит информацию о генах и генных продуктах (белках), а также о биологически важных областях, указанных в последовательности: ген, промотор, TATA-сигнал, матричная РНК, нетранслируемые 5' и 3' области (5'UTR, 3'UTR), кодирующая последовательность (CDS), альтернативно сплайсированная мРНК и другие.
Строка 174 ⟶ 186 :
* [https://www.ncbi.nlm.nih.gov/Sequin/sequin.hlp.html Sequin Help documentation]
В поле содержится информация о местоположении каждой биологически важной области, которая может быть представлена единичным
Поле поиска Entrez: ''функциональный ключ [FKEY].'' Пример, promoter
Строка 180 ⟶ 192 :
'''source'''
Обязательное поле каждой записи, которое суммирует длину последовательности, научное название организма, откуда взята последовательность, и Taxon ID (идентификационный номер, присваиваемый каждому таксону в базе [https://www.ncbi.nlm.nih.gov/taxonomy/ NCBI Taxonomy Database] ). Может также включать дополнительную информацию, такую как локализация на карте генома
Поле поиска Entrez: используйте запрос ''длина последовательности [SLEN]'' для поиска по длине, ''организм [ORGN]'' для поиска по названию организма, ''дополнительная информация [ALL]'' для поиска других элементов, таких как штамм, клон, тип ткани.
Строка 204 ⟶ 216 :
Поле поиска Entrez: ''функциональный ключ [FKEY]''
|-
|
==== ORIGIN ====
|Непосредственно содержит саму последовательность. Чтобы просмотреть или загрузить данные последовательности в формате [https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=BlastHelp FASTA], добавьте ''«?format = fastato»'' к URL-адресу записи; Например, ''/nucleotide/U49845?format=fasta&report=text.''
Поле ORIGIN может быть пустым, может отображаться как «Unreported», или может давать локальный указатель на начало последовательности, как правило, с участием экспериментально определенного сайта рестрикции или генетического локуса (если имеется). Эта информация присутствует только в старых записях.
Строка 215 ⟶ 228 :
== Правила внесения данных ==
Данные в GenBank и в сотрудничающие базы данных ENA и DDBJ представляются либо отдельными авторами в одну из трех баз данных.
Представление с использованием BankIt. Около трети предоставленных авторами материалов принимаются через веб-интерфейс NCBI ''BankIt''. Используя BankIt, авторы предоставляют информацию о последовательности и различные биологические аннотации, такие как кодирующие области, тип мРНК и др., заполняя специальную форму, что позволяет заявителю правильно описать последовательность без необходимости изучать правила форматирования и нормативную лексику.▼
GenBank предлагает специальные пакеты программ, облегчающие подачу заявок:
▲
* [https://www.ncbi.nlm.nih.gov/projects/Sequin/ '''''Sequin'''''] - автономный программный инструмент, разработанный NCBI для отправки и обновления записей в базе данных последовательности GenBank. Он способен обрабатывать простые записи, содержащие одну короткую последовательность мРНК, и сложные записи, содержащие длинные последовательности, множественные аннотации, или филогенетические и популяционные исследования. Один файл Sequin должен содержать менее 10000 последовательностей для максимальной производительности. Более крупные записи должны быть сделаны с помощью tbl2asn. Дополнительно существует веб-сервис Submission Portal (submit.ncbi.nlm.nih.gov), предоставляющий интерфейс, который принимает данные WGS в формате FASTA с использованием набора онлайн-форм.
* ''[https://www.ncbi.nlm.nih.gov/genbank/tbl2asn2/ '''tbl2asn'''] –'' инструмент командной строки для преобразования таблицы с аннотацией, полученной при помощи аннотационного пайплайна, в запись, подходящую для предоставления в GenBank.
* [https://submit.ncbi.nlm.nih.gov '''''Submission Portal'''''] - веб-сервис, предоставляющий интерфейс, который принимает данные WGS в формате FASTA с использованием набора онлайн-форм.
== Примечания ==
|