GenBank: различия между версиями

[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
Номинирование статьи в добротные с помощью гаджета QA (v. 0g6qksk)
Нет описания правки
Строка 44:
[[Файл:Statistics of sequences.png|мини|331x331пкс|Рост количества последовательностей в GenBank с декабря 1982 года по февраль 2017]]
 
== Аннотация записи GenBank<ref>{{Cite web|url=https://www.ncbi.nlm.nih.gov/genbank/samplerecord/#KeywordsB|title=Sample GenBank Record|publisher=www.ncbi.nlm.nih.gov|lang=en|accessdate=2017-03-26}}</ref> ==
Аннотированный образец GenBank в формате ''GenBank Flat File'' имеет следующие разделы<ref>{{Cite web|url=https://www.ncbi.nlm.nih.gov/genbank/samplerecord/#KeywordsB|title=Sample GenBank Record|publisher=www.ncbi.nlm.nih.gov|lang=en|accessdate=2017-04-14}}</ref>:
.....
{| class="wikitable"
!Название поля
Строка 54:
|Поле LOCUS содержит несколько различных элементов данных, включая имя локуса (Locus Name), длину последовательности (Sequence Length), тип молекулы (Molecule Type), раздел GenBank (GenBank Division) и дату изменения (Modification Date).
 
====== '''Имя локуса ======'''
 
====== '''Длина последовательности ======'''
 
====== Длина последовательности ======
Количество нуклеотидных пар оснований (или аминокислотных остатков) в записи последовательности.
 
Поле поиска Entrez: ''длина последовательности [SLEN]''
 
====== '''Тип молекулы ======'''
 
Тип молекулы, которая была секвенирована. Каждая запись GenBank должна содержать данные последовательности одного типа молекулы: геномная ДНК, геномная РНК, несозревшая РНК, матричная РНК (кДНК), рибосомная РНК, транспортная РНК, малая ядерная РНК и малая цитоплазматическая РНК.
 
Поле поиска Entrez: ''тип молекулы'' ''[PROP].'' Пример biomol_genomic, biomol_mRNA и т. д.
 
====== '''Раздел GenBank ======'''
 
Раздел GenBank, к которому относится запись, обозначается аббревиатурой из 3 букв. База данных GenBank делится на 18 разделов:
* '''''PRI''''' ''(primate)'' - последовательности приматов
Строка 78 ⟶ 81 :
* '''PHG''' ''(bacteriophage)'' - последовательности бактериофагов
* '''SYN''' ''(synthetic)'' - синтетические последовательности
* '''UNA''' ''(unannotated)'' - не аннотированныенеаннотированные последовательности
* '''EST''' ''(expressed sequence tags)'' - последовательности тегов
* '''PAT''' ''(patent)'' - патентныезапатентованные последовательности
* '''STS''' ''(sequence tagged sites)'' - тегированные последовательности с меченными участками?сайтов
* '''GSS''' ''(genome survey sequences)'' - исследование последовательности генома?
* '''HTG''' ''(high-throughput genomic sequences)'' - высокопроизводительныеданные геномныевысокопроизводительного последовательности?секвенирования генома
* '''HTC''' ''(unfinished high-throughput cDNA sequencing)'' - незавершеннаяданные высокопроизводительнаявысокопроизводительного последовательностьсеквенирования кДНК
* '''ENV''' ''(environmental)'' - последовательности образца окружающей среды
<small>''Отдел ENV GenBank поддерживает последовательности, полученные с помощью отбора проб окружающей среды, в которых исходный организм неизвестен. Многие последовательности ENV возникают в следствие метагеномного анализа  микробиоты различных тканей животного происхождения, например, в кишечнике или коже, или особых средах обитания, таких как пресноводные отложения, термальные источники или участки дренажа шахты. ENV последовательности, как правило, предоставлены данными секвенирования полного метагенома методом дробовика или исследований последовательностей на основе таргетных генов, таких как 16S рРНК. NCBI продолжает поддерживать поиск BLAST метагеномных последовательностей ENV, но последовательности в рамках WGS проектов теперь являются частью базы данных WGS BLAST.''</small>
 
Некоторые из разделов содержат последовательности конкретных групп организмов, тогда как другие (EST, GSS, HTG и т. д.) содержат данные, полученные с помощью специальных технологий секвенирования из множества различных организмов. Разделение организмов является историческим и не отражает текущую [https://www.ncbi.nlm.nih.gov/taxonomy/ таксономию NCBI?]. Из-за этого, а также из-за того, что последовательности определенного организма могут существовать в технологических подразделениях, для получения всех последовательностей из конкретного организма следует использовать NCBI Taxonomy Browser&.
 
Поле поиска Entrez: ''раздел [PROP]''. Пример: gbdiv_pri, gbdiv_est и т. д.
Строка 96 ⟶ 100 :
Поле поиска Entrez: ''дата [MDAT].'' Пример 1999/07/25, 1999/07/25:1999/07/31 (обязателен формат гггг/мм/дд)
|-
|
|==== DEFINITION ====
|Краткое описание последовательности; включает в себя следующую информацию - организм, имя гена/белка, описание функций последовательности (если последовательность является некодирующей). Если последовательность имеет кодирующую область (CDS), за описанием может следовать показатель полноты, такой как «complete cds».
 
Поле поиска Entrez: ''описание [TITL].''
|-
|
|==== ACCESSION ====
|Уникальный идентификатор записи последовательности ([[:en:Accession number (bioinformatics)|accession number]] <sub>англ.</sub>)<sub>.</sub> Идентификатор относится к полной записи и представляет собой комбинацию букв и цифр. Обычно это одна буква, за которой следуют пять цифр (например, U12345) или две буквы, а затем шесть цифр (например, AF123456). Некоторые идентификаторы могут быть длиннее, в зависимости от типа записи последовательности. Номер записи не изменяется, даже если информация в записи изменена по запросу автора.
 
Поле поиска Entrez: ''идентификатор [ACCN].''
|-
|
|==== VERSION ====
|Идентификационный номер нуклеотидной последовательности, который представляет собой одну конкретную последовательность в базе данных GenBank. Этот идентификационный номер использует формат "accession.version", реализованный GenBank / EMBL / DDBJ в феврале 1999 года.
 
Строка 115 ⟶ 122 :
Поле поиска Entrez: ''используйте значение по умолчанию «All Fields».''
|-
|GI
==== GI ====
|Идентификационный номер последовательности «GenInfo Identifier». Если последовательность изменяется каким-либо образом, будет назначен новый номер GI. Отдельный номер GI также присваивается каждому транслированному с нуклеотидной записи белку, и новый GI присваивается, если транслированный белок изменяется каким-либо образом.
 
Поле поиска Entrez: ''используйте значение по умолчанию «All Fields»''
|-
|
|==== KEYWORDS ====
|Слово или фраза, описывающие последовательность. Если запись не содержит ни одно ключевое слово, поле содержит только точку.
 
Строка 127 ⟶ 136 :
Поле поиска Entrez: ''ключевое слово [KYWD]'' (поскольку ключевые слова не присутствуют во многих записях, лучше не искать это поле).
|-
|
|SOURCE
==== SOURCE ====
|Информация о названии организма, откуда взята последовательность; представлена в свободной формате и иногда сопровождается типом молекулы.
 
Строка 134 ⟶ 144 :
Поле поиска Entrez: ''организм [ORGN].'' Пример ''Saccharomyces cerevisiae''
|-
|
|==== REFERENCE ====
|Публикации авторов записи, в которых обсуждают данные, указанные в записи. Ссылки автоматически сортируются по дате публикации, причем сначала отображаются самые старые ссылки. Не опубликованные в научных статьях последовательности отображает статус "unpublished" или "in press".
 
Строка 167 ⟶ 178 :
Поле поиска Entrez: Невозможно выполнить поиск по PubMed ID, однако можно выполнить поиск в базе данных PubMed.
|-
|
|==== FEATURES ====
|Поле содержит информацию о генах и генных продуктах (белках), а также о биологически важных областях, указанных в последовательности: ген, промотор, TATA-сигнал, матричная РНК, нетранслируемые 5' и 3' области (5'UTR, 3'UTR), кодирующая последовательность (CDS), альтернативно сплайсированная мРНК и другие.
 
Строка 174 ⟶ 186 :
* [https://www.ncbi.nlm.nih.gov/Sequin/sequin.hlp.html Sequin Help documentation]
 
В поле содержится информация о местоположении каждой биологически важной области, которая может быть представлена единичным нуклеотидом???интервалом нуклеотидов, смежным интервалом нуклеотидов, объединением интервалов последовательности и другими представлениями. Слово "complement" перед координатами подпоследовательности указывает на её расположенность на комплементарной цепи. Область, как правило, задается двумя координатами n..m. Если координатам предшествует символ «<», то последовательность частично расположена на 5'-конце (например, <small>CDS <1..206</small>). Если после координат следует символ «>», то последовательность частично расположена на 3'-конце (например, <small>CDS 435..915></small>).
 
Поле поиска Entrez: ''функциональный ключ [FKEY].'' Пример, promoter
Строка 180 ⟶ 192 :
'''source'''
 
Обязательное поле каждой записи, которое суммирует длину последовательности, научное название организма, откуда взята последовательность, и Taxon ID (идентификационный номер, присваиваемый каждому таксону в базе [https://www.ncbi.nlm.nih.gov/taxonomy/ NCBI Taxonomy Database] ). Может также включать дополнительную информацию, такую как локализация на карте генома??? (например, номер хромосомы), штамм, клон, тип ткани и т. д.
 
Поле поиска Entrez: используйте запрос ''длина последовательности [SLEN]'' для поиска по длине, ''организм [ORGN]'' для поиска по названию организма, ''дополнительная информация [ALL]'' для поиска других элементов, таких как штамм, клон, тип ткани.
Строка 204 ⟶ 216 :
Поле поиска Entrez: ''функциональный ключ [FKEY]''
|-
|
|ORIGIN
==== ORIGIN ====
|Непосредственно содержит саму последовательность. Чтобы просмотреть или загрузить данные последовательности в формате [https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=BlastHelp FASTA], добавьте ''«?format = fastato»'' к URL-адресу записи; Например, ''/nucleotide/U49845?format=fasta&report=text.''.???
 
Поле ORIGIN может быть пустым, может отображаться как «Unreported», или может давать локальный указатель на начало последовательности, как правило, с участием экспериментально определенного сайта рестрикции или генетического локуса (если имеется). Эта информация присутствует только в старых записях.
Строка 215 ⟶ 228 :
 
== Правила внесения данных ==
Данные в GenBank и в сотрудничающие базы данных ENA и DDBJ представляются либо отдельными авторами в одну из трех баз данных. илиКроме специальнымитого, NCBI тесно сотрудничает с центрами секвенирования для обеспечения своевременного добавления новых записей. Фактически все учетные записи входят в GenBank как прямые электронные заявки, причем большинство авторов используют программы BankIt или Sequin. У многих журналов выкладывание последовательности в публичную базу данных GenBank обязательным требованием к публикации авторов последовательности. Сотрудники GenBank обычно могут присваивать идентификаторы последовательностям в течение двух дней после подачи заявки. В среднем, за день идентификаторы получают приблизительно 3500 последовательностей. Идентификатор служит подтверждением того, что последовательность была опубликована и является средством для извлечения данной последовательности из базы данных, используя [[:en:Entrez|Entrez]] или сохранить с сайта через [[FTP]].. Заявки тщательно проверяются на наличие фрагментов используемых векторов (используется система [https://www.ncbi.nlm.nih.gov/tools/vecscreen/ VecScreen]), правильной трансляции кодирующей области, правильной таксономии и правильных библиографических ссылок. Черновик записи в GenBank отправляется обратно автору для проверки и последних правок перед публикацией. Авторы могут потребовать, чтобы их последовательности были конфиденциальными до момента публикации. Но политика GenBank такова, что авторам необходимо сообщить о точной дате публикации, чтобы, начиная с этого момента, последовательность стала общедоступной.
 
NCBI тесно сотрудничает с центрами секвенирования для обеспечения своевременного добавления новых записей. Для данных центров GenBank предлагает специальные пакеты программ, облегчающие подачу заявок, включая программу ''[https://www.ncbi.nlm.nih.gov/genbank/tbl2asn2/ tbl2asn]''.
 
Представление с использованием BankIt. Около трети предоставленных авторами материалов принимаются через веб-интерфейс NCBI ''BankIt''. Используя BankIt, авторы предоставляют информацию о последовательности и различные биологические аннотации, такие как кодирующие области, тип мРНК и др., заполняя специальную форму, что позволяет заявителю правильно описать последовательность без необходимости изучать правила форматирования и нормативную лексику.
 
Подача заявок с использованием [https://www.ncbi.nlm.nih.gov/projects/Sequin/ Sequin], tbl2asn.
 
Проинструктированы сообщить сотрудникам GenBank
 
GenBank предлагает специальные пакеты программ, облегчающие подачу заявок:
Только первоначальные последовательности вносят в GenBank. Непосредственный внос данных для желающих пополнить базу GenBank возможен через отдельную онлайн-программу. Данные проверяются сотрудниками GenBank на предмет:
Представление* с использованием'''''[https://www.ncbi.nlm.nih.gov/WebSub/?tool=genbank BankIt].''''' Около трети предоставленных авторами материалов принимаются через веб-интерфейс NCBI ''BankIt''. Используя BankIt, авторы предоставляют информацию о последовательности и различные биологические аннотации, такие как кодирующие области, тип мРНК и др., заполняя специальную форму, что позволяет заявителю правильно описать последовательность без необходимости изучать правила форматирования и нормативную лексику.
* в какой лаборатории получены данные
* [https://www.ncbi.nlm.nih.gov/projects/Sequin/ '''''Sequin'''''] - автономный программный инструмент, разработанный NCBI для отправки и обновления записей в базе данных последовательности GenBank. Он способен обрабатывать простые записи, содержащие одну короткую последовательность мРНК, и сложные записи, содержащие длинные последовательности, множественные аннотации, или филогенетические и популяционные исследования. Один файл Sequin должен содержать менее 10000 последовательностей для максимальной производительности. Более крупные записи должны быть сделаны с помощью tbl2asn. Дополнительно существует веб-сервис Submission Portal (submit.ncbi.nlm.nih.gov), предоставляющий интерфейс, который принимает данные WGS в формате FASTA с использованием набора онлайн-форм.
* качество полученных данных
* ''[https://www.ncbi.nlm.nih.gov/genbank/tbl2asn2/ '''tbl2asn'''] –'' инструмент командной строки для преобразования таблицы с аннотацией, полученной при помощи аннотационного пайплайна, в запись, подходящую для предоставления в GenBank.
После проверки добавленных данных, им присваивается новый AC ([[:en:Accession number (bioinformatics)|accession number]] <sub>англ.</sub>)<sub>.</sub> Данные, проверка которых завершена, добавляют в общий доступ, откуда их можно извлечь, используя [[:en:Entrez|Entrez]] или сохранить с сайта через [[FTP]].
* [https://submit.ncbi.nlm.nih.gov '''''Submission Portal'''''] - веб-сервис, предоставляющий интерфейс, который принимает данные WGS в формате FASTA с использованием набора онлайн-форм.
 
== Примечания ==