GenBank: различия между версиями

[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
Попытка сократить статью по длине для номинирования на ДС. Перефразированы и подправлены описания полей GenBank, убрано мнение Дэйхофф из истории (больше относится к Дэйхофф, чем к GenBank)
Сокращён раздел "Правила внесения данных" и описания полей GenBank-записи Features и Origin
Строка 119:
'''Раздел GenBank''' ''(GenBank Division)''
 
Записи GenBank относятся к одному из 18следующих разделов, обозначаемых аббревиатурой из<ref name=":3" букв/>:
 
''Таксономические разделы:''
 
* '''''PRI''''' ''(primate)'' - последовательности [[Приматы|приматов]]
* '''''ROD''''' ''(rodent)'' - последовательности [[Грызуны|грызунов]]
Строка 130 ⟶ 133 :
* '''PHG''' ''(bacteriophage)'' - последовательности [[Бактериофаги|бактериофагов]]
* '''SYN''' ''(synthetic)'' - синтетические последовательности
* '''ENV''' ''(environmental)'' - последовательности образца окружающей среды
* '''UNA''' ''(unannotated)'' - неаннотированные последовательности
 
''Высокопроизводительное секвенирование:''
 
* '''EST''' ''(expressed sequence tags)'' - последовательности тегов
* '''PAT''' ''(patent)'' - запатентованные последовательности
* '''STS''' ''(sequence tagged sites)'' - тегированные последовательности сайтов
* '''GSS''' ''(genome survey sequences)'' - исследование последовательностей генома
* '''HTG''' ''(high-throughput genomic sequences)'' - данные высокопроизводительного секвенирования генома
* '''HTC''' ''(high-throughput cDNA sequencing)'' - данные высокопроизводительного секвенирования кДНК
 
* '''ENV''' ''(environmental)'' - последовательности образца окружающей среды
''Проекты:''
 
* '''PAT''' ''(patent)'' - запатентованные последовательности
* '''WGS''' ''(whole genome sequencing)'' - полногеномное секвенирование
* '''TSA''' ''(transcriptome shotgun assembly)'' - сборка транскриптома методом дробовика
 
Поскольку разделы не отражают текущую [https://www.ncbi.nlm.nih.gov/taxonomy/ таксономию NCBI] (последовательность, реально относящаяся к конкретному организму, может входить в "техническую" группу из-за метода её получения), для получения всех последовательностей из конкретного организма следует использовать [https://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/ NCBI Taxonomy Browser].
Строка 223 ⟶ 234 :
|
=== FEATURES ===
|ПолеИнформация содержито информациюместоположении ои функции области, указанной в последовательности: [[Ген|генахген,]] и продуктахего геновпродукт ([[Белки|белкахбелок]]), а также о биологически важных областях, указанных в последовательности: [[промотор]], TATA-сигнал, матричная РНК, нетранслируемые 5' и 3' области (5'UTR, 3'UTR), кодирующая последовательность (CDS), альтернативно сплайсированная мРНК и другие. Полный список функциональных последовательностей доступен в следующих местах:
 
Полный список функциональных последовательностей доступен в следующих местах:
* [https://www.insdc.org/documents/feature_table.html#7.3 The DDBJ/ENA/GenBank Feature Table Definition] -  содержит определения, дополнительные классификаторы и комментарии для каждой особенности.
* [https://www.ncbi.nlm.nih.gov/Sequin/sequin.hlp.html Sequin Help documentation]
 
В поле содержится информация о местоположении каждой биологически важной области, котораяОбласть может быть представлена единичным интервалом нуклеотидов, смежным интервалом нуклеотидов, объединением интервалов последовательности и другими представлениями. Слово "complement" перед координатами подпоследовательности указывает на её расположенность на комплементарной цепи. Область, как правило, задается двумя координатами n..m. Если координатам предшествует символСимвол «<», топеред последовательностькоординатами говорит о расположенарасположении на 5'-конце (например, <small>CDS <1..206</small>). Если после координат следует, символ «>», то последовательность расположена- на 3'-конце (например, <small>CDS 435..915></small>), пометка "complement" - о расположении на комплементарной цепи.
 
Поле поиска Entrez: ''функциональный ключ [FKEY].'' Пример, promoter
 
Элементы поля:
 
'''source'''
 
Обязательное поле каждой записи, которое суммируетсодержащее длину последовательности, научное название организма, откуда взята последовательность,-источника и Taxon ID (идентификационный номер, присваиваемый каждому таксонутаксона в базе [https://www.ncbi.nlm.nih.gov/taxonomy/ NCBI Taxonomy Database] ). Может также включать дополнительную информацию, такую как локализация на карте генома (например, номер хромосомы), штамм, клон, тип ткани и т. д.
 
Поле поиска Entrez: используйте запрос ''длина последовательности [SLEN]'' для поиска по длине, ''организм [ORGN]'' для поиска по названию организма, ''дополнительная информация [ALL]'' для поиска других элементов, таких как штамм, клон, тип ткани.
Строка 241 ⟶ 253 :
'''CDS'''
 
Кодирующая белок последовательность - область нуклеотидов, которая соответствует последовательности аминокислот в белке (включает в себявключая старт- и стоп-кодоны). CDSСодержит включает в себятакже транслированную с этой области аминокислотную последовательность. Авторы могут указать природу CDS, используя спецификаторСпецификаторы "/evidence=experimental" илии "/evidence=not_experimental". Авторамуказывают записейна такженаличие предлагаетсяили комментироватьотсутствие последовательностьэкспериментального подтверждения существования белка. Для мРНК, котораяавторами включаетзаписи вмогут себябыть описаны 5'-нетранслируемуюи область3'- нетранслируемые области (5'UTR и 3'UTR), и кодирующие последовательности (CDS, экзон) и 3'-нетранслируемую область (3'UTRэкзоны).
 
Поле поиска Entrez: ''функциональный ключ [FKEY]''
Строка 247 ⟶ 259 :
'''protein_id, GI'''
 
Идентификационный номер белковой последовательности, аналогичныйсоответствующий идентификатору нуклеотидной последовательности. Идентификаторы белков состоят из трех букв, за которыми следуют пять цифр, точка и номер версии. Если произойдет изменение данных последовательности (даже одной аминокислоты), номер версии будет увеличен (например, AAA98665.1 изменится на AAA98665.2).
 
Формат идентификации идентификационных номеров белковых последовательностей accession.version был реализован GenBank / EMBL / DDBJ в феврале 1999 года и работает параллельно с цифровой системой GI (смотрисм. выше).
 
Поле поиска Entrez: ''используйте значение по умолчанию «All Fields»''
Строка 255 ⟶ 267 :
'''ген'''
 
Область биологического интереса, имеющая имя и идентифицированная как ген, для которой присвоено имя.
 
Поле поиска Entrez: ''функциональный ключ [FKEY]''
Строка 261 ⟶ 273 :
|
=== ORIGIN ===
Поле|Сама ORIGINпоследовательность, доступна для скачивания в различных форматах. Поле может быть пустым, может отображаться как «Unreported», или может давать локальный указатель на начало последовательности, как правило, с участием экспериментально определенного сайта рестрикции или генетического локуса (если имеется). Эта информация присутствует только в старых записях.
|Непосредственно содержит саму последовательность. Чтобы просмотреть или загрузить данные последовательности в формате [https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=BlastHelp FASTA], добавьте ''«?format = fasta»'' к URL-адресу записи; Например, ''/nucleotide/U49845?format=fasta&report=text.''
 
Поле ORIGIN может быть пустым, может отображаться как «Unreported», или может давать локальный указатель на начало последовательности, как правило, с участием экспериментально определенного сайта рестрикции или генетического локуса (если имеется). Эта информация присутствует только в старых записях.
|}
 
== Правила внесения данных ==
ДанныеЗаявки вна GenBankвнесение ипоследовательности в сотрудничающиеодну базыиз данныхтрёх баз (GenBank, ENA иили DDBJ) представляютсяотправляются либо отдельными авторами в одну из трех баз данных. Кроме того, NCBI тесно сотрудничает слибо центрами секвенирования дляв обеспечения своевременного добавления новых записей. Фактически все учетные записи входятосновном в GenBankэлектронной какформе прямые электронные заявки, причем большинство авторов используютчерез программы BankIt или Sequin. У многих журналов выкладывание последовательности в публичную базуСинхронизация данных GenBankмежду обязательнымбазами требованиемпроисходит к публикации авторов последовательности. Сотрудники GenBank обычно могут присваивать идентификаторы последовательностям в течение двух дней после подачи заявки. В среднем, за день идентификаторы получают приблизительно 3500 последовательностей. Идентификатор служит подтверждением того, что последовательность была опубликована и является средством для извлечения данной последовательности из базы данных, используя [[:en:Entrez|Entrez]] или сохранить с сайта через [[FTP]]ежедневно. Заявки тщательно проверяются на наличие фрагментов используемых векторов (используется система [https://www.ncbi.nlm.nih.gov/tools/vecscreen/ VecScreen]), правильной трансляции кодирующей области, правильной таксономии и правильных библиографических ссылок. Черновик записи в GenBank отправляется обратно автору для проверки и последних правок перед публикацией. Авторыв могут потребоватьбазе, чтобыкоторая их последовательностиможет былибыть конфиденциальнымиотложена до указанного момента публикациипо просьбе автора. НоПосле политикапубликации GenBank(обычно такова,в чтотечение авторам2 необходимодней сообщитьпосле оподачи точнойзаявки) датезапись публикации,получает чтобыидентификатор, начинаяпо скоторому этогоможет моментабыть извлечена посредством [[:en:Entrez|Entrez]] или по [[FTP]]. В среднем, последовательностьза сталадень идентификаторы получают приблизительно 3500 последовательностей. Наличие последовательности в публичном доступе GenBank является обязательным требованием к публикации во многих общедоступнойжурналах<ref name=":1">{{Статья|автор=Dennis A. Benson, Karen Clark, Ilene Karsch-Mizrachi, David J. Lipman, James Ostell|заглавие=GenBank|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/25414350|издание=Nucleic Acids Research|год=2015-01-01|том=43|выпуск=Database issue|страницы=D30–35|issn=1362-4962|doi=10.1093/nar/gku1216}}</ref>.
 
GenBank предлагает специальные пакеты программ, облегчающие подачу заявок<ref name=":1" />:
* '''''[https://www.ncbi.nlm.nih.gov/WebSub/?tool=genbank BankIt] –''''' Около трети предоставленных авторами материалов принимаются через веб-интерфейс NCBI ''BankIt''. Используя BankIt, авторычерез предоставляюткоторый информациюпринимается ооколо последовательноститрети изаявок. различныеПредоставляет биологические аннотации, такие как кодирующие области, тип мРНК и др., заполняязаявителю специальную форму, чтозаполнение которой позволяет заявителю правильно описать последовательность без необходимости изучать правила форматирования и нормативную лексику.
* [https://www.ncbi.nlm.nih.gov/projects/Sequin/ '''''Sequin'''''] ''–'' автономный программный инструмент, разработанный NCBI для отправки и обновления записей в базе данных последовательности GenBank. Он способенМожет обрабатывать простые записи, содержащиеразличной однустепени короткую последовательность мРНКсложности,однако и сложные записи, содержащие длинные последовательности, множественные аннотации, или филогенетические и популяционные исследования. Одинодин файл Sequin должен содержать менее 10000 последовательностей для максимальной производительности. Более крупные записи должны быть сделаны с помощью tbl2asn. Дополнительно существует веб-сервис Submission Portal (submit.ncbi.nlm.nih.gov), предоставляющий интерфейс, который принимает данные WGS в формате FASTA с fastaнабора онлайн-форм.
* ''[https://www.ncbi.nlm.nih.gov/genbank/tbl2asn2/ '''tbl2asn'''] –'' инструмент командной строки для преобразования таблицы с аннотацией, полученной при помощи аннотационного пайплайна, в запись, подходящую для предоставления в GenBank.
* [https://submit.ncbi.nlm.nih.gov '''''Submission Portal'''''] ''–'' веб-сервис, предоставляющий интерфейс, который принимает данные WGS в формате FASTA с использованием набора онлайн-форм.
Строка 277 ⟶ 287 :
 
== Разделы GenBank ==
В настоящий момент база GenBank, помимо последовательностей отдельных генов, содержит много данных, полученных с помощью современных методов секвенирования ДНК и автоматического аннотирования последовательностей. Существует несколько разделов GenBank, посвящённых данным высокопроизводительного секвенирования<ref name=":3">{{Статья|автор=Dennis A. Benson, Mark Cavanaugh, Karen Clark, Ilene Karsch-Mizrachi, David J. Lipman|заглавие=GenBank|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/23193287|издание=Nucleic Acids Research|год=2013-01-01|том=41|выпуск=Database issue|страницы=D36–42|issn=1362-4962|doi=10.1093/nar/gks1195}}</ref>.
* '''Genomes''' ''–'' специальный раздел для хранения полных [[Геном|геномов]]. Созданы руководства по аннотации полных геномов [[Прокариоты|прокариот]] и [[Эукариоты|эукариот]].
* [https://www.ncbi.nlm.nih.gov/genbank/wgs/ '''WGS'''] (Whole genome shoutgun) – проекты по сборке неполных геномов, хромосом прокариот или эукариот, главным образом, секвенированных [[Метод дробовика|методом дробовика]]. В GenBank аннотация проектов WGS необязательна, однако NCBI располагает специальным пайплайном для аннотации прокариотических геномов. Существует [https://www.ncbi.nlm.nih.gov/Traces/wgs/ список доступных WGS-проектов].