GenBank: различия между версиями

[отпатрулированная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
Нет описания правки
Поправил картинки, теперь есть ссылка в разделе Разделы GenBank, все ссылки теперь стоят до точек
Строка 6:
 
== История создания ==
В марте 1979 года в [[Рокфеллеровский университет|Университете Рокфеллера]] в Нью-Йорке состоялась встреча тридцати молекулярных биологов и специалистов по компьютерным наукам. На ней была согласована позиция о необходимости создания общенациональной компьютеризованной базы данных. Это было обусловлено стремительными темпами роста количества известных последовательностей [[Дезоксирибонуклеиновая кислота|ДНК]], а также перспективами получения новых биологических знаний путём их анализа и сравнения. До того времени существовало несколько отдельных коллекций последовательностей, но ни одна из них не была полной.<ref name=":0">{{Статья|автор=Bruno J. Strasser|заглавие=GenBank--Natural History in the 21st Century?|ссылка=http://science.sciencemag.org/content/322/5901/537|язык=en|издание=Science|тип=|год=2008-10-24|месяц=|число=|том=322|выпуск=5901|номер=|страницы=537–538|issn=1095-9203|doi=10.1126/science.1163399}}</ref>.[[Файл:Margaret Oakley Dayhoff cropped.jpg|мини|Маргарет Дайхофф|292x292пкс216x216px]]Три года понадобилось [[Национальные институты здравоохранения США|Национальному Институту Здоровья (NIH)]], чтобы разработать схему финансирования проекта. За это время [[Европейская молекулярно-биологическая лаборатория|EMBL]] сделала общедоступной свою собственную базу данных последовательностей. Такая досадная для NIH задержка явилась следствием не только медленной работы бюрократической системы, но и неопределённостью среди учёных в отношении роли биологических коллекций во времена преобладания экспериментальных методов познания живого. Под давлением нескольких учёных-экспериментаторов NIH всё же начал поиск исполнителей проекта. В конкурсе на создание базы данных участвовали две группы: команда из Национального Фонда Биомедицинских Исследований (NBRF), возглавляемая [[:en:Margaret_Oakley_Dayhoff|Маргарет Дайхофф]], и группа исследователей под руководством [[:en:Walter_Goad|Уолтера Гоада]] из [[Лос-Аламосская национальная лаборатория|Лос-Аламосской национальной лаборатории (LANL)]] в сотрудничестве с частной компанией [[:en:BBN_Technologies|«Bolt, Beranek and Newman»]]<ref name=":0" />.
[[Файл:Уолтер Гоад.png|мини|Уолтер Гоад напротив терминала с открытым файлом GenBank, 1983.<ref>{{Cite web|url=https://www.researchgate.net/figure/51214024_fig3_Figure-3-Walter-Goad-in-front-of-a-terminal-accessing-the-GenBank-database-circa-1983|title=. Walter Goad in front of a terminal accessing the GenBank... - Figure 3 of 4|publisher=ResearchGate|lang=en|accessdate=2017-04-14}}</ref>|318x318пкс]]Три года понадобилось [[Национальные институты здравоохранения США|Национальному Институту Здоровья (NIH)]], чтобы разработать схему финансирования проекта. За это время [[Европейская молекулярно-биологическая лаборатория|EMBL]] сделала общедоступной свою собственную базу данных последовательностей. Такая досадная для NIH задержка явилась следствием не только медленной работы бюрократической системы, но и неопределённостью среди учёных в отношении роли биологических коллекций во времена преобладания экспериментальных методов познания живого. Под давлением нескольких учёных-экспериментаторов NIH всё же начал поиск исполнителей проекта. В конкурсе на создание базы данных участвовали две группы: команда из Национального Фонда Биомедицинских Исследований (NBRF), возглавляемая [[:en:Margaret_Oakley_Dayhoff|Маргарет Дайхофф]], и группа исследователей под руководством [[:en:Walter_Goad|Уолтера Гоада]] из [[Лос-Аламосская национальная лаборатория|Лос-Аламосской национальной лаборатории (LANL)]] в сотрудничестве с частной компанией [[:en:BBN_Technologies|«Bolt, Beranek and Newman»]].<ref name=":0" />
 
Дайхофф создала одну из первых баз данных биологических последовательностей, собирая аминокислотные последовательности белков с 1960-х годов. По её мнению, большое количество информации, касающейся эволюционной истории и биохимической функции, невозможно извлечь из каждой индивидуальной последовательности, и что крайне важно собрать значимую информацию вместе, преобразовать её в единое целое и интерпретировать специальными методами. В серии томов «Атласа белковых последовательностей и структур» опубликованных начиная с 1965 года, Дайхофф была представлена самая крупная в мире коллекция последовательностей белков и нуклеиновых кислот, новейших методов их анализа и вытекающих из них эволюционных соображений<ref>{{Cite news|title=MARGARET OAKLEY DAYHOFF, 57; EXPERT ON PROTEIN STRUCTURES|url=http://www.nytimes.com/1983/02/09/obituaries/margaret-oakley-dayhoff-57-expert-on-protein-structures.html|work=The New York Times|id=0362-4331|date=1983-02-09|accessdate=2017-03-25}}</ref>. [[Файл:Уолтер Гоад.png|мини|Уолтер Гоад напротив терминала с открытым файлом GenBank, 1983.<ref>{{Cite web|url=https://www.researchgate.net/figure/51214024_fig3_Figure-3-Walter-Goad-in-front-of-a-terminal-accessing-the-GenBank-database-circa-1983|title=. Walter Goad in front of a terminal accessing the GenBank... - Figure 3 of 4|publisher=ResearchGate|lang=en|accessdate=2017-04-14}}</ref>|180x180px|слева]]Данный атлас стал чрезвычайно популярен как инструмент в работах молекулярных и эволюционных биологов. Дайхофф рассчитывала, что исследователи будут делиться с ней новыми последовательности напрямую, до того, как они будут опубликованы. Однако данная инициатива не нашла должного отклика среди экспериментальных биологов, так как при занесении в Атлас не устанавливались ни авторство, ни приоритет открытия. Дайхофф и её команда были вынуждены продолжить заниматься ручным анализом публикуемой литературы<ref name=":0" />.
 
Другой претендент на заключение контракта с NIH – группа из Лос-Аламоса, где со времён [[Манхэттенский проект|Манхэттенского проекта]] велись ограниченные биомедицинские исследования. Узнав о решении, принятом в Университете Рокфеллера, Уолтер Гоад был убеждён, что Лос-Аламос является «естественным местом для центра по анализу последовательностей ДНК», главным образом, из-за «уникальных компьютерных мощностей», которыми обладала располагающаяся там национальная лаборатория.<ref>{{Статья|автор=Strasser, Bruno|заглавие=The Experimenter&#039;s Museum: GenBank, Natural History, and the Moral Economies of Biomedicine|ссылка=https://archive-ouverte.unige.ch/unige:16822/|издание=Isis|год=2011-01-01|том=102|выпуск=1|issn=0021-1753}}</ref>. Гоад также начал собирать последовательности нуклеиновых кислот, в основном, из других коллекций, принадлежащих Ричарду Грантому во Франции, Курту Стёберу в Германии, Дугласу Брутлагу и Элвину Кабату в США.<ref name=":0" />.
Данный атлас стал чрезвычайно популярен как инструмент в работах молекулярных и эволюционных биологов. Дайхофф рассчитывала, что исследователи будут делиться с ней новыми последовательности напрямую, до того, как они будут опубликованы. Однако данная инициатива не нашла должного отклика среди экспериментальных биологов, так как при занесении в Атлас не устанавливались ни авторство, ни приоритет открытия. Дайхофф и её команда были вынуждены продолжить заниматься ручным анализом публикуемой литературы.<ref name=":0" />
[[Файл:NucleotideSequences 86 87.jpeg|мини|330x330пкс249x249px|Выпуски с последовательностями в первые годы существования GenBank в бумажной форме.]]
Предложения NBRF (Дайхофф) и LANL-BBN (Гоад) по созданию централизованной базы данных были очень похожи, однако они содержали ключевые различия, касающиеся собственности, конфиденциальности и научного приоритета. NBRF предложила собирать последовательности, анализируя опубликованную литературу и приглашая экспериментаторов предоставлять их данные. Такой подход подразумевал такое же отношение к последовательностям, как отношение натуралистов к экземплярам – находящимся в окружающей природе объектам, которые могут быть собраны и использованы. LANL-BBN, напротив, предлагали просить издательства, чтобы включение последовательностей в базу данных было обязательным условием для публикации статьи в журнале. Такая система соответствовала системе мотивации в экспериментальных науках, в которой результаты исследований считаются личным знанием до того, как они будут опубликованы и им будет присвоено авторство. Публикация таким образом является стимулом к тому, чтобы сделать знания общедоступными.<ref name=":0" />.
 
В 1980 году [[Верховный суд США]] объявил, что «что-либо под солнцем, созданное человеком», включая генетически модифицированные организмы, может быть запатентовано.<ref>{{Cite news|title=Diamond v. Chakrabarty 447 U.S. 303 (1980)|url=https://supreme.justia.com/cases/federal/us/447/303/case.html|work=Justia Law|accessdate=2017-03-25|language=en}}</ref>. Данное заявление поставило перед NIH вопрос о том, кто мог бы стать собственником информации в будущей базе данных. Гоад подчеркнул, что он «не собирается отстаивать какие-либо права собственности на какие бы то ни было данные», и отметил, что Дайхофф и ее команда «искали доходы от продаж своей базы данных и препятствовали их перераспределению», не упомянув, что доходы шли только на покрытие расходов, а не для получения прибыли.<ref>{{Статья|автор=Frederick Sanger|заглавие=Sequences, Sequences, and Sequences|ссылка=http://dx.doi.org/10.1146/annurev.bi.57.070188.000245|издание=Annual Review of Biochemistry|год=1988-01-01|том=57|выпуск=1|страницы=1–29|doi=10.1146/annurev.bi.57.070188.000245}}</ref>.
Другой претендент на заключение контракта с NIH – группа из Лос-Аламоса, где со времён [[Манхэттенский проект|Манхэттенского проекта]] велись ограниченные биомедицинские исследования. Узнав о решении, принятом в Университете Рокфеллера, Уолтер Гоад был убеждён, что Лос-Аламос является «естественным местом для центра по анализу последовательностей ДНК», главным образом, из-за «уникальных компьютерных мощностей», которыми обладала располагающаяся там национальная лаборатория.<ref>{{Статья|автор=Strasser, Bruno|заглавие=The Experimenter&#039;s Museum: GenBank, Natural History, and the Moral Economies of Biomedicine|ссылка=https://archive-ouverte.unige.ch/unige:16822/|издание=Isis|год=2011-01-01|том=102|выпуск=1|issn=0021-1753}}</ref> Гоад также начал собирать последовательности нуклеиновых кислот, в основном, из других коллекций, принадлежащих Ричарду Грантому во Франции, Курту Стёберу в Германии, Дугласу Брутлагу и Элвину Кабату в США.<ref name=":0" />
[[Файл:Genbank100CD.jpg|мини|275x275пкс228x228px|CD диск с сотым выпуском GenBank.]]
[[Файл:NucleotideSequences 86 87.jpeg|мини|330x330пкс|Выпуски с последовательностями в первые годы существования GenBank в бумажной форме.]]
Предложения NBRF (Дайхофф) и LANL-BBN (Гоад) по созданию централизованной базы данных были очень похожи, однако они содержали ключевые различия, касающиеся собственности, конфиденциальности и научного приоритета. NBRF предложила собирать последовательности, анализируя опубликованную литературу и приглашая экспериментаторов предоставлять их данные. Такой подход подразумевал такое же отношение к последовательностям, как отношение натуралистов к экземплярам – находящимся в окружающей природе объектам, которые могут быть собраны и использованы. LANL-BBN, напротив, предлагали просить издательства, чтобы включение последовательностей в базу данных было обязательным условием для публикации статьи в журнале. Такая система соответствовала системе мотивации в экспериментальных науках, в которой результаты исследований считаются личным знанием до того, как они будут опубликованы и им будет присвоено авторство. Публикация таким образом является стимулом к тому, чтобы сделать знания общедоступными.<ref name=":0" />
 
В 1980 году [[Верховный суд США]] объявил, что «что-либо под солнцем, созданное человеком», включая генетически модифицированные организмы, может быть запатентовано.<ref>{{Cite news|title=Diamond v. Chakrabarty 447 U.S. 303 (1980)|url=https://supreme.justia.com/cases/federal/us/447/303/case.html|work=Justia Law|accessdate=2017-03-25|language=en}}</ref> Данное заявление поставило перед NIH вопрос о том, кто мог бы стать собственником информации в будущей базе данных. Гоад подчеркнул, что он «не собирается отстаивать какие-либо права собственности на какие бы то ни было данные», и отметил, что Дайхофф и ее команда «искали доходы от продаж своей базы данных и препятствовали их перераспределению», не упомянув, что доходы шли только на покрытие расходов, а не для получения прибыли.<ref>{{Статья|автор=Frederick Sanger|заглавие=Sequences, Sequences, and Sequences|ссылка=http://dx.doi.org/10.1146/annurev.bi.57.070188.000245|издание=Annual Review of Biochemistry|год=1988-01-01|том=57|выпуск=1|страницы=1–29|doi=10.1146/annurev.bi.57.070188.000245}}</ref>
[[Файл:Genbank100CD.jpg|мини|275x275пкс|CD диск с сотым выпуском GenBank.]]
LANL-BBN имели возможность в дальнейшем повысить открытость своей базы данных, предложив распространять ее через компьютерную сеть [[ARPANET]], находящуюся под управлением [[Министерство обороны США|Министерством обороны]], в то время как NBRF мог предложить только ограниченный онлайн-доступ через телефонные модемы. 30 июня 1982 года NIH заключила контракт с LANL-BBN на создание общедоступной бесплатно базы данных последовательностей нуклеиновых кислот, которая вскоре стала называться GenBank.
Успех GenBank в сборе всех опубликованных последовательностей был обусловлен двумя ключевыми факторами. Во-первых, было организовано плотное сотрудничество с базой данных EMBL, созданной несколькими месяцами ранее в [[Гейдельберг|Гейдельберге]], и с [[DDBJ]] в 1986 году. Каждая база данных была ответственна за отслеживание публикаций в определённых журналах.<ref name=":0" />.
 
Во-вторых, базы данных ДНК всё сильнее отставали от растущего взрывными темпами количества известных последовательностей. Решением проблемы стала договорённость с издательствами об электронном включении последовательностей в базу данных как обязательном условии для публикации в журнале.
Строка 33 ⟶ 30 :
[[Файл:Statistics of bases.png|мини|318x318px|Рост количества нуклеотидов в GenBank с декабря 1982 года по февраль 2017]][[Файл:Statistics of sequences.png|мини|318x318px|Рост количества последовательностей в GenBank с декабря 1982 года по февраль 2017]]В третьем выпуске базы данных, вышедшем в декабре 1982 года содержалось 606 нуклеотидных последовательностей, в пересчёте на основания - 680338. Уже к ноябрю 1983 года количество последовательностей увеличилось более чем в 4 раза - до 2427. До 2000 года рост базы данных имел экспоненциальный характер. К 2007 году количество данных удваивалось каждые 18 месяцев.
 
С апреля 2002 года ведётся статистика по разделу WGS. Скорость его роста опережает основное отделение GenBank. После уменьшения темпов роста в 2010 году, WGS вновь демонстрирует ускоренный рост.<ref>{{Cite web|url=https://www.ncbi.nlm.nih.gov/genbank/statistics/|title=GenBank and WGS Statistics|publisher=www.ncbi.nlm.nih.gov|lang=en|accessdate=2017-03-25}}</ref>.
 
На февраль 2013 года GenBank содержал информацию о более чем 228 млрд. пар оснований и почти 200 млн. последовательностях (из более чем 100 000 живых организмов)<ref name="ReleaseNotes">{{cite web|url=http://www.ncbi.nlm.nih.gov/genbank/statistics|title=GenBank release notes|publisher=NCBI}}</ref>.
 
В генном банке содержатся также дополнительные наборы данных, механически добавленных, на основе основной коллекции данных секвенирования.
Строка 262 ⟶ 259 :
 
== Разделы GenBank ==
В настоящий момент база GenBank, помимо последовательностей отдельных генов, содержит много данных, полученных с помощью современных методов секвенирования ДНК и автоматического аннотирования последовательностей. Существует несколько разделов GenBank, посвящённых данным высокопроизводительного секвенирования<ref>{{Статья|автор=Dennis A. Benson, Mark Cavanaugh, Karen Clark, Ilene Karsch-Mizrachi, David J. Lipman|заглавие=GenBank|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/23193287|издание=Nucleic Acids Research|год=2013-01-01|том=41|выпуск=Database issue|страницы=D36–42|issn=1362-4962|doi=10.1093/nar/gks1195}}</ref>.
* '''Genomes''' - специальный раздел для хранения полных [[Геном|геномов]]. Созданы руководства по аннотации полных геномов [[Прокариоты|прокариот]] и [[Эукариоты|эукариот]].
* [https://www.ncbi.nlm.nih.gov/genbank/wgs/ '''WGS'''] (Whole genome shoutgun) – проекты по сборке неполных геномов, хромосом прокариот или эукариот, главным образом, секвенированных [[Метод дробовика|методом дробовика]]. В GenBank аннотация проектов WGS необязательна, однако NCBI располагает специальным пайплайном для аннотации прокариотических геномов. Существует [https://www.ncbi.nlm.nih.gov/Traces/wgs/ список доступных WGS-проектов].