Pfam

Pfam — база данных семейств белковых доменов. Каждое семейство в ней представлено множественным выравниванием фрагментов белковых последовательностей и скрытой марковской моделью (HMM). На март 2021 года в Pfam содержалось 19 179 записей (семейств), объединённых в 645 кланов[1].

Pfam
Содержимое
Описание База данных Pfam предоставляет выравнивания и скрытые модели Маркова для белковых доменов.
Тип данных Семейства белков
Организмы все
Контакты
Исследовательский центр EBI
Оригинальная публикация 19920124
Доступность
Формат данных Stockholm format
Сайт ebi.ac.uk/interpro
URL для загрузки FTP
Прочее
Лицензия GNU Lesser General Public License
Версия 36.0
Возможность делать закладки в браузере да

История править

База данных Pfam основана в 1997 году исследователями из Института Сенгера[2] и активно поддерживается консорциумом учёных из разных стран[3]. С 2011 года для записей с известной функциональной аннотацией существуют статьи в англоязычной Wikipedia[4]. На начало 2021, в 77 % последовательностей базы UniProt детектирован хотя бы один домен, описанный в Pfam, эти домены покрывают 53,2 % общей длины этих последовательностей[5].

В журнале «Nucleic Acids Research» периодически выходят статьи, описывающие развитие и состояние Pfam[6]. Текущая версия Pfam 34.0 построена по базе данных Pfamseq, основанной на релизе UniProtKB 2020_06[7]. Pfamseq содержит 57 млн. аминокислотных последовательностей общей длиной 21,7 млрд. аминокислотных остатков[8].

Структура Pfam править

В Pfam существует две категории семейств белковых доменов: Pfam-A и Pfam-B. Домены не перекрываются — в базе данных нет таких белков, в которых хотя бы один аминокислотный остаток принадлежит одновременно к двум разным доменам. Некоторые семейства, имеющие общее эволюционное происхождение и сохранившие сходство на уровне последовательностей или структур, объединены в кланы. Коллекция кланов называется Pfam-C.

Pfam-A править

Pfam-A содержит семейства, которые курируются вручную. Для формирования каждого семейства Pfam-A строится исходное выравнивание (seed alignment) из его наиболее репрезентативных представителей. На его основе создается скрытая марковская модель (HMM), также именуемая профиль. Она состоит из состояний «сопоставление», «вставка» и «делеция» для каждой колонки множественного выравнивания с присвоенными эмиссионными вероятностями для всех аминокислот в первом из этих состояний[2]. Данные эмиссионные вероятности представлены для каждого семейства на его странице в виде sequence logo.

После этого осуществляется поиск с помощью полученной HMM по базе данных Pfamseq, соответствующей последнему релизу UniProtKB. Все последовательности, для которых рейтинг соответствия HMM превышает некоторый порог, вручную устанавливаемый для каждого семейства, включаются в полное выравнивание (full alignment). Если оказывается, что некоторые представители семейства не обнаруживаются при поиске с помощью HMM, исходное множественное выравнивание редактируется до достижения оптимального результата[2]. Полученные HMM сохраняются в базе данных Pfam и могут быть использованы для поиска доменов в новых белковых последовательностях через веб-интерфейс.

Описания семейств преимущественно содержатся в Wikipedia и открыты для публичного редактирования. Однако, необходимо заметить, что более четверти всех семейств не имеет функциональной аннотации, такие домены обозначаются как DUF[en] (англ. Domain of unknown function). Также для каждого семейства содержится информация о его представленности в различных таксонах, варианты доменной структуры содержащих его белков и филогенетическое дерево исходного выравнивания. В тех случаях, когда это возможно, присутствуют данные о белок-белковых взаимодействиях, полученные при помощи iPfam Архивная копия от 12 июня 2020 на Wayback Machine, и ссылки на трехмерные структуры в базе данных PDB.

Pfam-B править

В дополнение к курируемым вручную семействам, Pfam содержит семейства Pfam-B, генерируемые автоматически с использованием программы MMSeqs2. Они не имеют функциональной аннотации, и, как правило, имеют значительно худшее качество по сравнению с семействами Pfam-A. Некоторые из них представляют регионы низкой сложности и не отражают истинного родства белковых последовательностей, поэтому рекомендуется проверка гомологии представителей семейств Pfam-B с помощью других методов, например, BLAST. Выравнивания последовательностей белков для семейств Pfam-B не доступны через веб-интерфейс Pfam, но могут быть скачаны в виде архива.

Кланы править

Кланы (Pfam-C) — это объединения семейств белковых доменов, имеющих общее эволюционное происхождение. Для формирования кланов золотым стандартом служит сравнение трехмерных структур доменов, в их отсутствие также может использоваться заметное сходство профилей (которое может быть определено с помощью программы HHsearch) или сходство результатов поиска по базе данных с использованием различных профилей (определяемое программой SCOOP). Для кланов, также как и для семейств Pfam-A, предоставляется общее выравнивание всех его представителей, информация о распределении по таксонам, данные о белок-белковых взаимодействиях и ссылки на трехмерные структуры.

Классификация записей править

Запись Pfam — это набор сходных участков белковых последовательностей. Все записи относят к одному из шести типов[4]:

  1. Family (Семейство) — базовый тип, набор родственных (гомологичных) участков;
  2. Domain (Домен) — устойчивая структурная единица, или, по крайней мере, функциональный участок, встречающийся в различных белковых архитектурах;
  3. Repeat (Повтор) — короткий участок, который является неустойчивым в изоляции, но образует стабильную структуру, когда присутствуют несколько его копий;
  4. Motif (Мотив) — короткий консервативный участок вне глобулярных доменов;
  5. Coiled-Coil (Суперспиральный блок) — области, формирующие суперспирали, т.е. пучки из 2-7 скрученных альфа-спиралей;
  6. Disordered (Неструктурированный блок) — консервативные участки со смещенным аминокислотным составом, не формирующие устойчивой (глобулярной) структуры.

Зачастую термин family (семейство) используется, в том числе на сайте Pfam, вместо термина entry (запись), что создает значительную путаницу.

Возможности править

Сайт Pfam предоставляет интерактивный доступ к данным, а также возможность просматривать данные в графическом виде.

Окно «Jump to…», присутствующее на большинстве страниц Pfam, позволяет быстро провести поиск семейств или кланов по идентификатору (ID) или коду доступа (accession). В верхней части любой страницы Pfam имеется также окно поиска семейств по ключевому слову, «keyword search»[9].

Путём поиска последовательности белка по библиотеке HMM в Pfam можно выяснить его доменную архитектуру. Для многих известных белковых последовательностей она уже вычислена: чтобы просмотреть её, нужно ввести идентификатор или код доступа последовательности в окне вкладки «view a sequence» на главной странице сайта. Если же последовательность не распознается Pfam, можно воспользоваться страницей поиска, где нужно ввести аминокислотную или нуклеотидную последовательность[9].

Если требуется провести поиск большого количества последовательностей, на вкладке «Batch search» страницы поиска можно загрузить файл с последовательностями в формате FASTA, при этом в каждом файле должно быть не больше 5000 последовательностей. В этом случае пользователь получает результаты в течение 48 часов по e-mail адресу, который нужно также указать на странице поиска[9]. Также есть возможность провести поиск локально, с помощью скрипта «pfam_scan.pl». Для этого потребуется программное обеспечение HMMER3[en], библиотеки HMM и некоторые другие дополнительные файлы, которые можно найти на сайте Pfam[9].

В Pfam имеются вычисленные доменные архитектуры для протеомов базы Integr8[10]. Доступ к этим данным открыт в графе «Proteomes» на странице «Browse». Для представленных здесь организмов имеется информация о доменном составе и доменных архитектурах их белков.

Pfam также предоставляет возможность поиска белков по доменной архитектуре. Для этого на вкладке «Domain architecture» страницы поиска в специальном окне нужно выбрать домены, которые должны входить или не входить в целевой белок. Можно также использовать Java-апплет PfamAlyzer, обладающий более широкими возможностями[11].

Примечания править

  1. Pfam 34.0 is released. Дата обращения: 25 марта 2021. Архивировано 24 марта 2021 года.
  2. 1 2 3 Sonnhammer et al, 1997.
  3. The Pfam Consortium. Дата обращения: 27 апреля 2015. Архивировано 16 января 2019 года.
  4. 1 2 Punta et al, 2012.
  5. Mistry et al, 2021.
  6. Pfam: References & Bibliography. Дата обращения: 27 апреля 2015. Архивировано 16 января 2019 года.
  7. Pfam: About. Дата обращения: 30 апреля 2015. Архивировано 16 января 2019 года.
  8. Pfam release 34.0 notes. Дата обращения: 13 июня 2020. Архивировано 14 июня 2021 года.
  9. 1 2 3 4 Pfam: Help. Дата обращения: 27 апреля 2015. Архивировано 16 января 2019 года.
  10. integr8 < EMBL-EBI. Дата обращения: 30 апреля 2015. Архивировано 7 ноября 2018 года.
  11. Hollich & Sonnhammer, 2007.

Литература править

  • Robert D. Finn, Alex Bateman, Jody Clements, Penelope Coggill, Ruth Y. Eberhardt, Sean R. Eddy, Andreas Heger, Kirstie Hetherington, Liisa Holm, Jaina Mistry, Erik L. L. Sonnhammer, John Tate, Marco Punta. Pfam: the protein families database // Nucleic Acids Research. — Oxford Journals, 2014. — № 42(Database issue). — P. D222–D230.
  • Jaina Mistry, Sara Chuguransky, Lowri Williams, Matloob Qureshi, Gustavo A Salazar, Erik L L Sonnhammer, Silvio C E Tosatto, Lisanna Paladin, Shriya Raj, Lorna J Richardson, Robert D Finn, Alex Bateman. Pfam: The protein families database in 2021 // Nucleic Acids Research. — Oxford Journals, 2021. — № 49(Database issue). — P. D412–D419.
  • Marco Punta, Penny C. Coggill, Ruth Y. Eberhardt, Jaina Mistry, John Tate, Chris Boursnell, Ningze Pang, Kristoffer Forslund, Goran Ceric, Jody Clements,Andreas Heger, Liisa Holm, Erik L. L. Sonnhammer, Sean R. Eddy, Alex Bateman, Robert D. Finn. The Pfam protein families database // Nucleic Acids Research. — Oxford Journals, 2012. — № 40(Database issue). — P. D290–D301.