Открыть главное меню

Pfam — база данных семейств белковых доменов. Каждое семейство в ней представлено множественным выравниванием фрагментов белковых последовательностей и скрытой марковской моделью (HMM). На март 2017 года в Pfam содержалось 16 712 записей (семейств), объединённых в 604 клана[1].

Содержание

ИсторияПравить

База данных Pfam основана в 1997 году исследователями из Института Сенгера[2] и активно поддерживается консорциумом учёных из разных стран[3]. С 2011 года для записей с известной функциональной аннотацией существуют статьи в англоязычной Wikipedia[4]. По данным 2014 года, почти для 80 % последовательностей базы UniProt имеется информация в Pfam[5].

В журнале «Nucleic Acids Research» периодически выходят статьи, описывающие развитие и состояние Pfam[6]. Текущая версия Pfam 31.0 построена по базе данных Pfamseq, основанной на релизе UniProtKB 2016_10[7]. Pfamseq содержит 26,7 млн последовательностей[1].

Структура PfamПравить

В Pfam существует две категории семейств: Pfam-A и Pfam-B. Все семейства являются неперекрывающимися — в базе данных нет таких белков, в которых хотя бы одна аминокислота принадлежит одновременно к двум разным доменам. Некоторые семейства, имеющие общее эволюционное происхождение и сохранившие сходство на уровне последовательностей или структур, объединены в кланы.

Pfam-AПравить

Pfam-A содержит семейства, которые курируются вручную. Для формирования каждого семейства Pfam-A строится исходное выравнивание (seed alignment) из его наиболее репрезентативных представителей. На его основе создается скрытая марковская модель (HMM), также именуемая профиль. Она состоит из состояний «сопоставление», «вставка» и «делеция» для каждой колонки множественного выравнивания с присвоенными эмиссионными вероятностями для всех аминокислот в первом из этих состояний[2]. Данные эмиссионные вероятности представлены для каждого семейства на его странице в виде sequence logo.

После этого осуществляется поиск с помощью полученной HMM по базе данных Pfamseq, соответствующей последнему релизу UniProtKB. Все последовательности, для которых рейтинг соответствия HMM превышает некоторый порог, вручную устанавливаемый для каждого семейства, включаются в полное выравнивание (full alignment). Если оказывается, что некоторые представители семейства не обнаруживаются при поиске с помощью HMM, исходное множественное выравнивание редактируется до достижения оптимального результата[2]. Полученные HMM сохраняются в базе данных Pfam и могут быть использованы для поиска доменов в новых белковых последовательностях через веб-интерфейс.

Описания семейств преимущественно содержатся в Wikipedia и открыты для публичного редактирования. Однако, необходимо заметить, что более четверти всех семейств не имеет функциональной аннотации, такие домены обозначаются как DUF[en] (англ. Domain of unknown function). Также для каждого семейства содержится информация о его представленности в различных таксонах, варианты доменной структуры содержащих его белков и филогенетическое дерево исходного выравнивания. В тех случаях, когда это возможно, присутствуют данные о белок-белковых взаимодействиях, полученные при помощи iPfam[8], и ссылки на трехмерные структуры в базе данных PDB.

Pfam-BПравить

В дополнение к курируемым вручную семействам, база данных Pfam также содержит семейства Pfam-B, генерируемые автоматически с использованием алгоритма кластеризации доменов ADDA.Они не имеют функциональной аннотации, и, как правило, имеют значительно худшее качество по сравнению с семействами Pfam-A. Некоторые из них представляют собой регионы низкой сложности и не отражают истинного родства белковых последовательностей, поэтому рекомендуется проверка гомологии представителей семейств Pfam-B с помощью других методов, например, BLAST. Начиная с Pfam 24.0, для 20000 крупнейших семейств Pfam-B построены HMM, и по ним возможно проводить поиск[9].

Поддержка Pfam-B закончилась после 27.0[10] выпуска база данных Pfam.

КланыПравить

Кланы — это объединения семейств белковых доменов, имеющих общее эволюционное происхождение. Для формирования кланов золотым стандартом служит сравнение трехмерных структур доменов, в их отсутствие также может использоваться заметное перекрытие профилей, сходство профилей (которое может быть определено с помощью алгоритма HHsearch[en]) или сходство результатов поиска по базе данных с использованием различных профилей (определяемое по методу SCOOP)[9]. Для кланов, также как и для семейств Pfam-A, предоставляется общее выравнивание всех его представителей, информация о распределении по таксонам, данные о белок-белковых взаимодействиях и ссылки на трехмерные структуры.

Классификация записейПравить

Запись Pfam — это набор сходных участков белковых последовательностей. Все записи относят к одному из шести типов[4]:

  1. Family (Семейство) — базовый тип, набор родственных (гомологичных) участков;
  2. Domain (Домен) — устойчивая структурная единица, или, по крайней мере, функциональный участок, встречающийся в различных белковых архитектурах;
  3. Repeat (Повтор) — короткий участок, который является неустойчивым в изоляции, но образует стабильную структуру, когда присутствуют несколько его копий;
  4. Motif (Мотив) — короткий консервативный участок вне глобулярных доменов;
  5. Coiled-Coil (Суперспиральный блок) — области, формирующие суперспирали, т.е. пучки из 2-7 скрученных альфа-спиралей;
  6. Disordered (Неструктурированный блок) — консервативные участки со смещенным аминокислотным составом, не формирующие устойчивой (глобулярной) структуры.

Зачастую термин family (семейство) используется, в том числе на сайте Pfam, вместо термина entry (запись), что создает значительную путаницу.

ВозможностиПравить

Сайт Pfam предоставляет интерактивный доступ к данным, а также возможность просматривать данные в графическом виде.

Окно «Jump to…», присутствующее на большинстве страниц Pfam, позволяет быстро провести поиск семейств или кланов по идентификатору (ID) или коду доступа (accession). В верхней части любой страницы Pfam имеется также окно поиска семейств по ключевому слову, «keyword search»[3].

Путём поиска последовательности белка по библиотеке HMM в Pfam можно выяснить его доменную архитектуру. Для многих известных белковых последовательностей она уже вычислена: чтобы просмотреть её, нужно ввести идентификатор или код доступа последовательности в окне вкладки «view a sequence» на главной странице сайта. Если же последовательность не распознается Pfam, можно воспользоваться страницей поиска, где нужно ввести аминокислотную или нуклеотидную последовательность[3].

Если требуется провести поиск большого количества последовательностей, на вкладке «Batch search» страницы поиска можно загрузить файл с последовательностями в формате FASTA, при этом в каждом файле должно быть не больше 5000 последовательностей. В этом случае пользователь получает результаты в течение 48 часов по e-mail адресу, который нужно также указать на странице поиска[11]. Также есть возможность провести поиск локально, с помощью скрипта «pfam_scan.pl». Для этого потребуется программное обеспечение HMMER3[en], библиотеки HMM и некоторые другие дополнительные файлы, которые можно найти на сайте Pfam[11].

В Pfam имеются вычисленные доменные архитектуры для протеомов базы Integr8[12]. Доступ к этим данным открыт в графе «Proteomes» на странице «Browse». Для представленных здесь организмов имеется информация о доменном составе и доменных архитектурах их белков.

Pfam также предоставляет возможность поиска белков по доменной архитектуре. Для этого на вкладке «Domain architecture» страницы поиска в специальном окне нужно выбрать домены, входящие или не входящие в целевой белок, а также можно использовать Java-апплет PfamAlyzer, обладающий более широкими возможностями[13].

ПримечанияПравить

ЛитератураПравить

  • Robert D. Finn, Alex Bateman, Jody Clements, Penelope Coggill, Ruth Y. Eberhardt, Sean R. Eddy, Andreas Heger, Kirstie Hetherington, Liisa Holm, Jaina Mistry, Erik L. L. Sonnhammer, John Tate, Marco Punta. Pfam: the protein families database // Nucleic Acids Research. — Oxford Journals, 2014. — № 42(Database issue). — P. D222–D230.
  • Marco Punta, Penny C. Coggill, Ruth Y. Eberhardt, Jaina Mistry, John Tate, Chris Boursnell, Ningze Pang, Kristoffer Forslund, Goran Ceric, Jody Clements,Andreas Heger, Liisa Holm, Erik L. L. Sonnhammer, Sean R. Eddy, Alex Bateman, Robert D. Finn. The Pfam protein families database // Nucleic Acids Research. — Oxford Journals, 2012. — № 40(Database issue). — P. D290–D301.