Анализ обогащения по функциональной принадлежности

Ана́лиз обогащéния по функциона́льной принадлéжности[1] (англ. gene set enrichment analysis, GSEA [2]) — совокупность методов для ассоциации набора генов с изменением фенотипа[2]. Для формализации существующих данных о фенотипе такие методы часто используют базы данных предварительно аннотированных наборов генов (например, термины проекта Gene ontology (GO): молекулярные функции, биологические процессы или клеточные компоненты[3]). Результатом применения метода (выдачей программы) в этом случае является множество преаннотированных наборов, частота встречаемости которых во входном наборе статистически значимо отличается от фоновой (например, частоты во всём геноме или в другом наборе генов). Такие преаннотированные наборы называют перепредставленными (если частота выше фоновой) или недопредставленными (если частота ниже фоновой).

Важным нововведением GSEA по сравнению с более ранними методами анализа является возможность анализировать данные не только по отдельным генам независимо, но и учитывать функциональные связи генов между собой. В некоторых случаях, например при слабом изменении индивидуальной экспрессии отдельных генов, применение GSEA приводит к повышению чувствительности метода и получению более полной картины дифференциальной экспрессии[4].

Данный подход был разработан в 2002-2003 годах независимо несколькими группами ученых и получил широкое распространение. Тогда же были предложены[5] первые программы для его реализации[6][7][8][9][10][11].

Отметим, что термин GSEA употребляется в нескольких значениях: как название широкого класса методов, обсуждаемого в данной статье[2], как название более узкого класса методов[2], как название отдельной программы[4].

Предыстория править

С появлением проекта «Геном человека» возникла проблема, как интерпретировать и анализировать большой объём новой информации старыми методами. В связи с возникновением методов анализа экспрессии генов, изменяющуюся в ткани у людей с заболеваниями. Данные микрочипов использовались для классификации тканей по молекулярным характеристикам и для создания гипотез о механизмах заболевания, например, в изучении рака, где часто наблюдались большие изменения в экспрессии отдельных генов[12]. Однако, когда изменения в экспрессии генов не сильно выражены, большое количество проверенных генов, высокая вариабельность между отдельными лицами и ограниченные размеры выборки, характерные для исследований человека, затрудняют отделение истинных различий от шума. Множество генов могут участвовать в одном метаболическом пути, и поэтому суммарное изменение экспрессии внутри группы генов приводит к разнице в фенотипическом выражении. Анализ представленности функциональных групп генов фокусируется на изменениях экспрессии в группах генов, таким образом, этот метод позволяет решить проблему поиска небольших изменений экспрессии отдельных генов[8].

Подходы править

Для формализации и решения задачи GSEA используются методы математической статистики: оценивается значимость некоторой cтатистики, рассчитанной для каждой предварительно аннотированной группы[13].

Обобщённый алгоритм GSEA править

 
Схема обобщенного алгоритма GSEA[13]

Обобщённый алгоритм GSEA включает следующие этапы[13]:

  1. Вычисление статистики предварительно аннотированных групп генов — используется один из двух путей:
    • Глобальный тест — построение статистики по входному набору непосредственно для каждой предварительно аннотированной группы, например, на основе теста Хотеллингаruen или ANCOVAruen
    • Объединение статистик генов — построение статистики для отдельных генов, на основе которой строится статистика групп. Тогда последовательно определяются:
      1. Статистика генов — в зависимости от типа исходных данных возможен выбор разных статистик для генов, например, отношение сигнал/шум в эксперименте или отношение правдоподобияruen, полученное из предварительной обработки
      2. Трансформация статистики генов — статистика генов может быть трансформирована: так, может быть выполнена ранговая трансформация статистики или в зависимости от значения статистики отобрано некоторое подмножество всех генов для дальнейшего анализа
      3. Статистика набора генов — статистики генов, полученные выше, комбинируются для построения статистики предварительно аннотированных наборов генов: например, статистика группы определяется как среднее значение статистики генов, которые в неё входят
  2. Оценка значимости — формулирование для построенной статистики основной и альтернативной гипотез, оценка значимости статистик. Поскольку таким образом тестируется большое число гипотез (о пере-/недопредставленности каждой предварительно аннотированной группы генов), оценка значимости часто включает поправку на множественное тестирование.

Классификация методов править

С точки зрения обобщенного алгоритма, рассмотренного выше, отличие между методами GSEA состоит в последовательности процедур, используемых на разных этапах. Авторы обобщенного алгоритма сравнили 261 комбинацию процедур[13]; авторы обзора 2008 года[14] описывают 68 отдельных программ, реализующих эти методы. В этом обзоре предлагается классификация методов на три основных категории: анализ уникального обогащения (SEA), анализ обогащения набора генов (GSEA — в узком смысле) и анализ модульного обогащения (MEA), при этом некоторые программы относятся к нескольким классам. Отметим, что не существует общепринятой формальной постановки задачи GSEA (в широком смысле), что затрудняет оценку результатов и сравнение методов[2].

Анализ уникального обогащения править

Анализ уникального обогащения (англ. singular enrichment analysis) — методы, которые получают на вход кандидатные гены — гены, относящиеся к некоторой подвыборке генов, которая интересует исследователей (например, гены, достоверно изменившие экспрессию (статистика гена) на заданном уровне значимости), а уже затем для этих генов определяется перепредставленность функциональных групп. Таким образом, эти методы предоставляют исследователю возможность выбрать статистику генов и провести трансформацию — выбрать гены в зависимости от значения статистики, затем строится статистика предварительно аннотированного набора на основе количества генов набора среди кандидатных генов. В качестве статистических моделей используются гипергеометрическое распределение, биномиальное распределение (используется для больших выборок), χ², точный тест Фишера. В большинстве случаев различия между статистическими моделями незначительны[15].

Это простой и эффективный метод, но результат зависит от параметров критерия выбора кандидатных генов. Кроме того, из-за огромного количества генов (типичный результат эксперимента — несколько десятков тысяч профилей экспрессии[9]) взаимосвязи между предварительно аннотированными группами могут теряться[14].

Программы, основанные на этом методе: GoStat, GoMiner, GOTM, BinGO, GOtoolBox, GFinder, Onto-Express, GARBAN, FatiGO, BayGO[14].

Анализ обогащения набора генов править

Анализ обогащения набора генов (англ. gene set enrichment analysis) — альтернативные подходы, включающие ранжирование (трансформацию) всех генов в соответствии со степенью проявления признака (статистика гена), по которому происходит анализ. В этом случае рассматривается все множество генов, а не только самые значимые гены. Используются такие статистики групп, как статистика Колмогорова, t-статистика Стьюдента, U-статистика Манна-Уитни, медиана рангов группы[2].

Главное преимущество — этот метод использует всю информацию, полученную из экспериментов. Однако в качестве входной информации он требует определения функциональной группы для каждого гена, что часто бывает сложной задачей. Предположение, лежащее в основе метода, что гены с противоположных концов списка вносят больший вклад в биологическую функцию, не всегда верно, регуляторные белки часто изменяют свою экспрессию незначительно, но это приводит к большим последствиям[14].

Программы, основанные на этом методе: GSEA (название программы), CapMap, FatiScan, ADGO, ermineJ, PAGE, iGA, GO-Mapper, GOdist, FINA, T-profiler, MetaGP[14].

Анализ модульного обогащения править

Анализ модульного обогащения (англ. modular enrichment analysis) — методы, которые принимают на вход, как и анализ уникального обогащения, список кандидатных генов, но, в отличие от него, при оценке значимости перепредставленности (то есть на этапах определения статистики набора генов и оценки значимости) рассматривает взаимосвязь терминов GO. Для этого используется, например, статистика Каппаruen. Таким образом может быть описана функция входного набора генов, не соответствующая отдельному термину. Ограничением метода является то, что гены без сильных отношений с соседями будут исключены из анализа[14].

Программы, основанные на этом методе: ADGO, GeneCodis, ProfCom, topGO, Ontologizer, POSOC, DAVID, GoToolBox[14].

Области применения править

Эти методы используют для анализа результатов экспериментов, которые представляют собой некоторый список генов, отличный от всей выборки генов. Например, анализ обогащения по функциональной принадлежности часто используют для генов, дифференциально экспрессирующихся в разных условиях, в этом случае задача состоит в том, чтобы извлечь из профилей экспрессии[en] информацию о каких-либо биологических механизмах.

Важной областью применения данного метода является[3] полногеномный поиск ассоциаций — сравнение больного и здорового генотипов в попытке найти однонуклеотидные полиморфизмы (SNP), которые перепредставлены в геноме больного и могут быть ассоциированы с данным состоянием. Данное применение анализа представленности функциональных групп генов не только помогает в открытии SNP, ассоциированных с заболеваниями, но и помогает осветить соответствующие пути и механизмы заболеваний[16]. Например, GSEA использовался для изучения таких заболеваний, как самопроизвольные преждевременные роды[17], рак почки[18], депрессия[19], неоспороз[20], шизофрения[21], и многих других.

Примечания править

  1. Sun G. P., Jiang T., Xie P. F., Lan J., Sun G. P., Jiang T., Xie P. F., Lan J. Идентификация генов, ассоциированных с периодонтитом, при помощи сетей коэкспрессии // Молекулярная биология. — 2016. — Т. 50, № 1. — С. 143—150. — ISSN 0026-8984. — doi:10.7868/S0026898416010195. [исправить]
  2. 1 2 3 4 5 6 Hung J.-H., Yang T.-H., Hu Z., Weng Z., DeLisi C. Gene set enrichment analysis: performance evaluation and usage guidelines (англ.) // Briefings in Bioinformatics. — 2011. — 7 September (vol. 13, no. 3). — P. 281—291. — ISSN 1467-5463. — doi:10.1093/bib/bbr049. [исправить]
  3. 1 2 Mooney Michael A., Wilmot Beth. Gene set analysis: A step-by-step guide (англ.) // American Journal of Medical Genetics Part B: Neuropsychiatric Genetics. — 2015. — 8 June (vol. 168, no. 7). — P. 517—527. — ISSN 1552-4841. — doi:10.1002/ajmg.b.32328. [исправить]
  4. 1 2 Subramanian A., Tamayo P., Mootha V. K., Mukherjee S., Ebert B. L., Gillette M. A., Paulovich A., Pomeroy S. L., Golub T. R., Lander E. S., Mesirov J. P. Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles (англ.) // Proceedings of the National Academy of Sciences. — 2005. — 30 September (vol. 102, no. 43). — P. 15545—15550. — ISSN 0027-8424. — doi:10.1073/pnas.0506580102. [исправить]
  5. Rhodes Daniel R, Chinnaiyan Arul M. Integrative analysis of the cancer transcriptome (англ.) // Nature Genetics. — 2005. — June (vol. 37, no. S6). — P. S31—S37. — ISSN 1061-4036. — doi:10.1038/ng1570. [исправить]
  6. Doniger Scott W, Salomonis Nathan, Dahlquist Kam D, Vranizan Karen, Lawlor Steven C, Conklin Bruce R. [1] (англ.) // Genome Biology. — 2003. — Vol. 4, no. 1. — P. R7. — ISSN 1465-6906. — doi:10.1186/gb-2003-4-1-r7. [исправить]
  7. Zeeberg Barry R, Feng Weimin, Wang Geoffrey, Wang May D, Fojo Anthony T, Sunshine Margot, Narasimhan Sudarshan, Kane David W, Reinhold William C, Lababidi Samir, Bussey Kimberly J, Riss Joseph, Barrett J, Weinstein John N. [2] (англ.) // Genome Biology. — 2003. — Vol. 4, no. 4. — P. R28. — ISSN 1465-6906. — doi:10.1186/gb-2003-4-4-r28. [исправить]
  8. 1 2 Mootha Vamsi K, Lindgren Cecilia M, Eriksson Karl-Fredrik, Subramanian Aravind, Sihag Smita, Lehar Joseph, Puigserver Pere, Carlsson Emma, Ridderstråle Martin, Laurila Esa, Houstis Nicholas, Daly Mark J, Patterson Nick, Mesirov Jill P, Golub Todd R, Tamayo Pablo, Spiegelman Bruce, Lander Eric S, Hirschhorn Joel N, Altshuler David, Groop Leif C. PGC-1α-responsive genes involved in oxidative phosphorylation are coordinately downregulated in human diabetes (англ.) // Nature Genetics. — 2003. — 15 June (vol. 34, no. 3). — P. 267—273. — ISSN 1061-4036. — doi:10.1038/ng1180. [исправить]
  9. 1 2 Draghici S. Onto-Tools, the toolkit of the modern biologist: Onto-Express, Onto-Compare, Onto-Design and Onto-Translate (англ.) // Nucleic Acids Research. — 2003. — 1 July (vol. 31, no. 13). — P. 3775—3781. — ISSN 1362-4962. — doi:10.1093/nar/gkg624. [исправить]
  10. Al-Shahrour F., Diaz-Uriarte R., Dopazo J. FatiGO: a web tool for finding significant associations of Gene Ontology terms with groups of genes (англ.) // Bioinformatics. — 2004. — 22 January (vol. 20, no. 4). — P. 578—580. — ISSN 1367-4803. — doi:10.1093/bioinformatics/btg455. [исправить]
  11. Volinia S., Evangelisti R., Francioso F., Arcelli D., Carella M., Gasparini P. GOAL: automated Gene Ontology analysis of expression profiles (англ.) // Nucleic Acids Research. — 2004. — 1 July (vol. 32, no. Web Server). — P. W492—W499. — ISSN 0305-1048. — doi:10.1093/nar/gkh443. [исправить]
  12. Golub T. R. Molecular Classification of Cancer: Class Discovery and Class Prediction by Gene Expression Monitoring (англ.) // Science. — 1999. — 15 October (vol. 286, no. 5439). — P. 531—537. — ISSN 0036-8075. — doi:10.1126/science.286.5439.531. [исправить]
  13. 1 2 3 4 Ackermann Marit, Strimmer Korbinian. A general modular framework for gene set enrichment analysis (англ.) // BMC Bioinformatics. — 2009. — 3 February (vol. 10, no. 1). — ISSN 1471-2105. — doi:10.1186/1471-2105-10-47. [исправить]
  14. 1 2 3 4 5 6 7 Huang Da Wei, Sherman Brad T., Lempicki Richard A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists (англ.) // Nucleic Acids Research. — 2008. — 25 November (vol. 37, no. 1). — P. 1—13. — ISSN 1362-4962. — doi:10.1093/nar/gkn923. [исправить]
  15. Khatri P., Draghici S. Ontological analysis of gene expression data: current tools, limitations, and open problems (англ.) // Bioinformatics. — 2005. — 30 June (vol. 21, no. 18). — P. 3587—3595. — ISSN 1367-4803. — doi:10.1093/bioinformatics/bti565. [исправить]
  16. Holden Marit, Deng Shiwei, Wojnowski Leszek, Kulle Bettina. GSEA-SNP: applying gene set enrichment analysis to SNP data from genome-wide association studies (англ.) // Bioinformatics. — 2008. — 14 October (vol. 24, no. 23). — P. 2784—2785. — ISSN 1460-2059. — doi:10.1093/bioinformatics/btn516. [исправить]
  17. Manuck Tracy A., Watkins Scott, Esplin M. Sean, Parry Samuel, Zhang Heping, Huang Hao, Biggio Joseph R., Bukowski Radek, Saade George, Andrews William, Baldwin Don, Sadovsky Yoel, Reddy Uma, Ilekis John, Varner Michael W., Jorde Lynn B., Yandell Mark. 242: Gene set enrichment investigation of maternal exome variation in spontaneous preterm birth (SPTB) (англ.) // American Journal of Obstetrics and Gynecology. — 2016. — January (vol. 214, no. 1). — P. S142—S143. — ISSN 0002-9378. — doi:10.1016/j.ajog.2015.10.280. [исправить]
  18. Maruschke Matthias, Hakenberg Oliver W, Koczan Dirk, Zimmermann Wolfgang, Stief Christian G, Buchner Alexander. Expression profiling of metastatic renal cell carcinoma using gene set enrichment analysis (англ.) // International Journal of Urology. — 2013. — 2 May (vol. 21, no. 1). — P. 46—51. — ISSN 0919-8172. — doi:10.1111/iju.12183. [исправить]
  19. Elovainio Marko, Taipale Tuukka, Seppälä Ilkka, Mononen Nina, Raitoharju Emma, Jokela Markus, Pulkki-Råback Laura, Illig Thomas, Waldenberger Melanie, Hakulinen Christian, Hintsa Taina, Kivimäki Mika, Kähönen Mika, Keltikangas-Järvinen Liisa, Raitakari Olli, Lehtimäki Terho. Activated immune–inflammatory pathways are associated with long-standing depressive symptoms: Evidence from gene-set enrichment analyses in the Young Finns Study (англ.) // Journal of Psychiatric Research. — 2015. — December (vol. 71). — P. 120—125. — ISSN 0022-3956. — doi:10.1016/j.jpsychires.2015.09.017. [исправить]
  20. Nishimura Maki, Tanaka Sachi, Ihara Fumiaki, Muroi Yoshikage, Yamagishi Junya, Furuoka Hidefumi, Suzuki Yutaka, Nishikawa Yoshifumi. Transcriptome and Histopathological Changes in Mouse Brain Infected with Neospora caninum (англ.) // Scientific Reports. — 2015. — 21 January (vol. 5, no. 1). — ISSN 2045-2322. — doi:10.1038/srep07936. [исправить]
  21. Hass Johanna, Walton Esther, Wright Carrie, Beyer Andreas, Scholz Markus, Turner Jessica, Liu Jingyu, Smolka Michael N., Roessner Veit, Sponheim Scott R., Gollub Randy L., Calhoun Vince D., Ehrlich Stefan. Associations between DNA methylation and schizophrenia-related intermediate phenotypes — A gene set enrichment analysis (англ.) // Progress in Neuro-Psychopharmacology and Biological Psychiatry. — 2015. — June (vol. 59). — P. 31—39. — ISSN 0278-5846. — doi:10.1016/j.pnpbp.2015.01.006. [исправить]