

Прогнозирование патогенности миссенс-мутаций в гене TCF4
https://doi.org/10.25557/2073-7998.2024.12.16-21
Аннотация
Введение. Подавляющее большинство обнаруженных на данный момент миссенс-вариантов имеет неизвестное клиническое значение. В связи с этим классификация таких вариантов является актуальной проблемой медицинской генетики, поскольку невозможность установить клиническую значимость варианта затрудняет диагностику наследственных болезней, а также разработку или применение существующих терапевтических стратегий. В данной работе использован новый биоинформатический инструмент AlphaMissense для оценки эффективности классификации вариантов в гене TCF4.
Цель: прогнозирование патогенных эффектов всех возможных миссенс-вариантов в гене TCF4 с помощью инструмента AlphaMissense, основанного на машинном обучении, и оценка способности классификации вариантов данным инструментом с использованием ROC-анализа.
Методы. Для создания и анализа данных, рассматриваемых в работе, были использованы среда разработки Google Colab, язык программирования Python v3.10, библиотеки Biopython для работы с биологическими последовательностями, scikit-learn для проведения ROC-анализа. В качестве референса была использована последовательность гена TCF4 из геномной сборки версии GRCh38.p14 (транскрипт NM_001083962.2), содержащаяся в базе данных NCBI. Были созданы 1241319 вариантов однонуклеотидных полиморфизмов (SNP), из которых 6906 вариантов находятся в кодирующей последовательности, из них 3747 были определены, как миссенс-варианты. Аннотация полученных данных производилась по базам данных ClinVar и AlphaMissense с использованием инструмента OpenCRAVAT. Из всех обнаруженных миссенс-вариантов оценку AlphaMissense получили 979 варианта, из которых всего 101 вариант был указан в базе данных ClinVar.
Результаты. При сравнении показателей чувствительности (Se), специфичности (Sp), а также графиков ROC-кривых и значений показателей площади под кривой (AUC) явное отличие имеет оценка классификации SNP, как вероятно патогенных (AUC = 0,81, Se = 0,68, Sp = 0,78). Она может быть использована как дополнительный критерий при определении клинической значимости вариантов в диагностике синдрома Питта-Хопкинса. И напротив, классификация вариантов как вероятно доброкачественных или неопределенных не обладает достаточными чувствительностью и специфичностью, а показатели AUC характеризуют их как модели со средним качеством. Таким образом, варианты, вошедшие в эти группы, требуют дополнительной переоценки другими инструментами.
Заключение. Измеренные показатели показывают, что лучше всего инструмент AlphaMissense определяет вероятно патогенные варианты. Однако стоит с сомнением относиться к вариантам, определенным как вероятно доброкачественные или неопределенные и делать проверку с использованием других инструментов. Варианты, полученные в ходе искусственного мутагенеза и оцененные как вероятно патогенные, но не указанные в базах данных, могут быть полезны при определении ранее неизвестных вариантов в гене TCF4 и помочь в диагностике и разработке терапии ассоциированных заболеваний.
Об авторах
С. Н. ГосударкинаРоссия
634050, г. Томск, ул. Набережная реки Ушайки, д. 10
Р. Р. Савченко
Россия
634050, г. Томск, ул. Набережная реки Ушайки, д. 10
Н. А. Скрябин
Россия
634050, г. Томск, ул. Набережная реки Ушайки, д. 10
Список литературы
1. Cheng J., Novati G., Pan J., et al. Accurate proteome-wide missense variant effect prediction with AlphaMissense. Science. 2023;381(6664):eadg7492.
2. Teixeira J.R., Szeto R.A., Carvalho V.M.A. et al. Transcription factor 4 and its association with psychiatric disorders. Translational psychiatry. 2021.;11(1):19.
3. Stefansson H., Ophoff R.A., Steinberg S. et al. Common variants conferring risk of schizophrenia. Nature. 2009;460(7256):744–747.
4. Smoller J.W., Kendler K.K., Craddock N. et al.Identification of risk loci with shared effects on five major psychiatric disorders: a genome-wide analysis. Lancet. 2013;381(9875):1371–1379.
5. Wray N.R., Ripke S., Mattheisen M. et al. Genome-wide association analyses identify 44 risk variants and refine the genetic architecture of major depression. Nature genetics. 2018;50(5):668–681.
6. Cock P.J., Antao T., Chang J.T. et al. Biopython: freely available Python tools for computational molecular biology and bioinformatics. Bioinformatics. 2009;25(1422):3.
7. Sayers E.W., Bolton E.E., Brister J.R. et al. Database resources of the national center for biotechnology information. Nucleic Acids Res. 2022;50(D1):D20-D26.
8. Pagel K.A., Kim R., Moad K. et al. Integrated Informatics Analysis of Cancer-Related Variants. JCO Clin Cancer Inform. 2020;4:310-317.
9. Landrum M.J., Lee J.M., Riley G.R. et al. ClinVar: public archive of relationships among sequence variation and human phenotype. Nucleic Acids Res. 2014;42(D980):5.
10. Tunyasuvunakool K., Adler J., Wu Z. et al. Highly accurate protein structure prediction for the human proteome. Nature. 2021;596(7873):590-596.
11. Ljungdahl A., Kohani S., Page N.F. et al. AlphaMissense is better correlated with functional assays of missense impact than earlier prediction algorithms. bioRxiv [Preprint].2023.
12. Pedregosa F., Varoquaux G., Gramfor A. et al. Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research. 2011;12:2825–2830.
13. Sonego P., Kocsor A., Pongor S. ROC analysis: applications to the classification of biological sequences and 3D structures. Briefings in Bioinformatics. 2008;9(3):198–209.
14. Teixeira J.R., Szeto R.A., Carvalho V.M.A., Muotri A.R., Papes F. Transcription factor 4 and its association with psychiatric disorders. Transl Psychiatry. 2021;11(1):19.
Рецензия
Для цитирования:
Государкина С.Н., Савченко Р.Р., Скрябин Н.А. Прогнозирование патогенности миссенс-мутаций в гене TCF4. Медицинская генетика. 2024;23(12):16-21. https://doi.org/10.25557/2073-7998.2024.12.16-21
For citation:
Gosudarkina S.N., Savchenko R.R., Skryabin N.A. Predicting the pathogenicity of missense mutations in the TCF4 gene. Medical Genetics. 2024;23(12):16-21. (In Russ.) https://doi.org/10.25557/2073-7998.2024.12.16-21