Preview

Медицинская генетика

Расширенный поиск
Доступ открыт Открытый доступ  Доступ закрыт Только для подписчиков

Оригинальный подход к выявлению геномных локусов, ассоциированных с полигенными заболеваниями, основанный на использовании методов случайного леса и ресемплинга

https://doi.org/10.25557/2073-7998.2025.10.135-138

Аннотация

Для выявления геномных локусов, связанных с полигенными заболеваниями, альтернативой традиционным полногеномным ассоциативным исследованиям является машинное обучение с ранжированием признаков по важности вклада в прогнозную модель. Чтобы это реализовать, нужно решить проблему дисбаланса классов, обусловленную разницей размеров выборок больных и контроля, и научиться отбирать признаки по важности вклада − метрике, которая в отличие от p-значений, не имеет порога. В работе представлен биоинформатический подход, решающий обе задачи одновременно. Он основан на обучении алгоритма случайного леса на рандомизированных выборках больных и контроля схожего размера с ранжированием признаков по уменьшению важности вклада и отбором по частоте встречаемости среди топовых значений, а также стабильности важности вклада. Подход апробирован на симулированных генотип-фенотипических данных, содержащих однонуклеотидные полиморфизмы. Использовали два набора искусственных данных. В одном случае они включали локусы, ассоциированные с полигенным заболеванием, а в другом такие локусы не назначались.

Об авторах

Г. В. Хворых
ФГБУ Национальный исследовательский центр «Курчатовский институт»
Россия

123182, Москва, пл. Академика Курчатова, д. 2



Н. А. Сапожников
ФГБУ Национальный исследовательский центр «Курчатовский институт»
Россия

123182, Москва, пл. Академика Курчатова, д. 2



С. А. Лимборская
ФГБУ Национальный исследовательский центр «Курчатовский институт» ; ФГБНУ Медико-генетический научный центр имени академика Н.П. Бочкова
Россия

123182, Москва, пл. Академика Курчатова, д. 2

115522, Москва, ул. Москворечье, д. 1 



А. В. Хрунин
ФГБУ Национальный исследовательский центр «Курчатовский институт»
Россия

123182, Москва, пл. Академика Курчатова, д. 2



Список литературы

1. Khvorykh G., Belousov M., Limborska S. et al. The performance of machine learning approach in genome-wide association study of disease. The Proceedings of 14th International Conference on Bioinformatics of Genome Regulation and Structure/Systems Biology (BGRS/ SB-2024), Novosibirsk, Russia, August 5-10, 2024:846-848. doi: 10.18699/bgrs2024-4.3-08

2. Nikolić S., Ignatov D.I., Khvorykh G.V. et al. Genome-wide association studies of ischemic stroke based on interpretable machine learning. PeerJ Computer Science. 2024;10:e2454. doi: 10.7717/peerj-cs.2454

3. Purcell S., Neale B., Todd-Brown K. et al. PLINK: a toolset for whole-genome association and population-based linkage analysis. Am J Hum Genet. 2007;81(3):559-75. doi: 10.1086/519795

4. Bonett D.G., Seier E. Confidence Interval for a Coefficient of Dispersion in Nonnormal Distributions. Biometrical Journal. 2006;48(1):144-148. doi: 10.1002/bimj.200410148


Рецензия

Для цитирования:


Хворых Г.В., Сапожников Н.А., Лимборская С.А., Хрунин А.В. Оригинальный подход к выявлению геномных локусов, ассоциированных с полигенными заболеваниями, основанный на использовании методов случайного леса и ресемплинга. Медицинская генетика. 2025;24(10):135-138. https://doi.org/10.25557/2073-7998.2025.10.135-138

For citation:


Khvorykh G.V., Sapozhnikov N.A., Limborska S.A., Khrunin A.V. An Original Approach to Identifying Genomic Loci Associated with Polygenic Diseases Based on Random Forest and Resampling. Medical Genetics. 2025;24(10):135-138. (In Russ.) https://doi.org/10.25557/2073-7998.2025.10.135-138

Просмотров: 9


ISSN 2073-7998 (Print)