Оригинальный подход к выявлению геномных локусов, ассоциированных с полигенными заболеваниями, основанный на использовании методов случайного леса и ресемплинга
https://doi.org/10.25557/2073-7998.2025.10.135-138
Аннотация
Для выявления геномных локусов, связанных с полигенными заболеваниями, альтернативой традиционным полногеномным ассоциативным исследованиям является машинное обучение с ранжированием признаков по важности вклада в прогнозную модель. Чтобы это реализовать, нужно решить проблему дисбаланса классов, обусловленную разницей размеров выборок больных и контроля, и научиться отбирать признаки по важности вклада − метрике, которая в отличие от p-значений, не имеет порога. В работе представлен биоинформатический подход, решающий обе задачи одновременно. Он основан на обучении алгоритма случайного леса на рандомизированных выборках больных и контроля схожего размера с ранжированием признаков по уменьшению важности вклада и отбором по частоте встречаемости среди топовых значений, а также стабильности важности вклада. Подход апробирован на симулированных генотип-фенотипических данных, содержащих однонуклеотидные полиморфизмы. Использовали два набора искусственных данных. В одном случае они включали локусы, ассоциированные с полигенным заболеванием, а в другом такие локусы не назначались.
Ключевые слова
Об авторах
Г. В. ХворыхРоссия
123182, Москва, пл. Академика Курчатова, д. 2
Н. А. Сапожников
Россия
123182, Москва, пл. Академика Курчатова, д. 2
С. А. Лимборская
Россия
123182, Москва, пл. Академика Курчатова, д. 2
115522, Москва, ул. Москворечье, д. 1
А. В. Хрунин
Россия
123182, Москва, пл. Академика Курчатова, д. 2
Список литературы
1. Khvorykh G., Belousov M., Limborska S. et al. The performance of machine learning approach in genome-wide association study of disease. The Proceedings of 14th International Conference on Bioinformatics of Genome Regulation and Structure/Systems Biology (BGRS/ SB-2024), Novosibirsk, Russia, August 5-10, 2024:846-848. doi: 10.18699/bgrs2024-4.3-08
2. Nikolić S., Ignatov D.I., Khvorykh G.V. et al. Genome-wide association studies of ischemic stroke based on interpretable machine learning. PeerJ Computer Science. 2024;10:e2454. doi: 10.7717/peerj-cs.2454
3. Purcell S., Neale B., Todd-Brown K. et al. PLINK: a toolset for whole-genome association and population-based linkage analysis. Am J Hum Genet. 2007;81(3):559-75. doi: 10.1086/519795
4. Bonett D.G., Seier E. Confidence Interval for a Coefficient of Dispersion in Nonnormal Distributions. Biometrical Journal. 2006;48(1):144-148. doi: 10.1002/bimj.200410148
Рецензия
Для цитирования:
Хворых Г.В., Сапожников Н.А., Лимборская С.А., Хрунин А.В. Оригинальный подход к выявлению геномных локусов, ассоциированных с полигенными заболеваниями, основанный на использовании методов случайного леса и ресемплинга. Медицинская генетика. 2025;24(10):135-138. https://doi.org/10.25557/2073-7998.2025.10.135-138
For citation:
Khvorykh G.V., Sapozhnikov N.A., Limborska S.A., Khrunin A.V. An Original Approach to Identifying Genomic Loci Associated with Polygenic Diseases Based on Random Forest and Resampling. Medical Genetics. 2025;24(10):135-138. (In Russ.) https://doi.org/10.25557/2073-7998.2025.10.135-138






















