Využitie metód strojového učenia pri analýze mnohorozmerných omických dát v predikcii kardiovaskulárnych ochorení

Primary tabs

Využitie metód strojového učenia pri analýze mnohorozmerných omických dát v predikcii kardiovaskulárnych ochorení

Martina Velísková1 , Patrick Mydla1 , Natália Andelová2 , Miroslav Ferko2 , Milan Zvarík1
1 Katedra jadrovej fyziky a biofyziky, Fakulta matematiky, fyziky a informatiky, Univerzita Komenského v Bratislave
2 Centrum experimentálnej medicíny SAV, v.v.i., Bratislava
veliskova2@uniba.sk
Vývoj moderných vysokovýkonných omických metód je spojený s potrebou dostatočne výkonných výpočtových nástrojov, ktoré by umožnili extrahovať cenné informácie ukryté v získaných údajoch. Heterogénna a vysokorozmerná povaha omických údajov však túto úlohu nezľahčuje a predstavuje tak rôzne výzvy pri ich analýze a získavaní takých výstupov, ktoré by ponúkali pohľad na procesy prebiehajúce v biologických systémoch. Pri spracovaní údajov rôznych zdrojov omiky, ako je genomika, proteomika či metabolomika, sa využívajú rôzne výpočtové prístupy ako dolovanie údajov (data mining), strojové učenie (machine learning), hlboké učenie (deep learning) alebo štatistické metódy.

V tomto príspevku ponúkame prehľad najmodernejších metód strojového učenia, ktoré v našom tíme využívame na analýzu mnohorozmerných dát zameranú na predikciu ochorenia, analýzu prežitia alebo identifikáciu biomarkerov.  V príspevku vymedzujeme postavenie strojového učenia v rámci umelej inteligencie a uvádzame základné rozdelenie algoritmov na učenie s učiteľom (supervised) a bez učiteľa (unsupervised). Následne stručne popisujeme vybrané metódy ML ako analýza hlavných zložiek (PCA), lineárna diskriminačná analýza (LDA), čiastočná diskriminačná analýza najmenších štvorcov (PLS-DA), metóda podporných vektorov (SVM), logistická regresia a neurónové siete. Spomenieme ich výhody a nevýhody  oproti iným metódam, a uvedieme príklady využitia strojového učenia spolu s interpretáciou výsledkov v konkrétnych štúdiách zaoberajúcich sa predikciami kardiovaskulárnych ochorení. Cieľom príspevku je zvýšiť informovanosť výskumníkov z oblasti živých vied o možnostiach moderných techník strojového učenia, ktoré poskytujú pohľad na hlboké pochopenie biologických systémov počas fyziologického stavu organizmu, ako aj v prítomnosti choroby.

Thanks: 

Táto práca bola podporená grantami APVV-22-0264 a VEGA 2/0016/23.