Koneoppimista hyödyntävä menetelmä antaa uutta tietoa pienten molekyylien rakenteesta. Sitä voidaan jatkossa soveltaa esimerkiksi lääketieteessä sekä huume- ja dopingvalvonnassa. Maailman tarkimpiin kuuluva koneoppimismalli perustuu avoimeen lähdekoodiin.
Ihmiskehossa on tuhansia metaboliiteiksi kutsuttuja pieniä molekyylejä, jotka kuljettavat energiaa ja solujen välittämää informaatiota. Metaboliitteja tutkitaan esimerkiksi verinäytteistä, mutta niitä on erittäin vaikeaa erottaa luotettavasti toisistaan niiden äärimmäisen pienen koon vuoksi. Esimerkiksi glukoosin läpimitta on noin nanometri, kun ihmishiuksen läpimitta on noin 100 000 nanometriä.
”Nykymenetelmät pystyvät parhaimmillaan tunnistamaan vain noin 40 prosenttia näytteen metaboliiteista”, sanoo Aalto-yliopiston tietotekniikan professori Juho Rousu. Rousun tutkimusryhmä on kehittänyt maailman johtavia laskennallisia ja koneoppimista hyödyntäviä pienien molekyylien tunnistusmenetelmiä jo vuosia.
Nyt ryhmä on kehittänyt uuden erittäin tarkan koneoppimismallin metaboliittien tunnistamiseen. Tutkimus julkaistiin joulukuun 2022 lopulla arvostetussa Nature Machine Intelligence -julkaisussa.
Metaboliittien tarkempi tunnistaminen voi auttaa tutkijoita ja lääkäreitä ymmärtämään esimerkiksi ruokavalion, liikunnan ja alkoholinkäytön vaikutuksia terveyteen sekä aineenvaihdunnan sairauksia.
Avoimen lähdekoodin menetelmä on kaikkien saatavilla
Rousun ryhmän malli auttaa ymmärtämään sairauksien syntyyn vaikuttavia solunsisäisiä prosesseja sekä tunnistamaan kiellettyjä aineita esimerkiksi huume- tai dopingnäytteestä.
”Tutkimuksemme tarjoaa alan tutkijoille yhden maailman tarkimmista pienien molekyylien tunnistamismenetelmistä. Avoimen lähdekoodin menetelmä voi auttaa tunnistamaan aineenvaihdunnan häiriöitä, jotka ovat monien sairauksien, kuten sydän ja verisuonitautien ja aikuistyypin diabeteksen taustalla”, Rousu kertoo.
”Opetimme mallimme kaikella saatavilla olevalla metaboliittidatalla.”
Metaboliittien tunnistamiseen käytetään erityisen tarkkoja mittauslaitteita. Yleisin tunnistustapa perustuu metaboliittien massan sekä poistumisajan analyysiin.
Pienet mutta merkitsevät erot laboratorioiden mittausmenetelmissä ovat estäneet mittausdatan laajamittaisen hyödyntämisen koneoppimismalleissa.
Rousun tutkimusryhmän väitöskirjatutkija Eric Bach keksi tavan, jolla pullonkaula voidaan ohittaa.
”Pienten molekyylien poistumisajat vaihtelevat eri laboratorioiden välillä, mutta niiden poistumisjärjestys on vakio laboratoriosta riippumatta. Osoitimme, että tätä ominaisuutta voidaan hyödyntää koneoppimismallin opettamisessa”, kertoo Bach.
Tutkimusryhmä pystyi näin ensimmäistä kertaa yhdistämään kymmenien laboratorioiden mittausdatan, mikä mahdollisti ennenäkemättömän datamäärän hyödyntämisen.
”Opetimme koneoppimismallimme kaikella saatavilla olevalla metaboliittidatalla. Lopputuloksena on avoimeen lähdekoodiin perustuva ja maailmaan tarkimpiin kuuluva koneoppimismalli metaboliittien tunnistamiseen”, Bach kertoo.
”Stereokemiallisen erottelun löydökset ovat käänteentekeviä”
Rousun ryhmä on onnistunut jopa metaboliittien stereokemiallisessa eli 3D-rakenteen erottelussa, mikä ei ole ennen ollut mahdollista.
”Stereokemiallisen erottelun löydökset ovat käänteentekeviä tieteilijöille, jotka ovat vuosia keskittyneet pelkkään 2D-dataan. Tämä vie koko alaa eteenpäin”, sanoo Emma Schymanski, apulaisprofessori Luxemburgin yliopistosta.
”Menetelmän sovellusalat eivät rajoitu pelkästään lääketieteeseen. Sitä voi myös käyttää erittäin pienikokoisten haitta-aineiden tunnistamiseen luonnossa tai sen avulla voidaan löytää kasvisoluista uusia molekyylejä lääkkeiden valmistukseen”, kertoo Schymanski.
Lähde: STT-Info