醫(yī)藥投資:Watson雖陷“泥潭”,IBM再開(kāi)源3個(gè)癌癥AI項(xiàng)目,推動(dòng)癌癥領(lǐng)域研究

癌癥是全球第二大死亡原因, 2018年估計(jì)有1,810萬(wàn)新病例以及960萬(wàn)人死于癌癥。學(xué)術(shù)界和工業(yè)界也不斷致力于尋找更有效的抗癌藥物。IBM位于蘇黎世的研究團(tuán)隊(duì)正在構(gòu)建一些人工智能機(jī)器學(xué)習(xí)的方法,加速人們對(duì)復(fù)雜疾病的主要驅(qū)動(dòng)因素、分子機(jī)制以及腫瘤組成的差異等幾方面的理解。


1566271256(1).jpg

圖片來(lái)源:Pixabay


為了推動(dòng)新療法的研究進(jìn)展,幫助人類(lèi)更快地攻克癌癥。IBM在不久前開(kāi)源了3個(gè)治療癌癥的人工智能項(xiàng)目。同時(shí)IBM也在第18屆歐洲計(jì)算生物學(xué)大會(huì)(ECCB)和第27屆分子生物學(xué)智能系統(tǒng)大會(huì)(ISMB)上,對(duì)這三種旨在加速癌癥研究的機(jī)器學(xué)習(xí)解決方案做了發(fā)布。下面是對(duì)這些方案的簡(jiǎn)要討論。


1. 關(guān)于深度學(xué)習(xí)預(yù)測(cè)和解釋藥物功效的 PaccMann
研發(fā)任何一種抗癌藥物都需要投入數(shù)億美元,若提高藥物研發(fā)的效率則可以一定程度降低研發(fā)的成本。PaccMann 算法可以自動(dòng)分析化合物,并預(yù)測(cè)哪些化合物最有可能對(duì)抗癌癥菌株。

算法基于神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)抗癌化合物敏感性,這是一種多模態(tài)深度學(xué)習(xí)解決方案,使不同來(lái)源的數(shù)據(jù)能幫助預(yù)測(cè)病變組織中的細(xì)胞對(duì)給定藥物的反應(yīng)。同時(shí)AI在執(zhí)行預(yù)測(cè)時(shí),還能標(biāo)出哪些特定基因和化合物分子結(jié)構(gòu)最受科學(xué)家關(guān)注。經(jīng)過(guò)多次實(shí)驗(yàn)表明,與現(xiàn)有的化合物篩選預(yù)測(cè)算法相比,PaccMann 更為智能。該領(lǐng)域的研究人員則可以使用 PaccMann 的這些信息作為指導(dǎo),幫助他們改進(jìn)或重新利用現(xiàn)有藥物,開(kāi)發(fā)新藥物。


2. 能從科學(xué)論文中自動(dòng)提取知識(shí)的 INtERAcT


INtERAcT 采用無(wú)監(jiān)督學(xué)習(xí)(unsupervised learning)的方式,能從科學(xué)論文中提取蛋白質(zhì)與蛋白質(zhì)相互作用的信息。特別值得關(guān)注的是,它可以從與癌癥有關(guān)的、有價(jià)值的科學(xué)文獻(xiàn)中自動(dòng)提取數(shù)據(jù)。


通常,一些生物醫(yī)藥領(lǐng)域研究成果、論文都會(huì)被刊登在權(quán)威雜志上,這些雜志期刊是科學(xué)家們閱讀科學(xué)成果的唯一途徑。最近,有一篇論文數(shù)據(jù)表明,僅在癌癥研究領(lǐng)域,平均每年就有大約1.7萬(wàn)篇科學(xué)論文發(fā)表,而且論文數(shù)量還在呈指數(shù)級(jí)增長(zhǎng)。面對(duì)如此大量的論文數(shù)量,從事癌癥領(lǐng)域相關(guān)研究的科學(xué)家們無(wú)法對(duì)其進(jìn)行一一閱讀,INtERAcT系統(tǒng)的誕生則旨在通過(guò)AI技術(shù)從海量論文中,幫助科學(xué)家快速提取有效信息,在學(xué)術(shù)方面減輕他們的負(fù)擔(dān)。


1566271283(1).jpg

圖片來(lái)源:Pixabay


INtERAcT 利用詞嵌入的概念處理大量科學(xué)論文的文本,并定義了一個(gè)新的度量標(biāo)準(zhǔn)來(lái)量化蛋白質(zhì)之間的相互作用。對(duì)于從事生物醫(yī)學(xué)領(lǐng)域相關(guān)工作的人們來(lái)說(shuō),全面了解蛋白質(zhì)相互作用是基礎(chǔ),同時(shí)變異的蛋白質(zhì)也被認(rèn)為是導(dǎo)致細(xì)胞癌變的一個(gè)潛在因素。所以一旦 INtERAcT 能自主提取與蛋白質(zhì)相互作用有關(guān)的詳細(xì)數(shù)據(jù),科學(xué)家們就能在短時(shí)間內(nèi)獲取到有用信息,并且進(jìn)一步了解關(guān)于癌癥的疾病機(jī)制。


3. 利用分子數(shù)據(jù)進(jìn)行病情預(yù)測(cè)的算法 PIMKL


PIMKL,使用多核學(xué)習(xí)(multi-kernel learning),利用目前在分子相互作用方面已知的數(shù)據(jù)集,來(lái)預(yù)測(cè)患癌者的病情發(fā)展和患者的潛在復(fù)發(fā)情況?;趶牟±斫M織中獲得的分子生物信息不僅能預(yù)測(cè)疾病進(jìn)展,還能相應(yīng)地對(duì)患者進(jìn)行分類(lèi),從而使醫(yī)生能為不同病患提供更具針對(duì)性的、個(gè)性化的治療方案。


為了證明該算法的有效性,IBM研究團(tuán)隊(duì)進(jìn)行了一次實(shí)驗(yàn),他們使用PIMKL預(yù)測(cè)了乳腺癌患者在術(shù)后5年是否會(huì)再次復(fù)發(fā)疾病。此外,為了實(shí)驗(yàn)數(shù)據(jù)的可靠性,研究團(tuán)隊(duì)將PIMKL算法能力與現(xiàn)有的、應(yīng)用于乳腺癌預(yù)測(cè)的另外14種AI算法進(jìn)行多次比較。經(jīng)實(shí)驗(yàn)結(jié)果表明,PIMKL表現(xiàn)優(yōu)于同類(lèi)算法。


1566271312(1).jpg

圖片來(lái)源:Pixabay


這三種算法展現(xiàn)了機(jī)器學(xué)習(xí)對(duì)癌癥等復(fù)雜疾病以及生物醫(yī)學(xué)研究的推動(dòng)作用。對(duì)于這些癌癥的解決方案,IBM表示,他們會(huì)不斷對(duì)其進(jìn)行優(yōu)化改進(jìn)。此次,IBM開(kāi)源這三個(gè)人工智能在癌癥領(lǐng)域的研究項(xiàng)目,是希望能最大限度地發(fā)揮AI在生物醫(yī)學(xué)界的積極影響。