AI 在小分子藥物發(fā)現(xiàn)中的潛能與挑戰(zhàn)
- 來(lái)源:國(guó)際醫(yī)藥商情 smarty:if $article.tag?>
- 關(guān)鍵字:AI,藥物,挑戰(zhàn) smarty:/if?>
- 發(fā)布時(shí)間:2023-06-28 13:10
撰稿:John Xie
在4 月刊中,我們?cè)凇禖hatGPT 能給制藥業(yè)帶來(lái)革命嗎?》一文中,詳細(xì)討論了人工智能(AI)和深度學(xué)習(xí)在醫(yī)藥行業(yè)的潛在應(yīng)用,以及這些技術(shù)如何有可能引領(lǐng)藥物發(fā)現(xiàn)和開(kāi)發(fā)的新革命。我們強(qiáng)調(diào)了AI 的潛力,特別是在加速藥物發(fā)現(xiàn)、優(yōu)化藥物研發(fā)流程以及提高藥物的成功率等方面。盡管面臨數(shù)據(jù)質(zhì)量和數(shù)量的挑戰(zhàn),但AI 的應(yīng)用正在逐步成為醫(yī)藥行業(yè)的新趨勢(shì)。然而,這是一個(gè)正在發(fā)展的領(lǐng)域,需要進(jìn)一步的研究和探索。
延續(xù)這一主題,我們有幸采訪到了醫(yī)藥人工智能研究領(lǐng)域的專家,Verseon 公司生物發(fā)現(xiàn)部門主管Anirban Datta 博士。 Datta 在生物醫(yī)學(xué)研究和藥物發(fā)現(xiàn)方面有超過(guò)20 年的經(jīng)驗(yàn)。他是Verseon 的自動(dòng)化流程的推動(dòng)者,該流程用于化合物的生物特征分析,找出其獨(dú)特的特性,并構(gòu)建候選藥物的開(kāi)發(fā)途徑。
他領(lǐng)導(dǎo)了不同疾病領(lǐng)域的多個(gè)藥物發(fā)現(xiàn)項(xiàng)目,包括心臟代謝紊亂、眼科和腫瘤學(xué)。Datta 也是加州大學(xué)舊金山分校的科學(xué)家和 Susan B. Komen 乳腺癌基金會(huì)研究員,并獲得美國(guó)國(guó)防部頒發(fā)的肺癌和乳腺癌概念獎(jiǎng)。他的早期研究拓展成為一家癌癥診斷公司。他在芝加哥大學(xué)獲得物理學(xué)和生物學(xué)學(xué)士學(xué)位,在賓夕法尼亞大學(xué)獲得分子生物學(xué)博士學(xué)位。
Datta 在藥物發(fā)現(xiàn)和開(kāi)發(fā)中使用AI 的經(jīng)驗(yàn)和獨(dú)到見(jiàn)解,讓我們有機(jī)會(huì)深入理解AI 如何解決藥物發(fā)現(xiàn)中的復(fù)雜問(wèn)題,以及這個(gè)領(lǐng)域的未來(lái)發(fā)展趨勢(shì)。在本期的「會(huì)客室」中,Datta 向我們闡述了一些關(guān)鍵問(wèn)題,例如如何解決訓(xùn)練數(shù)據(jù)不足的問(wèn)題,以及如何使用遷移學(xué)習(xí)和弱監(jiān)督學(xué)習(xí)等方法進(jìn)行有效的訓(xùn)練。
他認(rèn)為,盡管當(dāng)前的挑戰(zhàn)很大,但AI 在藥物發(fā)現(xiàn)中的潛力是巨大的。他期待AI在未來(lái)能在更早的階段預(yù)測(cè)出潛在的藥物分子,大大加速藥物的研發(fā)進(jìn)程,同時(shí)也能降低研發(fā)成本。他的意見(jiàn)不僅擴(kuò)展了對(duì)AI 在醫(yī)藥行業(yè)應(yīng)用的理解,同時(shí)也為我們揭示了一些關(guān)鍵的行業(yè)趨勢(shì),這些趨勢(shì)可能會(huì)塑造未來(lái)的藥物發(fā)現(xiàn)和開(kāi)發(fā)流程,進(jìn)一步推動(dòng)醫(yī)藥行業(yè)的進(jìn)步。
Q:近年來(lái),人工智能在醫(yī)藥領(lǐng)域的應(yīng)用引起了廣泛的關(guān)注。在您看來(lái),AI 能否全面實(shí)現(xiàn)小分子藥物的發(fā)現(xiàn)?
Datta:這是一個(gè)很好的問(wèn)題,AI 已經(jīng)在各種現(xiàn)實(shí)世界的任務(wù)中展示了其能力,比如圖像和語(yǔ)音識(shí)別、手寫(xiě)分析等。在藥物發(fā)現(xiàn)中,我們面臨著非常大的挑戰(zhàn),這包括可靠預(yù)測(cè)新型小分子藥物,這些藥物需要能有效地與引發(fā)疾病的蛋白質(zhì)結(jié)合,并改變其功能。但是,AI 還不夠完美,2020 年,一位特斯拉車主發(fā)布了一段有趣的視頻,他的車把漢堡王的標(biāo)志誤認(rèn)為是停車標(biāo)志。這是一起深度學(xué)習(xí)高級(jí)機(jī)器學(xué)習(xí)算法出錯(cuò)的無(wú)害案例。雖然特斯拉汽車公司因在其汽車中應(yīng)用人工智能而聞名,但事實(shí)證明,這些人工智能算法遠(yuǎn)非完美。可悲的是,有更多基于人工智能的自動(dòng)駕駛軟件犯下嚴(yán)重錯(cuò)誤,可能導(dǎo)致傷害的危險(xiǎn)例子。例如有一輛特斯拉汽車的案例,它未能識(shí)別出在十字路口中間舉著停車牌的人,車載人工智能決定不停車。值得慶幸的是,人類司機(jī)進(jìn)行了干預(yù),避免了悲劇的發(fā)生。
現(xiàn)代藥物的研發(fā),仍然在高昂的成本和低下的效率之間掙扎。目前,一款典型藥物需要10到12年的時(shí)間來(lái)開(kāi)發(fā),在獲得批準(zhǔn)之前要花費(fèi)數(shù)十億美元,更不用說(shuō)大多數(shù)藥物在臨床試驗(yàn)中失敗。毋庸置疑,有很大的改善的空間。我們希望人工智能能夠解決現(xiàn)代藥物發(fā)現(xiàn)核心的一個(gè)最具挑戰(zhàn)性的問(wèn)題――可靠地預(yù)測(cè)新型小分子藥物,使其有效地與致病蛋白質(zhì)結(jié)合并改變其功能。
在過(guò)去的十年中,圍繞這一痛點(diǎn),許多公司相繼成立,承諾使用人工智能來(lái)徹底改變小分子藥物的發(fā)現(xiàn),私人與公共市場(chǎng)的投資者一直在向這些公司傾注資金。Exscientia 和Recursion Pharmaceuticals 目前在籌資方面處于領(lǐng)先地位,而其他公司如InSilico Medicine、InSitro、XTalPi、 Generate Biomedicines、Benevolent AI 和Atomwise也不甘落后。盡管現(xiàn)在有許多人工智能藥物發(fā)現(xiàn)公司都擁擠在這個(gè)領(lǐng)域,但投資者的興趣并沒(méi)有顯示出減弱的跡象,新的公司仍在成立和融資。
Q:我們已經(jīng)看到很多公司聲稱他們將使用AI 來(lái)革新小分子藥物的發(fā)現(xiàn),他們的進(jìn)展如何?
Datta:理想的情況是,AI 能夠可靠預(yù)測(cè)出可以上市的新型小分子藥物。但是從以往應(yīng)用新技術(shù)進(jìn)行藥物發(fā)現(xiàn)的熱潮來(lái)看,這些公司可能無(wú)法完全實(shí)現(xiàn)這樣的目標(biāo)。然而,基于機(jī)器學(xué)習(xí)的過(guò)去和未來(lái)趨勢(shì),以及藥物設(shè)計(jì)的獨(dú)特挑戰(zhàn)。
機(jī)器學(xué)習(xí)的成功,特別是深度學(xué)習(xí),在很大程度上取決于用于訓(xùn)練的大型數(shù)據(jù)集的可用性和質(zhì)量。數(shù)據(jù),特別是包括所有可能的相關(guān)場(chǎng)景的密集數(shù)據(jù)集,支持著人工智能模型根據(jù)它在訓(xùn)練中「學(xué)習(xí)」到的東西進(jìn)行推斷。一般來(lái)說(shuō),可用的訓(xùn)練數(shù)據(jù)越多,大多數(shù)人工智能模型的表現(xiàn)就越好。
典型的人工智能模型基本上是黑匣子,這些模型做出的預(yù)測(cè)對(duì)人類來(lái)說(shuō)幾乎是不可理解的。依靠這些預(yù)測(cè)需要對(duì)人工智能模型的信任,而在大多數(shù)應(yīng)用中,不可能在所有可能的情況下訓(xùn)練人工智能算法,這使情況更加復(fù)雜。人類在直覺(jué)上善于進(jìn)行邏輯上的跳躍。事實(shí)證明,人工智能模型不是這樣的,至少目前不是。這方面的一個(gè)現(xiàn)實(shí)世界的案例是我前面提及的,那輛特斯拉汽車遇到了一個(gè)舉著停止牌的過(guò)路警衛(wèi),沒(méi)有停下來(lái)。與人工智能在面對(duì)其訓(xùn)練數(shù)據(jù)集之外的情況時(shí)無(wú)法做出正確決定不同,人類司機(jī)能夠推斷并做出正確的選擇。
Q:那么,如何克服訓(xùn)練數(shù)據(jù)不足的問(wèn)題,以實(shí)現(xiàn)有效的AI 訓(xùn)練呢?
Datta:這是一個(gè)關(guān)鍵問(wèn)題。成功的機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí),重度依賴于大量的高質(zhì)量訓(xùn)練數(shù)據(jù)。但是,對(duì)于預(yù)測(cè)新型小分子藥物,我們需要的數(shù)據(jù)量是非常大的,因?yàn)榈鞍踪|(zhì)與小分子的結(jié)合極其復(fù)雜,可能的小分子結(jié)合物的數(shù)量更是天文數(shù)字級(jí)別的。這就需要我們有足夠的高質(zhì)量訓(xùn)練數(shù)據(jù)來(lái)進(jìn)行有效的學(xué)習(xí)。要解決這個(gè)問(wèn)題,我們需要做兩件事:一是積累更多的高質(zhì)量數(shù)據(jù),二是利用現(xiàn)有的數(shù)據(jù)進(jìn)行更有效的學(xué)習(xí)。對(duì)于前者,我們需要加大投入,開(kāi)展更多的實(shí)驗(yàn),獲取更多的數(shù)據(jù)。對(duì)于后者,我們可以利用遷移學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)等方法,以少量的標(biāo)注數(shù)據(jù)進(jìn)行高效的學(xué)習(xí)。
基于物理的分子建模,利用分子相互作用的基本原理,預(yù)測(cè)蛋白質(zhì)和小分子藥物的結(jié)合強(qiáng)度。這種技術(shù)生成合成數(shù)據(jù),替代昂貴且耗時(shí)的實(shí)驗(yàn)。隨著合成數(shù)據(jù)的積累,AI可以通過(guò)內(nèi)插法找到與當(dāng)前藥典中的藥物不相似的新型藥物樣結(jié)合物。
盡管大型制藥公司,如阿斯特拉賽納、默克KGaA、諾華和葛蘭素史克,已經(jīng)開(kāi)始了自己的內(nèi)部AI 啟用的藥物發(fā)現(xiàn)努力,他們也可以利用自己的歷史數(shù)據(jù),但大多數(shù)數(shù)據(jù)是來(lái)自過(guò)去藥物發(fā)現(xiàn)活動(dòng)的遺留信息,而這些信息既不足夠多樣,也不足夠密集,足以有效地訓(xùn)練AI。而且,這些數(shù)據(jù)集與全新的化學(xué)實(shí)體無(wú)關(guān)。
當(dāng)訓(xùn)練數(shù)據(jù)充足時(shí),AI 擅長(zhǎng)內(nèi)插;而分子建模則能夠基于分子物理的規(guī)則進(jìn)行外推。合理地整合AI 和分子建??赡軙?huì)在小分子藥物發(fā)現(xiàn)中產(chǎn)生比任何一種方法單獨(dú)應(yīng)用都更強(qiáng)大的突破。因此,擁有基于物理的分子建模和AI 深度專業(yè)知識(shí)的公司可能具有最終的優(yōu)勢(shì)。
Q:有一些人工智能預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)方面取得了重大進(jìn)展,如何理解這些突破是如何發(fā)生的?人工智能藥物發(fā)現(xiàn)還面臨什么挑戰(zhàn)?
Datta:確實(shí),DeepMind 的AlphaFold 2 在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中實(shí)現(xiàn)了重大突破,但這并不意味著AI 驅(qū)動(dòng)的藥物發(fā)現(xiàn)的挑戰(zhàn)將會(huì)一帆風(fēng)順。對(duì)于蛋白質(zhì),有大量的基因組數(shù)據(jù)庫(kù)包含許多物種的大量蛋白質(zhì)序列。蛋白質(zhì)在結(jié)構(gòu)(和功能)上與其他相關(guān)蛋白質(zhì)的相似性,超過(guò)基于蛋白質(zhì)序列相似性的預(yù)期,即使在跨物種比較時(shí)也是如此。
AlphaFold 2 等AI 程序試圖最大限度地利用大型基因組數(shù)據(jù)庫(kù)中的信息內(nèi)容,如多序列比對(duì)(MSA)、共演化和結(jié)構(gòu)模板。DeepMind 在AlphaFold 2 中實(shí)施了一些AI 創(chuàng)新,以解決蛋白質(zhì)折疊的重大挑戰(zhàn),而近年來(lái)高質(zhì)量訓(xùn)練數(shù)據(jù)的快速增加――無(wú)論是蛋白質(zhì)序列還是實(shí)驗(yàn)確定的蛋白質(zhì)結(jié)構(gòu)――發(fā)揮了核心作用。實(shí)際上,AlphaFold 2 是在公開(kāi)可用的基因組數(shù)據(jù)庫(kù)中經(jīng)過(guò)巨大的數(shù)據(jù)集訓(xùn)練的,這些數(shù)據(jù)庫(kù)包含了數(shù)億個(gè)蛋白質(zhì)序列和近175,000 個(gè)蛋白質(zhì)結(jié)構(gòu),以便構(gòu)建MSA 和查找結(jié)構(gòu)模板。
然而,蛋白質(zhì)與小分子藥物的結(jié)合問(wèn)題比蛋白質(zhì)折疊更難用AI 來(lái)解決。這主要有以下三個(gè)原因:
1. 數(shù)據(jù)稀疏性:應(yīng)用于蛋白質(zhì)- 小分子藥物結(jié)合的AI 將傾向于預(yù)測(cè)與其已經(jīng)訓(xùn)練過(guò)的藥物相似的藥物,因?yàn)樗梢詢?nèi)插但不能外推已知數(shù)據(jù)。因此,實(shí)驗(yàn)結(jié)合數(shù)據(jù)的稀疏性限制了AI 可以找到的藥物樣分子的類型、數(shù)量和多樣性。
2. 缺乏負(fù)面數(shù)據(jù):為了有效訓(xùn)練, AI 不僅應(yīng)該有正面的結(jié)合數(shù)據(jù),還應(yīng)該有負(fù)面數(shù)據(jù)。換句話說(shuō),AI 需要從結(jié)合和不結(jié)合或弱結(jié)合中學(xué)習(xí),以便做出可靠的預(yù)測(cè)。然而,負(fù)面信息更難獲取,因?yàn)榇蠖鄶?shù)研究公開(kāi)發(fā)表和專利只會(huì)描述具有積極效果的化合物。
3. 細(xì)微變化的敏感性:蛋白質(zhì)- 小分子藥物結(jié)合對(duì)細(xì)微變化極度敏感。小分子的化學(xué)結(jié)構(gòu)或3-D 坐標(biāo)的微小變化可能導(dǎo)致結(jié)合親和力的顯著差異。沒(méi)有大量的密集和相關(guān)數(shù)據(jù),深度學(xué)習(xí)難以準(zhǔn)確預(yù)測(cè)這些突然的變化。
Q:您認(rèn)為AI 在未來(lái)的藥物發(fā)現(xiàn)中會(huì)扮演什么樣的角色呢?
Datta:盡管挑戰(zhàn)很大,但AI 在藥物發(fā)現(xiàn)中的潛力也是巨大的。我相信在未來(lái), AI 會(huì)在藥物發(fā)現(xiàn)中扮演越來(lái)越重要的角色。它可以幫助我們?cè)诟绲碾A段預(yù)測(cè)出潛在的藥物分子,這會(huì)大大加速藥物的研發(fā)進(jìn)程,同時(shí)也能降低研發(fā)成本。此外,AI 還可以幫助我們解析疾病的復(fù)雜性,理解不同疾病之間的關(guān)系,從而開(kāi)發(fā)出更有效的治療手段。
