近日,北京大學(xué)定量生物學(xué)中心錢瓏團(tuán)隊(duì)研發(fā)、構(gòu)建了全球首個(gè)針對(duì)功能基因挖掘任務(wù)的大語(yǔ)言模型SYMPLEX。該模型能夠自動(dòng)高效地從海量生物文獻(xiàn)中發(fā)現(xiàn)具有目標(biāo)功能的關(guān)鍵基因,并進(jìn)行精準(zhǔn)篩選和功能驗(yàn)證,為后續(xù)的蛋白質(zhì)功能設(shè)計(jì)、生物制劑開發(fā)以及生物制造的應(yīng)用提供科學(xué)依據(jù)。團(tuán)隊(duì)與中科院深圳先進(jìn)技術(shù)研究院婁春波研究員合作,將SYMPLEX應(yīng)用于mRNA加帽酶基因的挖掘,獲得的新加帽酶活性顯著優(yōu)于mRNA疫苗生產(chǎn)中采用的商業(yè)化酶,展示了大語(yǔ)言模型賦能生物制造的巨大潛力。相關(guān)研究成果日前發(fā)表于國(guó)際學(xué)術(shù)期刊《科學(xué)·進(jìn)展》。
“自然界生物體內(nèi)蘊(yùn)含著數(shù)量龐大的有用基因,這些基因經(jīng)過(guò)億萬(wàn)年自然選擇,形成了豐富多樣的序列組成和基因組合,演化出各種精妙的功能,幫助生物在各種不同環(huán)境中更好地生存繁衍。隨著測(cè)序獲得的生物序列累計(jì)達(dá)數(shù)十億量級(jí),這些天然基因也為生物制造與合成生物技術(shù)提供了基因元件的‘寶庫(kù)’?!卞X瓏告訴記者,盡管天然基因具備極為豐富的功能和潛力,但目前只有一小部分熱門基因被高質(zhì)量注釋并構(gòu)建了序列或結(jié)構(gòu)模型。“原因在于,基于序列、結(jié)構(gòu)或深度學(xué)習(xí)的基因挖掘與蛋白質(zhì)設(shè)計(jì)方法由于技術(shù)瓶頸無(wú)法拓展至復(fù)雜基因,進(jìn)而制約了對(duì)高價(jià)值基因元件的挖掘與開發(fā)利用?!?/p>
針對(duì)上述問(wèn)題,團(tuán)隊(duì)創(chuàng)造性地將大型語(yǔ)言模型與結(jié)構(gòu)化生物知識(shí)庫(kù)深度融合,開發(fā)出SYMPLEX智能基因挖掘平臺(tái)。這一平臺(tái)是強(qiáng)大的功能基因搜索引擎,可通過(guò)自動(dòng)化閱讀與理解千萬(wàn)級(jí)體量的生物學(xué)文獻(xiàn),在基因、功能和知識(shí)水平上對(duì)文獻(xiàn)內(nèi)容進(jìn)行提取分析,并與專家數(shù)據(jù)庫(kù)進(jìn)行概念對(duì)齊、交互和統(tǒng)計(jì)模式生成,從而產(chǎn)生高質(zhì)量候選基因集合。對(duì)比結(jié)果表明,SYMPLEX大模型相比傳統(tǒng)方法具有顯著優(yōu)勢(shì)。
研究團(tuán)隊(duì)還通過(guò)大模型挖掘了mRNA加帽酶,并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。“以前,mRNA疫苗背后的一項(xiàng)關(guān)鍵工藝——mRNA 5’端加帽,一直是效率較低、成本高昂的‘卡脖子’環(huán)節(jié)。SYMPLEX發(fā)現(xiàn)了近2萬(wàn)個(gè)新型加帽酶,并對(duì)其中十余個(gè)序列進(jìn)行了驗(yàn)證。我們從中找到了新酶,其活性超過(guò)當(dāng)前mRNA疫苗制備使用的加帽酶的2倍。SYMPLEX挖掘的加帽酶數(shù)據(jù)庫(kù),有望為mRNA疫苗和基于mRNA的基因療法研究提供關(guān)鍵技術(shù)?!卞X瓏介紹。
“本項(xiàng)研究開創(chuàng)了功能基因挖掘的新范式,為mRNA疫苗規(guī)?;a(chǎn)提供了關(guān)鍵酶資源庫(kù)?!卞X瓏表示,研究團(tuán)隊(duì)正在利用這一大模型進(jìn)行更多可用于合成生物學(xué)的關(guān)鍵酶元件挖掘,并將該平臺(tái)拓展至合成通路設(shè)計(jì)等領(lǐng)域,有望推動(dòng)生物制造進(jìn)入“人工智能驅(qū)動(dòng)的科學(xué)研究”的新階段。(記者 晉浩天)