中新網(wǎng)北京11月1日電 (記者 孫自法)記者11月1日從中國科學院自動化研究所(自動化所)獲悉,該所“AI+科學”研究團隊近日正式推出新一代科學文獻解析工具——磐石·科學文獻解析器,為全球">

婷婷在线视频精品免费_亚洲毛片无码专区亚洲乱_国产一区二区三区撒尿在线观看_日韩另类卡通爆乳在线

首頁  ?  新聞頻道  ?  國內(nèi)新聞

服務全球科研社區(qū) 中國團隊推出新一代科學文獻深度解析工具

2025-11-01 20:45:11

來源:中國新聞網(wǎng)

  中新網(wǎng)北京11月1日電 (記者 孫自法)記者11月1日從中國科學院自動化研究所(自動化所)獲悉,該所“AI+科學”研究團隊近日正式推出新一代科學文獻解析工具——磐石·科學文獻解析器,為全球科研工作者提供真正“懂科學”的智能解析引擎。

  目前,磐石·科學文獻解析器1.0版已正式開源,并作為核心組件集成于中國科學院自動化所“磐石·科學基礎大模型”(ScienceOne),服務全球科研社區(qū)。下一步,研究團隊將持續(xù)拓展其對多模態(tài)科學內(nèi)容的解析能力,并推動構(gòu)建開放、協(xié)作的科學智能生態(tài)。

“AI+科學”研究團隊推出磐石·科學文獻解析器。中國科學院自動化所 供圖

  研究團隊介紹說,磐石·科學文獻解析器從底層算法出發(fā),通過構(gòu)建面向科學語義理解的多模態(tài)訓練體系與強化學習機制,在公式、文本、圖表等多元素協(xié)同解析上實現(xiàn)質(zhì)的飛躍,為全球科研工作者提供真正“懂科學”的智能解析引擎。

  在磐石·科學文獻解析器研發(fā)過程中,團隊摒棄僅依賴通用視覺語言大模型的思路,轉(zhuǎn)而構(gòu)建一套專為科學文獻場景量身定制的算法訓練范式。其核心在于三大技術(shù)支柱:全場景覆蓋的科學數(shù)據(jù)構(gòu)建、多模態(tài)監(jiān)督微調(diào)策略,以及面向科學文獻語義的強化學習優(yōu)化機制。

  在數(shù)據(jù)層面,系統(tǒng)性采集并構(gòu)建覆蓋手寫體、數(shù)字排版體與紙質(zhì)掃描體三大典型科學書寫形態(tài)的訓練語料,這一“全形態(tài)、多學科、高質(zhì)量”的數(shù)據(jù)基礎,為模型理解科學表達的復雜性提供了堅實支撐。

  模型訓練階段采用兩階段優(yōu)化策略:首先通過多模態(tài)有監(jiān)督微調(diào),使模型初步掌握文本、公式、表格、插圖等異構(gòu)元素的聯(lián)合表征能力。在此基礎上,引入一種面向科學文獻語義的梯度強化學習策略優(yōu)化框架,實現(xiàn)模型不僅“看得清”,更能“理解對”。

  為更好滿足科研需求,磐石·科學文獻解析器的輸出不僅包含高精度的文本與公式識別結(jié)果,還支持多種結(jié)構(gòu)化格式輸出,可無縫對接知識抽取、文獻重排版、智能問答等下游應用。

  研究團隊表示,對多個科學文獻數(shù)據(jù)集開展系統(tǒng)評測的結(jié)果顯示,磐石·科學文獻解析器在篇章級解析、公式專項識別等任務中均展現(xiàn)出國際領先水平。(完)

免責聲明:本網(wǎng)對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。 本網(wǎng)站轉(zhuǎn)載圖片、文字之類版權(quán)申明,本網(wǎng)站無法鑒別所上傳圖片或文字的知識版權(quán),如果侵犯,請及時通知我們,本網(wǎng)站將在第一時間及時刪除。