讓碳足跡更多聽見中國聲音

文章來源:《瞭望》新聞周刊魏雨虹2024-02-26 10:02

人機交互的數(shù)據(jù)庫搭建過程

截至數(shù)據(jù)庫發(fā)布當天，徐明團隊用7個月時間得到了4132個單元過程數(shù)據(jù)。“超過某些國際知名數(shù)據(jù)庫10年的數(shù)據(jù)搜集量。”徐明說。

效率之所以高，是因為團隊利用國內(nèi)AI基礎模型，開發(fā)了專門適用天工數(shù)據(jù)庫建設的大語言模型應用工具，在數(shù)據(jù)庫搭建過程中實現(xiàn)人機交互。

AI提升數(shù)據(jù)檢索效率。徐明團隊成員、清華大學環(huán)境學院助理研究員齊劍川以對二氧化碳的檢索舉例說：“如果沒有大語言模型應用工具，團隊在檢索二氧化碳時，可能需要輸入‘二氧化碳’‘CO2’‘carbon dioxide’等其不同語言和形式的名稱，才能檢索完備。而在大語言模型工具的幫助下，我們只需輸入上述名稱中的任何一個，就能把想找的所有內(nèi)容檢索出來，大幅提升了效率。”

AI提升數(shù)據(jù)檢驗效率。徐明介紹，每名團隊專家按照預先制定的標準搜集數(shù)據(jù)后，會有另外兩名專家對數(shù)據(jù)質(zhì)量進行交叉檢驗。同時，大語言模型應用工具作為第三名“專家”可查找出其檢驗能力范圍內(nèi)的問題。

齊劍川表示，大語言模型應用工具可以將團隊成員搜集的單元過程數(shù)據(jù)自動轉(zhuǎn)換成搭建數(shù)據(jù)庫所需的ILCD數(shù)據(jù)格式，進一步提升數(shù)據(jù)庫建設效率。

“我們還在不斷升級大語言模型應用，擴展人機交互邊界，目標是把重復性、機械性的勞動都交給機器來做，讓團隊專家專注于貢獻增量知識。”齊劍川說。