近期,中國科學(xué)院計算機網(wǎng)絡(luò)信息中心人工智能部和物理研究所SF10組合作,通過使用來自400多萬篇論文中提取的35675個無機材料固相反應(yīng)合成過程,將數(shù)據(jù)處理為13878條高可信度的合成路徑描述數(shù)據(jù),并對開源大語言模型LLaMA2-7B進行微調(diào)訓(xùn)練,研發(fā)了專注于無機材料合成路徑預(yù)測任務(wù)的大語言模型——MatChat(http://chat.aicnic.cn/onchat)。目前,該模型已上線運行并開放使用。
材料合成路徑預(yù)測是物質(zhì)科學(xué)領(lǐng)域的重要課題。近年來,大語言模型的崛起以及預(yù)訓(xùn)練-微調(diào)方法的應(yīng)用,使得通用大語言模型的理解能力在各垂直領(lǐng)域展現(xiàn)出潛力,但在材料領(lǐng)域缺乏相關(guān)的應(yīng)用和研究。
該模型基本具備材料合成領(lǐng)域知識的生成和推理能力。經(jīng)實驗驗證,該模型在預(yù)測合成復(fù)雜的無機材料時,具備超過ChatGPT的性能表現(xiàn)。受限于數(shù)據(jù)集的數(shù)量和質(zhì)量,該成果仍需要更多的語料以滿足不同材料設(shè)計的需求,但展現(xiàn)出大模型在材料領(lǐng)域的創(chuàng)新潛力和應(yīng)用空間,為材料研究和創(chuàng)新帶來了新的啟發(fā)和思路。