日前,化學(xué)品和廢物三公約締約方大會(huì)于瑞士日內(nèi)瓦召開,大會(huì)主題為“讓無形變得有形:化學(xué)品和廢物的健全管理”?;瘜W(xué)污染物具有種類繁多、來源廣泛、危害巨大等特點(diǎn),已成為全球亟待解決的新型污染治理
難題。以大數(shù)據(jù)、機(jī)器學(xué)習(xí)等為核心的人工智能技術(shù),為新污染物治理開創(chuàng)了新的科學(xué)范式。
要實(shí)現(xiàn)新污染物治理的智能化,關(guān)鍵在于掌握系統(tǒng)、清晰且準(zhǔn)確的數(shù)據(jù)資源。自上世紀(jì)中后期起,歐美發(fā)達(dá)國家及國際組織積極建設(shè)化學(xué)物質(zhì)數(shù)據(jù)集,為全球治理和履約談判提供了有力支撐。為提升我國新污染物治理能力和在國際上的話語權(quán),我國正積極推進(jìn)全國新污染物生態(tài)毒理和健康毒理數(shù)據(jù)集成專項(xiàng)工程,構(gòu)建國家新污染物計(jì)算毒理和暴露預(yù)測大數(shù)據(jù)平臺(tái),憑借中國力量為“無形”的化學(xué)污染提供切實(shí)可行的“有形”解決方案。
一、主要成果
生態(tài)環(huán)境部南京所攜手生態(tài)環(huán)境部信息中心、中國科院生態(tài)環(huán)境研究中心、天津大學(xué)等20余家國內(nèi)頂尖科研機(jī)構(gòu),聚焦新污染物環(huán)境與毒理數(shù)據(jù)集構(gòu)建、計(jì)算毒理和暴露預(yù)測工具開發(fā)、應(yīng)用場景適配三大核心方向,持續(xù)進(jìn)行技術(shù)攻關(guān)。通過系統(tǒng)集成環(huán)境和毒理數(shù)據(jù)資源,不斷提升新污染物計(jì)算毒理與環(huán)境暴露預(yù)測的模擬能力,已基本實(shí)現(xiàn)面向應(yīng)用場景的新污染物生態(tài)環(huán)境風(fēng)險(xiǎn)智能評(píng)估。
(一)建立新污染物環(huán)境與毒理數(shù)據(jù)集。一是系統(tǒng)集成多源多模態(tài)數(shù)據(jù)。利用Apache Nutch、Scrapy等大數(shù)據(jù)技術(shù)系統(tǒng)集成了國際國內(nèi)數(shù)據(jù)集、文獻(xiàn)和技術(shù)報(bào)告等來源公開發(fā)表的多模態(tài)(結(jié)構(gòu)化、非結(jié)構(gòu)化)數(shù)據(jù),累計(jì)收錄化學(xué)物質(zhì)超40萬種,分為3類,一是我國有可能在產(chǎn)在用的“所有”化學(xué)物質(zhì)約38萬種(類),二是新登記化學(xué)物質(zhì)46,928種(類)(最近更新為2025年4月30日),三是我國環(huán)境標(biāo)準(zhǔn)中涉及的污染物、優(yōu)評(píng)優(yōu)控化學(xué)物質(zhì)和重點(diǎn)管控新污染物(2023版)共574種(類)。二是構(gòu)建數(shù)據(jù)集多維參數(shù)體系。數(shù)據(jù)集包含生態(tài)毒理、健康毒理和環(huán)境暴露等超過1600項(xiàng)參數(shù),其中生態(tài)毒理數(shù)據(jù)包含1.3萬余種環(huán)境生物的40類參數(shù);健康毒理數(shù)據(jù)包含358種實(shí)驗(yàn)生物的1522類參數(shù);理化性質(zhì)共36類參數(shù),環(huán)境行為12類參數(shù)。數(shù)據(jù)總量已超1300萬條,替補(bǔ)國內(nèi)空白。三是建立全生命周期質(zhì)控體系。數(shù)據(jù)集收錄了來自我國良好實(shí)驗(yàn)室規(guī)范的實(shí)測數(shù)據(jù),提供了一手本土化環(huán)境生物(2028種)急/慢性毒性數(shù)據(jù)資源,也為新污染物元數(shù)據(jù)參數(shù)體系構(gòu)建提供了研究依據(jù)。融合多模態(tài)AI技術(shù),構(gòu)建跨文本/圖像關(guān)聯(lián)分析模型,數(shù)據(jù)審查效率提升3倍以上。
(二)開發(fā)計(jì)算毒理和暴露預(yù)測工具。一是開發(fā)新污染物急性毒性預(yù)測模型?;诙?構(gòu)效關(guān)系(QSAR)與機(jī)器學(xué)習(xí)技術(shù)開發(fā)了環(huán)境敏感生物的智能化急性毒性預(yù)測模型及其配套軟件,可快速預(yù)測新污染物毒性水平,識(shí)別毒性警示片段,為綠色化學(xué)設(shè)計(jì)、高通量毒性預(yù)測等提供了支撐技術(shù)。二是開發(fā)本土場景新污染物環(huán)境遷移與暴露模擬器。結(jié)合我國氣象氣候、生態(tài)系統(tǒng)及地理環(huán)境等區(qū)域特征,開發(fā)環(huán)境新污染物遷移與暴露模擬器,模擬敏感區(qū)域新污染物在污染源-暴露途徑-受體遷移過程的動(dòng)態(tài)變化,為今后新污染物實(shí)施分區(qū)域差異化風(fēng)險(xiǎn)精準(zhǔn)管控提供了研究基礎(chǔ)與平臺(tái)支撐。
(三)建立場景化的生態(tài)環(huán)境風(fēng)險(xiǎn)評(píng)估“智能”模型。一是建立可交互的數(shù)據(jù)發(fā)表平臺(tái)。該平臺(tái)允許用戶以單個(gè)或批量形式自主上傳新污染物數(shù)據(jù),系統(tǒng)能夠自動(dòng)開展數(shù)據(jù)格式校驗(yàn)與內(nèi)容審核工作,達(dá)成數(shù)據(jù)上傳與審核的智能化、可追溯管理,保障數(shù)據(jù)的可靠性與可信度。二是建立本土化的數(shù)據(jù)查詢平臺(tái)。此平臺(tái)不僅彌補(bǔ)了我國本土數(shù)據(jù)的空白,還研發(fā)出基于化學(xué)信息學(xué)的化學(xué)名稱檢索工具,提供精準(zhǔn)、模糊和自定義檢索服務(wù),支持批量識(shí)別與檢索,大幅提高信息識(shí)別能力與檢索效率。三是研發(fā)生態(tài)閾值智能研判模型。該模型支持用戶根據(jù)自身需求個(gè)性化選擇應(yīng)用場景(土壤/淡水)及毒性數(shù)據(jù)(急性/慢性),經(jīng)由數(shù)據(jù)自動(dòng)檢索和算法匹配,完成數(shù)據(jù)正態(tài)分布檢驗(yàn)、SSD擬合、最優(yōu)模型篩選和生態(tài)閾值計(jì)算,將研究過程和結(jié)果進(jìn)行可視化呈現(xiàn),支持以PDF與Word格式輸出報(bào)告。四是研發(fā)場地新污染物生態(tài)環(huán)境風(fēng)險(xiǎn)評(píng)估智能模型。該模型依據(jù)環(huán)境風(fēng)險(xiǎn)評(píng)估流程,整合危害識(shí)別、效應(yīng)評(píng)估、環(huán)境暴露與風(fēng)險(xiǎn)計(jì)算模塊,實(shí)現(xiàn)“一鍵式”場地新污染物生態(tài)環(huán)境風(fēng)險(xiǎn)的智能評(píng)估。
江蘇、廣東、
西藏等多地示范項(xiàng)目中,成本降低20%—30%,運(yùn)行周期最大縮短50%。
(四)構(gòu)建場景化的生態(tài)環(huán)境風(fēng)險(xiǎn)評(píng)估“智能”模型。其一,搭建可交互的數(shù)據(jù)發(fā)布平臺(tái)。該平臺(tái)允許用戶以單個(gè)或批量形式自主上傳新污染物數(shù)據(jù),系統(tǒng)能夠自動(dòng)開展數(shù)據(jù)格式校驗(yàn)與內(nèi)容審核工作,達(dá)成數(shù)據(jù)上傳與審核的智能化、可追溯管理,保障數(shù)據(jù)的可靠性與可信度。其二,構(gòu)建本土化的數(shù)據(jù)查詢平臺(tái)。此平臺(tái)不僅彌補(bǔ)了我國本土數(shù)據(jù)的空白,還研發(fā)出基于化學(xué)信息學(xué)的化學(xué)名稱檢索工具,提供精準(zhǔn)、模糊和自定義檢索服務(wù),支持批量識(shí)別與檢索,大幅提高信息識(shí)別能力與檢索效率。其三,研制生態(tài)閾值智能研判模型。該模型支持用戶根據(jù)自身需求個(gè)性化選擇應(yīng)用場景(土壤/淡水)及毒性數(shù)據(jù)(急性/慢性),經(jīng)由數(shù)據(jù)自動(dòng)檢索和算法匹配,完成數(shù)據(jù)正態(tài)分布檢驗(yàn)、SSD擬合、最優(yōu)模型篩選和生態(tài)閾值計(jì)算,將研究過程和結(jié)果進(jìn)行可視化呈現(xiàn),支持以PDF與Word格式輸出報(bào)告。其四,研發(fā)場地新污染物生態(tài)環(huán)境風(fēng)險(xiǎn)評(píng)估智能模型。該模型依據(jù)環(huán)境風(fēng)險(xiǎn)評(píng)估流程,整合危害識(shí)別、效應(yīng)評(píng)估、環(huán)境暴露與風(fēng)險(xiǎn)計(jì)算模塊,實(shí)現(xiàn)“一鍵式”場地新污染物生態(tài)環(huán)境風(fēng)險(xiǎn)的智能評(píng)估。江蘇、廣東、西藏等多個(gè)示范項(xiàng)目運(yùn)行顯示工作周期最大縮短50%,成本降低20%—30%。
盡管我國在新污染物環(huán)境與毒性數(shù)據(jù)的集成、計(jì)算毒理及暴露預(yù)測開發(fā)方面取得了顯著進(jìn)展,但目前仍面臨數(shù)據(jù)完整性和覆蓋度不足、數(shù)據(jù)規(guī)范和標(biāo)準(zhǔn)缺失,以及數(shù)據(jù)挖掘與垂直場景應(yīng)用不充分等挑戰(zhàn)。
(一)數(shù)據(jù)完整性不足。一是新污染物關(guān)鍵參數(shù)匱乏。目前,僅有少數(shù)新污染物具備完整的環(huán)境遷移、歸趨及毒理的監(jiān)測和實(shí)驗(yàn)數(shù)據(jù),難以構(gòu)建涵蓋多介質(zhì)、多物種、多終點(diǎn)的新污染物全景式數(shù)據(jù)視圖。例如,環(huán)境監(jiān)測數(shù)據(jù)在空間覆蓋上有限,且缺乏連續(xù)的時(shí)間序列;毒理實(shí)驗(yàn)數(shù)據(jù)普遍缺少慢性低劑量暴露、長期毒性以及聯(lián)合污染效應(yīng)等復(fù)雜毒性終點(diǎn)信息。二是實(shí)驗(yàn)條件元數(shù)據(jù)缺失。無論是國際主流數(shù)據(jù)集,還是文獻(xiàn)、報(bào)告等資料,大部分?jǐn)?shù)據(jù)均未提供完整的數(shù)據(jù)生成試驗(yàn)條件,缺乏溯源信息及可追溯性,這使得數(shù)據(jù)建模過程受到限制。三是多模態(tài)數(shù)據(jù)自動(dòng)獲取難。大量新污染物的相關(guān)信息散布于學(xué)術(shù)論文、技術(shù)報(bào)告、監(jiān)測報(bào)告等非結(jié)構(gòu)化或半結(jié)構(gòu)化文本之中。此外,部分實(shí)驗(yàn)數(shù)據(jù)僅以半定量或定性形式呈現(xiàn)(如光譜圖、色譜圖等)。然而,由于缺乏專業(yè)的判斷以及計(jì)算機(jī)融合技術(shù),這些數(shù)據(jù)尚未得到充分的采集與整合,從而削弱了數(shù)據(jù)的完整性與全面性。
(二)數(shù)據(jù)標(biāo)準(zhǔn)化不足。一是新污染物目前尚無通用的身份標(biāo)識(shí)符?,F(xiàn)行的化學(xué)文摘社登記號(hào)(CASRN)在不同數(shù)據(jù)集中可能關(guān)聯(lián)多條記錄,存在重復(fù)或歧義現(xiàn)象,導(dǎo)致跨數(shù)據(jù)集信息的自動(dòng)化整合面臨困難;此外,混合物、聚合物以及未知或可變成分物質(zhì)(UVCBs)等復(fù)雜化學(xué)物質(zhì),仍缺乏清晰、系統(tǒng)和一致的識(shí)別機(jī)制。二是數(shù)據(jù)字段體系復(fù)雜且異構(gòu)。不同數(shù)據(jù)集在參數(shù)術(shù)語、字段命名規(guī)則、單位標(biāo)注方式以及數(shù)據(jù)結(jié)構(gòu)層級(jí)深度上存在差異,這導(dǎo)致在數(shù)據(jù)集合并或比對(duì)過程中,需要額外復(fù)雜的映射邏輯。此外,字段含義注釋不充分,多數(shù)字段僅以簡短的術(shù)語或縮寫形式呈現(xiàn),缺乏標(biāo)準(zhǔn)化的定義和說明,容易引發(fā)跨平臺(tái)解釋上的歧義。三是數(shù)據(jù)“加工流程”缺乏標(biāo)準(zhǔn)化管控。當(dāng)前,各數(shù)據(jù)集在數(shù)據(jù)的篩選、清洗和質(zhì)量評(píng)價(jià)等方面缺乏統(tǒng)一的規(guī)范標(biāo)準(zhǔn)和流程。例如,對(duì)同一參數(shù)或研究結(jié)果的不同來源,其可信度判斷和可靠性分級(jí)存在不一致性;同時(shí),缺乏針對(duì)冗余、重復(fù)、異常等數(shù)據(jù)的操作技術(shù)規(guī)范,以及新生成數(shù)據(jù)的標(biāo)注規(guī)范。此外,數(shù)據(jù)質(zhì)量評(píng)估的評(píng)價(jià)指標(biāo)體系亦顯不足,這些問題共同降低了數(shù)據(jù)的可用性和可靠性。
(三)數(shù)據(jù)挖掘度不足。一是我國新污染物種類尚未完全厘定。數(shù)據(jù)顯示,全球主要國家已登記使用的化學(xué)品及其混合物數(shù)量已超過35萬種。然而,由于各國在監(jiān)管體系、產(chǎn)業(yè)結(jié)構(gòu)及應(yīng)用場景方面存在顯著差異,我國迫切需要進(jìn)一步排查并梳理出符合本土情況的新污染物清單。二是多模態(tài)數(shù)據(jù)融合不足。由于缺乏多源異構(gòu)數(shù)據(jù)的對(duì)接技術(shù)和統(tǒng)一標(biāo)準(zhǔn),難以對(duì)多源數(shù)據(jù)信息的語義關(guān)聯(lián)、時(shí)空動(dòng)態(tài)識(shí)別及混合效應(yīng)進(jìn)行深入分析。三是算法與模型應(yīng)用局限。計(jì)算毒理和環(huán)境暴露的算法與模型在面對(duì)大規(guī)模、非線性、高階及多源異構(gòu)數(shù)據(jù)時(shí)的自適應(yīng)能力仍需進(jìn)一步提升。例如,毒性預(yù)測的QSAR模型尚無法自動(dòng)從多終點(diǎn)毒性數(shù)據(jù)(包括急性毒性、慢性毒性、生殖毒性、內(nèi)分泌毒性等)中識(shí)別出潛在的毒性機(jī)制。
三、工作建議
新污染物環(huán)境與毒理數(shù)據(jù)集成具備專業(yè)性、應(yīng)用性、動(dòng)態(tài)性和長期性等顯著特點(diǎn)。以本數(shù)據(jù)集為基石,借助人工智能等數(shù)字技術(shù)的賦能,系統(tǒng)性強(qiáng)化高質(zhì)量數(shù)據(jù)資源的開發(fā),全面提升新污染物生態(tài)環(huán)境風(fēng)險(xiǎn)防控能力,共同構(gòu)筑美麗健康的世界的目標(biāo)。
(一)構(gòu)建統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)化體系。一是明確數(shù)據(jù)采集、編碼、審核和存儲(chǔ)各環(huán)節(jié)的標(biāo)準(zhǔn)和規(guī)范。制訂統(tǒng)一的數(shù)據(jù)篩選標(biāo)準(zhǔn)及采集技術(shù)標(biāo)準(zhǔn),構(gòu)建定量化的數(shù)據(jù)評(píng)估質(zhì)量指標(biāo)體系,建立新污染物數(shù)據(jù)集字段命名指南,明確必填的元數(shù)據(jù)項(xiàng),如新污染物標(biāo)識(shí)、參數(shù)類型、實(shí)驗(yàn)條件、測試方法等。建立數(shù)據(jù)字典與字段注釋說明庫,對(duì)每一個(gè)字段提供標(biāo)準(zhǔn)化定義、數(shù)據(jù)類型、允許取值范圍及示例,確保不同來源的數(shù)據(jù)能夠統(tǒng)一格式化、校驗(yàn)去重與歸檔。二是編制本土化與受控詞表指南。開展我國高關(guān)注新污染物及特色區(qū)域環(huán)境場景的調(diào)研與梳理工作,并增補(bǔ)相關(guān)受控詞條,構(gòu)建層級(jí)化結(jié)構(gòu)并制定映射規(guī)范,以確保系統(tǒng)的兼容性與可擴(kuò)展性。三是制訂合成數(shù)據(jù)與交換協(xié)議標(biāo)準(zhǔn)。建立標(biāo)準(zhǔn)化的數(shù)據(jù)檢測、清洗及處理規(guī)范,制定“合成數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)”及數(shù)據(jù)版本管理規(guī)范,明確區(qū)分“計(jì)算值”與“實(shí)測值”,確保派生數(shù)據(jù)可追溯至原始數(shù)據(jù)及計(jì)算流程。同時(shí),制定數(shù)據(jù)交換協(xié)議和數(shù)據(jù)導(dǎo)入/導(dǎo)出接口規(guī)范,構(gòu)建字段校驗(yàn)、格式校正和錯(cuò)誤反饋機(jī)制,保障不同來源的數(shù)據(jù)能夠按照統(tǒng)一標(biāo)準(zhǔn)實(shí)現(xiàn)無縫對(duì)接。
(二)持續(xù)開發(fā)多源多模態(tài)數(shù)據(jù)資源。一是建立智能化數(shù)據(jù)收集和提取體系。開發(fā)基于環(huán)境領(lǐng)域的大數(shù)據(jù)技術(shù),實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化和半結(jié)構(gòu)化文本的自動(dòng)化批量抽取與結(jié)構(gòu)化處理,并構(gòu)建自動(dòng)抽取結(jié)果的人工智能校驗(yàn)機(jī)制,確保批量數(shù)據(jù)的品質(zhì)與精準(zhǔn)度。二是開發(fā)新污染物多模態(tài)數(shù)據(jù)標(biāo)注技術(shù)。構(gòu)建涵蓋圖片、視頻、聲音等多模態(tài)數(shù)據(jù)的高效標(biāo)注框架,融合先進(jìn)的跨模態(tài)學(xué)習(xí)算法,研發(fā)自動(dòng)化標(biāo)注工具,以顯著降低標(biāo)注成本并提升標(biāo)注效率。三是構(gòu)建新污染物語義知識(shí)圖譜?;谖覈瘜W(xué)物質(zhì)基礎(chǔ)數(shù)據(jù)、地理信息、環(huán)境狀況及毒理數(shù)據(jù)等核心基礎(chǔ)信息,并整合
政策法規(guī)、環(huán)境標(biāo)準(zhǔn)等多維要素,構(gòu)建全面的關(guān)系語義網(wǎng)絡(luò),旨在為深入挖掘多源數(shù)據(jù)間的潛在關(guān)聯(lián)提供豐富語料。
(三)創(chuàng)新數(shù)據(jù)挖掘與算法模型。一是提高算法模型適用性。構(gòu)建數(shù)據(jù)資源-模型開發(fā)-場景應(yīng)用-優(yōu)化評(píng)估-結(jié)果驗(yàn)證的閉環(huán)模型體系,建立完善的模型性能評(píng)估指標(biāo)體系,深入進(jìn)行模型可解釋性分析及外部驗(yàn)證,旨在全面提升算法在各類應(yīng)用場景中的可靠性與穩(wěn)定性。二是持續(xù)迭代新污染物環(huán)境暴露模擬器。構(gòu)建新污染物空間與時(shí)序模擬監(jiān)測網(wǎng)絡(luò),研發(fā)全生命周期虛實(shí)映射的數(shù)字孿生技術(shù),開發(fā)適用于不同尺度的環(huán)境暴露數(shù)字化仿真系統(tǒng),實(shí)現(xiàn)對(duì)多區(qū)域、多介質(zhì)及不同時(shí)間序列新污染物的精準(zhǔn)數(shù)據(jù)模擬,從而彌補(bǔ)環(huán)境暴露監(jiān)測數(shù)據(jù)的不足。三是開發(fā)智能決策輔助系統(tǒng)。研發(fā)針對(duì)細(xì)分場景的知識(shí)蒸餾輕量化技術(shù),構(gòu)建垂直領(lǐng)域的大模型矩陣,以實(shí)現(xiàn)新污染物在環(huán)境評(píng)價(jià)、污染協(xié)同治理及應(yīng)急管控等場景中的高效精準(zhǔn)分析。