關(guān)于我們
新文速遞丨J Hazard Mater污水樣本非靶檢測(cè)與快速分析
前言
殺蟲劑、藥物、工業(yè)化學(xué)品等環(huán)境污染物在水樣中無處不在,盡管濃度很低,但其高毒性仍然對(duì)生活在水系統(tǒng)中的生物和人類社會(huì)構(gòu)成了極大威脅。污染物檢測(cè)和鑒定往往通過液相色譜與高分辨率質(zhì)譜聯(lián)用的非靶向分析(NTA)進(jìn)行。但一個(gè)復(fù)雜的環(huán)境或生物樣品會(huì)產(chǎn)生上千個(gè)特征,質(zhì)譜會(huì)篩選出大量候選化合物,對(duì)候選化合物的優(yōu)先級(jí)排序極其重要也極具挑戰(zhàn)性。
2023年4月,復(fù)旦大學(xué)環(huán)境科學(xué)與工程系方明亮教授團(tuán)隊(duì)與新加坡南洋理工大學(xué)李光前醫(yī)學(xué)院王玉蘭團(tuán)隊(duì)在《Journal of Hazardous Materials》期刊上發(fā)表題為“An automated toxicity based prioritization framework for fast chemical characterization in non-targeted analysis”的研究成果。該研究使用光譜匹配、保留時(shí)間預(yù)測(cè)、毒性預(yù)測(cè)和ToxPi 評(píng)分進(jìn)行計(jì)算融合,通過自動(dòng)化 R 包工作流程 NTA prioritization.R 簡(jiǎn)化了費(fèi)力的優(yōu)先級(jí)排序,以減少特征數(shù)量,從而可以快速識(shí)別出對(duì)環(huán)境或人類構(gòu)成風(fēng)險(xiǎn)的污染物。原文鏈接:https://doi.org/10.1016/j.jhazmat.2023.130893。
研究亮點(diǎn)
1)使用組合算法(多個(gè)過濾器條件)對(duì)污染物進(jìn)行優(yōu)行級(jí)排序
2)光譜匹配、保留時(shí)間預(yù)測(cè)、毒性預(yù)測(cè)的集成式工作流程
3)使用R自動(dòng)化排序優(yōu)先級(jí),極大提高效率
4)能對(duì)污水樣本中約7000種候選污染物進(jìn)行優(yōu)先級(jí)排序
研究思路
作者建立了如圖1所示的工作流程包括(A)使用數(shù)據(jù)非依賴采集(DIA)模式通過 LC-HRMS 分析樣品,(B)對(duì)采集后的原始數(shù)據(jù)進(jìn)行解卷積,并通過實(shí)驗(yàn)或計(jì)算機(jī)質(zhì)譜庫搜索生成候選列表,(C)使用隨機(jī)森林預(yù)測(cè)模型預(yù)測(cè)候選化合物的保留時(shí)間,根據(jù)用戶定義的光譜匹配分?jǐn)?shù)和保留時(shí)間預(yù)測(cè)閾值,候選化合物被優(yōu)先劃分為4個(gè)級(jí)別(RT-MS/MS水平1-4),(D)根據(jù) EPA TEST 軟件預(yù)測(cè)用戶定義的6個(gè)端點(diǎn)毒性閾值和 ToxCast毒性數(shù)據(jù)庫搜索的ToxPi 評(píng)分,候選化合物被優(yōu)先劃分為3個(gè)級(jí)別(毒性水平1-3),(E)最后通過結(jié)合 RT-MS/MS 水平和毒性水平,將候選化合物按優(yōu)先級(jí)降序排列為5個(gè)等級(jí)。
圖1基于 NTA 的優(yōu)先級(jí)排序工作流程
首先,作者將獲取的原始數(shù)據(jù)在 Waters Progenesis QI 軟件的協(xié)助下分六個(gè)步驟進(jìn)行預(yù)處理,如圖2所示:(A)正模式下的峰提�。˙)峰比對(duì)(C)解卷積(D)多變量分析(E)Progenesis MetaScope 的譜庫搜索和 MS/MS 譜圖匹配(F)建立包含化合物名稱、化合物ID、中性質(zhì)量、m/z、保留時(shí)間等信息的化合物候選列表。
圖2對(duì)原始數(shù)據(jù)預(yù)處理獲取候選列表的工作流程
接著,作者使用基于保留時(shí)間和分子特性以及分子結(jié)構(gòu)之間的定量結(jié)構(gòu)保留關(guān)系(QSRR) 的隨機(jī)森林回歸模型預(yù)測(cè)候選化合物的 RT。將146 種化合物的實(shí)測(cè)保留時(shí)間根據(jù)75:25的比例進(jìn)行模型訓(xùn)練和測(cè)試,使用基于R平臺(tái)的化學(xué)開發(fā)工具包(rCDK),基于簡(jiǎn)化的分子輸入線輸入系統(tǒng)(SMILES)計(jì)算分子描述參數(shù)。SMILES被解析后用于計(jì)算每個(gè)化合物286個(gè)化學(xué)描述參數(shù),通過消除空值、常量值和高度相關(guān)的描述參數(shù)(R2>0.9),剩余的166個(gè)化學(xué)描述參數(shù)導(dǎo)入到建模功能中,用于超參數(shù)優(yōu)化。作者使用遞歸特征消除和10倍交叉驗(yàn)證來優(yōu)化描述參數(shù)的數(shù)量,最終根據(jù)均方根誤差(RMSE)最低選擇了25個(gè)最重要的描述參數(shù)用于模型訓(xùn)練,在模型訓(xùn)練期間使用了10 倍交叉驗(yàn)證提供更可靠的預(yù)測(cè)。
最后,作者使用EPA TEST和ToxCast對(duì)主要環(huán)境化學(xué)品進(jìn)行毒性預(yù)測(cè),如急性毒性、致癌性、生殖毒性和其他對(duì)水生環(huán)境的毒性。測(cè)試毒性包括FMLC50、DMLC50、TPIGC50、ORLD50、DT、AM、ToxPi。作者使用的數(shù)據(jù)庫中六個(gè)不同終點(diǎn)的毒性是實(shí)驗(yàn)測(cè)定和計(jì)算機(jī)預(yù)測(cè)毒性的整合,整體的預(yù)測(cè)準(zhǔn)確度在0.62-0.79。
研究結(jié)果
候選化合物列表的數(shù)據(jù)預(yù)處理
作者根據(jù)圖2所示的研究思路從預(yù)加標(biāo)污泥水樣品中發(fā)現(xiàn)了137個(gè)與對(duì)照組有顯著差異的峰,并進(jìn)行了多變量分析(圖2D)。使用QI中的EPA ToxCast、EPA DSSTox、NIST、NIST Spectral、NIST MS/MS、MoNA數(shù)據(jù)庫進(jìn)行匹配分析,不同數(shù)據(jù)庫匹配到的候選化合物數(shù)量不一致,未匹配到的光譜則用計(jì)算機(jī)預(yù)測(cè)MS2光譜(圖2E-2F)。匹配時(shí)根據(jù)質(zhì)量誤差、同位素分布相似性和碎裂譜圖評(píng)分,按照一定的比例加權(quán)求得最終得分。作者建立了一套自動(dòng)化工作流程整合來自不同數(shù)據(jù)庫的所有候選化合物,對(duì)同一峰值具有相同 SMILES 的候選化合物被整合到最終列表中。實(shí)現(xiàn)了最初的 6982 個(gè)候選化合物被縮減為 4185個(gè),以進(jìn)一步確定優(yōu)先順序。
用隨機(jī)森林模型進(jìn)行RT預(yù)測(cè)
基于之前研究的模型,通過隨機(jī)森林算法進(jìn)行特征選擇建立QSRR 的線性回歸模型,在這項(xiàng)研究中,作者進(jìn)一步應(yīng)用隨機(jī)森林算法來預(yù)測(cè)保留時(shí)間,開發(fā)了一個(gè)用于特征選擇和超參數(shù)優(yōu)化的自動(dòng)化工作流程。選擇了 146 種 FDA 藥物進(jìn)行模型訓(xùn)練,以預(yù)測(cè)未知化合物在反相 LC 系統(tǒng)中的保留時(shí)間。預(yù)測(cè)模型在測(cè)試數(shù)據(jù)中的線性相關(guān)性 R2 = 0.86 (p = 2.4e-11),平均絕對(duì)誤差 (MAE) 為 1.00 分鐘(圖3A)。進(jìn)一步對(duì) 28 種化學(xué)標(biāo)準(zhǔn)品的實(shí)驗(yàn)保留時(shí)間進(jìn)行評(píng)估,預(yù)測(cè)顯示出良好的準(zhǔn)確性,中位預(yù)測(cè)誤差為 1.11 分鐘,平均預(yù)測(cè)誤差為1.14 分鐘(圖 3B)。
通過 RT 預(yù)測(cè)和 MS/MS 光譜匹配確定優(yōu)先級(jí)
在這項(xiàng)研究中,作者通過 MS/MS 光譜匹配分?jǐn)?shù)和保留時(shí)間預(yù)測(cè),提出了一個(gè)將可能的候選化合物初步劃分為 4 個(gè) RT-MS/MS 級(jí)別的優(yōu)先級(jí)程序。對(duì)于保留時(shí)間預(yù)測(cè),作者將閾值ΔRT定義為實(shí)驗(yàn)保留時(shí)間和預(yù)測(cè)保留時(shí)間之間的差異,由模型的最大預(yù)測(cè)誤差決定,在該研究中為1.0分鐘。MS光譜匹配的得分范圍從0到60,將得分閾值設(shè)置為30、35和40,從而將候選化合物分為四類,合并的分類級(jí)別見圖3C。如圖3B所示,通過文庫搜索RT=9.0分鐘的峰值來獲得四個(gè)候選化合物,通過計(jì)算ΔRT和MS光譜匹配得分,a、b、c、d四個(gè)候選化合物分別被歸為了RT-MS/MS 1級(jí)、2級(jí)、3級(jí)、4級(jí)。作者將這種優(yōu)先級(jí)排序策略應(yīng)用于污泥水樣本的候選列表,之前的4185個(gè)候選化合物,其中1821、1382、728、253個(gè)候選化合物分別在RT-MS/MS 1級(jí)、2級(jí)、3級(jí)、4級(jí),還有1個(gè)候選化合物不可用于RT預(yù)測(cè)。

圖3保留時(shí)間 (RT) 預(yù)測(cè)模型開發(fā)流程
使用六個(gè)毒性終點(diǎn)和ToxPi評(píng)分進(jìn)行毒性優(yōu)先級(jí)排序
為提高有毒化學(xué)品的覆蓋率,作者引入了6個(gè)關(guān)鍵毒性終點(diǎn)和基于ToxCast數(shù)據(jù)庫的ToxPi評(píng)分在R程序中進(jìn)行應(yīng)用。用戶可以根據(jù)其主要風(fēng)險(xiǎn)問題從任何毒理學(xué)終點(diǎn)提取數(shù)據(jù)。ToxCast 數(shù)據(jù)庫中有 8845 種化合物具有可用的毒性。通過毒性排序,作者將候選化合物分為 3 個(gè)毒性水平:1 級(jí)至 3 級(jí)(圖4B)。為了演示作者根據(jù)可用的毒性終點(diǎn) ORLD50對(duì) 2779個(gè)候選化合物進(jìn)行了優(yōu)先排序,ORLD50 的計(jì)算結(jié)果如圖 4B 所示,大多數(shù)候選化合物在此毒性終點(diǎn)顯示中等毒性,范圍從1到5.06。為了驗(yàn)證,作者添加了28個(gè)化學(xué)標(biāo)準(zhǔn)品,包括不同毒性的農(nóng)藥,并在候選名單中發(fā)現(xiàn)了21種添加的化學(xué)物質(zhì)。敵敵畏和氰草津被列為1級(jí)毒性,其余加標(biāo)的化合物被歸類為2級(jí)毒性(圖4C)。

圖4毒性水平及毒性水平排序示例
結(jié)合毒性水平和RT-MS/MS水平確定最終優(yōu)先順序
作者進(jìn)一步將毒性水平與RT-MS/MS水平相結(jié)合,以提供最終的候選優(yōu)先順序列表。其目標(biāo)是突出候選化合物中的有毒化合物。根據(jù)作者的算法候選化合物被劃分為5級(jí):1級(jí)到5級(jí)(圖5A),例如1級(jí)候選化合物具有毒性水平1級(jí)和RT-MS/MS水平1級(jí)�;谧髡叩乃惴ǎ卸竞蜻x化合物可以根據(jù)其識(shí)別置信度進(jìn)行優(yōu)先排序,以便進(jìn)一步驗(yàn)證。
作者以ORLD50終點(diǎn)毒性為例,根據(jù)RT-MS/MS水平和毒性水平,從6982個(gè)候選化合物的原始列表中對(duì)2779個(gè)候選化合物進(jìn)行了優(yōu)先排序。另增加了28個(gè)化學(xué)標(biāo)準(zhǔn),根據(jù)工作流程對(duì)其中的21個(gè)進(jìn)行了優(yōu)先排序。通過結(jié)合毒性水平和RT-MS/MS水平,敵敵畏和氰草津被列為1級(jí)候選化合物,其他化學(xué)品分別被列為3級(jí)(N=11)、4級(jí)(N=9)和5級(jí)(N=1)候選化合物(圖5B)。
為進(jìn)一步詳細(xì)地演示優(yōu)先排序工作流程,以m/z=238.0851、RT=7.6min為例演示候選化合物的優(yōu)先排序(圖5C)。在6982個(gè)候選化合物原始列表中,保留了具有可用碎片化分?jǐn)?shù)和預(yù)測(cè)保留時(shí)間的139個(gè)候選化合物。進(jìn)一步計(jì)算了毒性水平和RT-MS/MS水平,排除沒有有效毒性和保留時(shí)間的候選化合物,對(duì)139個(gè)候選化合物中的78個(gè)進(jìn)行了5級(jí)優(yōu)先排序,其中1級(jí)、2級(jí)、3級(jí)、4級(jí)、5級(jí)分別有1個(gè)、2個(gè)、3個(gè)、36個(gè)、36個(gè)。鮮綠青霉素和3-氰基-4-聯(lián)苯-乙酸因?yàn)楦叨拘裕═ox1級(jí))分別被列為2級(jí)和3級(jí)候選化合物,作者列舉了排序最優(yōu)先的5個(gè)候選化合物(圖5C)。用戶可以根據(jù)實(shí)際情況重新定義毒性分類的閾值,只要更適合進(jìn)行化學(xué)優(yōu)先排序。

圖5毒性水平結(jié)合RT-MS/MS水平確定最終優(yōu)先順序示例
全文總結(jié)
這項(xiàng)研究為非靶向分析(NTA)中已知或未知化合物的鑒定提供了一種基于毒性的優(yōu)先排序工作流程,可以極大地縮小數(shù)百至數(shù)千個(gè)候選化合物匹配范圍。作者對(duì)非靶向數(shù)據(jù)預(yù)處理后通過隨機(jī)森林模型預(yù)測(cè)化合物的保留時(shí)間,并通過結(jié)合保留時(shí)間預(yù)測(cè)、譜庫搜索進(jìn)行的碎片光譜匹配來提供候選化合物的優(yōu)先列表�;赒SRR的保留時(shí)間預(yù)測(cè)在MS/MS光譜匹配分?jǐn)?shù)之上可以顯著減少候選化合物的數(shù)量,再結(jié)合化學(xué)毒性評(píng)估能夠?qū)τ卸净衔镞M(jìn)行全面的優(yōu)先排序。