君子以泽,小说排行榜完结版,将夜猫腻小说

關(guān)于我們

新聞中心

新文速遞丨J Hazard Mater污水樣本非靶檢測(cè)與快速分析

前言

殺蟲劑、藥物、工業(yè)化學(xué)品等環(huán)境污染物在水樣中無處不在，盡管濃度很低，但其高毒性仍然對(duì)生活在水系統(tǒng)中的生物和人類社會(huì)構(gòu)成了極大威脅。污染物檢測(cè)和鑒定往往通過液相色譜與高分辨率質(zhì)譜聯(lián)用的非靶向分析（NTA）進(jìn)行。但一個(gè)復(fù)雜的環(huán)境或生物樣品會(huì)產(chǎn)生上千個(gè)特征，質(zhì)譜會(huì)篩選出大量候選化合物，對(duì)候選化合物的優(yōu)先級(jí)排序極其重要也極具挑戰(zhàn)性。

2023年4月，復(fù)旦大學(xué)環(huán)境科學(xué)與工程系方明亮教授團(tuán)隊(duì)與新加坡南洋理工大學(xué)李光前醫(yī)學(xué)院王玉蘭團(tuán)隊(duì)在《Journal of Hazardous Materials》期刊上發(fā)表題為“An automated toxicity based prioritization framework for fast chemical characterization in non-targeted analysis”的研究成果。該研究使用光譜匹配、保留時(shí)間預(yù)測(cè)、毒性預(yù)測(cè)和ToxPi 評(píng)分進(jìn)行計(jì)算融合，通過自動(dòng)化 R 包工作流程 NTA prioritization.R 簡(jiǎn)化了費(fèi)力的優(yōu)先級(jí)排序，以減少特征數(shù)量，從而可以快速識(shí)別出對(duì)環(huán)境或人類構(gòu)成風(fēng)險(xiǎn)的污染物。原文鏈接：https://doi.org/10.1016/j.jhazmat.2023.130893。

研究亮點(diǎn)

1）使用組合算法（多個(gè)過濾器條件）對(duì)污染物進(jìn)行優(yōu)行級(jí)排序

2）光譜匹配、保留時(shí)間預(yù)測(cè)、毒性預(yù)測(cè)的集成式工作流程

3）使用R自動(dòng)化排序優(yōu)先級(jí)，極大提高效率

4）能對(duì)污水樣本中約7000種候選污染物進(jìn)行優(yōu)先級(jí)排序

研究思路

作者建立了如圖1所示的工作流程包括（A）使用數(shù)據(jù)非依賴采集（DIA）模式通過 LC-HRMS 分析樣品，（B）對(duì)采集后的原始數(shù)據(jù)進(jìn)行解卷積，并通過實(shí)驗(yàn)或計(jì)算機(jī)質(zhì)譜庫搜索生成候選列表，（C）使用隨機(jī)森林預(yù)測(cè)模型預(yù)測(cè)候選化合物的保留時(shí)間，根據(jù)用戶定義的光譜匹配分?jǐn)?shù)和保留時(shí)間預(yù)測(cè)閾值，候選化合物被優(yōu)先劃分為4個(gè)級(jí)別（RT-MS/MS水平1-4），（D）根據(jù) EPA TEST 軟件預(yù)測(cè)用戶定義的6個(gè)端點(diǎn)毒性閾值和 ToxCast毒性數(shù)據(jù)庫搜索的ToxPi 評(píng)分，候選化合物被優(yōu)先劃分為3個(gè)級(jí)別（毒性水平1-3），（E）最后通過結(jié)合 RT-MS/MS 水平和毒性水平，將候選化合物按優(yōu)先級(jí)降序排列為5個(gè)等級(jí)。

圖1基于 NTA 的優(yōu)先級(jí)排序工作流程

首先，作者將獲取的原始數(shù)據(jù)在 Waters Progenesis QI 軟件的協(xié)助下分六個(gè)步驟進(jìn)行預(yù)處理，如圖2所示：（A）正模式下的峰提�。˙）峰比對(duì)（C）解卷積（D）多變量分析（E）Progenesis MetaScope 的譜庫搜索和 MS/MS 譜圖匹配（F）建立包含化合物名稱、化合物ID、中性質(zhì)量、m/z、保留時(shí)間等信息的化合物候選列表。

圖2對(duì)原始數(shù)據(jù)預(yù)處理獲取候選列表的工作流程

接著，作者使用基于保留時(shí)間和分子特性以及分子結(jié)構(gòu)之間的定量結(jié)構(gòu)保留關(guān)系（QSRR）的隨機(jī)森林回歸模型預(yù)測(cè)候選化合物的 RT。將146 種化合物的實(shí)測(cè)保留時(shí)間根據(jù)75:25的比例進(jìn)行模型訓(xùn)練和測(cè)試，使用基于R平臺(tái)的化學(xué)開發(fā)工具包（rCDK），基于簡(jiǎn)化的分子輸入線輸入系統(tǒng)（SMILES）計(jì)算分子描述參數(shù)。SMILES被解析后用于計(jì)算每個(gè)化合物286個(gè)化學(xué)描述參數(shù)，通過消除空值、常量值和高度相關(guān)的描述參數(shù)（R²>0.9），剩余的166個(gè)化學(xué)描述參數(shù)導(dǎo)入到建模功能中，用于超參數(shù)優(yōu)化。作者使用遞歸特征消除和10倍交叉驗(yàn)證來優(yōu)化描述參數(shù)的數(shù)量，最終根據(jù)均方根誤差（RMSE）最低選擇了25個(gè)最重要的描述參數(shù)用于模型訓(xùn)練，在模型訓(xùn)練期間使用了10 倍交叉驗(yàn)證提供更可靠的預(yù)測(cè)。

最后，作者使用EPA TEST和ToxCast對(duì)主要環(huán)境化學(xué)品進(jìn)行毒性預(yù)測(cè)，如急性毒性、致癌性、生殖毒性和其他對(duì)水生環(huán)境的毒性。測(cè)試毒性包括FMLC₅₀、DMLC₅₀、TPIGC₅₀、ORLD₅₀、DT、AM、ToxPi。作者使用的數(shù)據(jù)庫中六個(gè)不同終點(diǎn)的毒性是實(shí)驗(yàn)測(cè)定和計(jì)算機(jī)預(yù)測(cè)毒性的整合，整體的預(yù)測(cè)準(zhǔn)確度在0.62-0.79。

研究結(jié)果

候選化合物列表的數(shù)據(jù)預(yù)處理

作者根據(jù)圖2所示的研究思路從預(yù)加標(biāo)污泥水樣品中發(fā)現(xiàn)了137個(gè)與對(duì)照組有顯著差異的峰，并進(jìn)行了多變量分析（圖2D）。使用QI中的EPA ToxCast、EPA DSSTox、NIST、NIST Spectral、NIST MS/MS、MoNA數(shù)據(jù)庫進(jìn)行匹配分析，不同數(shù)據(jù)庫匹配到的候選化合物數(shù)量不一致，未匹配到的光譜則用計(jì)算機(jī)預(yù)測(cè)MS2光譜（圖2E-2F）。匹配時(shí)根據(jù)質(zhì)量誤差、同位素分布相似性和碎裂譜圖評(píng)分，按照一定的比例加權(quán)求得最終得分。作者建立了一套自動(dòng)化工作流程整合來自不同數(shù)據(jù)庫的所有候選化合物，對(duì)同一峰值具有相同 SMILES 的候選化合物被整合到最終列表中。實(shí)現(xiàn)了最初的 6982 個(gè)候選化合物被縮減為 4185個(gè)，以進(jìn)一步確定優(yōu)先順序。

用隨機(jī)森林模型進(jìn)行RT預(yù)測(cè)

基于之前研究的模型，通過隨機(jī)森林算法進(jìn)行特征選擇建立QSRR 的線性回歸模型，在這項(xiàng)研究中，作者進(jìn)一步應(yīng)用隨機(jī)森林算法來預(yù)測(cè)保留時(shí)間，開發(fā)了一個(gè)用于特征選擇和超參數(shù)優(yōu)化的自動(dòng)化工作流程。選擇了 146 種 FDA 藥物進(jìn)行模型訓(xùn)練，以預(yù)測(cè)未知化合物在反相 LC 系統(tǒng)中的保留時(shí)間。預(yù)測(cè)模型在測(cè)試數(shù)據(jù)中的線性相關(guān)性 R² = 0.86 (p = 2.4e^-11)，平均絕對(duì)誤差 (MAE) 為 1.00 分鐘（圖3A）。進(jìn)一步對(duì) 28 種化學(xué)標(biāo)準(zhǔn)品的實(shí)驗(yàn)保留時(shí)間進(jìn)行評(píng)估，預(yù)測(cè)顯示出良好的準(zhǔn)確性，中位預(yù)測(cè)誤差為 1.11 分鐘，平均預(yù)測(cè)誤差為1.14 分鐘（圖 3B）。

通過 RT 預(yù)測(cè)和 MS/MS 光譜匹配確定優(yōu)先級(jí)

在這項(xiàng)研究中，作者通過 MS/MS 光譜匹配分?jǐn)?shù)和保留時(shí)間預(yù)測(cè)，提出了一個(gè)將可能的候選化合物初步劃分為 4 個(gè) RT-MS/MS 級(jí)別的優(yōu)先級(jí)程序。對(duì)于保留時(shí)間預(yù)測(cè)，作者將閾值ΔRT定義為實(shí)驗(yàn)保留時(shí)間和預(yù)測(cè)保留時(shí)間之間的差異，由模型的最大預(yù)測(cè)誤差決定，在該研究中為1.0分鐘。MS光譜匹配的得分范圍從0到60，將得分閾值設(shè)置為30、35和40，從而將候選化合物分為四類，合并的分類級(jí)別見圖3C。如圖3B所示，通過文庫搜索RT=9.0分鐘的峰值來獲得四個(gè)候選化合物，通過計(jì)算ΔRT和MS光譜匹配得分，a、b、c、d四個(gè)候選化合物分別被歸為了RT-MS/MS 1級(jí)、2級(jí)、3級(jí)、4級(jí)。作者將這種優(yōu)先級(jí)排序策略應(yīng)用于污泥水樣本的候選列表，之前的4185個(gè)候選化合物，其中1821、1382、728、253個(gè)候選化合物分別在RT-MS/MS 1級(jí)、2級(jí)、3級(jí)、4級(jí)，還有1個(gè)候選化合物不可用于RT預(yù)測(cè)。

圖3保留時(shí)間 (RT) 預(yù)測(cè)模型開發(fā)流程

使用六個(gè)毒性終點(diǎn)和ToxPi評(píng)分進(jìn)行毒性優(yōu)先級(jí)排序

為提高有毒化學(xué)品的覆蓋率，作者引入了6個(gè)關(guān)鍵毒性終點(diǎn)和基于ToxCast數(shù)據(jù)庫的ToxPi評(píng)分在R程序中進(jìn)行應(yīng)用。用戶可以根據(jù)其主要風(fēng)險(xiǎn)問題從任何毒理學(xué)終點(diǎn)提取數(shù)據(jù)。ToxCast 數(shù)據(jù)庫中有 8845 種化合物具有可用的毒性。通過毒性排序，作者將候選化合物分為 3 個(gè)毒性水平：1 級(jí)至 3 級(jí)（圖4B）。為了演示作者根據(jù)可用的毒性終點(diǎn) ORLD₅₀對(duì) 2779個(gè)候選化合物進(jìn)行了優(yōu)先排序，ORLD₅₀ 的計(jì)算結(jié)果如圖 4B 所示，大多數(shù)候選化合物在此毒性終點(diǎn)顯示中等毒性，范圍從1到5.06。為了驗(yàn)證，作者添加了28個(gè)化學(xué)標(biāo)準(zhǔn)品，包括不同毒性的農(nóng)藥，并在候選名單中發(fā)現(xiàn)了21種添加的化學(xué)物質(zhì)。敵敵畏和氰草津被列為1級(jí)毒性，其余加標(biāo)的化合物被歸類為2級(jí)毒性（圖4C）。

圖4毒性水平及毒性水平排序示例

結(jié)合毒性水平和RT-MS/MS水平確定最終優(yōu)先順序

作者進(jìn)一步將毒性水平與RT-MS/MS水平相結(jié)合，以提供最終的候選優(yōu)先順序列表。其目標(biāo)是突出候選化合物中的有毒化合物。根據(jù)作者的算法候選化合物被劃分為5級(jí)：1級(jí)到5級(jí)（圖5A），例如1級(jí)候選化合物具有毒性水平1級(jí)和RT-MS/MS水平1級(jí)�；谧髡叩乃惴ǎ卸竞蜻x化合物可以根據(jù)其識(shí)別置信度進(jìn)行優(yōu)先排序，以便進(jìn)一步驗(yàn)證。

作者以ORLD₅₀終點(diǎn)毒性為例，根據(jù)RT-MS/MS水平和毒性水平，從6982個(gè)候選化合物的原始列表中對(duì)2779個(gè)候選化合物進(jìn)行了優(yōu)先排序。另增加了28個(gè)化學(xué)標(biāo)準(zhǔn)，根據(jù)工作流程對(duì)其中的21個(gè)進(jìn)行了優(yōu)先排序。通過結(jié)合毒性水平和RT-MS/MS水平，敵敵畏和氰草津被列為1級(jí)候選化合物，其他化學(xué)品分別被列為3級(jí)（N=11）、4級(jí)（N=9）和5級(jí)（N=1）候選化合物（圖5B）。

為進(jìn)一步詳細(xì)地演示優(yōu)先排序工作流程，以m/z=238.0851、RT=7.6min為例演示候選化合物的優(yōu)先排序（圖5C）。在6982個(gè)候選化合物原始列表中，保留了具有可用碎片化分?jǐn)?shù)和預(yù)測(cè)保留時(shí)間的139個(gè)候選化合物。進(jìn)一步計(jì)算了毒性水平和RT-MS/MS水平，排除沒有有效毒性和保留時(shí)間的候選化合物，對(duì)139個(gè)候選化合物中的78個(gè)進(jìn)行了5級(jí)優(yōu)先排序，其中1級(jí)、2級(jí)、3級(jí)、4級(jí)、5級(jí)分別有1個(gè)、2個(gè)、3個(gè)、36個(gè)、36個(gè)。鮮綠青霉素和3-氰基-4-聯(lián)苯-乙酸因?yàn)楦叨拘裕═ox1級(jí)）分別被列為2級(jí)和3級(jí)候選化合物，作者列舉了排序最優(yōu)先的5個(gè)候選化合物（圖5C）。用戶可以根據(jù)實(shí)際情況重新定義毒性分類的閾值，只要更適合進(jìn)行化學(xué)優(yōu)先排序。

圖5毒性水平結(jié)合RT-MS/MS水平確定最終優(yōu)先順序示例

全文總結(jié)

這項(xiàng)研究為非靶向分析（NTA）中已知或未知化合物的鑒定提供了一種基于毒性的優(yōu)先排序工作流程，可以極大地縮小數(shù)百至數(shù)千個(gè)候選化合物匹配范圍。作者對(duì)非靶向數(shù)據(jù)預(yù)處理后通過隨機(jī)森林模型預(yù)測(cè)化合物的保留時(shí)間，并通過結(jié)合保留時(shí)間預(yù)測(cè)、譜庫搜索進(jìn)行的碎片光譜匹配來提供候選化合物的優(yōu)先列表�；赒SRR的保留時(shí)間預(yù)測(cè)在MS/MS光譜匹配分?jǐn)?shù)之上可以顯著減少候選化合物的數(shù)量，再結(jié)合化學(xué)毒性評(píng)估能夠?qū)τ卸净衔镞M(jìn)行全面的優(yōu)先排序。