數(shù)據(jù)分析
多變量統(tǒng)計方法可以達到降維的目的,并且不受變量多重共線性的限制。
譜圖經(jīng)過一定的前處理,然后進行分段積分,通常一張譜圖會分成上千個積分段,每一段就是一個變量,每個樣本的特征就由這些變量來共同定義的。
在積分?jǐn)?shù)據(jù)用于多變量分析之前,先要對數(shù)據(jù)進行歸一化(normalization)和標(biāo)準(zhǔn)化(scaling)處理。
代謝組學(xué)數(shù)據(jù)分析中常用的多變量統(tǒng)計分析方法主要包括主成分分析(principal component analysis,PCA),偏最小二乘判別分析(partial least squares discriminant analysis,PLS-DA)和正交化偏最小二乘判別分析(orthogonal projection to latent structure discriminant analysis,OPLS-DA)。
在代謝組學(xué)研究中,由于樣本量有限,通常使用內(nèi)部驗證方法對模型的有效性進行檢驗。常用的內(nèi)部驗證方法有交叉驗證(cross-validation,CV)、排列實驗(permutation test)和CV-ANOVA(varianceanalysis of the cross-validated residuals)。
經(jīng)過驗證確實有效的模型,可以通過提取其第一主成分找到對組間區(qū)分貢獻大的變量,即發(fā)生顯著性變化的代謝物。變量是否對組間區(qū)分有顯著性貢獻通過變量與第一主成分得分值的Pearson 相關(guān)系數(shù)r 來確定,根據(jù)樣本量和r 臨界值表來確定P < 0.05 時具有統(tǒng)計學(xué)顯著性的臨界值。第一主成分的載荷(loading)經(jīng)過回溯轉(zhuǎn)換,采用Matlab 軟件等可以繪制出相關(guān)系數(shù)負(fù)載圖。