關(guān)于我們
精工致善丨多元統(tǒng)計(jì)分析之PCA、PLS-DA、OPLS-DA
什么是PCA, PLS-DA、OPLS-DA?
◆主成分分析(Principal Component Analysis,PCA),將多個(gè)變量通過線性變換以選出較少個(gè)數(shù)重要變量的無監(jiān)督分析方法,是一種多變量統(tǒng)計(jì)分析方法,又稱主分量分析�?梢猿醪搅私飧鹘M樣本之間的總體代謝物差異和組內(nèi)樣本之間的變異度大小,并可通過分析QC樣本進(jìn)行質(zhì)量控制。
◆偏最小二乘法判別分析(Partial Least Squares Discrimination Analysis,PLS-DA)是一種有監(jiān)督的判別分析方法,是多變量統(tǒng)計(jì)分析方法。判別分析是一種根據(jù)觀察或測量到的若干變量值,來判斷研究對(duì)象如何分類的常用統(tǒng)計(jì)分析方法。PLS-DA能按照預(yù)先定義的分類(Y變量)最大化組間的差異,獲得比PCA更好的分離效果。
◆正交偏最小二乘判別分析( Orthogonal PLS-DA,OPLS-DA)是一種有監(jiān)督的判別分析方法,是多變量統(tǒng)計(jì)分析方法。OPLS-DA綜合了PLS-DA和正交信號(hào)過濾(orthogonal signal correction, OSC)技術(shù),能夠把與預(yù)先設(shè)定的和分類無關(guān)的信息最大程度從原始矩陣分離,從而將最相關(guān)的因素集中到第一個(gè)主成份上,進(jìn)而尋找該主成分的正交矯正軸方向,從而使得組間樣本分離效果更佳,使組內(nèi)差異弱化,組間差異最大化凸顯,且更適用于兩組樣本間的分離。PLS-DA可以用于兩組及以上組別的分類比較,而OPLS-DA通常用于兩組的對(duì)比,找差異物質(zhì)。
如何進(jìn)行PCA, PLS-DA、OPLS-DA分析?
1.進(jìn)入在線分析軟件
2.上傳數(shù)據(jù)
數(shù)據(jù)類型選擇濃度;數(shù)據(jù)格式選擇樣品在每一列(未配對(duì)),可根據(jù)實(shí)驗(yàn)數(shù)據(jù)實(shí)際情況選擇樣品在每一行或是每一列、配對(duì)或未配對(duì)實(shí)驗(yàn);選擇上傳的文件,提交即可。
2.1上傳文件格式說明
①有樣本名和樣本分組信息,文件格式需為制表符分割的TXT文件或逗號(hào)分割的CSV文件。
②靶標(biāo)中不能有希臘字母α、β等,用alpha、beta等替換。
示例1:
2.2檢查數(shù)據(jù)格式
檢查數(shù)據(jù)格式,是否有非數(shù)值數(shù)據(jù)、缺失值或其它特殊字符和標(biāo)點(diǎn)符號(hào),默認(rèn)將缺失值及零值替換為其對(duì)應(yīng)變量的最小正值的1/5。
3.數(shù)據(jù)處理
3.1選擇分析項(xiàng)目
4.圖形解讀
①PCA圖形解讀
碎石圖(scree plot)即貢獻(xiàn)率圖,是希望圖形一開始很陡峭,如懸崖一般,而剩下的數(shù)值都很小,如崖底的碎石一樣。顯示各主成分的特征值貢獻(xiàn)率。如圖中顯示PC1貢獻(xiàn)率為74.2%,PC2貢獻(xiàn)率為11.1%...
PCA得分圖有二維和三維兩種展示形式,在二維得分圖中橫坐標(biāo)PC1表示第一主成分,縱坐標(biāo)PC2表示第二主成分,百分比表示該主成分對(duì)數(shù)據(jù)集的解釋率,圓圈表示95%的置信區(qū)間;圖中的每個(gè)點(diǎn)表示一個(gè)樣品,同一個(gè)組的樣品使用同一種顏色表示,Group為不同的分組;PCA得分圖可以讓我們非常直觀地看出各個(gè)樣本之間的相似性。例如在一張PCA得分圖中,數(shù)個(gè)樣本的點(diǎn)聚在一起,那么就說明這幾個(gè)樣本之間的相似性非常高,反之,如果幾個(gè)樣本的點(diǎn)非常分散,則說明這幾個(gè)樣本之間的相似性比較低。還可以看出組間是否有差異、QC樣本是否穩(wěn)定。
荷載圖:把主成分1和主成分2的荷載點(diǎn)出一個(gè)二維圖以直觀的顯示它們?nèi)绾谓忉屧瓉淼淖兞康�,這個(gè)圖就叫做荷載圖。每個(gè)點(diǎn)對(duì)應(yīng)該物質(zhì)對(duì)第一主成分和第二主成分的相關(guān)系數(shù)。相關(guān)系數(shù)的絕對(duì)值越大說明主成分對(duì)該變量的代表性越大。
第一、二、三主成分3D繪圖在三維得分圖中,增加了第三個(gè)主成分,此時(shí)X軸表示PC1,Y軸表示PC3,Z軸表示PC2。
根據(jù)主成分1和主成分2畫出樣本分布的散點(diǎn)圖。橫縱坐標(biāo)是主成分,各個(gè)向量代表原特征。向量在主成分上的投影可以代表兩者的相關(guān)程度。點(diǎn)之間的距離,反映它們對(duì)應(yīng)的樣本之間的差異大小,兩點(diǎn)相距較遠(yuǎn),對(duì)應(yīng)樣本差異大;兩點(diǎn)相距較近,對(duì)應(yīng)樣本差異小,存在相似性。
②PLS-DA圖形解讀
VIP ( Variable Importance in Projection scores )變量重要性投影,通過變量投影重要度衡量各代謝物組分含量對(duì)樣本分類判別的影響強(qiáng)度和解釋能力,輔助標(biāo)志代謝物的篩選。通常以VIP值>1作為篩選標(biāo)準(zhǔn)。
交叉驗(yàn)證:R2是相關(guān)性系數(shù),表示這個(gè)模型的擬合性好不好,是一個(gè)定量的測量(范圍0-1),意味著所建立的模型能在多大程度上代表真實(shí)的數(shù)據(jù),一般當(dāng)R2在0.7,0.8表示模型解釋能力較好。Q2表示PLS-DA模型的預(yù)測效果,一般Q2大于0.5表示預(yù)測能力較好,并且R2與Q2的值應(yīng)該比較接近。
模型驗(yàn)證permutation Test圖的橫坐標(biāo)表示模型的準(zhǔn)確率,縱坐標(biāo)表示100次permutation Test中100個(gè)模型的準(zhǔn)確率的頻數(shù),箭頭表示本PLS-DA模型準(zhǔn)確率所在的位置。
③OPLS-DA圖形解讀
橫坐標(biāo)表示OSC過程中的主要成分的得分值( Tp ) ,所以從橫坐標(biāo)的方向可以看到組間的差異;縱坐標(biāo)表示OSC過程中的正交成分的得分值(TO),所以從縱坐標(biāo)上看出組內(nèi)的差異(組內(nèi)樣本間的差異)。
S-plot圖的橫坐標(biāo)表示主成份與代謝物的協(xié)相關(guān)系數(shù),縱坐標(biāo)表示主成份與代謝物的相關(guān)系數(shù)。
S-plot圖一般用來挑選與OSC過程中主要成分的相關(guān)性比較強(qiáng)的代謝物,從另一方面同時(shí)也可以挑選與Y相關(guān)性強(qiáng)的代謝物。越靠近兩個(gè)角的代謝物重要度越強(qiáng)。
模型驗(yàn)證permutation Test圖的橫坐標(biāo)表示模型的準(zhǔn)確率,縱坐標(biāo)表示100次permutation Test中100個(gè)模型的準(zhǔn)確率的頻數(shù),箭頭表示本OPLS-DA模型準(zhǔn)確率所在的位置。其中R2X和R2Y分別表示所建模型對(duì)X和Y矩陣的解釋率,Q2表示模型的預(yù)測能力,理論上R2、Q2數(shù)值越接近1說明模型越好,越低說明模型的擬合準(zhǔn)確性越差。通常情況下, R2、Q2高于0.5較好,高于0.4即可接受。
從圖中可以看出Q2為0.994 , R2Y為1 , R2X為0.685 , Q2和R2Y的P值均小于0.01,說明permutation Test中隨機(jī)分組模型沒有結(jié)果優(yōu)于本OPLS-DA模型,一般情況下P<0.05時(shí)模型最佳。
5.繪圖平臺(tái)
https://www.metaboanalyst.ca/
MetaboAnalyst是一個(gè)代謝組學(xué)數(shù)據(jù)分析的綜合平臺(tái)。在當(dāng)前的MetaboAnalyst (V5.0)支持原始MS光譜處理、綜合數(shù)據(jù)歸一化、統(tǒng)計(jì)分析、功能分析、薈萃分析以及與其他組學(xué)數(shù)據(jù)的綜合分析。