尋夢新聞LINE@每日推播熱門推薦文章,趣聞不漏接
繼(點擊閱讀),中國科學院上海有機化學研究所生物與化學交叉研究中心的朱正江研究員課題組近期在 Analytical Chemistry 雜誌上又發表了一篇題為 LipidCCS: Prediction of Collision Cross-Section Values for Lipids with High Precision to Support Ion Mobility-Mass Spectrometry based Lipidomics 的文章,報導了首個大規模、高精度的脂質分子 CCS 庫的建成。文中介紹了一種機器學習算法對脂質分子的碰撞截面積(Collision Cross-Section, CCS)進行大規模預測,並進一步結合 IM-QTOF-MS 離子淌度質譜進行驗證,最終建立了首個應用於非靶向脂質組學研究的大規模脂質 CCS 值數據庫(LipidCCS),該數據庫包含了 22 大類來自 LipidMAPS 的 15646 個脂質, 做到將預測精度提升至 1%。
脂質是生物體的重要組成部分,脂代謝跟生命體眾多生理功能密切相關。然而因其數目龐大、同分異構體眾多,脂質組的分析和鑒定一直是困擾研究者的難點和挑戰。
離子淌度質譜(IM-MS)可以獲得代表化合物尺寸大小的碰撞截面積數據、區分電荷異構體和同分異構體,進而提供超越傳統質譜平台的第四維鑒定信息,將有效提升對脂質分子的分析和鑒定能力。將離子淌度質譜應用於脂質組學研究是當前發展的趨勢和前沿,然而制約其廣泛應用的技術瓶頸在於缺少脂質鑒定的大規模 CCS 值數據庫。
因此,本文作者旨在通過實驗數據結合人工智能算法大規模、高精度預測脂質分子的 CCS 值,拓展這一領域的研究。
利用人工智能算法精確預測脂質分子的 CCS 值
首先,作者利用安捷倫DTIM-QTOF-MS 6560 離子淌度質譜,分別在正負模式下準確測定了 329 和 129 個脂質分子的實驗 CCS 數值構成訓練樣本集;接著,在分子描述符的選擇上進行了優化。與先前報導的 MetCCS 選擇 14 個分子描述符相比,作者通過生物信息學方法對兩百多個分子描述符(molecular deors)進行了選擇和優化,最終選取了最重要的45 個和 66 個分子描述符組合分別用於構建正負離子模式下的預測模型。利用新構建的預測方法做到了近1%的預測精度,與現有方法相比,極大提高了預測的準確性。
預測方法的外部驗證及預測性能評估
為了客觀地評估該方法預測的準確性,作者選取了四組不同脂質分子的 CCS 數據集來評估該方法的預測精度,包括了不同實驗室和儀器平台。結果表明,本文開發的預測方法所獲得的 CCS 預測值與安捷倫 6560 IM-MS 實驗測量值十分接近,正負模式下相對偏差(MER, Median Relative Error)分別為 0.50% 和 0.42%。同時,該方法與最新的文獻報導實驗值比較,相對偏差亦低於 1%,充分證明了該方法具備出色的預測能力和極高的準確度。
碰撞橫截面積(CCS)和脂質結構的相關性
利用預測的脂質 CCS 值數據庫,作者對數據庫中脂質分子結構與 CCS 數值之間的關係進行了分析。實驗結果表明,不同脂質具有不同的趨勢線(trend line)。對同一類脂質(比如 PE),隨著雙鍵數目逐個增多,不同類脂質 CCS 的數值有 0.4%-1.9% 的降低。碳鏈長度每增加一個碳,CCS 數值則有 0.7%-1.5% 的增加。這和以前的報導相一致,進一步說明該預測方法的準確性和可信度。本文還發現 CCS 數值的變化能夠很好地反映脂質結構的變化;加合物形式和正負離子模式對 CCS 數值也有微小的影響,不過仍然呈現很好的相關性。
LipidCCS 網站上線並開放使用
基於上述方法,作者建立了世界上首個大規模的脂質 CCS 數據庫— LipidCCS,包含了 22 大類來自 LipidMAPS 的 15646 個脂質。對於每一個脂質,分別預測了 5 種不同加合離子的 CCS 值([M+H]+, [M+Na]+, [M+NH4]+, [M-H]-, [M+HCOO]-),最終數據庫中共計包含 63434 個 CCS 值。
目前 LipidCCS 網站也已上線並開放使用)。該網站目前具有 CCS 數值預測、數據庫搜尋和脂質匹配三大功能:
-
CCS 預測能夠做到從 SMLIES 結構式到 CCS 值的一步預測;
-
數據庫可支持分子式或脂質名稱的快速搜尋;
-
脂質匹配可做到靈活地調整 m/z 和 CCS 的精度窗口進行脂質鑒定。
該網站操作簡便,處理速度快,為脂質鑒定提供了很大的便利。在實際的生物樣品研究中,作者發現結合 CCS 數據可以顯著降低非靶標脂質組學研究中脂質鑒定的假陽性率,從而提高了準確性和有效性。
作者通過本文的研究,開發了機器學習算法來大規模預測脂質分子的 CCS 值,最終建立了包含 15646 個脂質的 LipidCCS 數據庫,這是目前已知的最大規模的脂質 CCS 數據庫,預測精度可以提升至 1%。LipidCCS 官網也已上線並開放使用,點擊文末左下角「閱讀原文」登陸查看。結合 CCS 數據庫,可以顯著提升非靶標脂質組學研究中脂質鑒定的有效性和精確度。本文作者的工作無疑將推動離子淌度質譜在脂質組學中的深入應用,推開脂質分子鑒定的新大門。
朱正江課題組鏈接:http://www.zhulab.cn/
文章鏈接:http://pubs.acs.org/doi/10.1021/acs.analchem.7b02625
本文使用權歸安捷倫科技(中國)有限公司所有,未經授權請勿轉載至其他公眾號,如需轉載,請與工作人員聯繫,並註明出處。