上海有機所發(fā)展出多層代謝網絡技術
軍工資源網 2022年11月11日 中國科學院上海有機化學研究所生物與化學交叉研究中心研究員朱正江課題組在《自然-通訊》(Nature Communications)上,在線發(fā)表了題為Metabolite Annotation from Knowns to Unknowns through Knowledge-guided Multi-layer Metabolic Networking的研究論文。該工作發(fā)展出知識驅動的多層代謝網絡技術(Knowledge-guided multi-layer networking,KGMN),在復雜生物樣本中實現了未知代謝物的大規(guī)模鑒定。
生命體代謝組包含內源性產生的已知代謝物,以及微生物菌群、植物、食物和其他來源的未知代謝物。這些未知代謝物對生命活動具有重要的調控作用。然而,如何大規(guī)模鑒定未知代謝物是當前代謝組學研究的熱點和難點。前期研究中,朱正江課題組發(fā)展了基于代謝反應網絡的代謝組學技術MetDNA(Nature Communications, 2019, 10: 1516)。該技術利用代謝反應網絡中產物和底物存在結構相似性與二級質譜圖相似性的基本原理,設計了代謝物二級質譜圖“譜圖借用”、“多次迭代”算法,利用標準譜圖庫鑒定出的代謝物作為種子,依靠代謝反應網絡進行代謝物注釋的迭代和傳遞,突破了標準二級質譜圖庫的覆蓋度限制,實現大規(guī)模的已知代謝物鑒定。然而,該技術仍存在一些局限:代謝物鑒定傳遞的過程僅限于已知代謝反應網絡,因而無法用于發(fā)現新的未知代謝物;復雜質譜數據中的大量冗余信號(如同位素峰、加合物峰、中性丟失和源內裂解等)會對代謝物的鑒定造成假陽性。
研究進一步發(fā)展了知識驅動的多層代謝網絡技術(KGMN),實現了從已知代謝物鑒定未知代謝物的能力,并顯著提升了代謝物鑒定的準確度。基于該技術,科研人員開發(fā)出第二代MetDNA軟件(MetDNA2)。該技術首次整合了3層代謝網絡(圖1)——知識驅動的代謝反應網絡、知識引導的二級質譜圖相似性網絡、全局代謝峰相關性網絡。研究利用理論代謝反應對已知的代謝反應網絡進行擴展,從而構建了包含已知和未知代謝物的擴展代謝反應網絡(KMRN,網絡1)。MetDNA2從標準譜圖庫鑒定出的種子代謝物出發(fā),基于擴展代謝反應網絡和“譜圖借用”策略,構建二級質譜圖相似性網絡(網絡2)。該策略可通過多次迭代和循環(huán)擴增的算法,將代謝組學質譜數據中所有已知和未知代謝物連接,直至沒有新的注釋代謝物。在網絡2中,代謝物節(jié)點之間的連接有四個限制條件——MS1 m/z、保留時間、MS/MS譜圖相似性和代謝反應轉化(metabolic biotransformation)。對于注釋的每一個代謝物,MetDNA2會進一步通過靶向檢索其相關的冗余質譜特征峰(如同位素峰、加合物峰、中性丟失和源內裂解等),并構建全局代謝峰相關性網絡(網絡3)。利用全局代謝峰相關性網絡,MetDNA2對注釋的代謝物結果進行全局優(yōu)化,提升代謝物鑒定的準確度,去除假陽性注釋結果返回最終鑒定結果。整個數據處理流程全程自動化,無需人工干預,提升了數據分析的效率?! ?/div>
利用上述技術,MetDNA2對已知代謝物的鑒定準確性從~70%提升至>95%。同時,在不同的生物樣本中,MetDNA2還可鑒定~100-300個未知代謝物。MetDNA2對單個生物樣本鑒定的代謝物數目在2000-5000個左右。在MetDNA2中,每一個鑒定結果均根據國際代謝組學協會標準指定特定的可信度。此外,MetDNA2還包含一系列重要的更新和升級,如全面升級的標準代謝物譜圖數據庫(>2000個代謝物);兩種不同色譜體系的保留時間數據庫(HILIC和C18體系);適配所有廠商的高分辨二級質譜數據等。
為了相關研究便捷的應用這一工具,課題組提供了用戶友好型的界面和網站MetDNA2(http://metdna.zhulab.cn/),學術用戶可免費注冊使用。該工作開發(fā)的KGMN技術已申請國家發(fā)明專利和國家軟件著作權。相關技術和軟件的商業(yè)用途需要聯系朱正江進行授權使用。研究工作得到國家自然科學基金、科技部、中科院、上海市科學技術委員會等的支持。
知識驅動的多層代謝網絡技術KGMN