科研人員發(fā)布人類(lèi)基因組結(jié)構(gòu)變異數(shù)據(jù)庫(kù)和計(jì)算分析平臺(tái)
軍工資源網(wǎng) 2022年10月24日10月16日,復(fù)旦大學(xué)生命科學(xué)學(xué)院/人類(lèi)表型組研究院教授徐書(shū)華團(tuán)隊(duì)、中國(guó)科學(xué)院上海營(yíng)養(yǎng)與健康研究所研究員張國(guó)慶、復(fù)旦大學(xué)生命科學(xué)學(xué)院研究員樊少華合作,開(kāi)發(fā)出人類(lèi)基因組結(jié)構(gòu)變異數(shù)據(jù)庫(kù)PGG.SV(https://www.biosino.org/pggsv/)。相關(guān)研究成果以PGG.SV: a whole-genome-sequencing-based structural variant resource and data analysis platform為題,發(fā)表在《核酸研究》(Nucleic Acids Research)上。該數(shù)據(jù)庫(kù)通過(guò)收集全球人群的全基因組測(cè)序數(shù)據(jù),專(zhuān)注于基因組結(jié)構(gòu)變異數(shù)據(jù)的挖掘和整合,為人類(lèi)基因組結(jié)構(gòu)變異的研究提供了數(shù)據(jù)獲取、信息查詢(xún)和在線分析的綜合平臺(tái)。
基因組結(jié)構(gòu)變異(SVs)主要包括基因組上大片段的DNA缺失、插入、片段重復(fù)等變異類(lèi)型。研究顯示,SV與癌癥、自閉癥、神經(jīng)發(fā)育障礙等多種復(fù)雜遺傳病有關(guān),近年來(lái)在醫(yī)學(xué)和遺傳學(xué)領(lǐng)域中持續(xù)受到關(guān)注。隨著基因組測(cè)序技術(shù)的進(jìn)步和普及,大量的結(jié)構(gòu)變異被不斷發(fā)現(xiàn)和研究,一些具有強(qiáng)致病性的結(jié)構(gòu)變異也逐漸得到驗(yàn)證。該研究旨在通過(guò)構(gòu)建具有代表性、多樣性的健康人群基因組結(jié)構(gòu)變異數(shù)據(jù)集,一方面為遺傳病患者的結(jié)構(gòu)變異研究提供可靠的對(duì)照樣本,另一方面對(duì)變異功能的注釋和預(yù)測(cè)將有效縮小致病性突變的篩選范圍,為相關(guān)領(lǐng)域研究提供有效的指導(dǎo)和幫助。
由于結(jié)構(gòu)變異在不同地區(qū)和民族之間存在顯著差異和多樣性,而現(xiàn)有的數(shù)據(jù)庫(kù)和公共數(shù)據(jù)集各自采用不同的分析流程,因此缺乏具有人群樣本和新一代測(cè)序數(shù)據(jù)代表性的結(jié)構(gòu)變異資源和分析平臺(tái),尤其對(duì)東亞人群樣本的覆蓋度不足。科研團(tuán)隊(duì)整合了大規(guī)模的測(cè)序數(shù)據(jù),包括全球177個(gè)代表性地區(qū)和族群的6,048個(gè)全基因組測(cè)序數(shù)據(jù),特別對(duì)我國(guó)豐富的民族多樣性特征進(jìn)行了深度分析,首次覆蓋了我國(guó)50個(gè)少數(shù)民族。截至論文發(fā)表,數(shù)據(jù)庫(kù)共收錄584,277個(gè)結(jié)構(gòu)變異,并將在未來(lái)持續(xù)增加。此外,PGG.SV首次納入了三代長(zhǎng)讀長(zhǎng)(long-reads)測(cè)序數(shù)據(jù),其在結(jié)構(gòu)變異的檢測(cè)中具有更大的優(yōu)勢(shì),特別是在插入序列的檢測(cè)和判定方面,效果顯著優(yōu)于二代測(cè)序技術(shù)。先前的大規(guī)模結(jié)構(gòu)變異數(shù)據(jù)庫(kù)均基于二代測(cè)序或基因芯片數(shù)據(jù)構(gòu)建。研究團(tuán)隊(duì)產(chǎn)生和收集了1,030個(gè)三代測(cè)序基因組,并首次采用三代測(cè)序與二代測(cè)序結(jié)合的方式構(gòu)建結(jié)構(gòu)變異數(shù)據(jù)庫(kù),從而大幅提升了結(jié)構(gòu)變異檢測(cè)結(jié)果的數(shù)量和質(zhì)量。
在數(shù)據(jù)庫(kù)功能上,PGG.SV提供了簡(jiǎn)潔、友好的查詢(xún)功能,提供不同族群結(jié)構(gòu)變異在基因組位置上的精確展示以及全球各個(gè)族群之間的頻率差異等統(tǒng)計(jì)信息。利用課題組先前積累的優(yōu)勢(shì),PGG.SV與徐書(shū)華團(tuán)隊(duì)此前開(kāi)發(fā)的PGG.SNV等數(shù)據(jù)庫(kù)進(jìn)行聯(lián)動(dòng),借助連鎖不平衡和基因組空間位置信息,將單核苷酸變異(SNV)的詳細(xì)結(jié)果與結(jié)構(gòu)變異相結(jié)合,以增強(qiáng)數(shù)據(jù)多樣性的解析功能。此外,PGG.SV提供了豐富的臨床效應(yīng)分析和預(yù)測(cè)分析功能,根據(jù)與結(jié)構(gòu)變異存在關(guān)聯(lián)的基因和調(diào)控元件,提供對(duì)其潛在表型、功能的預(yù)測(cè)和富集分析以及由特定疾病和表型檢索相關(guān)結(jié)構(gòu)變異的工具,以便有臨床研究等需求的用戶(hù)使用。
此外,PGG.SV支持豐富的在線分析和可視化功能。研究團(tuán)隊(duì)提供對(duì)用戶(hù)提交的結(jié)構(gòu)變異結(jié)果的比較和注釋?zhuān)员闶褂谜吡私庾约旱哪繕?biāo)樣本與數(shù)據(jù)庫(kù)提供的對(duì)照樣本之間的差異;提供結(jié)構(gòu)變異可視化功能,能夠在人類(lèi)基因組上檢索用戶(hù)提交的DNA序列、展示相關(guān)變異的基因組位置以及變異空間結(jié)構(gòu)變化的精細(xì)可視化。
PGG.SV提供了高質(zhì)量的人群基因組結(jié)構(gòu)變異數(shù)據(jù)資源,基于新一代測(cè)序數(shù)據(jù)大幅提升人類(lèi)基因組結(jié)構(gòu)變異信息檢測(cè)和展示,尤其是首次較為全面地覆蓋了東亞人群和中國(guó)人群的結(jié)構(gòu)變異多樣性,并提供相關(guān)基因和潛在臨床效應(yīng)的注釋。此外,該平臺(tái)提供了包括病例對(duì)照研究在內(nèi)的多種在線分析功能以及人類(lèi)基因組結(jié)構(gòu)變異的可視化工具。
研究工作得到國(guó)家自然科學(xué)基金、中科院戰(zhàn)略性先導(dǎo)科技專(zhuān)項(xiàng)、英國(guó)皇家學(xué)會(huì)牛頓高級(jí)學(xué)者基金、人類(lèi)表型組上海市市級(jí)重大專(zhuān)項(xiàng)等的支持。
圖1.PGG.SV數(shù)據(jù)處理流程示意圖
圖2.PGG.SV界面示意圖