基因大數(shù)據(jù)如何走向臨床應(yīng)用?需克服哪些問題?
[2015/12/17]
為了推動(dòng)基因組研究在臨床中的應(yīng)用,多個(gè)國家層面的大規(guī)模研究項(xiàng)目已經(jīng)開啟。2014年英國發(fā)起了10萬人基因組計(jì)劃,美國和中國也宣布了百萬人基因組數(shù)據(jù)相關(guān)計(jì)劃。許多區(qū)域性的大數(shù)據(jù)計(jì)劃也在進(jìn)行中。例如,賓夕法尼亞州的蓋辛格健康系統(tǒng)(GeisingerHealth System)和紐約的再生元制藥公司合作,計(jì)劃獲取25萬人的基因組測序數(shù)據(jù)。與此同時(shí),世界各地越來越多的醫(yī)院和服務(wù)供應(yīng)商也開始對那些癌癥或罕見遺傳病患者進(jìn)行基因組測序。
海量的數(shù)據(jù)會(huì)給計(jì)算分析和存儲(chǔ)帶來前所未有的壓力,有分析估計(jì),基因組學(xué)很快就能超過YouTube的數(shù)據(jù)量。但許多研究者認(rèn)為,如今的大數(shù)據(jù)還不夠豐富,不具有臨床價(jià)值。蓋辛格基因組醫(yī)學(xué)研究院院長MarcWilliams說,“我不知道100萬是否足夠,但顯然我們需要更多�!�
變異數(shù)據(jù)應(yīng)用到臨床的挑戰(zhàn)與實(shí)踐
單核苷酸層面的突變
目前,許多研究機(jī)構(gòu)主要采用外顯子組測序,其相對于全基因組而言,可以減少近100倍的數(shù)據(jù)分析工作量。然而,仍有超過約1.3萬個(gè)單核苷酸突變被鑒定。這其中大約有2%影響蛋白質(zhì)的翻譯,尋找其中的致病突變是一個(gè)艱巨的挑戰(zhàn)。
幾十年來,研究人員陸續(xù)將他們發(fā)現(xiàn)的單核苷酸突變信息放入公共資源數(shù)據(jù)庫中,如dbSNP數(shù)據(jù)庫。然而,這些突變信息往往來源于細(xì)胞層面、動(dòng)物模型甚至是理論預(yù)測,還不足以用于臨床診斷。在許多情況下,這些突變與疾病相關(guān)性的證據(jù)等級很低。
結(jié)構(gòu)變異
基因組序列的重復(fù)或缺失,這類結(jié)構(gòu)變異使臨床應(yīng)用情況更為復(fù)雜�,F(xiàn)有的測序技術(shù)很難檢測到結(jié)構(gòu)變異。在全基因組范圍內(nèi),個(gè)體之間存在數(shù)百萬個(gè)變異。其中許多變異位于非編碼區(qū),這一區(qū)域不編碼蛋白但有調(diào)節(jié)基因活性的作用,仍然是可以致病的。由于非編碼區(qū)的范圍和功能難以界定,即使能夠獲得其中的變異信息,短期內(nèi)也無法進(jìn)行臨床解讀。
針對這些問題,人們正在努力地去解決。例如,美國國家人類基因組研究所建立了臨床基因組資源庫,這是一個(gè)與疾病相關(guān)的突變數(shù)據(jù)庫,里面有可以指導(dǎo)醫(yī)療的突變信息和支持證據(jù)。GenomicsEngland公司通過建立“臨床解讀的合作伙伴關(guān)系”來推動(dòng)這方面的進(jìn)展,即:醫(yī)生和研究人員合作,建立強(qiáng)大的疾病-基因型關(guān)聯(lián)模型。
大隊(duì)列的需求明顯
一些“惡性”突變通常在進(jìn)化過程中被淘汰,往往十分罕見,需要大樣本量來進(jìn)行檢測。因此,建立有統(tǒng)計(jì)學(xué)意義的突變與疾病弱相關(guān)性模型也需要大量的患者。
冰島的deCODE Genetics公司將15萬人的基因組數(shù)據(jù)(包括1.5萬全基因組序列),與家譜和病史相結(jié)合,推斷已知的遺傳危險(xiǎn)因素在全民中的分布情況,包括與乳腺癌、糖尿病和阿爾茨海默病相關(guān)的基因突變。正如該公司的首席執(zhí)行官KáriStefánsson所說,“我們建立了1萬個(gè)有功能缺失突變的冰島人數(shù)據(jù)庫。我們正投入巨大的精力來弄清楚這些基因缺失對個(gè)體有什么影響�!�
對于deCODE Genetics公司開展這項(xiàng)工作的成功得益于冰島人口的基因型同質(zhì)性,然而,對于其他項(xiàng)目需要更廣泛的基因譜。例如,國際千人基因組計(jì)劃已經(jīng)編目了一些遺傳多樣性數(shù)據(jù),但大多數(shù)數(shù)據(jù)嚴(yán)重偏向高加索人,使這些數(shù)據(jù)對臨床研究用處減弱。
此外,部分問題也源于參考基因組。第一個(gè)參考基因組版本是由幾個(gè)不同種族的隨機(jī)捐贈(zèng)者基因拼湊而成的,但最新的版本GRCh38,整合了更多人類基因組多樣性的信息。
基因大數(shù)據(jù)的人才和計(jì)算能力
對大規(guī)模人群進(jìn)行基因組或外顯子組測序每年產(chǎn)生高達(dá)40PB(4千萬GB)的數(shù)據(jù)。相比之下,原始數(shù)據(jù)存儲(chǔ)并不是首要的問題,更大的問題是巨量突變數(shù)據(jù)的分析。賓夕法尼亞州立大學(xué)基因組學(xué)研究員Marylyn Ritchie 說,“計(jì)算量與人的數(shù)量呈線性關(guān)系,當(dāng)變量和組合增多時(shí),計(jì)算量就呈指數(shù)倍地增加�!比绻黾拥臄�(shù)據(jù)與臨床癥狀或基因表達(dá)相關(guān),那么分析會(huì)變得更加棘手。來自數(shù)千人的巨量數(shù)據(jù)的處理可能會(huì)使目前很多統(tǒng)計(jì)分析的工具癱瘓。Ritchie說,“像氣象、金融和天文學(xué)領(lǐng)域,都在整合不同類型的數(shù)據(jù)上摸索了很長一段時(shí)間,我和谷歌及Facebook的人都交流過,盡管我們的大數(shù)據(jù)和他們的不同,但我們應(yīng)該多交流,將他們的經(jīng)驗(yàn)用于我們的領(lǐng)域中�!�
然而,遺憾的是很多有大數(shù)據(jù)挖掘經(jīng)驗(yàn)的優(yōu)秀程序員都被硅谷吸引走了。美國國家衛(wèi)生研究院的數(shù)據(jù)科學(xué)副主任Philip Bourne認(rèn)為,科學(xué)界的論文評價(jià)體系不適合于這些人才。盡管這其中一些人真心想成為基因大數(shù)據(jù)領(lǐng)域的學(xué)者,但卻得不到學(xué)者的職位。
除了人才,數(shù)據(jù)處理能力是另一個(gè)限制因素�;虼髷�(shù)據(jù)通常需要使用成百上千個(gè)大內(nèi)存的CPU進(jìn)行大規(guī)模并行計(jì)算。為此,許多團(tuán)隊(duì)都開始轉(zhuǎn)向“云端”來存放和分析大量數(shù)據(jù)。Genomics England公司生物信息學(xué)主管TimHubbard說,“人們逐漸有了這種想法:將算法應(yīng)用到數(shù)據(jù)中去。” GenomicsEngland的云計(jì)算依靠政府的設(shè)施,其外部訪問被嚴(yán)格控制。對于其他研究機(jī)構(gòu)而言,基因大數(shù)據(jù)的分析漸漸轉(zhuǎn)向了商業(yè)云系統(tǒng),例如Amazon、Google以及阿里的云服務(wù)。
如何實(shí)現(xiàn)數(shù)據(jù)的共享與協(xié)作
原則上,基于云計(jì)算的托管鼓勵(lì)數(shù)據(jù)庫間的共享和協(xié)作。但高度敏感的臨床信息及患者同意權(quán)和隱私權(quán)牽扯到棘手的倫理和法律問題。
在歐盟,會(huì)員國間不同的數(shù)據(jù)處理規(guī)則阻礙了合作。與非歐盟國家共享數(shù)據(jù)需依賴繁瑣的機(jī)制建立數(shù)據(jù)保護(hù),與私人組織共享數(shù)據(jù)需簽定限制性的雙邊協(xié)議。為了幫助解決這個(gè)問題,全球基因組學(xué)與健康聯(lián)盟(GlobalAlliance for Genomics and Health)制定了《基因組學(xué)與健康相關(guān)數(shù)據(jù)責(zé)任共享框架》(《Frameworkfor Responsible Sharing of Genomic and Health-Related Data》)。該框架包括隱私和知情同意指南,以及違反規(guī)則的組織應(yīng)該承擔(dān)的責(zé)任和法律后果。
加拿大麥吉爾大學(xué)生物倫理學(xué)家、該聯(lián)盟的監(jiān)管和倫理工作組主席Bartha Knoppers說,“在簽署數(shù)據(jù)傳輸協(xié)議時(shí),如果簽署方都同意遵守該框架,他們就省了很多工作。”該框架允許研究組織在保護(hù)隱私的情況下分析共享的基因組數(shù)據(jù)。Knoppers解釋,“我們希望在掩蓋患者身份的情況下,能將這些數(shù)據(jù)與臨床數(shù)據(jù)和醫(yī)療檔案聯(lián)系起來,否則我們無法實(shí)現(xiàn)精準(zhǔn)醫(yī)療�!�
此外,在許多歐洲國家,將基因組學(xué)信息納入電子醫(yī)療檔案已經(jīng)變得越來越重要。Hubbard說,“我們的目標(biāo)是將其整合到標(biāo)準(zhǔn)的全民醫(yī)保制度中。”英國的“10萬人基因組計(jì)劃”在這方面走在最前端,但其他國家也緊隨其后。例如,比利時(shí)最近宣布了一項(xiàng)探索醫(yī)學(xué)基因組學(xué)的計(jì)劃。
所有這些國家都受益于這種政府主導(dǎo)的公共醫(yī)保制度。在美國,情況較為復(fù)雜,除了公共醫(yī)保制度老年和殘障健康保險(xiǎn)(Medicare)和醫(yī)療援助(Medicaid)等外,美國的私人醫(yī)保制度非常發(fā)達(dá),不同的醫(yī)保公司使用不同的醫(yī)療檔案系統(tǒng),這使基因組數(shù)據(jù)的整合變得困難。2007年,美國國立衛(wèi)生研究院資助建立了電子化病歷與基因組學(xué)網(wǎng)絡(luò)系統(tǒng)(eMERGE),以進(jìn)行大數(shù)據(jù)整合與系統(tǒng)管理分析。
臨床藥物基因組學(xué):從數(shù)據(jù)到診治
在醫(yī)療檔案中整合基因組數(shù)據(jù)主要是為醫(yī)生對疾病的診治提供參考,其中一個(gè)應(yīng)用是藥物基因組學(xué)。臨床藥物基因組學(xué)實(shí)施聯(lián)盟(CPIC)分析了藥物和基因的關(guān)系,將相關(guān)信息存儲(chǔ)在 PharmGKB數(shù)據(jù)庫中,并可供臨床使用。例如,帶有某些突變的人對某種抗凝藥響應(yīng)很差,導(dǎo)致心臟發(fā)作風(fēng)險(xiǎn)增加。
如何將基因研究成果用于臨床是個(gè)耗時(shí)耗力的工作。然而, 把基因型和表型信息結(jié)合起來可以產(chǎn)生較大的價(jià)值。大多數(shù)臨床相關(guān)的基因突變都是通過全基因組關(guān)聯(lián)研究(GWAS)鑒定出來的。研究人員現(xiàn)在可以從醫(yī)療檔案反向?qū)ふ遥源_定什么樣的臨床表現(xiàn)與某種基因突變密切相關(guān)。
當(dāng)然,基因組只是其中的一部分,其他組學(xué)也可能成為反映健康狀況的晴雨表。
最終,需要患者的參與
在研究人員努力整合數(shù)據(jù)的同時(shí),患者所發(fā)揮的作用也開始顯現(xiàn)。例如,我們在進(jìn)行行為、營養(yǎng)、運(yùn)動(dòng)、吸煙和飲酒相關(guān)的研究時(shí),需要依賴于患者報(bào)告的數(shù)據(jù)。一些可穿戴設(shè)備,例如智能手機(jī)和FitBits,正在收集運(yùn)動(dòng)和心率數(shù)據(jù)。因?yàn)樗氖占苋菀祝@種數(shù)據(jù)量在不斷攀升。
因此,每個(gè)人都是大數(shù)據(jù)的生產(chǎn)者。普通人產(chǎn)生的數(shù)據(jù)將遠(yuǎn)遠(yuǎn)地超過臨床中積累的數(shù)據(jù)。我們需要將這些不同來源的數(shù)據(jù)整合在一起,用于患者的管理。隨著人們對大數(shù)據(jù)挖掘利用的能力越來越強(qiáng)大,患者會(huì)成為最終的贏家!