蛋白組學發文必看,iProX又添新功能啦~(附帶上傳操作可收藏)
●?前言
2022年01月北京蛋白質組研究中心研究員朱云平課題組在Nucleic Acids Res. 期刊發表的題為 “iProX in 2021: connecting proteomics data sharing with big data ”的綜述文章,總結了自2019年iProX在《核酸研究》上發表以來的主要進展,包括全面的數據提交和統計、iProX的大數據架構和基礎結構、以及USI、RESTful Web Service API、iProX中公共數據的再分析和可視化。
中文標題:iProX, 2021: 蛋白質組學數據共享與大數據互聯
研究對象:蛋白質組學整合資源庫
發表期刊:Nucleic Acids Res.
影響因子:16.971
發表時間:2022年1月
合作單位:北京蛋白質組研究中心,中山大學計算機科學與工程學院,歐洲生物信息研究所-歐洲分子生物學實驗室,安徽醫科大學基礎醫學院
●?背景介紹
蛋白組學是以蛋白質組為研究對象的科學,目前已經在生命科學研究中發揮著越來越重要的作用。蛋白組學的快速發展產生了大量數據,而大數據平臺的出現有助于巨量數據的處理。
ProteomeXchange(PX)聯盟是一個蛋白組學數據庫,有助于蛋白組學數據的共享,成員包括PRIDE,PeptideAtlas等。iProX是一家在中國建立的蛋白質組學數據與知識中心,于2017年加入PX聯盟,旨在促進蛋白質組學資源在世界范圍內的共享,是現在國內上傳蛋白原始數據使用最多的平臺之一。那么接下來就一起跟隨小編看看iProX在2021的最新進展吧。
1.?存儲庫的當前狀態和更新
截至2021年8月底,一共有1526 數據集提交到iProX,共計92.42TB。從2017年到2021年,蛋白質組學數據集的數量和規模迅速增長,大于500GB的大數據集和大于1TB的超大數據集被提交到iProX。iProX最常見的物種有Homo sapiens、Mus musculus等;此外,iProX還收集了一些蛋白質組學研究較少的物種的數據集,例如Haemaphysalis longicornis,Anabaena sp. PCC 7120等,包含了ProteomeXchange中這些物種幾乎所有的蛋白質組數據集。數據量的擴增有利于蛋白組學進一步的發展,也有利于研究者利用蛋白組學這一工具,更快更好地解決面臨的生物學問題。
圖1 | 在iProX中公開發布的數據集(截至到2021年8月)
(a)每月累計數據大小和提交數據集數
(b)10個最大的發布的數據集
(c)每年提交的數據集的累積數量
(d)iProX中公開數據集的物種分布
(e)大于1TB的數據集的分布
(f)iProX中數據集的三類物種(動物、植物和微生物)分布
2.iprox的大數據架構和基礎結構
構建了一個可擴展性高的超融合體系來支持提交過程;使用hadoop存儲大量的蛋白質組學數據,存儲容量增至1PB;使用了一個分布式RESTful-styled Elastic Search引擎可在一秒鐘內檢索數百萬條記錄。通過RESTful API接口,將基于web和基于Asepra 的上傳和下載步驟重構為獨立的子傳輸服務。搜索元數據,識別蛋白質、多肽和光譜也包含在子服務中,以在不中斷提交的情況下實現秒級響應。iProX數據庫在不改變數據提交的前提下提高了它的可用性、可靠性和實時響應性。同時還在廣州國家超級計算中心配備了數據恢復和實時備份系統,當北京的主站點不可用時,可以在幾分鐘內接管服務。這些提升將加速實驗人員大量數據的處理過程,也避免在數據傳輸過程中產生中斷。
圖2 | 基于hadoop的iProX大數據架構和基礎結構
3. iProX 2021新功能
基于hadoop大數據平臺的實現,iProX開發了幾個新功能,包括通用頻譜標識符(USI)的實現、iProX公共數據的再分析和可視化,以及RESTful Web Service APIs。
圖3 | iProX 2021實現的新功能
4.通用圖譜識別符(USI)
在iProX中,USI通過Elastic Search將圖譜定位到HBase中。iProX支持USI在http://www.iprox.cn/page/spectrum.html上查找和顯示HBase中的2000萬個圖譜。
5.公共數據的再分析和可視化
建立了高效的再分析流程,并將其應用于iProX發布的數據和分析公共數據集。這一過程產生了數以百萬計的高質量圖譜和蛋白識別,所識別的蛋白質提供了UniProt的登錄號和相關的URLs。目前,這種再分析可以處理DDA 數據。我們將上述再分析流程應用于公共數據集IPX0000937000,并在控制錯誤發現率下獲得了2000萬個新標識。所有這些標識都被解析并存儲到一個HBase集群中。這些再分析數據可以在基于Elastic search引擎的新搜索界面上訪問,并且可以通過IPX登錄號追溯到原始數據集。我們將重新分析所有的公開數據,建立一個大規模譜庫,并交叉引用其他外部數據集,如UniProt。
6.iProX RESTFUL WEB SERVICE API
iProX提供一個RESTful Web Service 應用程序接口(API),來自動獲取蛋白信息。它報告數據集的元數據,或肽、蛋白質和光譜數據的再分析,包括獲取特定數據集或數據集列表的元數據,并收集肽型、蛋白質和肽譜匹配(PSM),或USIs引用的圖譜列表。這些提供在以下網址:https://www.iprox.cn/proxi/swagger-ui.html。
● 總結
iProX可以支持PB級數據存儲、數以億記圖譜記錄、秒級延遲服務能力,滿足快速增長的蛋白質組學領域的需求。iProX在促進全球蛋白質組學數據的分析和共享方面發揮著重要作用。這些發展將增強科研人員的研究能力,同時也將促進蛋白質組學在系統生物學研究發揮越來越重要的作用。
小鹿推薦
蛋白質組學通過研究生物樣本中蛋白質組成和變化,從而推動疾病的病理機制研究,為臨床診斷和預后提供潛在生物標志物。目前,蛋白質組學越來越多的應用于研究當中,其對應的研究方法,數據庫及其研究平臺也在不斷更新,以滿足蛋白組學的更高要求。歐易/鹿明生物公司為廣大科研工作者提供多種蛋白組學檢測服務,包括:LC-MSMS蛋白質譜鑒定、iTRAQ/TMT標記定量蛋白組學、Label Free非標記定量蛋白組學、DIA蛋白組學、PRM靶向蛋白驗證。
蛋白質組數據如何輕松上傳到公共數據庫?(
文末看點 | lumingbio
鹿明生物引入了布魯克tims TOF pro,并引入了與其高MSMS掃描速度匹配的Evosep One 高通量色譜,打造捕獲離子淌度的4D蛋白質組學分析體系。由于離子淌度分離概念的引入使得蛋白質組學進入了4D新時代。4D-Proteomics?是在3D分離即保留時間(Retention time)、質荷比(m/z)、離子強度(Intensity)這三個維度的基礎之上增加了第四個維度,離子淌度(Mobility)的分離(圖1),進而大幅度的提高掃描速度和檢測靈敏度,帶來蛋白質組學在鑒定深度、檢測周期、定量準確性等性能的提升。歡迎各位老師前來咨詢哦~
長按掃碼咨詢鹿明生物
技術工程師
項目咨詢|樣本咨詢
猜你還想看
◆蛋白質組數據如何輕松上傳到公共數據庫?
◆代謝組學數據如何輕松上傳到公共數據庫?
◆預警!2022年經典分析繪圖軟件,總有一款適合你
◆【SCI·繪圖】升級版·小提琴圖-云雨圖(帶R代碼分享)