熟妇人妻一区二区三区四区,久久ER99热精品一区二区,真实的国产乱XXXX在线,性XXXX18精品A片一区二区

關注公眾號

關注公眾號

手機掃碼查看

手機查看

蛋白組學發文必看,iProX又添新功能啦~(附帶上傳操作可收藏)

鹿明生物
2022.1.25

●?前言

2022年01月北京蛋白質組研究中心研究員朱云平課題組在Nucleic Acids Res. 期刊發表的題為 “iProX in 2021: connecting proteomics data sharing with big data ”的綜述文章,總結了自2019年iProX在《核酸研究》上發表以來的主要進展,包括全面的數據提交和統計、iProX的大數據架構和基礎結構、以及USI、RESTful Web Service API、iProX中公共數據的再分析和可視化。

中文標題:iProX, 2021: 蛋白質組學數據共享與大數據互聯

研究對象:蛋白質組學整合資源庫

發表期刊:Nucleic Acids Res.

影響因子:16.971

發表時間:2022年1月

合作單位:北京蛋白質組研究中心,中山大學計算機科學與工程學院,歐洲生物信息研究所-歐洲分子生物學實驗室,安徽醫科大學基礎醫學院

●?背景介紹

蛋白組學是以蛋白質組為研究對象的科學,目前已經在生命科學研究中發揮著越來越重要的作用。蛋白組學的快速發展產生了大量數據,而大數據平臺的出現有助于巨量數據的處理。

ProteomeXchange(PX)聯盟是一個蛋白組學數據庫,有助于蛋白組學數據的共享,成員包括PRIDE,PeptideAtlas等。iProX是一家在中國建立的蛋白質組學數據與知識中心,于2017年加入PX聯盟,旨在促進蛋白質組學資源在世界范圍內的共享,是現在國內上傳蛋白原始數據使用最多的平臺之一。那么接下來就一起跟隨小編看看iProX在2021的最新進展吧。

1.?存儲庫的當前狀態和更新

截至2021年8月底,一共有1526 數據集提交到iProX,共計92.42TB。從2017年到2021年,蛋白質組學數據集的數量和規模迅速增長,大于500GB的大數據集和大于1TB的超大數據集被提交到iProX。iProX最常見的物種有Homo sapiens、Mus musculus等;此外,iProX還收集了一些蛋白質組學研究較少的物種的數據集,例如Haemaphysalis longicornis,Anabaena sp. PCC 7120等,包含了ProteomeXchange中這些物種幾乎所有的蛋白質組數據集。數據量的擴增有利于蛋白組學進一步的發展,也有利于研究者利用蛋白組學這一工具,更快更好地解決面臨的生物學問題。

圖1 | 在iProX中公開發布的數據集(截至到2021年8月)

(a)每月累計數據大小和提交數據集數

(b)10個最大的發布的數據集

(c)每年提交的數據集的累積數量

(d)iProX中公開數據集的物種分布

(e)大于1TB的數據集的分布

(f)iProX中數據集的三類物種(動物、植物和微生物)分布

2.iprox的大數據架構和基礎結構

構建了一個可擴展性高的超融合體系來支持提交過程;使用hadoop存儲大量的蛋白質組學數據,存儲容量增至1PB;使用了一個分布式RESTful-styled Elastic Search引擎可在一秒鐘內檢索數百萬條記錄。通過RESTful API接口,將基于web和基于Asepra 的上傳和下載步驟重構為獨立的子傳輸服務。搜索元數據,識別蛋白質、多肽和光譜也包含在子服務中,以在不中斷提交的情況下實現秒級響應。iProX數據庫在不改變數據提交的前提下提高了它的可用性、可靠性和實時響應性。同時還在廣州國家超級計算中心配備了數據恢復和實時備份系統,當北京的主站點不可用時,可以在幾分鐘內接管服務。這些提升將加速實驗人員大量數據的處理過程,也避免在數據傳輸過程中產生中斷。

圖2 | 基于hadoop的iProX大數據架構和基礎結構

3. iProX 2021新功能

基于hadoop大數據平臺的實現,iProX開發了幾個新功能,包括通用頻譜標識符(USI)的實現、iProX公共數據的再分析和可視化,以及RESTful Web Service APIs。

圖3 | iProX 2021實現的新功能

4.通用圖譜識別符(USI)

在iProX中,USI通過Elastic Search將圖譜定位到HBase中。iProX支持USI在http://www.iprox.cn/page/spectrum.html上查找和顯示HBase中的2000萬個圖譜。

5.公共數據的再分析和可視化

建立了高效的再分析流程,并將其應用于iProX發布的數據和分析公共數據集。這一過程產生了數以百萬計的高質量圖譜和蛋白識別,所識別的蛋白質提供了UniProt的登錄號和相關的URLs。目前,這種再分析可以處理DDA 數據。我們將上述再分析流程應用于公共數據集IPX0000937000,并在控制錯誤發現率下獲得了2000萬個新標識。所有這些標識都被解析并存儲到一個HBase集群中。這些再分析數據可以在基于Elastic search引擎的新搜索界面上訪問,并且可以通過IPX登錄號追溯到原始數據集。我們將重新分析所有的公開數據,建立一個大規模譜庫,并交叉引用其他外部數據集,如UniProt。

6.iProX RESTFUL WEB SERVICE API

iProX提供一個RESTful Web Service 應用程序接口(API),來自動獲取蛋白信息。它報告數據集的元數據,或肽、蛋白質和光譜數據的再分析,包括獲取特定數據集或數據集列表的元數據,并收集肽型、蛋白質和肽譜匹配(PSM),或USIs引用的圖譜列表。這些提供在以下網址:https://www.iprox.cn/proxi/swagger-ui.html。

● 總結

iProX可以支持PB級數據存儲、數以億記圖譜記錄、秒級延遲服務能力,滿足快速增長的蛋白質組學領域的需求。iProX在促進全球蛋白質組學數據的分析和共享方面發揮著重要作用。這些發展將增強科研人員的研究能力,同時也將促進蛋白質組學在系統生物學研究發揮越來越重要的作用。

小鹿推薦

蛋白質組學通過研究生物樣本中蛋白質組成和變化,從而推動疾病的病理機制研究,為臨床診斷和預后提供潛在生物標志物。目前,蛋白質組學越來越多的應用于研究當中,其對應的研究方法,數據庫及其研究平臺也在不斷更新,以滿足蛋白組學的更高要求。歐易/鹿明生物公司為廣大科研工作者提供多種蛋白組學檢測服務,包括:LC-MSMS蛋白質譜鑒定、iTRAQ/TMT標記定量蛋白組學、Label Free非標記定量蛋白組學、DIA蛋白組學、PRM靶向蛋白驗證。

蛋白質組數據如何輕松上傳到公共數據庫?(

文末看點 | lumingbio

鹿明生物引入了布魯克tims TOF pro,并引入了與其高MSMS掃描速度匹配的Evosep One 高通量色譜,打造捕獲離子淌度的4D蛋白質組學分析體系。由于離子淌度分離概念的引入使得蛋白質組學進入了4D新時代。4D-Proteomics?是在3D分離即保留時間(Retention time)、質荷比(m/z)、離子強度(Intensity)這三個維度的基礎之上增加了第四個維度,離子淌度(Mobility)的分離(圖1),進而大幅度的提高掃描速度和檢測靈敏度,帶來蛋白質組學在鑒定深度、檢測周期、定量準確性等性能的提升。歡迎各位老師前來咨詢哦~

長按掃碼咨詢鹿明生物

技術工程師

項目咨詢|樣本咨詢

猜你還想看

◆蛋白質組數據如何輕松上傳到公共數據庫?

◆代謝組學數據如何輕松上傳到公共數據庫?

◆預警!2022年經典分析繪圖軟件,總有一款適合你

◆【SCI·繪圖】升級版·小提琴圖-云雨圖(帶R代碼分享)

文章作者
推薦
關閉