誠信認證:
工商注冊信息已核實!CUT&Tag(Cleavage Under Targets and Tagmentation)主要用于研究特定蛋白質與基因組DNA的相互作用。與傳統的ChIP-Seq技術相比,CUT&Tag具有更高的信噪比、更少的樣本需求和更簡單的操作流程,使其在基因調控機制、細胞分化研究以及疾病標志物發現等領域具有廣泛的應用前景。CUT&Tag技術的優勢在于其高效的文庫構建和精準的片段化過程。在樣本制備階段,百泰派克生物科技通過嚴格的DNA樣品檢測和文庫質檢,確保每一步操作的準確性和數據的高質量。在生物信息學分析中,數據清洗、比對、富集峰分析以及基因功能注釋等流程有助于全面解析目標蛋白的基因組結合模式,并揭示其在細胞功能調控中的重要角色。依托先進的Protein A/G-Tn5融合蛋白體系和高通量測序平臺,百泰派克生物科技為廣大科研工作者提供CUT&Tag技術分析服務。百泰派克生物科技采用ISO9001質量控制體系,獲國家CNAS實驗室認可,豐富的項目經驗與專業的技術團隊為您的研究保駕護航!
一、文庫構建和測序流程
從DNA樣品到最終數據獲得,樣品檢測、建庫、測序每一個環節都可能會對數據質量和數量產生影響,而數據質量又會直接影響后續信息分析的結果。因此,獲得高質量數據是保證生物信息分析正確、全面、可信的前提。為了從源頭上保證測序數據的準確性、可靠性,我們對樣品檢測、建庫、測序每一個實驗環節都嚴格把關,從根本上確保高質量數據的產出。
1. DNA樣品檢測
對DNA樣品的檢測主要包括2種方法:
(1) 瓊脂糖凝膠電泳分析DNA降解程度以及是否有RNA污染
(2) Qubit對DNA濃度進行精確定量
2. 文庫構建
CUT&Tag技術的核心是pAG-Tn5融合蛋白(ChiTag),其中Protein AG能夠結合抗體。在進行CUT&Tag實驗時,首先將細胞與磁珠混合,然后進行靶蛋白特異性抗體(一抗)孵育,使抗體進入細胞與靶蛋白結合。為了放大信號,接著進行二抗孵育。最后孵育pAG-Tn5轉座體,使得轉座體進入細胞并與抗體結合,這樣就把轉座體間接的固定在靶蛋白上,隨后加入Mg2+,激活Tn5酶的切割活性,打斷靶蛋白結合的DNA區域。由于Tn5酶連有測序接頭,在打斷的同時直接在片段化的DNA上加接頭,接著提取DNA,進行PCR擴增構建文庫。PCR產物經過1.3X磁珠進行純化,再經Agilent 2100分析儀(Agilent Technologies)用Quant-iTTM dsDNA HS分析試劑盒(Invitrogen,MA,USA)和qPCR對文庫進行片段范圍及有效濃度檢測。
3. 文庫質檢
我們對文庫的質檢主要包括2種方法:
(1) Agilent 2100對文庫的插入片段長度進行檢測,檢測是否有接頭二聚體污染等
(2) Qubit或者QPCR對測序文庫濃度進行定量
4. 上機測序
庫檢合格后,加入適當比例的平衡文庫,進行Illumina HiSeq測序。測序的基本原理是邊合成邊測序(Sequencing by Synthesis)。在測序的flow cell中加入四種熒光標記的dNTP 、DNA聚合酶以及接頭引物進行擴增,在每一個測序簇延伸互補鏈時,每加入一個被熒光標記的dNTP就能釋放出其相對應的熒光,測序儀通過捕獲熒光信號,并通過計算機軟件將光信號轉化為測序峰,從而獲得待測片段的序列信息。具體過程如下圖所示:
圖1
二、生物信息分析流程
圖2
三、結果展示及說明
1. 項目基本信息
(1)項目名稱
8個細胞(ref: hg19) CUT&Tag測序建庫及數據分析
(2)樣本信息
物種信息:hsa
基因組信息:hg19 (NCBI-Assembly)
表1. 樣本信息
(3)樣本差異比較方案
表2. 差異比較
2. 測序數據質量評估
高通量測序(如Illumina HiSeq PE150)得到的原始數據(Raw Data or Raw Reads),結果以 FASTQ (簡稱為fq)文件格式存儲。FASTQ是一種存儲生物序列及相應質量評價的文本格式,每條read的信息由下述四行組成:
圖3
第一行存儲序列標識信息:以“@”開頭,隨后為Illumina 測序標識別符(Sequence dentifiers)和描述信息( 下附詳述 ); 第二行存儲堿基序列;第三行以“+”開頭,存儲與第一行相同的信息或缺?。坏谒男写鎯獕A基的測序質量,該行中字符為第二行中對應堿基的質量值加上33后轉換為的ASCII碼,逆向轉化即可直觀得到每個堿基的質量信息。
測序過程本身存在發生機器錯誤的可能性,測序錯誤率分布檢查可以反映測序數據的質量,序列信息中每個堿基的質量值保存在FASTQ文件中,若reads的堿基質量值用QPhred表示,則可計算測序錯誤率 e=10(-QPhred/10) 或表示為 QPhred=-10log10(e)。Illunima Casava 1.8版本堿基識別與Phred分值之間的簡明對應關系見下表:
表3
① 由于測序過程中試劑逐漸消耗,測序錯誤率會隨 Reads 長度增加而升高,此為illumina高通量測序平臺的共有特征。
② 對于常規甲基化文庫,在測序read1和read2會呈現一種方向性的特點:read1 T堿基含量較高,read2 A堿基含量較高。
測序完成后,過濾測序接頭和低質量數據,將過濾后的數據與參考基因組比對。數據過濾標準為:含有adapter序列,序列中N堿基的比例超過序列總長度的5%,序列中質量值小于20的堿基比例超過序列總長度的50%,如果一條序列符合以上三個條件中的任何一個,則去除這條序列。以下是數據產量和質控后clean data的質量統計。
(1)原始數據產量
合格的數據是信息分析的基礎,因此對下機數據進行質量控制(QC)是數據分析的首項內容。對下機后的數據(raw reads)產量進行基本的統計,結果如下:
表4. 原始數據質量統計
(2)原始數據質控過濾
數據過濾的主要目的是去除低質量的數據,保證clean data的質量。我們采用Trimming的方式截去測序數據的測序接頭和低質量數據,得到的clean data用于后續分析。在進行原始數據 Trimming 時我們使用Trimmomatic軟件,其數據處理的步驟具體如下:
① 截去低質量reads,使用滑動窗口的方式,4個堿基為一個窗口,若該窗口的平均堿基質量值低于15,則從該處截去reads, 參數選擇:SLIDINGWINDOW:4:15;
② 截去 reads 首尾質量低于3或者含N(N 表示無法確定堿基信息)的 reads,參數選擇: LEADING:3,TRAILING:3;
③ 截去接頭污染的 reads,使用兩種模式去除接頭:1.simple alignment mode:seed 與接頭序列比對分值達到7(約12bp); 2.palindrome mode:當read1 和 read2 的重疊
區堿基評分大于 30 時,截去seed部分序列。參數選擇:ILLUMINACLIP:adapter.fa:2:30:7:1:true;
④ 舍棄修剪后短于 36nt 的 reads;
⑤ 舍棄不能形成 paired 的 reads。
表5. 數據過濾后的產量和質量統計表
3. 數據比對分析
目前,常用比較軟件有Bowtie,BWA,MAQ,TOPhat等。根據不同的基因組的特征,我們選取相對合適的軟件,合適的參數設置,將過濾后的測序序列進行基因組定位分析。這里,我們使用BWA(Burrows Wheeler Aligner)軟件將clean reads比對到參考基因組上。
(1)參考基因組比對情況統計
表6. Reads與參考基因組比對情況
① Sample:樣品名稱
② total_reads: 參與比對的reads數目
③ mapped_reads:比對上的reads數目
④ mapped_rate:對上的reads百分比
⑤ uniq_mapped_reads:唯一比對上的reads數目
⑥ uniq_mapped_rate:唯一比對上的reads百分比
(2)reads信號值在基因上的分布
轉錄因子、組蛋白等對基因的調控機制與其結合位置相關,故分析讀段相對基因位置分布有助于我們預測蛋白的功能。將每個基因以及該基因上下游2K的情況統計并畫圖,結果如下圖:
圖4. 讀段(測序reads)相對基因TSS位置的分布
(3)Reads在樣本間的相關性分析
生物學重復是任何生物學實驗所必須的,高通量測序技術也不例外(Hansen et al.)。生物學重復主要有兩個用途:一個是證明所涉及的生物學實驗操作是可以重復的且變異不大,另一個是為了確保后續的差異基因分析得到更可靠的結果。樣品間相關性分析是檢驗實驗可靠性和樣本選擇是否合理的重要指標。相關系數越接近1,表明樣品之間表達模式的相似度越高。(PCC和PCA圖)
圖5. 樣本間相關性分析
圖6. PCA分析
(4)Reads比對結果可視化(IGV)
IGV (Integrative Genomics Viewer) 瀏覽器具有以下特點:(1)能在不同尺度下顯示單個或多個讀段在基因組上的位置,包括讀段在各個染色體上的分布情況和在注釋的外顯子、內含子、剪接接合區、基因間區的分布情況等;(2)能在不同尺度下顯示不同區域的讀段豐度,以反映不同區域的轉錄水平;(3)能顯示基因及其剪接異構體的注釋信息;(4)能顯示其他注釋信息;(5)既可以從遠程服務器端下載各種注釋信息,又可以從本地加載注釋信息。
圖7. 數據IGV基因組數據瀏覽器可視化展示(示例)
4. frag分析
對于一個特異性結合位點而言,reads在其結合位點處會有顯著的富集。我們采用MACS軟件預測IP實驗的fragments sizes。MACS以某個window size掃描基因組,統計每個window中read的富集程度,然后抽?。ū热?000個)合適的window作樣本構建富集模型,預測frag_sizes的長度。
表7. Frag結果
5. 富集峰分析
(1)富集峰分析統計
利用MACS2軟件(Yong Zhang,Tao Liu et al., 2008)(閾值為qvalue<=0.05)完成兩樣本間峰檢分析(peak calling),并對峰的個數、寬度、分布等進行統計,篩選出峰的相關基因等。結果示例如下:
表8. 富集峰(peak)數量統計
(2)富集峰的寬度分布
富集峰的寬度分布如下圖所示:
圖8. 差異Peak富集分布
(3)富集峰的富集倍數
富集倍數亦可稱為signal Value,表示在進行peak calling的過程中,對peak信號的數字化展示。該值越大,表示富集到該peak中的reads數越多。峰的富集倍數分布如下圖所示:
圖9. 富集峰的富集倍數
(4)富集峰的顯著性水平分布
峰的顯著程度是峰的可信程度的指征。計算每個peak的顯著性(q value)值。峰的顯著程度分布如下圖所示:
圖10. 富集峰的顯著性水平分布
(5)富集相關基因GO分析
Gene Ontology(簡稱 GO, http://www.geneontology.org/)是基因功能國際標準分類體系。作為基因本體聯合會(Gene Onotology Consortium)所建立的數據庫,它旨在建立一個適用于各種物種的,對基因和蛋白質功能進行限定和描述的,并能隨著研究不斷深入而更新的語言詞匯標 準。GO分為分子功能(Molecular Function)、生物過程(Biological Process)、和細胞組成(Cellular Component)三個部分。基因或蛋白質可以通過ID對應或者序列注釋的方法找到與之對應的GO編號,而GO編號可用于對應到Term,即功能類別或者細胞定位。
任何位置與峰有重疊的基因,都算作是有峰基因。GO富集結果如下:
Peak 重疊基因GO富集圖,直觀的反映出在生物過程(biological process)、 細胞組分(cellular component)和分子功能(molecular function)富集的GO項目上Peak 重疊基因的個數分布情況。
圖11. Peak 重疊基因GO富集圖
(6)富集相關基因KEGG通路分析
在生物體內,不同基因相互協調行使其生物學功能,通過Pathway顯著性富集能確定差異表達基因參與的最主要生化代謝途徑和信號轉導途徑。KEGG(Kyoto Encyclopedia of Genes and Genomes)是系統分析基因功能、基因組信息數據庫,它有助于研究者把基因及表達信息作為一個整體網絡進行研究。作為Pathway相關的主要公共數據庫(Kanehisa,2008)),KEGG提供的整合代謝途徑 (pathway)查詢十分出色,包括碳水化合物、核苷、氨基酸等的代謝及有機物的生物降解,不僅提供了所有可能的代謝途徑,而且對催化各步反應的酶進行 了全面的注解,包含有氨基酸序列、PDB庫的鏈接等等,是進行生物體內代謝分析、代謝網絡研究的強有力工具。Pathway顯著性富集分析以KEGG 數據庫中Pathway為單位,應用超幾何檢驗,找出與整個基因組背景相比,在差異表達基因中顯著性富集的Pathway。
Peak 重疊基因KEGG富集散點圖是KEGG富集分析結果的圖形化展示方式。在此圖中,KEGG富集程度通過Rich factor、qvalue和富集到此通路上的基因個數來衡量。其中Rich factor指Peak 重疊基因中位于該pathway條目的基因數目與所有有注釋基因中位于該pathway條目的基因總數的比值。qvalue是做過多重假設檢驗校正之后的Pvalue,qvalue的取值范圍為[0,1],越接近于零,表示富集越顯著。我們挑選了富集最顯著的20條pathway條目在該圖中進行展示,若富集的pathway條目不足20條,則全部展示。
圖12. KEGG功能富集圖
(7)富集peak注釋到的功能元件分布
圖13. 功能元件分布
(8)轉錄起始位置附近的信號分布情況
圖14. 轉錄起始位置附近的信號分布情況
6. 富集峰序列內含motif分析
轉錄因子、組蛋白等蛋白質與DNA序列的結合并不是隨機的,而具有一定的序列偏好性。模體(Motif)分析不僅可以檢測到蛋白質特異性結合位點的DNA序列的偏好性,同時通過模體注釋可以獲得已知Motif的注釋以及蛋白結合位點、Motif序列信息等。
我們采用Homer(homer.v4.9)軟件檢測peak序列中顯著富集的Motif序列,輸入顯著性水平最為顯著的前500個peak的DNA序列,在和已知motif比較的同時,從頭發現新的motif (de novo motif),并將其與已知Motif數據庫進行比對,利用已知Motif對其進行相應注釋。
以序列表示圖(sequence logo)的方式展示Motif序列中不同位置的堿基傾向性。結果如下:
(注:由于結合位點的特異性,會出現Motif序列只出現在一個區段(<=8或者>=9),則下圖會有一部分沒有結果)
(1)峰內known motif的富集結果
圖15. motif識別結果(樣本1為例)
logo按照先后順序排列,右邊為反向互補序列的圖。以上,最多只展示top5的motif。
(2)峰內de novo motif檢測結果
圖16. motif識別結果(樣本1為例)
logo按照先后順序排列,右邊為反向互補序列的圖。以上,最多只展示top5的motif。
7. 富集差異比較分析
(1)組間差異富集區域檢測
利用不同實驗組reads在基因組比對信息進行差異分析。對于每個實驗組有重復樣本設計的研究,我們使用PePr軟件(PePr v1.1.10)進行區間差異富集區域檢測。PePr利用滑動窗口的方法,使用負二項分布(NBD)對每個窗口中不同重復和組別之間的reads數目進行建模,統計學檢驗;同時評估最佳的富集片段和滑動窗口大小。
表9. 組間差異富集區域檢測結果統計
表10. 組間差異富集區域檢測結果示例
① chr:差異peak染色體
② start:差異peak起始位置
③ end:差異peak終止位置
④ diff_peak_ID: 差異peak的ID
⑤ -10*LOG10(pvalue):負二項分布統計檢驗p值的對數變換
⑥ fold_enrichment : 差異倍數
(2)組間差異富集區域可視化(IGV查看)
將組間差異Peak富集區域的bed格式的文件,連同“2.4 IGV“的數據導入基因組數據瀏覽器(IGV)中,即可查看差異富集區域的具體分布。
圖17. 差異富集區域的IGV展示
(3)組間差異富集區域寬度分布
對于差異富集區域的長度分布進行作圖展示:
圖18. 差異富集區域的長度分布
(4)組間差異富集區域富集倍數分布
對差異富集區域兩樣本間的差異倍數(foldchange)分布進行作圖展示:
圖19. 差異富集區域的信號差異倍數分布直方圖
(5)組間差異富集區域顯著性水平分布
對差異富集區域統計檢驗的顯著性分布進行作圖展示:
圖20. 差異富集區域的顯著性水平分布直方圖
(6)組間差異富集區域基因組元件分布
統計差異富集區域在各個基因組元件上的分布情況,結果展示如下:
圖21. 差異富集區域在基因組元件中的分布。分別統計差異富集區域在啟動子區(TSS上游2k到TSS下游500bp)、TSS上游2k,基因體、外顯子、內含子,TES下游2k以及CpG島區域內的分布數量比例作圖。
(7)組間差異富集區域GO分析
對差異富集區域進行基因注釋,并提取差異基因列表,進行GO富集分析。Gene Ontology(簡稱 GO, http://www.geneontology.org/)是基因功能國際標準分類體系。對差異區域相關基因,以及錨定啟動子區的基因,分別做GO富集分析,以期挖掘出所研究的生物學問題相關的生物學過程。
表11. 差異富集區域基因注釋結果
(1-6) 差異富集區域信息,包括位置信息和信號強度及顯著性水平,同表6.4.2
(7-16)注釋信息,即差異富集區域與不同元件的交疊信息,若存在交疊,給給出該元件的ID,比如geneID等;若不存在交疊,則使用’—‘表示。
差異富集區域相關基因的GO功能富集分析,基于差異富集區域的基因注釋結果(6.10),對 genebody及其上下游區域 (upstream2k、genebody以及downstream2k)與差異富集區域有交疊的基因進行GO功能富集分析:
表12. 差異富集區域相關基因的GO功能富集結果
① Term:GO數據庫中唯一的標號信息
② Category:與該GO accession相關的所有基因
③ Ovserved:與該GO accession相關的DMR基因的數目
④ Expected: 與該GO accession相關的DMR基因數目的期望值
⑤ FoldChange: 富集倍數
⑥ rawP:超幾何檢驗p值
⑦ adjP: 校正p值
⑧ Term_Name:該GO accession的具體描述
⑨ GeneList: 與該GO accession相關的基因的列表,使用NCBI geneID
根據以上GO富集結果,過濾出 Ovserved>2, FoldChange>=2 并且adjP<0.05的條目,進行作圖(若沒有滿足條件的條目,則選取最為顯著的前15個條目展示)。
圖22. 富集的GO的柱狀圖富集的GO相關的基因的分類統計圖(橫向柱形圖):縱坐標為富集的GO term,橫坐標為該-log10(adjP),柱子越長,表示該GO term統計檢驗的差異越顯著。柱子右邊的數字表示富集的基因數目和富集倍數。
(8) 組間差異富集區域KEGG分析
KEGG(Kyoto Encyclopedia of Genes and Genomes)是有關Pathway的主要公共數據庫。對差異區域相關基因,以及錨定啟動子區的基因,分別做KEGG pathway富集分析,以期挖掘出所研究的生物學問題相關的信號和代謝通路。
差異富集區域相關基因的KEGG pathway富集分析,基于差異富集區域的基因注釋結果(6.10),對 genebody及其上下游區域 (upstream2k、genebody以及downstream2k)與差異富集區域有交疊的基因進行pathway富集分析:
表13. 差異富集區域相關基因的pathway富集結果
① Term:KEGG數據庫中的pathway標號信息
② Category:與該pathway相關的所有基因
③ Ovserved:與該pathway相關的DMR基因的數目
④ Expected: 與該pathway相關的DMR基因數目的期望值
⑤ FoldChange: 富集倍數
⑥ rawP:超幾何檢驗p值
⑦ adjP: 校正p值
⑧ Term_Name:該pathway的具體描述
⑨ GeneList: 與該pathway相關的DMR基因的列表,使用NCBI geneID
根據以上GO富集結果,過濾出 Ovserved>2, FoldChange>=2 并且adjP<0.05的條目,進行作圖(若沒有滿足條件的條目,則選取最為顯著的前15個條目展示)。散點圖是KEGG富集分析結果的圖形化展示方式。在此圖中,KEGG富集程度通過fold change(富集倍數)、Qvalue和富集到此通路上的基因個數來衡量。其中fold change指該pathway中富集到的DMR相關基因個數與注釋基因個數的比值。Fold change越大,表示富集的程度越大。Qvalue是做過多重假設檢驗校正之后的Pvalue,Qvalue的取值范圍為[0,1],越接近于零,表示富集越顯著。
圖23. 富集的KEGG代謝通路的散點圖縱軸表示pathway名稱,橫軸表示fold change,點的大小表示此pathway中DMR相關基因個數多少,而點的顏色對應于不同的q-value范圍,染色越紅表示越顯著
百泰派克生物科技CUT&Tag服務
百泰派克生物科技致力于為科研人員提供全面的CUT&Tag技術服務,我們的CUT&Tag服務涵蓋樣本前處理、文庫構建、高通量測序以及生物信息學分析等全流程,確保為客戶提供高質量的數據和精準的科學見解。歡迎隨時與我們技術支持溝通~
百泰派克生物科技--生物制品表征,多組學生物質譜檢測優質服務商
相關服務
CUT&Tag分析服務
關于我們
北京百泰派克生物科技有限公司致力于為生物/制藥和醫療器械行業提供質量控制檢測和項目驗證等專業服務。公司實驗室遵循NMPA、ICH、FDA和EMA等的法規和指導原則,通過CNAS/ISO9001雙重質量體系認證,建立了完備的質量體系,數據冷熱/異地備份,設備定期計量/期間核查,軟件審計追蹤,為客戶提供一體化解決方案和技術服務,支持新藥研發、藥物申報注冊和生產放行。
1.公司采用ISO9001質量控制體系,專業提供以質譜為基礎的CRO檢測分析服務;
2.獲國家CNAS實驗室認可,為客戶提供符合全球藥政法規的藥物質量研究服務;
3.業務范圍覆蓋蛋白質組學、多肽組學、代謝組學、生物藥物表征、單細胞分析、單細胞質譜流式、生信云分析以及多組學生物質譜整合分析等;
4.七大質量控制檢測平臺,滿足您一站式服務需求;
5.服務3000+企業,10000+客戶的選擇;
6.致力于為您提供優質的生物質譜分析服務!
技術服務一覽圖