简介:
通过多组 GEO 数据集看差异基因的交集情况,对应差异基因对应的生物学功能,特定生物学功能相关基因的差异情况。
分析内容:
1、 GEO 数据集预处理,包含归一化,过滤低表达,PCA,样本聚类等
首先对数据预处理:归一化处理(quantile 法),过滤低表达,PCA分析(看样本是否离群)。
需要根据根据数据产生的方式(芯片还是测序)选择适合的归一化方法。
上图是样本间的PCA图,先预判样本间的一致性以及是否有离群样本
2. 如果是多个GEO数据,对不同的GEO数据的一致性进行评估
适用于:>=3个GEO数据集
可以通过heatmap 的方式来展示数据间的一致性
这张图需要ps 处理
图中每行代表每个数据集,每列代表一个基因。可以清晰看出每个数据集基因表达的一致性。
3. 差异基因筛选
根据数据产生的方式(芯片还是测序)选择适合的方法计算基因在组间差异的pvalue值。对差异倍数(Fold Change)以及pvalue设置合适的阈值筛选差异基因。
4. 差异基因 venn 图
两组差异基因 venn 图
5. 对差异基因做功能注释
GO 数据库包含了基因参与的生物过程,所处的细胞位置,发挥的分子功能三方面功能信息。在基因 表达谱分析中,GO 常用于提供基因功能分类标签和基因功能研究的背景知识。 利用 GO 的知识体系和结构特点,旨在发掘与基因差异表达现象关联的单个特 征基因功能类或多个特征功能类的组合。
注:(A)GO富集分析。点的颜色渐变代表的是Pvalue的大小,点的大小根据该GO分类差异基因数量渐变(B)KEGG通路富集。黄色线条表示该位置的pvalue=0.05。Up:上调,Down:下调。数字左侧为差异表达基因数量,数字右侧为该KEGG通路中差异基因的总数量。
6. 特定生物学相关差异基因筛选。
以特定的关键词从 GO 、Pathway及其他相关数据库筛选对应的基因,看这些基因在各个数据集中的差异情况。
以上仅描述了一种GEO数据整合的方法。通常可以根据课题的需要设计分析方案。
参考文献:
【1】Jin Wook Yi et.al. Genomic evidence of reactive oxygen species elevation in papillary thyroid carcinoma with Hashimoto thyroiditis,2015