GEO数据整合挖掘


简介

通过多组 GEO 数据集看差异基因的交集情况,对应差异基因对应的生物学功能,特定生物学功能相关基因的差异情况。

分析内容:

1、 GEO 数据集预处理,包含归一化,过滤低表达,PCA,样本聚类等

首先对数据预处理:归一化处理(quantile 法),过滤低表达,PCA分析(看样本是否离群)。

需要根据根据数据产生的方式(芯片还是测序)选择适合的归一化方法。


上图是样本间的PCA图,先预判样本间的一致性以及是否有离群样本


2. 如果是多个GEO数据,对不同的GEO数据的一致性进行评估

   适用于:>=3GEO数据集

   可以通过heatmap 的方式来展示数据间的一致性

  这张图需要ps 处理

图中每行代表每个数据集,每列代表一个基因。可以清晰看出每个数据集基因表达的一致性。

3.     差异基因筛选

根据数据产生的方式(芯片还是测序)选择适合的方法计算基因在组间差异的pvalue值。对差异倍数(Fold Change)以及pvalue设置合适的阈值筛选差异基因。

4.     差异基因 venn

两组差异基因 venn

5.     对差异基因做功能注释

GO 数据库包含了基因参与的生物过程,所处的细胞位置,发挥的分子功能三方面功能信息。在基因 表达谱分析中,GO 常用于提供基因功能分类标签和基因功能研究的背景知识。 利用 GO 的知识体系和结构特点,旨在发掘与基因差异表达现象关联的单个特 征基因功能类或多个特征功能类的组合。

注:(A)GO富集分析。点的颜色渐变代表的是Pvalue的大小,点的大小根据该GO分类差异基因数量渐变(B)KEGG通路富集。黄色线条表示该位置的pvalue=0.05。Up:上调,Down:下调。数字左侧为差异表达基因数量,数字右侧为该KEGG通路中差异基因的总数量。


6.     特定生物学相关差异基因筛选。

以特定的关键词从 GO Pathway及其他相关数据库筛选对应的基因,看这些基因在各个数据集中的差异情况。

以上仅描述了一种GEO数据整合的方法。通常可以根据课题的需要设计分析方案。


参考文献:

【1】Jin Wook Yi  et.al. Genomic evidence of reactive oxygen species elevation in papillary thyroid carcinoma with Hashimoto thyroiditis,2015