做geo单细胞测序数据挖掘别瞎搞，这3个坑我踩了9年才明白-fhwow.cn

干了9年生物信息，说实话，现在做geo单细胞测序数据挖掘的人越来越多了，但真正能出好文章的没几个。很多刚入行的兄弟，拿到数据就兴奋，下载下来直接跑流程，最后发现结果全是噪音，或者根本复现不了别人的图。今天我不讲那些高大上的算法原理，就聊聊我在一线摸爬滚打出来的实战经验，全是干货，希望能帮你省下几万块的测序费和几个月的头发。

首先，咱们得认清一个现实：GEO上的单细胞数据，质量参差不齐。你以为下载下来是干净的count matrix？太天真了。我去年帮一个客户做geo单细胞测序数据挖掘，他直接拿了个GSE编号，用Seurat默认的预处理流程，结果聚类结果一团乱麻，细胞类型 marker 基因表达量极低。后来我仔细检查了原始数据，发现那个样本的测序深度极低，而且有很多双倍体（doublets）。如果你不先做质控，直接进下游分析，那结果简直就是垃圾。

这里我要强调一个经常被忽视的点：批次效应。很多同行在做geo单细胞测序数据挖掘时，喜欢把不同批次的数据直接合并。记住，不同批次的数据，哪怕来自同一个病人，其技术噪音也可能掩盖生物学差异。我见过太多案例，因为没处理好批次效应，导致找到的差异基因全是技术偏差造成的。正确的做法是先对每个样本单独进行质控和标准化，然后再进行整合。整合工具推荐用Harmony或者Seurat的CCA，但一定要看整合后的UMAP图，细胞类型是否混杂，如果混杂严重，说明整合失败，得重新调整参数。

再来说说细胞注释。这是最考验经验的地方。很多新手喜欢用自动化的注释工具，比如SingleR。说实话，自动化工具在大多数情况下是靠谱的，但在复杂组织中，比如肿瘤微环境，自动注释往往不准。我有个客户，做的是肺癌单细胞数据，自动注释把T细胞都标成了NK细胞，差点让他发文章翻车。这时候，你得手动检查marker基因，结合文献和临床经验，一点点去修正。别偷懒，这一步省不得。

还有一个大坑：差异表达分析。很多人直接用FindAllMarkers，然后看p值。但是，单细胞数据的稀疏性导致很多基因表达量为0，这会让统计检验变得非常敏感，容易得到大量假阳性结果。我建议在使用Wilcoxon检验的同时，结合logFC阈值，比如logFC > 0.25，并且要求至少在20%的细胞中表达。这样筛选出来的基因，才更有生物学意义。

最后，我想说说可视化。漂亮的图是加分项，但别为了漂亮而牺牲准确性。比如UMAP图，如果参数设置不当，可能会把原本不同的细胞类型聚在一起，或者把同一个细胞类型分散开。我见过有人为了追求“美观”，强行调整n_neighbors参数，结果导致生物学结构失真。记住，可视化是为了展示数据，不是为了画画。

总结一下，做geo单细胞测序数据挖掘，核心在于对数据的敬畏和对细节的把控。不要指望一键出结果，每一步都要有依据，每一个结论都要有证据。只有这样，你的研究才能经得起推敲，才能在激烈的竞争中脱颖而出。希望这些经验能帮你在科研路上少走弯路，早日发顶刊。

本文关键词：geo单细胞测序数据挖掘