GEO数据库哪些GPL是人的：老鸟带你避开注释坑，精准提取人源数据-fhwow.cn

做生物信息分析的朋友，谁没在GEO数据库里栽过跟头？特别是刚入门的时候，看到一堆GPL编号就头大。很多人问我：GEO数据库哪些GPL是人的？这个问题看似简单，实则暗藏玄机。今天我不讲那些枯燥的官方文档，就结合我最近帮客户跑数据的真实经历，聊聊怎么快速、准确地筛选出真正的人源芯片数据，避免后期分析时才发现物种不对，那真是哭都来不及。

先说个惨痛案例。上个月有个研究生找我救火，他下了一个GSE数据集，直接拿进R语言跑差异表达，结果出来的基因名全是小鼠的符号，比如“Gm2345”这种。查了半天才发现，他用的GPL平台虽然名字叫“Human Genome”，但其实是旧版注释或者混入了其他物种的探针。这就是典型的“被GPL名字忽悠了”。所以，别光看标题，得看底层逻辑。

那到底怎么判断GEO数据库哪些GPL是人的呢？我有三个实战技巧，亲测有效。

第一，去NCBI的GEO Profiles或者Platform页面看详细信息。别只盯着GEO DataSets里的样本看，要点进那个GPL编号。进去后，找“Organism”或者“Taxonomy ID”这一栏。如果Taxonomy ID是9606，那基本就是 Homo sapiens（智人）。这是最硬的标准。比如我常用的GPL570（Affymetrix Human Genome U133 Plus 2.0 Array），它的Taxonomy ID就是9606，这是人源数据的“金标准”。但要注意，有些GPL虽然是人源的，但可能包含一些非特异性探针，或者注释版本过老，比如GPL96，虽然也是人，但注释比较旧，现在用的人少了，容易遇到基因名映射不上的问题。

第二，看探针映射关系。这是很多新手忽略的地方。即使GPL是人源的，如果它用的是旧的芯片设计，比如早期的Affymetrix芯片，探针可能对应多个基因，或者根本对应不到现在的基因ID。这时候，你需要用最新的注释包（比如org.Hs.eg.db）去重新映射。我之前的一个项目，用的就是GPL96，刚开始直接用原始探针ID做GO富集，结果报错一堆。后来我花了一下午时间，把探针重新映射到最新的Entrez ID，才发现很多差异基因其实是因为注释滞后导致的假阴性。所以，GEO数据库哪些GPL是人的，不仅要看物种，还要看注释的时效性。

第三，利用在线工具批量验证。如果你手头有一堆GPL编号，一个个查太慢。可以用一些生物信息学网站，比如BIOINFO工具箱，或者直接在NCBI Gene里搜GPL ID。比如你搜“GPL1055”，它会告诉你这是Illumina HumanHT-12 V4.0 Expression BeadChip，明确标注了Human。这种方法适合快速筛查。但要注意，有些GPL可能是混合芯片，比如同时包含人和小鼠的对照探针，这时候就要仔细看“Description”里的细节，看是否明确说明是纯人源样本。

我最近处理的一个乳腺癌数据集，用的就是GPL1055。刚开始我有点犹豫，怕里面混入其他物种，于是特意下载了它的annotation文件，用Excel筛了一遍Taxonomy ID，确认全是9606后才放心使用。结果分析下来，差异基因非常显著，生物标志物也很清晰。如果当时因为怕错而放弃，可能就错过了好数据。

总结一下，判断GEO数据库哪些GPL是人的，核心就是看Taxonomy ID是否为9606，并辅以最新的基因注释映射。不要轻信标题，要相信底层数据。另外，记得定期更新注释包，因为基因命名规则一直在变。希望这些经验能帮你少走弯路，少熬几个大夜。毕竟，数据分析的目的是发现真理，而不是和注释文件斗智斗勇。

本文关键词：GEO数据库哪些GPL是人的