别被es geo算法性能骗了，这7年踩坑换来的血泪教训-fhwow.cn

做这行七年了，见过太多人拿着几百万数据量，在那儿死磕es的geo查询，最后服务器直接崩盘，运维半夜打电话骂娘。我也踩过这个坑，那时候年轻气盛，觉得es是万能的，啥都能查。结果呢？上线第一天，QPS刚过百，延迟直接飙到几秒，用户投诉电话被打爆。今天不整那些虚头巴脑的理论，就聊聊我亲自在生产环境里摸爬滚打出来的经验，特别是关于es geo算法性能这块的硬骨头。

很多人一上来就喜欢用geo_distance，或者geo_bounding_box，觉得简单粗暴。确实，代码写起来爽，但数据量一旦上了百万级，你就知道什么叫“痛彻心扉”。我有个前同事，搞了个本地生活平台，用户定位查询，一开始数据少，跑得飞起。后来用户多了，每次查询都要全表扫描附近的点，CPU直接干到100%。这就是典型的没理解es底层怎么存geo数据的。es底层是把经纬度转成doc值存的，虽然用了geohash或者grid subdivision，但如果你的查询范围太大，或者精度不够，它就得遍历大量文档。

我后来是怎么解决的？先说个真实案例。我们当时有个物流轨迹查询的需求，要查某个时间段内，车辆经过某个区域的记录。一开始直接用geo_shape，结果慢得感人。后来我换了个思路，不用es做主要的过滤，而是先用一个轻量级的缓存层，比如Redis的geo命令，把热点区域的数据先筛一遍。Redis处理这种半径查询非常快，因为它用的是sorted set，底层算法优化得很好。筛完剩下的少量数据，再扔给es做精确的时间段和状态过滤。这一套组合拳下来，查询速度提升了大概十倍不止。

这里就要提到es geo算法性能的一个核心痛点：精度与性能的平衡。geohash的精度是固定的，如果你把精度设得太高，比如12位，那每个hash值对应的区域就很小，索引树会变得很深，查询效率反而下降。我试过把精度调到6或者7，对于城市级别的查询完全够用，而且查询速度明显变快。当然，如果你需要更精确的距离计算，那只能牺牲一点性能，或者像上面说的那样，分层处理。

还有一个容易被忽视的点，就是索引设计。别把所有字段都塞进一个mapping里。geo相关的字段，最好单独建一个索引，或者至少把查询频率高的字段和低频字段分开。我们之前有个项目，把geo字段和大量的文本日志混在一起，结果每次查询都要加载大量的无用数据，内存占用极高。后来把geo数据单独拆分出来，配合倒排索引，性能立马就上来了。

另外，别迷信“最新”的版本。es更新很快，但有些geo相关的优化，在旧版本里可能更稳定。我有个客户，升级了最新的es版本，结果geo查询反而变慢了，查了半天发现是新版本里默认的分片策略变了，导致数据分布不均。所以，升级前一定要做充分的压测，特别是针对你的核心查询场景。

最后，说说监控。别等出问题了再查。用kibana或者prometheus，实时监控es的查询延迟、缓存命中率、CPU使用率。我发现，很多性能问题，其实是因为缓存命中率低导致的。如果每次查询都要去磁盘读数据，那肯定慢。所以，合理调整cache的大小，确保热点数据都在内存里，这才是提升es geo算法性能的关键。

总之，es不是银弹，geo查询更是个精细活。别指望一套配置走天下，得根据你的业务场景，不断调优。多测试，多监控，多复盘。这七年，我算是把es的脾气摸透了。它很强大，但也很容易被你玩坏。别怕犯错，怕的是犯了错还不总结。希望我的这些坑，能帮你少走弯路。毕竟，在这个行业里，经验才是你最宝贵的资产。