Geospatial详解

一、Geospatial类型是什么？

Redis的Geospatial类型是用于存储和查询地理位置信息的扩展功能，允许我们将经纬度（Longitude, Latitude）与实体（如用户、商家、景点）关联，并支持距离计算、附近地点查询、GeoHash编码等操作。

它并非Redis原生的独立数据类型，而是基于Sorted Set（有序集合）实现的——通过将地理位置编码为有序集合的分数（Score），利用有序集合的有序性和范围查询特性，实现高效的地理空间操作。

二、核心原理：为什么用Sorted Set？

Sorted Set的核心特性是每个元素（Member）对应一个分数（Score），且元素按分数有序排列。这一特性完美匹配地理空间查询的需求：

地理空间查询的本质：找到“某个坐标附近的所有实体”，即在二维空间中，距离目标点一定范围内的点。
Sorted Set的优势：通过将二维坐标转换为一维分数，可以将“二维范围查询”转化为“一维分数范围查询”（如ZRANGEBYSCORE），时间复杂度为O(logN + K)（N为集合大小，K为结果数量），效率极高。

三、关键步骤：二维坐标→一维分数（GeoHash编码）

将经纬度转换为Sorted Set的分数，是Geospatial类型的核心难点。Redis采用GeoHash算法的变体，将二维坐标编码为64位整数（作为Score），实现二维到一维的映射。

1. GeoHash算法简介

GeoHash是一种空间索引算法，通过递归二分地球表面，将二维经纬度编码为一维字符串（如wx4g0e）。其核心思想是：

二分范围：将经度范围（-180°~180°）和纬度范围（-90°~90°）分别递归二分，每次二分生成一个二进制位（0表示左半区，1表示右半区）。
交替合并：将经度和纬度的二进制位交替合并（经度先于纬度），形成一个**Z-order曲线（Z曲线）**的二进制串。
编码为字符串：将二进制串按每5位一组，转换为Base32编码（0-9、a-z去掉a/i/l/o，共32个字符），生成GeoHash字符串（如wx4g0e）。

示例：假设一个点的经纬度是(116.403874, 39.914889)（北京天安门），其GeoHash编码过程如下：

经度（116.403874°）：二分180°范围，得到二进制位序列（如1011000100）。
纬度（39.914889°）：二分90°范围，得到二进制位序列（如1100100101）。
交替合并：经度位与纬度位交替，得到1 1 0 1 1 0 0 0 0 1 1 0 0 1 0 0 1 0 1 0（简化示例）。
转换为Base32：每5位一组，得到wx4g0e（实际更长）。

2. Redis的GeoHash优化：64位整数编码

Redis并未直接存储GeoHash字符串，而是将其转换为64位整数（作为Sorted Set的Score）。具体步骤如下：

分步编码：将经度（Longitude）和纬度（Latitude）分别编码为32位整数：
- 经度：lon_int = (longitude + 180) * (2^32 - 1) / 360（将-180°~180°映射到0~2^32-1）。
- 纬度：lat_int = (latitude + 90) * (2^32 - 1) / 180（将-90°~90°映射到0~2^32-1）。
交替合并：将经度的32位二进制与纬度的32位二进制交替合并（经度位在前，纬度位在后），形成64位整数（Z-order曲线值）。

示例：假设经度的32位二进制是x1 x2 ... x32，纬度是y1 y2 ... y32，合并后的64位整数为：
x1 y1 x2 y2 ... x32 y32（共64位）。

3. 为什么用Z-order曲线？

Z-order曲线的核心优势是**“空间局部性”：地理上相邻的点，其Z-order值（Score）也趋于相邻。这使得Sorted Set的范围查询（ZRANGEBYSCORE）**可以高效覆盖“附近的点”。

例如，北京天安门附近的点，其Z-order值会集中在某个区间内，通过查询该区间的Sorted Set元素，即可快速找到附近的实体。

四、核心命令的底层实现

Redis提供了一组Geospatial命令，其底层均基于Sorted Set的操作。以下是关键命令的原理剖析：

1. GEOADD：添加地理位置

命令格式：GEOADD key longitude latitude member [longitude latitude member ...]
底层逻辑：
1. 对每个(longitude, latitude, member)三元组，将经纬度转换为64位Z-order整数（Score）。
2. 调用Sorted Set的ZADD命令，将member作为元素，Score作为分数，添加到key对应的有序集合中。
示例：GEOADD cities 116.403874 39.914889 beijing
底层执行：ZADD cities <score> beijing（score为北京经纬度的Z-order值）。

2. GEODIST：计算两点距离

命令格式：GEODIST key member1 member2 [unit]（unit可选：m/km/mi/ft）
底层逻辑：
1. 调用GEOPOS命令（见下文），获取member1和member2的经纬度（从Sorted Set中取出Score，转换为经纬度）。
2. 使用球面距离公式计算两点距离：
  - Haversine公式（默认）：假设地球是完美球体（半径6371km），适用于小范围距离计算，精度约1-2米。
  - Vincenty公式（可选）：考虑地球椭球形状（WGS84坐标系），精度更高（约0.1mm），但计算速度稍慢。
3. 将距离转换为指定单位（如km）并返回。
示例：GEODIST cities beijing shanghai km
底层会先获取北京和上海的经纬度，再用Haversine公式计算距离（约1068km）。

3. GEORADIUS/GEORADIUSBYMEMBER：范围查询（附近的点）

这两个命令是Geospatial类型的核心功能，用于查询“某个坐标/实体附近的所有实体”。

命令格式：
- GEORADIUS key longitude latitude radius [unit] [WITHCOORD] [WITHDIST] [WITHHASH] [COUNT count] [ASC/DESC]（根据经纬度查询）
- GEORADIUSBYMEMBER key member radius [unit] ...（根据实体查询）
底层逻辑（以GEORADIUS为例）：
1. 转换目标坐标：将输入的(longitude, latitude)转换为Z-order Score（记为S）。
2. 计算Score范围：根据radius（半径），计算出Z-order曲线的覆盖区间（记为[S-Δ, S+Δ]）。由于Z-order曲线的“边缘效应”（地理上相邻的点可能位于不同的Z区间），Redis会扩大查询范围（如查询[S-2Δ, S+2Δ]），确保覆盖所有可能的点。
3. 查询Sorted Set：调用ZRANGEBYSCORE命令，获取key中Score在[S-2Δ, S+2Δ]范围内的所有member。
4. 过滤无效点：对每个查询到的member，取出其经纬度（转换Score），计算与目标点的实际距离（用Haversine或Vincenty公式），过滤掉距离超过radius的点。
5. 排序与返回：根据ASC/DESC参数对结果排序（默认按距离升序），并返回（可选包含经纬度、距离、GeoHash）。

示例：GEORADIUS cities 116.403874 39.914889 10 km WITHCOORD WITHDIST
底层会查询北京天安门10公里内的所有城市，返回它们的经纬度、距离，并按距离排序。

4. GEOPOS：获取实体经纬度

命令格式：GEOPOS key member [member ...]
底层逻辑：
1. 调用Sorted Set的ZSCORE命令，获取member对应的64位Z-order Score。
2. 将Score逆转换为经纬度：
  - 拆分64位Score为经度的32位二进制（x1-x32）和纬度的32位二进制（y1-y32）。
  - 将经度二进制转换为整数，映射回-180°~180°（longitude = (x_int * 360) / (2^32 - 1) - 180）。
  - 将纬度二进制转换为整数，映射回-90°~90°（latitude = (y_int * 180) / (2^32 - 1) - 90）。
3. 返回经纬度列表。

5. GEOHASH：获取实体的GeoHash字符串

命令格式：GEOHASH key member [member ...]
底层逻辑：
1. 调用GEOPOS命令，获取member的经纬度。
2. 将经纬度转换为GeoHash二进制串（如前所述）。
3. 将二进制串按每5位一组，转换为Base32字符串（长度为11位，对应55位二进制，精度约10厘米）。
4. 返回GeoHash字符串。

五、Geospatial类型的优缺点

1. 优点

高效的范围查询：基于Sorted Set的ZRANGEBYSCORE，时间复杂度O(logN + K)，支持百万级数据的快速查询。
存储紧凑：Sorted Set的底层是**跳跃表（Skiplist）和哈希表（Hash Table）**的组合，存储效率高（每个元素仅需存储member和score）。
功能丰富：支持距离计算、范围查询、GeoHash编码等，满足常见地理空间需求。
与其他功能集成：可以结合Redis的过期时间（EXPIRE）、**事务（MULTI/EXEC）**等功能，实现更复杂的业务逻辑。

2. 缺点

精度限制：采用55位GeoHash编码（11位Base32），经纬度精度约为0.00000137°（经度）和0.00000068°（纬度），对应实际距离约10厘米。对于需要毫米级精度的应用（如测绘），可能不够。
边缘效应：尽管Redis扩大了查询范围，但仍可能存在地理上相邻但Z-order值相差较大的点，需要额外过滤，增加了计算量。
不支持复杂空间查询：无法直接实现多边形查询（如“查询某个区域内的所有点”）、空间关系判断（如“判断点是否在多边形内”）等复杂操作，需依赖PostGIS、Elasticsearch等工具。

六、应用场景

Geospatial类型适用于**需要快速查询“附近实体”**的场景，常见案例包括：

社交应用：“附近的人”功能（查询用户周围1公里内的其他用户）。
本地生活服务：“附近的商家”（外卖、团购应用中，查询用户周围3公里内的餐馆、超市）。
物流跟踪：“货物附近的网点”（查询快递包裹周围5公里内的自提点）。
地理围栏：“进入/离开区域通知”（当用户进入某个商场时，发送优惠券通知）。
旅游应用：“附近的景点”（查询游客周围2公里内的景点、卫生间）。

七、使用注意事项

经纬度顺序：Redis的Geospatial命令中，经度（Longitude）在前，纬度（Latitude）在后（如GEOADD key lon lat member），切勿颠倒（很多人习惯先写纬度）。
坐标有效性：Redis会检查经纬度的合法性（经度-180°~180°，纬度-90°~90°），无效坐标会返回错误。
单位选择：GEODIST和GEORADIUS命令的单位（m/km/mi/ft）需根据场景选择（如外卖用km，步行用m）。
性能优化：
- 对于大规模数据（如千万级），可以将数据按地理区域分片（如按省份存储到不同的Sorted Set中），减少单集合的大小。
- 使用COUNT参数限制返回结果数量（如COUNT 10），避免返回过多数据。
复杂查询补充：如果需要多边形查询、空间关系判断等复杂功能，可以将Redis与Elasticsearch（支持地理空间查询）结合使用：Redis存储热点数据（如用户当前位置），Elasticsearch存储全量数据并处理复杂查询。

总结

Redis的Geospatial类型通过GeoHash算法将二维经纬度转换为一维Z-order分数，利用Sorted Set的有序性实现高效的地理空间查询。其核心原理是将二维空间问题转换为一维分数问题，兼顾了存储效率和查询性能。

尽管存在精度限制和边缘效应，但对于需要快速查询“附近实体”的应用场景（如社交、本地生活、物流），Geospatial类型是轻量级、高性能的解决方案。如果需要更复杂的空间功能，可以结合其他工具（如PostGIS、Elasticsearch）补充。

参考资料：

Redis官方文档：Geospatial Indexes
GeoHash算法详解：GeoHash.org
Sorted Set底层实现：Redis Design Patterns

Geospatial详解 ​

一、Geospatial类型是什么？ ​

二、核心原理：为什么用Sorted Set？ ​

三、关键步骤：二维坐标→一维分数（GeoHash编码） ​

1. GeoHash算法简介 ​

2. Redis的GeoHash优化：64位整数编码 ​

3. 为什么用Z-order曲线？ ​

四、核心命令的底层实现 ​

1. GEOADD：添加地理位置 ​

2. GEODIST：计算两点距离 ​

3. GEORADIUS/GEORADIUSBYMEMBER：范围查询（附近的点） ​

4. GEOPOS：获取实体经纬度 ​

5. GEOHASH：获取实体的GeoHash字符串 ​

五、Geospatial类型的优缺点 ​

1. 优点 ​

2. 缺点 ​

六、应用场景 ​

七、使用注意事项 ​

总结 ​