设计思想赏析-分布式id生成算法-雪花算法-阿里云开发者社区

设计思想赏析-分布式id生成算法-雪花算法

2023-08-30 84

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 设计思想赏析-分布式id生成算法-雪花算法

唯一ID怎么生成？

在数据库的使用中，根据第二范式的设计准则：数据库中的每行必须可以被唯一的区分，因此我们经常需要生成唯一id。在RDBMS（关系数据库管理系统）时代，数据库提供序列生成器，例如oracle的sequence，mysql的increment自增长字段等。RDBMS是中心化环境（单机环境），全局唯一只需要当前机器自己说了算就行；但是在分布式环境（去中心化）下，多台主机并存，如何让他们自动生成全局不会重复的id呢？

主要的解决方案有以下两类

法一：仍然采用中心化的思路

在RDBMS中预生成一批序列，分布式环境中的每个节点启动时到RDBMS中获取一个号段，各自使用。美团leaf的Segment模式就属于此类型。

方法二：采用去中心化的思想

约定一个规则，分布式环境中的每个节点自己生成全局唯一的id即可。UUID、GUID、雪花算法都属于此类情况。

雪花算法

其实很多创新方法都非常简单，雪花算法也是如此。我们需要学习其设计思想，在分布式环境中的id都可以套用此方法。

雪花算法是由Twitter开源的，设定64个bit【思考：为什么是64位？】，由首位、时间戳、机器id和自增序列四部分组成。

首位，1个bit，固定为0；【思考：为什么首位为0？】
时间戳，41个bit，当前时间与指定日期的毫秒级时间差；【思考：为什么是时间差？】
集群节点id，10个bit，最多2^10，共计1024台机器；
自增序列，12个bit，最多2^12，共计4096个id。

天下没有两片相同的雪花

每个节点在生成id时，会因为时间戳和自增序列的不同，生成的id局部唯一；加上集群节点id，自然就做到了全局唯一，因此雪花算法做到了“天下没有两片相同的雪花”的目的。

同时，时间戳按毫秒计，每毫秒最多可支持4096个id，因此，每个节点每秒可生成4096000个id，且生成的id在(2^41-1)/86400/365/1000=69年之后才会超出41位，应对多大的量都够用了。

设计核心

所以其设计的核心是：

1、循环使用的自增id，保证某个时间内局部唯一；

2、毫秒级时间戳，提供秒级生成大量id，应对高请求；

3、集群节点id，保证全局唯一。

设计思想明白了，就可以进行相应改良。例如百度的集群已经超过1024台了，那该怎么办？

百度对雪花算法进行了调整，他的uid是1bit首位+28bit时间戳+22bit机器id+13bit序列号。所以百度uid支持2^22=4194304个节点，每个节点每个秒可生成2^13=8192个id。但是时间戳变短了，只能支持到秒级，所以这个算法生成的id，在(2^28-1)/86400/365=8.5年之后就会超出28bit的长度。

所以，百度的同学，你准备8年半之后要干啥？

拓展：雪花算法会遇到什么问题？有什么解决办法？还可以应用在哪个场景？

设计思想赏析-分布式id生成算法-雪花算法

唯一ID怎么生成？

主要的解决方案有以下两类

法一：仍然采用中心化的思路

方法二：采用去中心化的思想

雪花算法

天下没有两片相同的雪花

设计核心

热门文章

最新文章

相关课程

相关电子书

相关实验场景