我从文件中了解到两者之间的差异。

uuid1 (): 根据主机ID、序列号和当前时间生成UUID

uuid4 (): 生成一个随机UUID。

因此uuid1使用机器/序列/时间信息来生成UUID。使用它们的优缺点是什么?

我知道uuid1()可能存在隐私问题,因为它基于机器信息。我想知道在选择一个或另一个时是否有更微妙的地方。我现在只使用uuid4(),因为它是一个完全随机的UUID。但是我想知道是否应该使用uuid1来降低碰撞的风险。

基本上,我在寻找人们关于使用其中一种与另一种的最佳实践的建议。谢谢!


当前回答

也许我们没有提到的是地域性。

MAC地址或基于时间的排序(UUID1)可以提供更高的数据库性能,因为与随机分布的数字(UUID4)相比,更紧密地排序数字的工作量更少(参见这里)。

第二个相关问题是,使用UUID1在调试中很有用,即使原始数据丢失或没有显式存储(这显然与OP提到的隐私问题相冲突)。

其他回答

在使用uuid1时需要注意的一件事是,如果使用默认调用(不提供clock_seq参数),则有可能遇到碰撞:您只有14位随机性(在100ns内生成18个条目,大约有1%的碰撞几率,参见生日悖论/攻击)。这个问题在大多数情况下都不会发生,但是在时钟分辨率较差的虚拟机上,它会让你很难受。

可能考虑uuid1()而不是uuid4()的一个实例是,在不同的机器上生成uuid,例如,为了扩展目的,多个在线事务在几台机器上处理。

在这种情况下,由于伪随机数生成器初始化方式中的错误选择而产生冲突的风险,以及潜在的更高数量的uuid,使得创建重复id的可能性更大。

uuid1()的另一个兴趣是,在这种情况下,隐式地记录了最初生成每个GUID的机器(在UUID的“节点”部分)。这和时间信息,可能有帮助,如果只是调试。

我的团队在使用UUID1进行数据库升级脚本时遇到了麻烦,我们在几分钟内生成了大约120k个uuid。UUID冲突导致违反主键约束。

我们已经升级了100多个服务器,但在我们的Amazon EC2实例中,我们遇到了几次这个问题。我怀疑时钟分辨率差,切换到UUID4为我们解决了这个问题。

Uuid1()保证不会产生任何碰撞(假设您不会同时创建太多碰撞)。如果uuid和计算机之间没有连接是很重要的,我就不会使用它,因为mac地址被用来使它在计算机之间是唯一的。

您可以通过在小于100ns的时间内创建超过214个uuid1来创建副本,但这对于大多数用例来说不是问题。

正如您所说,uuid4()生成一个随机UUID。碰撞的可能性非常非常非常小。小到你不用担心。问题是,糟糕的随机数生成器更有可能发生碰撞。

Bob Aman的回答很好地总结了这个问题。(我建议你阅读完整的答案。)

坦率地说,在单个应用程序空间中 如果没有恶意的参与者,那么 地球上所有的生命都会灭绝 发生在你有一个 碰撞,即使在版本4 UUID上, 即使你产生了很多 每秒uuid。

也许我们没有提到的是地域性。

MAC地址或基于时间的排序(UUID1)可以提供更高的数据库性能,因为与随机分布的数字(UUID4)相比,更紧密地排序数字的工作量更少(参见这里)。

第二个相关问题是,使用UUID1在调试中很有用,即使原始数据丢失或没有显式存储(这显然与OP提到的隐私问题相冲突)。