从Javascript中的字符串生成哈希

这里的许多答案都是取自Java的String.hashCode哈希函数。它可以追溯到1981年的Gosling Emacs，它非常脆弱，在现代JavaScript中表现得毫无意义。事实上，通过使用ES6 Math.imul，实现速度可能会大大加快，但没有人注意到。我们可以在基本相同的性能下做得更好。

这是我做的一个cryb53，一个简单但高质量的53位散列。它非常快，提供了非常好的*哈希分布，并且因为它输出53位，所以与任何32位哈希相比，具有明显更低的冲突率。此外，您可以忽略SA的CC许可证，因为它是我GitHub上的公共域。

常量cyrb53=（str，种子=0）=>{设h1＝0xdeadbeef^种子，h2=0x41c6ce57^种子；for（设i=0，ch；i<str.length；i++）{ch=str.charCodeAt（i）；h1=数学模拟（h1^ch，2654435761）；h2=数学模拟（h2^ch，1597334677）；}h1=数学模拟（h1^（h1>>16），2246822507）^数学模拟（h2^（h2>>13），3266489909）；h2=数学模拟（h2^（h2>>16），2246822507）^数学模拟（h1^（h1>>13），3266489909）；返回4294967296*（2097151&h2）+（h1>>>0）；};console.log（`cyrb53（'a'）->${cyrb53“'a'）}`）console.log（`cyrb53（'b'）->${cyrb53console.log（`cyrb53（'return'）->${cyrb53（'reten'）}`）console.log（`cyrb53（'resident'）->${cyrb53console.log（`cyrb53（'resident'，1）->${cyrb53console.log（`cyrb53（'resident'，2）->${cyrb53console.log（`cyrb53（'resident'，3）->${cyrb53

*它大致类似于众所周知的MurmurHash/xxHash算法。它使用乘法和Xorshift的组合来生成哈希，但并不彻底。因此，它比JavaScript中的任何一种都要快，实现起来也要简单得多，但可能无法通过SMHasher中的所有测试。这不是加密哈希函数，因此不要将其用于安全目的。

与任何适当的哈希一样，它具有雪崩效应，这基本上意味着输入中的小变化会导致输出中的大变化，从而使生成的哈希看起来更“随机”：

"501c2ba782c97901" = cyrb53("a")
"459eda5bc254d2bf" = cyrb53("b")
"fbce64cc3b748385" = cyrb53("revenge")
"fb1d85148d13f93a" = cyrb53("revenue")

您可以选择为相同输入的交替流提供种子（无符号整数，最大32位）：

"76fee5e6598ccd5c" = cyrb53("revenue", 1)
"1f672e2831253862" = cyrb53("revenue", 2)
"2b10de31708e6ab7" = cyrb53("revenue", 3)

从技术上讲，它是一个64位散列，即两个不相关的32位散列并行计算，但JavaScript限于53位整数。如果方便，可以通过使用十六进制字符串或数组更改return语句来使用完整的64位输出。

return [h2>>>0, h1>>>0];
// or
return (h2>>>0).toString(16).padStart(8,0)+(h1>>>0).toString(16).padStart(8,0);
// or 
return 4294967296n * BigInt(h2) + BigInt(h1);

请注意，构造十六进制字符串会大大降低批处理速度。该阵列效率更高，但显然需要两次检查而不是一次。我还包括BigInt，它应该比String稍快，但仍然比Array或Number慢得多。

为了好玩，这里有TinySimpleHash，这是我能想出的最小的哈希，它仍然很不错。这是一个89个字符的32位哈希，随机性比FNV或DJB2更好：

TSH=s=>{for(var i=0,h=9;i<s.length;)h=Math.imul(h^s.charCodeAt(i++),9**9);return h^h>>>9}

2018-09-04 17:39:18

我基于FNV的乘法+Xor方法的快速（非常长）一行：

my_string.split('').map(v=>v.charCodeAt(0)).reduce((a,v)=>a+((a<<7)+(a<<3))^v).toString(16);

2017-12-03 10:02:47

EDIT

根据我的jsperf测试，公认的答案实际上更快：http://jsperf.com/hashcodelordvlad

原始的，原始的

如果有人感兴趣，这里有一个改进的（更快的）版本，它将在缺少reduce数组功能的旧浏览器上失败。

hashCode=函数{return s.split（“”）.reduce（函数（a，b）{a=（（a<<5）-a）+b.charCodeAt（0）；返回a&a；}, 0);}//测试console.log（hashCode（“hello”））；console.log（hashCode（“这是一个文本。”））；console.log（hashCode（“Luis Fonsi的Despacito”））；

单线箭头功能版本：

hashCode=s=>s.split（“”）.reduce（（a，b）=>{a=（（a<<5）-a）+b.charCodeAt（0）；返回a&a}，0）//测试console.log（hashCode（“hello”））；console.log（hashCode（“这是一个文本。”））；console.log（hashCode（“Luis Fonsi的Despacito”））；

2013-03-29 20:09:19

我需要一个类似的函数（但不同）来根据用户名和当前时间生成一个唯一的ish ID。因此：

window.newId = ->
  # create a number based on the username
  unless window.userNumber?
    window.userNumber = 0
  for c,i in window.MyNamespace.userName
    char = window.MyNamespace.userName.charCodeAt(i)
    window.MyNamespace.userNumber+=char
  ((window.MyNamespace.userNumber + Math.floor(Math.random() * 1e15) + new Date().getMilliseconds()).toString(36)).toUpperCase()

生产：

2DVFXJGEKL
6IZPAKFQFL
ORGOENVMG
... etc

编辑2022年7月：正如@canRau指出的那样，shortid的作者现在更喜欢nanoidhttps://github.com/ai/nanoid/

2013-05-31 00:06:09

这里的许多答案都是取自Java的String.hashCode哈希函数。它可以追溯到1981年的Gosling Emacs，它非常脆弱，在现代JavaScript中表现得毫无意义。事实上，通过使用ES6 Math.imul，实现速度可能会大大加快，但没有人注意到。我们可以在基本相同的性能下做得更好。

这是我做的一个cryb53，一个简单但高质量的53位散列。它非常快，提供了非常好的*哈希分布，并且因为它输出53位，所以与任何32位哈希相比，具有明显更低的冲突率。此外，您可以忽略SA的CC许可证，因为它是我GitHub上的公共域。

常量cyrb53=（str，种子=0）=>{设h1＝0xdeadbeef^种子，h2=0x41c6ce57^种子；for（设i=0，ch；i<str.length；i++）{ch=str.charCodeAt（i）；h1=数学模拟（h1^ch，2654435761）；h2=数学模拟（h2^ch，1597334677）；}h1=数学模拟（h1^（h1>>16），2246822507）^数学模拟（h2^（h2>>13），3266489909）；h2=数学模拟（h2^（h2>>16），2246822507）^数学模拟（h1^（h1>>13），3266489909）；返回4294967296*（2097151&h2）+（h1>>>0）；};console.log（`cyrb53（'a'）->${cyrb53“'a'）}`）console.log（`cyrb53（'b'）->${cyrb53console.log（`cyrb53（'return'）->${cyrb53（'reten'）}`）console.log（`cyrb53（'resident'）->${cyrb53console.log（`cyrb53（'resident'，1）->${cyrb53console.log（`cyrb53（'resident'，2）->${cyrb53console.log（`cyrb53（'resident'，3）->${cyrb53

*它大致类似于众所周知的MurmurHash/xxHash算法。它使用乘法和Xorshift的组合来生成哈希，但并不彻底。因此，它比JavaScript中的任何一种都要快，实现起来也要简单得多，但可能无法通过SMHasher中的所有测试。这不是加密哈希函数，因此不要将其用于安全目的。

与任何适当的哈希一样，它具有雪崩效应，这基本上意味着输入中的小变化会导致输出中的大变化，从而使生成的哈希看起来更“随机”：

"501c2ba782c97901" = cyrb53("a")
"459eda5bc254d2bf" = cyrb53("b")
"fbce64cc3b748385" = cyrb53("revenge")
"fb1d85148d13f93a" = cyrb53("revenue")

您可以选择为相同输入的交替流提供种子（无符号整数，最大32位）：

"76fee5e6598ccd5c" = cyrb53("revenue", 1)
"1f672e2831253862" = cyrb53("revenue", 2)
"2b10de31708e6ab7" = cyrb53("revenue", 3)

从技术上讲，它是一个64位散列，即两个不相关的32位散列并行计算，但JavaScript限于53位整数。如果方便，可以通过使用十六进制字符串或数组更改return语句来使用完整的64位输出。

return [h2>>>0, h1>>>0];
// or
return (h2>>>0).toString(16).padStart(8,0)+(h1>>>0).toString(16).padStart(8,0);
// or 
return 4294967296n * BigInt(h2) + BigInt(h1);

请注意，构造十六进制字符串会大大降低批处理速度。该阵列效率更高，但显然需要两次检查而不是一次。我还包括BigInt，它应该比String稍快，但仍然比Array或Number慢得多。

为了好玩，这里有TinySimpleHash，这是我能想出的最小的哈希，它仍然很不错。这是一个89个字符的32位哈希，随机性比FNV或DJB2更好：

TSH=s=>{for(var i=0,h=9;i<s.length;)h=Math.imul(h^s.charCodeAt(i++),9**9);return h^h>>>9}

2018-09-04 17:39:18

注意：即使使用最好的32位哈希，冲突也迟早会发生。哈希冲突概率可以计算为,近似为（参见此处）。这可能比直觉所暗示的更高：假设32位哈希和k=10000个项目，则发生冲突的概率为1.2%。77163个样本的概率为50%！（计算器）。我建议在底部使用变通方法。

在回答这个问题时哪种哈希算法最适合唯一性和速度？，伊恩·博伊德发表了一篇很好的深入分析。简而言之（正如我所解释的那样），他得出的结论是MurmurHash是最好的，其次是FNV-1a。esmiralha提出的Java String.hashCode（）算法似乎是DJB2的变体。

FNV-1a的分布比DJB2更好，但速度较慢DJB2比FNV-1a更快，但倾向于产生更多的碰撞MurmurHash3比DJB2和FNV-1a更好更快（但优化的实现需要比FNV和DJB2更多的代码行）

这里有一些输入字符串较大的基准测试：http://jsperf.com/32-bit-hash当对短输入字符串进行散列处理时，相对于DJ2B和FNV-1a，杂音的性能会下降：http://jsperf.com/32-bit-hash/3

因此，总的来说，我会推荐杂音3。请参阅此处了解JavaScript实现：https://github.com/garycourt/murmurhash-js

如果输入字符串很短，性能比分发质量更重要，请使用DJB2（如esmiralha接受的答案所建议的）。

如果质量和小代码大小比速度更重要，我使用FNV-1a的这个实现（基于这个代码）。

/**
 * Calculate a 32 bit FNV-1a hash
 * Found here: https://gist.github.com/vaiorabbit/5657561
 * Ref.: http://isthe.com/chongo/tech/comp/fnv/
 *
 * @param {string} str the input value
 * @param {boolean} [asString=false] set to true to return the hash value as 
 *     8-digit hex string instead of an integer
 * @param {integer} [seed] optionally pass the hash of the previous chunk
 * @returns {integer | string}
 */
function hashFnv32a(str, asString, seed) {
    /*jshint bitwise:false */
    var i, l,
        hval = (seed === undefined) ? 0x811c9dc5 : seed;

    for (i = 0, l = str.length; i < l; i++) {
        hval ^= str.charCodeAt(i);
        hval += (hval << 1) + (hval << 4) + (hval << 7) + (hval << 8) + (hval << 24);
    }
    if( asString ){
        // Convert to 8 digit hex string
        return ("0000000" + (hval >>> 0).toString(16)).substr(-8);
    }
    return hval >>> 0;
}

提高碰撞概率

如这里所解释的，我们可以使用此技巧扩展哈希位大小：

function hash64(str) {
    var h1 = hash32(str);  // returns 32 bit (as 8 byte hex string)
    return h1 + hash32(h1 + str);  // 64 bit (as 16 byte hex string)
}

小心使用，但不要期望太多。

2014-03-15 21:01:52

从Javascript中的字符串生成哈希

推荐文章

最新文章

标签