我想创建一个URL缩短服务,你可以写一个长URL到输入字段和服务缩短URL为“http://www.example.org/abcdef”。
可以用包含a-z, a-z和0-9的6个字符的字符串代替"abcdef"。这样就有560 ~ 570亿个可能的字符串。
我的方法:
我有一个有三列的数据库表:
Id,整数,自动递增
long, string,用户输入的长URL
短,字符串,缩短的URL(或只有六个字符)
然后将长URL插入到表中。然后,我将为“id”选择自动递增的值,并构建它的散列。这个散列应该作为“short”插入。但是我应该构建什么样的哈希呢?像MD5这样的哈希算法会创建太长的字符串。我认为我不用这些算法。一个自建的算法也可以。
我的想法:
对于“http://www.google.de/”,我得到了自动增量id 239472。然后我执行以下步骤:
short = '';
if divisible by 2, add "a"+the result to short
if divisible by 3, add "b"+the result to short
... until I have divisors for a-z and A-Z.
可以不断重复,直到这个数不能被整除为止。你认为这是一个好方法吗?你有更好的主意吗?
由于对这个主题的持续兴趣,我已经发布了一个高效的GitHub解决方案,包括JavaScript、PHP、Python和Java的实现。如果你喜欢,添加你的解决方案:)
要获得高质量的Node.js / JavaScript解决方案,请参阅id缩短器模块,该模块经过了全面测试,已经在生产环境中使用了几个月。
它提供了一个有效的id / URL缩短支持的可插拔存储默认为Redis,你甚至可以自定义你的短id字符集,是否缩短是幂等的。这是一个重要的区别,并不是所有的URL缩短器都考虑在内。
相对于这里的其他答案,这个模块实现了上面Marcel Jackwerth的优秀的公认答案。
解决方案的核心由下面的Redis Lua代码段提供:
local sequence = redis.call('incr', KEYS[1])
local chars = '0123456789ABCDEFGHJKLMNPQRSTUVWXYZ_abcdefghijkmnopqrstuvwxyz'
local remaining = sequence
local slug = ''
while (remaining > 0) do
local d = (remaining % 60)
local character = string.sub(chars, d + 1, d + 1)
slug = character .. slug
remaining = (remaining - d) / 60
end
redis.call('hset', KEYS[2], slug, ARGV[1])
return slug
这是我最初的想法,可以做更多的思考,或者做一些模拟,看看是否有效或需要改进:
我的答案是记住数据库中的长URL,并使用ID 0到999999999999999999(或所需的任意大的数字)。
但是ID 0到999999999999999999可能是个问题,因为
如果我们使用十六进制,甚至base62或base64,它可以更短。(base64就像YouTube使用A-Z A-Z 0-9 _和-)
如果它从0均匀地增加到999999999999999999,那么黑客就可以按照这个顺序访问它们,并知道人们相互发送的url,所以这可能是一个隐私问题
我们可以这样做:
have one server allocate 0 to 999 to one server, Server A, so now Server A has 1000 of such IDs. So if there are 20 or 200 servers constantly wanting new IDs, it doesn't have to keep asking for each new ID, but rather asking once for 1000 IDs
for the ID 1, for example, reverse the bits. So 000...00000001 becomes 10000...000, so that when converted to base64, it will be non-uniformly increasing IDs each time.
use XOR to flip the bits for the final IDs. For example, XOR with 0xD5AA96...2373 (like a secret key), and the some bits will be flipped. (whenever the secret key has the 1 bit on, it will flip the bit of the ID). This will make the IDs even harder to guess and appear more random
按照这种方案,分配id的单个服务器可以组成id,请求分配id的20或200个服务器也可以组成id。分配服务器必须使用锁/信号量来防止两个请求服务器获得相同的批处理(或者如果它一次接受一个连接,这已经解决了问题)。因此,我们不希望等待分配的队列太长。所以这就是为什么一次分配1000或10000个可以解决问题。