如何在纯SQL中请求随机行(或尽可能接近真正的随机)?
当前回答
最好的方法是在新列中放入一个随机值,并使用如下代码(伪代码+ SQL):
randomNo = random()
execSql("SELECT TOP 1 * FROM MyTable WHERE MyTable.Randomness > $randomNo")
这是MediaWiki代码采用的解决方案。当然,对于较小的值会有一些偏差,但他们发现,在没有获取行的情况下,将随机值包装为0就足够了。
Newid()解决方案可能需要全表扫描,以便为每一行分配一个新的guid,这将大大降低性能。
rand()解决方案可能根本不起作用(即与MSSQL),因为函数将只计算一次,并且每一行将被分配相同的“随机”数字。
其他回答
对于SQL Server 2005和2008,如果我们想要一个随机的个别行样本(来自Books Online):
SELECT * FROM Sales.SalesOrderDetail
WHERE 0.01 >= CAST(CHECKSUM(NEWID(), SalesOrderID) & 0x7fffffff AS float)
/ CAST (0x7fffffff AS int)
像Jeremies这样的解决方案:
SELECT * FROM table ORDER BY RAND() LIMIT 1
工作,但是它们需要对所有表进行顺序扫描(因为需要计算与每一行相关联的随机值——这样才能确定最小的值),即使对于中等大小的表,这也是相当慢的。我的建议是使用某种索引数字列(许多表都将这些列作为主键),然后编写如下内容:
SELECT * FROM table WHERE num_value >= RAND() *
( SELECT MAX (num_value ) FROM table )
ORDER BY num_value LIMIT 1
如果num_value被索引,那么无论表大小如何,它都在对数时间内工作。注意:这里假设num_value在0..MAX(num_value)范围内均匀分布。如果您的数据集严重偏离这个假设,您将得到倾斜的结果(一些行会比其他行出现得更频繁)。
要小心,因为TableSample实际上并不返回随机的行样本。它引导您的查询查看组成行的8KB页面的随机样本。然后,对这些页面中包含的数据执行查询。由于数据在这些页面上的分组方式(插入顺序等),这可能导致数据实际上不是随机样本。
参见:http://www.mssqltips.com/tip.asp?tip=1308
该表的MSDN页面包含了如何生成实际随机数据样本的示例。
http://msdn.microsoft.com/en-us/library/ms189108.aspx
sql中的随机函数可能会有所帮助。此外,如果您想限制为一行,只需在最后添加它。
SELECT column FROM table
ORDER BY RAND()
LIMIT 1
这里的大多数解决方案都旨在避免排序,但它们仍然需要对表进行顺序扫描。
还有一种方法可以通过切换到索引扫描来避免顺序扫描。如果你知道你随机行的下标值,你几乎可以立即得到结果。问题是——如何猜测一个索引值。
以下方案适用于PostgreSQL 8.4版本:
explain analyze select * from cms_refs where rec_id in
(select (random()*(select last_value from cms_refs_rec_id_seq))::bigint
from generate_series(1,10))
limit 1;
我上面的解决方案你猜10个不同的随机指标值从范围0 ..[id的最后一个值]。
数字10是任意的-你可以使用100或1000,因为它(令人惊讶的是)对响应时间没有太大的影响。
还有一个问题-如果你有稀疏的id,你可能会错过。解决方案是有一个备份计划:)在这种情况下,一个纯旧order by random()查询。当合并id看起来像这样:
explain analyze select * from cms_refs where rec_id in
(select (random()*(select last_value from cms_refs_rec_id_seq))::bigint
from generate_series(1,10))
union all (select * from cms_refs order by random() limit 1)
limit 1;
不是union ALL条款。在这种情况下,如果第一部分返回任何数据,那么第二部分将永远不会执行!
推荐文章
- 使用该集合的原因。种子功能
- GROUP BY with MAX(DATE)
- 删除id与其他表不匹配的sql行
- 等价的限制和偏移SQL Server?
- 为什么我不能在DELETE语句中使用别名?
- 在SQL Server Management Studio中保存带有标题的结果
- "where 1=1"语句
- 如何选择一个记录和更新它,与一个单一的查询集在Django?
- 多语句表值函数vs内联表值函数
- 如何从Oracle的表中获取列名?
- NOLOCK提示在SELECT语句中的作用
- SQL OVER()子句-它什么时候有用,为什么有用?
- 如果字段在MySQL中为空,则返回0
- 从枚举中选择一个随机值?
- 我如何使用ROW_NUMBER()?