从SQL Server表中随机选择n行

我有一个SQL Server表，其中有大约50,000行。我想随机选择大约5000行。我想到了一种复杂的方法，创建一个带有“随机数”列的临时表，将我的表复制到其中，循环遍历临时表并使用RAND()更新每一行，然后从该表中选择随机数列< 0.1的列。我正在寻找一种更简单的方法，如果可能的话，在一个单一的声明中。

本文建议使用NEWID()函数。这看起来很有希望，但我不知道如何可靠地选择一定百分比的行。

有人做过这个吗?什么好主意吗?

当前回答

这对我来说很管用:

SELECT * FROM table_name
ORDER BY RANDOM()
LIMIT [number]

2010-12-10 12:20:17

其他回答

根据您的需要，TABLESAMPLE将为您提供几乎相同的随机和更好的性能。这在MS SQL server 2005及更高版本上可用。

TABLESAMPLE将从随机页而不是随机行返回数据，因此它甚至不会检索它不会返回的数据。

我在一个非常大的桌子上测试

select top 1 percent * from [tablename] order by newid()

花了20多分钟。

select * from [tablename] tablesample(1 percent)

花了2分钟。

在TABLESAMPLE中，较小的样本也会提高性能，而使用newd()则不会。

请记住，这并不像newid()方法那样随机，但会给您一个不错的抽样。

请参见MSDN页面。

2009-05-11 20:15:58

select top 10 percent * from [yourtable] order by newid()

针对关于大型表的“纯粹垃圾”评论:您可以这样做以提高性能。

select  * from [yourtable] where [yourPk] in 
(select top 10 percent [yourPk] from [yourtable] order by newid())

这样做的成本将是值的关键扫描加上连接成本，对于一个选择百分比较小的大表来说，这应该是合理的。

2009-05-11 16:26:29

Newid ()/order by可以工作，但对于大型结果集来说代价非常高，因为它必须为每一行生成一个id，然后对它们进行排序。

从性能的角度来看，TABLESAMPLE()很好，但是您将得到结果的聚集(将返回页面上的所有行)。

为了获得更好的真实随机样本，最好的方法是随机过滤掉行。我在SQL Server Books Online文章使用TABLESAMPLE限制结果集中找到了以下代码示例:

If you really want a random sample of individual rows, modify your query to filter out rows randomly, instead of using TABLESAMPLE. For example, the following query uses the NEWID function to return approximately one percent of the rows of the Sales.SalesOrderDetail table: SELECT * FROM Sales.SalesOrderDetail WHERE 0.01 >= CAST(CHECKSUM(NEWID(),SalesOrderID) & 0x7fffffff AS float) / CAST (0x7fffffff AS int) The SalesOrderID column is included in the CHECKSUM expression so that NEWID() evaluates once per row to achieve sampling on a per-row basis. The expression CAST(CHECKSUM(NEWID(), SalesOrderID) & 0x7fffffff AS float / CAST (0x7fffffff AS int) evaluates to a random float value between 0 and 1.

当对一个有1,000,000行的表运行时，下面是我的结果:

SET STATISTICS TIME ON
SET STATISTICS IO ON

/* newid()
   rows returned: 10000
   logical reads: 3359
   CPU time: 3312 ms
   elapsed time = 3359 ms
*/
SELECT TOP 1 PERCENT Number
FROM Numbers
ORDER BY newid()

/* TABLESAMPLE
   rows returned: 9269 (varies)
   logical reads: 32
   CPU time: 0 ms
   elapsed time: 5 ms
*/
SELECT Number
FROM Numbers
TABLESAMPLE (1 PERCENT)

/* Filter
   rows returned: 9994 (varies)
   logical reads: 3359
   CPU time: 641 ms
   elapsed time: 627 ms
*/    
SELECT Number
FROM Numbers
WHERE 0.01 >= CAST(CHECKSUM(NEWID(), Number) & 0x7fffffff AS float) 
              / CAST (0x7fffffff AS int)

SET STATISTICS IO OFF
SET STATISTICS TIME OFF

如果您可以使用TABLESAMPLE，它将为您提供最佳性能。否则使用newwid ()/filter方法。如果结果集很大，Newid ()/order by应该是最后的选择。

2009-05-28 18:15:18

试试这个:

SELECT TOP 10 Field1, ..., FieldN
FROM Table1
ORDER BY NEWID()

2011-09-27 07:59:48

服务器端使用的处理语言(如PHP， .net等)没有指定，但如果是PHP，获取所需的数字(或所有记录)，而不是在查询中随机使用PHP的shuffle函数。我不知道。net是否有等价的函数但如果有的话，请使用。net

ORDER BY RAND()可能会有相当大的性能损失，这取决于涉及多少记录。

2018-06-13 06:05:42

从SQL Server表中随机选择n行

推荐文章

最新文章

标签