从SQL Server表中随机选择n行

我有一个SQL Server表，其中有大约50,000行。我想随机选择大约5000行。我想到了一种复杂的方法，创建一个带有“随机数”列的临时表，将我的表复制到其中，循环遍历临时表并使用RAND()更新每一行，然后从该表中选择随机数列< 0.1的列。我正在寻找一种更简单的方法，如果可能的话，在一个单一的声明中。

本文建议使用NEWID()函数。这看起来很有希望，但我不知道如何可靠地选择一定百分比的行。

有人做过这个吗?什么好主意吗?

当前回答

根据您的需要，TABLESAMPLE将为您提供几乎相同的随机和更好的性能。这在MS SQL server 2005及更高版本上可用。

TABLESAMPLE将从随机页而不是随机行返回数据，因此它甚至不会检索它不会返回的数据。

我在一个非常大的桌子上测试

select top 1 percent * from [tablename] order by newid()

花了20多分钟。

select * from [tablename] tablesample(1 percent)

花了2分钟。

在TABLESAMPLE中，较小的样本也会提高性能，而使用newd()则不会。

请记住，这并不像newid()方法那样随机，但会给您一个不错的抽样。

请参见MSDN页面。

2009-05-11 20:15:58

其他回答

newid()似乎不能在where子句中使用，所以这个解决方案需要一个内部查询:

SELECT *
FROM (
    SELECT *, ABS(CHECKSUM(NEWID())) AS Rnd
    FROM MyTable
) vw
WHERE Rnd % 100 < 10        --10%

2015-05-07 22:17:37

如果你知道你有大约N行，你想要大约K个随机行，你只需要以K/N的概率拉任意给定的行。使用RAND()函数，它给你一个在0和1之间的公平分布，你可以只做下面的事情，其中PROB = K/N。对我来说效果很快。

SELECT * FROM some_table WHERE RAND() < PROB

2021-08-13 23:12:24

根据您的需要，TABLESAMPLE将为您提供几乎相同的随机和更好的性能。这在MS SQL server 2005及更高版本上可用。

TABLESAMPLE将从随机页而不是随机行返回数据，因此它甚至不会检索它不会返回的数据。

我在一个非常大的桌子上测试

select top 1 percent * from [tablename] order by newid()

花了20多分钟。

select * from [tablename] tablesample(1 percent)

花了2分钟。

在TABLESAMPLE中，较小的样本也会提高性能，而使用newd()则不会。

请记住，这并不像newid()方法那样随机，但会给您一个不错的抽样。

请参见MSDN页面。

2009-05-11 20:15:58

这对我来说很管用:

SELECT * FROM table_name
ORDER BY RANDOM()
LIMIT [number]

2010-12-10 12:20:17

只需按一个随机数对表进行排序，并使用TOP获得前5000行。

SELECT TOP 5000 * FROM [Table] ORDER BY newid();

更新

刚刚尝试过，一个newid()调用就足够了——不需要所有的类型转换和所有的数学运算。

2009-05-11 16:31:11

从SQL Server表中随机选择n行

推荐文章

最新文章

标签