从SQL Server表中随机选择n行

我有一个SQL Server表，其中有大约50,000行。我想随机选择大约5000行。我想到了一种复杂的方法，创建一个带有“随机数”列的临时表，将我的表复制到其中，循环遍历临时表并使用RAND()更新每一行，然后从该表中选择随机数列< 0.1的列。我正在寻找一种更简单的方法，如果可能的话，在一个单一的声明中。

本文建议使用NEWID()函数。这看起来很有希望，但我不知道如何可靠地选择一定百分比的行。

有人做过这个吗?什么好主意吗?

当前回答

如果你知道你有大约N行，你想要大约K个随机行，你只需要以K/N的概率拉任意给定的行。使用RAND()函数，它给你一个在0和1之间的公平分布，你可以只做下面的事情，其中PROB = K/N。对我来说效果很快。

SELECT * FROM some_table WHERE RAND() < PROB

2021-08-13 23:12:24

其他回答

这是最初的种子思想和校验和的组合，在我看来，它可以给出适当的随机结果，而不需要NEWID()的代价:

SELECT TOP [number] 
FROM table_name
ORDER BY RAND(CHECKSUM(*) * RAND())

2015-10-16 17:03:52

select top 10 percent * from [yourtable] order by newid()

针对关于大型表的“纯粹垃圾”评论:您可以这样做以提高性能。

select  * from [yourtable] where [yourPk] in 
(select top 10 percent [yourPk] from [yourtable] order by newid())

这样做的成本将是值的关键扫描加上连接成本，对于一个选择百分比较小的大表来说，这应该是合理的。

2009-05-11 16:26:29

SELECT * FROM some_table WHERE RAND() < PROB

2021-08-13 23:12:24

从MSDN上的大表中随机选择行有一个简单的、明确的解决方案，可以解决大规模性能问题。

  SELECT * FROM Table1
  WHERE (ABS(CAST(
  (BINARY_CHECKSUM(*) *
  RAND()) as int)) % 100) < 10

2012-09-05 22:23:02

在MySQL中，你可以这样做:

SELECT `PRIMARY_KEY`, rand() FROM table ORDER BY rand() LIMIT 5000;

2009-05-11 16:30:59

从SQL Server表中随机选择n行

推荐文章

最新文章

标签