我无法理解这个,哪个更随机?
rand()
OR:
rand() * rand()
我发现这是一个真正的脑筋急转弯,你能帮我吗?
编辑:
直觉上,我知道数学上的答案是它们是同样随机的,但我不禁想,如果你在将两者相乘时“运行随机数算法”两次,你会创建比只做一次更随机的东西。
我无法理解这个,哪个更随机?
rand()
OR:
rand() * rand()
我发现这是一个真正的脑筋急转弯,你能帮我吗?
编辑:
直觉上,我知道数学上的答案是它们是同样随机的,但我不禁想,如果你在将两者相乘时“运行随机数算法”两次,你会创建比只做一次更随机的东西。
当前回答
只是一个澄清
尽管每当你试图发现伪随机变量或其乘法的随机性时,前面的答案都是正确的,但你应该知道,虽然random()通常是均匀分布的,但random(*random)却不是。
实例
这是通过伪随机变量模拟的均匀随机分布样本:
BarChart[BinCounts[RandomReal[{0, 1}, 50000], 0.01]]
这是两个随机变量相乘后得到的分布:
BarChart[BinCounts[Table[RandomReal[{0, 1}, 50000] *
RandomReal[{0, 1}, 50000], {50000}], 0.01]]
所以,两者都是“随机”的,但它们的分布是非常不同的。
另一个例子
当2*Random()均匀分布时:
BarChart[BinCounts[2 * RandomReal[{0, 1}, 50000], 0.01]]
随机()+随机()不是!
BarChart[BinCounts[Table[RandomReal[{0, 1}, 50000] +
RandomReal[{0, 1}, 50000], {50000}], 0.01]]
中心极限定理
中心极限定理指出,随着项的增加,Random()的和趋于正态分布。
只需四个术语即可获得:
BarChart[BinCounts[Table[RandomReal[{0, 1}, 50000] + RandomReal[{0, 1}, 50000] +
Table[RandomReal[{0, 1}, 50000] + RandomReal[{0, 1}, 50000],
{50000}],
0.01]]
在这里,通过将1、2、4、6、10和20个均匀分布的随机变量相加,可以看到从均匀分布到正态分布的道路:
Edit
几个学分
感谢Thomas Ahle在评论中指出,最后两张图片中显示的概率分布称为Irwin Hall分布
感谢Heike出色的撕裂功能
其他回答
你要寻找的概念是“熵”,即弦的无序程度位。从“最大熵”的概念来看,这个概念最容易理解。
具有最大熵的比特串的一个近似定义是,它不能用更短的比特串来精确表达(即,使用某种算法将较小的字符串扩展回原始字符串)。
最大熵与随机性的相关性源于以下事实:如果你“随机”选择一个数字,你几乎肯定会选择一个其比特串接近于具有最大熵,也就是说,它不能被压缩。这是我们对“随机”数特征的最好理解。
所以,如果你想从两个随机样本中产生一个随机数,它是随机,将两个位字符串连接在一起。实际上,你只是将样本填充到双倍长度单词的高半部分和低半部分。
从更实际的角度来看,如果你发现自己背负着一个蹩脚的rand(),它可以有时有助于将两个样本混合在一起——尽管,如果真的是盈亏平衡的话那个程序没用。
当你对随机数的组合会发生什么感到怀疑时,你可以利用你在统计理论中学到的经验。
在OP的情况下,他想知道X*X=X^2的结果是什么,其中X是沿统一[0,1]分布的随机变量。我们将使用CDF技术,因为它只是一对一映射。
由于X~Uniform[0,1],其cdf为:fX(X)=1我们需要转换Y<-X^2,因此Y=X^2求逆x(y):sqrt(y)=x,这给出了x作为y的函数。接下来,求导数dx/dy:d/dy(sqrt(y))=1/(2sqrt(y)
Y的分布如下:fY(Y)=fX(x(Y))|dx/dy |=1/(2 sqrt(Y)
我们还没有完成,我们必须得到Y的域,因为0<=x<1,0<=x^2<1因此Y在范围[0,1)内。如果你想检查Y的pdf是否真的是pdf,请在域中集成它:从0到1集成1/(2 sqrt(Y)),实际上,它会弹出为1。此外,请注意所述函数的形状看起来像belisarious发布的内容。
至于X1+X2+…+Xn,(其中Xi ~一致[0,1]),我们可以求助于中心极限定理,它适用于存在矩的任何分布。这就是Z检验存在的原因。
用于确定生成的pdf的其他技术包括雅可比变换(这是cdf技术的广义版本)和MGF技术。
编辑:作为澄清,请注意,我所说的是结果转换的分布,而不是其随机性。这实际上是一个单独的讨论。我实际上得到的是(rand())^2。对于rand()*rand((),它要复杂得多,无论如何,这不会导致任何类型的均匀分布。
正如其他人所说,简单的简短答案是:不,它不是更随机的,但它确实改变了分布。
假设你在玩骰子游戏。你有一些完全公平的随机骰子。如果在每次掷骰子之前,你先把两个骰子放在一个碗里,摇晃它,随机选一个骰子,然后掷那一个,掷骰子会更随机吗?显然,这不会有什么不同。如果两个骰子都给出了随机数字,那么从两个骰子中随机选择一个不会有任何区别。无论哪种方式,你都会得到一个介于1和6之间的随机数,在足够数量的卷上均匀分布。
我想在现实生活中,如果你怀疑骰子可能不公平,这样的程序可能会有用。例如,如果骰子稍微不平衡,那么一个骰子往往比1/6的时间更频繁地给出1,而另一个骰子则往往异常频繁地给出6,那么在这两个骰子之间随机选择将有助于掩盖偏差。(尽管在这种情况下,1和6仍然比2、3、4和5多。嗯,我想这取决于失衡的性质。)
随机性有很多定义。随机序列的一个定义是,它是由随机过程产生的一系列数字。根据这个定义,如果我掷一个公平骰子5次,得到数字2、4、3、2、5,那就是一个随机序列。如果我再掷同样的骰子5次,得到1,1,1、1,1和1,那么这也是一个随机序列。
一些海报指出,计算机上的随机函数不是真正随机的,而是伪随机的,如果你知道算法和种子,它们是完全可预测的。这是真的,但大多数时候是完全无关的。如果我洗牌,然后一次翻一张,这应该是一个随机系列。如果有人偷看卡片,结果将是完全可预测的,但根据大多数随机性的定义,这并不会减少随机性。如果该系列通过了随机性统计测试,我偷看卡片的事实不会改变这一事实。在实践中,如果我们在赌你猜下一张牌的能力,那么你偷看这些牌的事实是非常重要的。如果我们使用该系列来模拟访问我们网站的访客的菜单选择,以测试系统的性能,那么你偷看的事实将毫无区别。(只要您不修改程序以利用这些知识。)
EDIT
我认为我无法将我对蒙蒂霍尔问题的回应变成评论,所以我会更新我的答案。
对于那些没有阅读Belisarius链接的人来说,其要点是:游戏节目参赛者可以选择3个门。在一个人的背后是有价值的奖品,在其他人的背后是毫无价值的东西。他选了1号门。在揭示它是赢家还是输家之前,主持人打开3号门,揭示它是输家。然后,他给了参赛者切换到2号门的机会。参赛者是否应该这样做?
答案是,他应该改变,这违背了许多人的直觉。他最初选择的获胜者的概率是1/3,而另一个门获胜的概率是2/3。我和许多其他人的直觉一样,最初的直觉是,切换不会有任何好处,赔率刚刚改为50:50。
毕竟,假设有人在主持人打开丢失的门后打开了电视。那个人会看到剩下的两扇紧闭的门。假设他知道游戏的性质,他会说每个门都有1/2的机会隐藏奖品。观众的赔率是1/2:1/2,而参赛者的赔率却是1/3:2/3?
我真的不得不考虑这一点,才能让我的直觉成形。要了解它,请理解,当我们讨论像这样的问题中的概率时,我们的意思是,在给定可用信息的情况下,您分配的概率。对于将奖品放在1号门后面的工作人员来说,奖品在1号门后的概率为100%,而在其他两个门后面的概率为零。
机组成员的赔率与参赛者的赔率不同,因为他知道参赛者不知道的东西,即他把奖品放在了哪个门后面。同样,竞争对手的赔率与观众的赔率不同,因为他知道观众不知道的东西,即他最初选择了哪扇门。这并不是无关紧要的,因为主人选择打开哪扇门并不是随机的。他不会打开选手选的门,也不会打开隐藏奖品的门。如果这是同一扇门,他就有两个选择。如果它们是不同的门,那么只剩下一扇门。
那么我们如何得出1/3和2/3?当参赛者最初选择一扇门时,他有1/3的机会选择获胜者。我认为这是显而易见的。这意味着有2/3的机会,其他门中的一个获胜。如果东道主给他机会在不提供任何额外信息的情况下进行切换,那就不会有任何收获。同样,这应该是显而易见的。但有一种看法是,他有2/3的机会通过换人获胜。但他有两个选择。因此,每一个人只有2/3除以2=1/3的机会成为赢家,这并不比他最初的选择更好。当然,我们已经知道最终结果,这只是以不同的方式计算。
但现在主持人透露,这两个选择中的一个不是赢家。因此,对于他没有选择的门有2/3的机会获胜,他现在知道,2个备选方案中的1个不是。另一个可能是,也可能不是。因此,他不再有2/3除以2。他打开的门为零,关闭的门为2/3。
大多数rand()实现都有一定的周期。也就是说,在大量的调用之后,序列会重复。rand()*rand(()的输出序列在一半时间内重复,因此在这个意义上它“不那么随机”。
此外,如果没有仔细的构造,对随机值执行算术往往会导致较少的随机性。上面的一张海报引用了“rand()+rand(()+rand()…”(例如,k倍),这实际上会倾向于rand(返回值范围的平均值的k倍。(这是一种随机行走,步数与平均值对称。)
具体来说,假设rand()函数返回[0,1)范围内的均匀分布随机实数。(是的,这个例子允许无限精度。这不会改变结果。)您没有选择特定的语言,不同的语言可能会做不同的事情,但以下分析适用于对rand()的任何非反常实现的修改。乘积rand()*rand(()也在[0,1)范围内,但不再均匀分布。事实上,乘积在区间[0,1/4)和区间[1/4,1)中的可能性一样大。更多的乘法将使结果进一步趋向于零。这使得结果更可预测。在广义上,更可预测的==更少的随机性。
几乎所有对均匀随机输入的操作序列都是非均匀随机的,从而提高了可预测性。小心的话,我们可以克服这一特性,但这样就可以更容易地在实际需要的范围内生成一个均匀分布的随机数,而不是在算术上浪费时间。
公认的答案很好,但有另一种方法可以回答你的问题。PachydermPuncher的答案已经采用了这种替代方法,我只是将其扩展一点。
思考信息理论最简单的方法是用最小的信息单位,一个比特。
在C标准库中,rand()返回一个0到rand_MAX范围内的整数,根据平台的不同,这个限制可能会有不同的定义。假设RAND_MAX恰好被定义为2^n-1,其中n是某个整数(这恰好是Microsoft实现中的情况,其中n为15)。然后我们可以说,一个好的实现将返回n位信息。
想象一下,rand()通过翻转硬币找到一位的值来构造随机数,然后重复直到它有一批15位。然后,这些位是独立的(任何一个位的值都不会影响同一批中其他位具有特定值的可能性)。因此,独立考虑的每个比特都像一个介于0和1之间的随机数,并且在该范围内“均匀分布”(可能是0和1)。
位的独立性确保了由一批位表示的数字也将在其范围内均匀分布。这很明显:如果有15位,允许的范围是0到2^15-1=32767。该范围内的每个数字都是唯一的位模式,例如:
010110101110010
并且如果比特是独立的,则没有模式比任何其他模式更可能发生。因此,该范围内所有可能的数字都有相同的可能性。反之亦然:如果rand()产生均匀分布的整数,那么这些数字是由独立的位组成的。
因此,将rand()看作是一条生产比特的生产线,它恰好以任意大小的批量提供比特。如果您不喜欢大小,请将批分成单独的位,然后按您喜欢的数量将它们放回一起(尽管如果您需要的特定范围不是2的幂,则需要缩小数字,目前最简单的方法是转换为浮点)。
回到你最初的建议,假设你想从15个批次到30个批次,向rand()请求第一个数字,将其移位15位,然后向其添加另一个rand(()。这是一种在不影响均匀分布的情况下组合对rand(的两个调用的方法。它的工作原理很简单,因为放置信息位的位置之间没有重叠。
这与通过乘以常数来“拉伸”rand()的范围非常不同。例如,如果你想将rand()的范围加倍,你可以乘以2,但现在你只能得到偶数,而不能得到奇数!这并不完全是一个平稳的分布,并且可能是一个严重的问题,具体取决于应用程序,例如,假设允许奇数/偶数下注的轮盘游戏。(从位的角度考虑,你可以直观地避免这个错误,因为你会意识到,乘以2等于将位向左移动一位(意义更大),然后用零填补空白。所以很明显,信息量是一样的——只是移动了一点。)
在浮点数应用程序中,数字范围中的这种差距是无法解决的,因为浮点数范围内在地具有根本无法表示的差距:在每两个可表示的浮点数之间的差距中存在无限数量的缺失实数!所以无论如何,我们必须学会与差距共处。
正如其他人所警告的那样,直觉在这一领域是有风险的,特别是因为数学家无法抵抗实数的诱惑,因为实数是一种充满了粗糙的无限和明显的悖论的可怕的令人困惑的东西。
但至少如果你从比特角度来看,你的直觉可能会让你走得更远。比特真的很容易——甚至计算机都能理解。