如何在Unix命令行或shell脚本中打乱文本文件的行?

我想随机洗牌文本文件的行，并创建一个新文件。该文件可能有几千行。

我如何用cat, awk, cut等做到这一点?

当前回答

基于scai的答案的Python一行，但是a)接受stdin, b)使结果与seed可重复，c)只选出所有行的200行。

$ cat file | python -c "import random, sys; 
  random.seed(100); print ''.join(random.sample(sys.stdin.readlines(), 200))," \
  > 200lines.txt

其他回答

这是第一次尝试，对编码器来说很容易，但对CPU来说很难，它在每行前加上一个随机数，对它们进行排序，然后从每行中剥离随机数。实际上，这些行是随机排序的:

cat myfile | awk 'BEGIN{srand();}{print rand()"\t"$0}' | sort -k1 -n | cut -f2- > myfile.shuffled

我们有一整套方案来完成这项工作:

sudo apt-get install randomize-lines

例子:

创建一个有序的数字列表，并保存到1000.txt:

seq 1000 > 1000.txt

要洗牌，只需使用

rl 1000.txt

如果你安装了Scala，这里有一行代码来洗牌输入:

ls -1 | scala -e 'for (l <- util.Random.shuffle(io.Source.stdin.getLines.toList)) println(l)'

你可以使用洗牌。至少在某些系统上(似乎不在POSIX中)。

正如jleedev指出的:sort -R可能也是一个选项。至少在某些系统上;好吧，你懂的。已经指出sort -R并不真正洗牌，而是根据项的哈希值进行排序。

[编者注:sort -R几乎是洗牌，除了重复的行/排序键总是彼此挨着。换句话说:只有唯一的输入行/键才是真正的shuffle。虽然输出顺序确实是由哈希值决定的，但随机性来自于选择随机哈希函数-参见手册。

在windows下，您可以尝试此批处理文件来帮助您洗牌data.txt，批处理代码的用法是

C:\> type list.txt | shuffle.bat > maclist_temp.txt

发出这个命令后，maclist_temp.txt将包含一个随机的行列表。

希望这能有所帮助。

推荐文章