在shell脚本中从文件中读取随机行有什么简单的方法?
当前回答
一个解决方案,也适用于MacOSX,应该也适用于Linux(?):
N=5
awk 'NR==FNR {lineN[$1]; next}(FNR in lineN)' <(jot -r $N 1 $(wc -l < $file)) $file
地点:
N是你想要的随机行数 NR = = FNR{亚麻(1美元);next}(亚麻中的FNR) file1 file2 ——>保存file1中写入的行号,然后打印file2中相应的行 jot -r $N 1 $(wc -l < $file)——>在(1,number_of_line_in_file)范围内随机抽取N个数字(-r)。进程替换<()将使它看起来像解释器的文件,即前面示例中的file1。
其他回答
以下是我的发现,因为我的Mac OS不使用所有简单的答案。我使用jot命令来生成一个数字,因为$RANDOM变量解决方案在我的测试中似乎不是很随机。当测试我的解决方案时,我在输出中提供的解决方案中有很大的差异。
RANDOM1=`jot -r 1 1 235886`
#range of jot ( 1 235886 ) found from earlier wc -w /usr/share/dict/web2
echo $RANDOM1
head -n $RANDOM1 /usr/share/dict/web2 | tail -n 1
变量的回声是为了得到生成的随机数的视觉效果。
另一种使用awk的方法
awk NR==$((${RANDOM} % `wc -l < file.name` + 1)) file.name
只使用普通sed和awk,不使用$RANDOM,一个简单、节省空间和合理快速的“一行程序”可以从文件名FILENAME中伪随机地选择一行,如下所示:
sed -n $(awk 'END {srand(); r=rand()*NR; if (r<NR) {sub(/\..*/,"",r); r++;}; print r}' FILENAME)p FILENAME
(即使FILENAME为空也能工作,在这种情况下不会触发任何行。)
这种方法的一个可能的优点是它只调用rand()一次。
正如@AdamKatz在评论中指出的,另一种可能是为每一行调用rand():
awk 'rand() * NR < 1 { line = $0 } END { print line }' FILENAME
(基于归纳法可以给出简单的正确性证明。)
关于rand的警告()
在大多数awk实现中,包括gawk, rand()每次运行awk时都从相同的起始数字或种子开始生成数字。
——https://www.gnu.org/software/gawk/manual/html_node/Numeric-Functions.html
#!/bin/bash
IFS=$'\n' wordsArray=($(<$1))
numWords=${#wordsArray[@]}
sizeOfNumWords=${#numWords}
while [ True ]
do
for ((i=0; i<$sizeOfNumWords; i++))
do
let ranNumArray[$i]=$(( ( $RANDOM % 10 ) + 1 ))-1
ranNumStr="$ranNumStr${ranNumArray[$i]}"
done
if [ $ranNumStr -le $numWords ]
then
break
fi
ranNumStr=""
done
noLeadZeroStr=$((10#$ranNumStr))
echo ${wordsArray[$noLeadZeroStr]}
perlfaq5:我如何从文件中选择一个随机的行?下面是Camel Book上的一个油藏采样算法:
perl -e 'srand; rand($.) < 1 && ($line = $_) while <>; print $line;' file
与读取整个文件相比,这在空间上有很大的优势。你可以在Donald E. Knuth的《计算机编程艺术》第2卷第3.4.2节中找到这种方法的证明。
推荐文章
- 如何在Ruby中生成a和b之间的随机数?
- 查看PS命令的全部输出
- 确保一次只运行一个shell脚本实例的快速方法
- java.util.Random真的那么随机吗?我怎么能生成52!(阶乘)可能的序列?
- 从数组中随机选择一个元素
- 如何在Makefile中设置子进程的环境变量
- 如何让“wc -l”打印没有文件名的行数?
- 有效地测试Linux上的端口是否打开?
- 如何从另一个文件A中删除文件B中出现的行?
- Shell脚本删除超过n天的目录
- 如何检查shell脚本中是否存在命令?
- 如何使用查找命令从列表中查找所有具有扩展名的文件?
- 如何打破一个循环在Bash?
- 如何合并2 JSON对象从2个文件使用jq?
- 使用该集合的原因。种子功能