我试图在TextMate中输入一些UTF-8字符到LaTeX文件(它说它的默认编码是UTF-8),但LaTeX似乎不理解它们。

运行cat my_file.tex可以在Terminal中正确显示字符。运行ls -al会显示一些我以前从未见过的东西:文件列表旁边的“@”:

-rw-r--r--@  1 me      users      2021 Feb 11 18:05 my_file.tex

(并且,是的,我在LaTeX中使用\usepackage[utf8]{inputenc}。)

我找到了iconv,但这似乎不能告诉我编码是什么-它只会转换一旦我弄清楚。


当前回答

vim -c 'execute "silent !echo " . &fileencoding | q' {filename}

在我的bash配置中的某个地方别名为

alias vic="vim -c 'execute \"silent \!echo \" . &fileencoding | q'"

所以我就输入

vic {filename}

在我的香草OSX Yosemite上,它产生的结果比“file -I”更精确:

$ file -I pdfs/udocument0.pdf
pdfs/udocument0.pdf: application/pdf; charset=binary
$ vic pdfs/udocument0.pdf
latin1
$
$ file -I pdfs/t0.pdf
pdfs/t0.pdf: application/pdf; charset=us-ascii
$ vic pdfs/t0.pdf
utf-8

其他回答

你也可以使用下面的命令从一个文件类型转换到另一个文件类型:

iconv -f original_charset -t new_charset originalfile > newfile

如。

iconv -f utf-16le -t utf-8 file1.txt > file2.txt

使用file命令和——mime-encoding选项(例如file——mime-encoding some_file.txt)而不是-I选项在OS X上工作,并且有一个额外的好处是省略mime类型“text/plain”,你可能不关心这个。

vim -c 'execute "silent !echo " . &fileencoding | q' {filename}

在我的bash配置中的某个地方别名为

alias vic="vim -c 'execute \"silent \!echo \" . &fileencoding | q'"

所以我就输入

vic {filename}

在我的香草OSX Yosemite上,它产生的结果比“file -I”更精确:

$ file -I pdfs/udocument0.pdf
pdfs/udocument0.pdf: application/pdf; charset=binary
$ vic pdfs/udocument0.pdf
latin1
$
$ file -I pdfs/t0.pdf
pdfs/t0.pdf: application/pdf; charset=us-ascii
$ vic pdfs/t0.pdf
utf-8

@表示该文件具有与之相关的扩展文件属性。您可以使用getxattr()函数查询它们。

没有确定的方法来检测文件的编码。阅读这个答案,它解释了为什么。

有一个命令行工具enca,它尝试猜测编码。你可能会想去看看。

Synalyze它!允许比较ICU库提供的所有编码中的文本或字节。使用该功能,您通常会立即看到哪个代码页对您的数据有意义。