将字符串转换为有效的文件名?

我有一个字符串，我想用它作为文件名，所以我想用Python删除文件名中不允许的所有字符。

我宁愿严格一点，所以假设我想只保留字母、数字和一小组其他字符，如“_-.()”。”。最优雅的解决方案是什么?

文件名需要在多个操作系统(Windows, Linux和Mac OS)上有效——它是我库中的一个MP3文件，以歌曲标题为文件名，并在3台机器之间共享和备份。

当前回答

>>> import string
>>> safechars = bytearray(('_-.()' + string.digits + string.ascii_letters).encode())
>>> allchars = bytearray(range(0x100))
>>> deletechars = bytearray(set(allchars) - set(safechars))
>>> filename = u'#ab\xa0c.$%.txt'
>>> safe_filename = filename.encode('ascii', 'ignore').translate(None, deletechars).decode()
>>> safe_filename
'abc..txt'

它不处理空字符串，特殊文件名('nul'， 'con'等)。

2008-11-17 10:15:15

其他回答

不过你得小心点。如果你只看拉丁语言，在你的介绍中没有清楚地说出来。如果您仅使用ascii字符对某些单词进行消毒，它们可能会变得毫无意义或具有其他含义。

假设你有“forêt poésie”(森林诗歌)，你的消毒可能会给“堡垒-posie”(强大+无意义的东西)

如果你必须处理汉字，那就更糟了。

“下北沢”您的系统可能最终会执行“——”，这注定会在一段时间后失败，而且没有多大帮助。因此，如果您只处理文件，我建议您将它们称为您控制的通用链，或者保持字符原样。对于uri，大致相同。

2009-03-11 10:44:46

>>> import string
>>> safechars = bytearray(('_-.()' + string.digits + string.ascii_letters).encode())
>>> allchars = bytearray(range(0x100))
>>> deletechars = bytearray(set(allchars) - set(safechars))
>>> filename = u'#ab\xa0c.$%.txt'
>>> safe_filename = filename.encode('ascii', 'ignore').translate(None, deletechars).decode()
>>> safe_filename
'abc..txt'

它不处理空字符串，特殊文件名('nul'， 'con'等)。

2008-11-17 10:15:15

当遇到同样的问题时，我使用python-slugify。

Shoham也建议使用这种方法，但正如therealmarv指出的那样，默认情况下python-slugify也会转换圆点。

可以通过在regex_pattern参数中包含点来否决这种行为。

> filename = "This is a väryì' Strange File-Nömé.jpeg"
> pattern = re.compile(r'[^-a-zA-Z0-9.]+')
> slugify(filename,regex_pattern=pattern) 
'this-is-a-varyi-strange-file-nome.jpeg'

方法复制的正则表达式模式

ALLOWED_CHARS_PATTERN_WITH_UPPERCASE

python-slugify包的slugify.py文件中的全局变量，并扩展为“。”

请记住，像.()这样的特殊字符必须用\转义。

如果您想保留大写字母，请使用小写=False参数。

> filename = "This is a väryì' Strange File-Nömé.jpeg"
> pattern = re.compile(r'[^-a-zA-Z0-9.]+')
> slugify(filename,regex_pattern=pattern, lowercase=False) 
'This-is-a-varyi-Strange-File-Nome.jpeg'

这是使用Python 3.8.4和Python -slugify 4.0.1实现的

2021-03-26 08:15:03

您可以将列表推导式与字符串方法一起使用。

>>> s
'foo-bar#baz?qux@127/\\9]'
>>> "".join(x for x in s if x.isalnum())
'foobarbazqux1279'

2008-11-17 09:12:49

这是我最终使用的解决方案:

import unicodedata

validFilenameChars = "-_.() %s%s" % (string.ascii_letters, string.digits)

def removeDisallowedFilenameChars(filename):
    cleanedFilename = unicodedata.normalize('NFKD', filename).encode('ASCII', 'ignore')
    return ''.join(c for c in cleanedFilename if c in validFilenameChars)

unicodedata。Normalize调用将重音字符替换为同等的非重音字符，这比简单地将它们剥离要好。之后，所有不允许的字符都将被删除。

我的解决方案没有预先添加一个已知字符串，以避免可能的不允许文件名，因为我知道给定特定的文件名格式，它们不会出现。这需要一个更普遍的解决方案。

2009-03-30 19:40:17

将字符串转换为有效的文件名?

推荐文章

最新文章

标签