将字符串转换为有效的文件名?

我有一个字符串，我想用它作为文件名，所以我想用Python删除文件名中不允许的所有字符。

我宁愿严格一点，所以假设我想只保留字母、数字和一小组其他字符，如“_-.()”。”。最优雅的解决方案是什么?

文件名需要在多个操作系统(Windows, Linux和Mac OS)上有效——它是我库中的一个MP3文件，以歌曲标题为文件名，并在3台机器之间共享和备份。

当前回答

为python 3.6修改的答案

import string
import unicodedata

validFilenameChars = "-_.() %s%s" % (string.ascii_letters, string.digits)
def removeDisallowedFilenameChars(filename):
    cleanedFilename = unicodedata.normalize('NFKD', filename).encode('ASCII', 'ignore')
    return ''.join(chr(c) for c in cleanedFilename if chr(c) in validFilenameChars)

2019-04-22 04:48:57

其他回答

不过你得小心点。如果你只看拉丁语言，在你的介绍中没有清楚地说出来。如果您仅使用ascii字符对某些单词进行消毒，它们可能会变得毫无意义或具有其他含义。

假设你有“forêt poésie”(森林诗歌)，你的消毒可能会给“堡垒-posie”(强大+无意义的东西)

如果你必须处理汉字，那就更糟了。

“下北沢”您的系统可能最终会执行“——”，这注定会在一段时间后失败，而且没有多大帮助。因此，如果您只处理文件，我建议您将它们称为您控制的通用链，或者保持字符原样。对于uri，大致相同。

2009-03-11 10:44:46

更新

在这个6年的答案中，所有的链接都无法修复。

同样，我也不会再这样做了，只是base64编码或删除不安全的字符。Python 3示例:

import re
t = re.compile("[a-zA-Z0-9.,_-]")
unsafe = "abc∂éåß®∆˚˙©¬ñ√ƒµ©∆∫ø"
safe = [ch for ch in unsafe if t.match(ch)]
# => 'abc'

使用base64可以进行编码和解码，因此可以再次检索原始文件名。

但是根据用例，最好生成一个随机文件名并将元数据存储在单独的文件或DB中。

from random import choice
from string import ascii_lowercase, ascii_uppercase, digits
allowed_chr = ascii_lowercase + ascii_uppercase + digits

safe = ''.join([choice(allowed_chr) for _ in range(16)])
# => 'CYQ4JDKE9JfcRzAZ'

原文链接:

bobcat项目包含了一个python模块来完成这个任务。

它不是完全健壮的，看看这篇文章和这个回复。

因此，如前所述:如果可读性不重要，base64编码可能是一个更好的主意。

文档https://svn.origo.ethz.ch/bobcat/src-doc/safefilename-module.html 源https://svn.origo.ethz.ch/bobcat/trunk/src/bobcatlib/safefilename.py

2009-07-10 10:19:11

为什么不直接用try/except来包装“osopen”，让底层操作系统来判断文件是否有效?

这看起来工作量少得多，而且无论您使用哪种操作系统都是有效的。

2008-11-17 11:24:49

更复杂的是，仅仅删除无效字符并不能保证获得有效的文件名。由于允许的字符在不同的文件名上不同，保守的方法可能最终会将一个有效的名称变成一个无效的名称。你可能想在以下情况下添加特殊处理:

字符串都是无效字符(留下一个空字符串) 你最终会得到一个具有特殊含义的字符串，例如"."或".." 在windows中，某些设备名称是保留的。例如，你不能创建一个名为“nul”，“null .txt”(或nul.txt)的文件。)保留的名字是: CON, PRN, AUX, NUL, COM1, COM2, COM3, COM4, COM5, COM6, COM7, COM8, COM9, LPT1, LPT2, LPT3, LPT4, LPT5, LPT6, LPT7, LPT8, LPT9

您可能可以通过在文件名前添加一些字符串来解决这些问题，这些字符串永远不会导致这些情况之一，并剥离无效字符。

2008-11-17 09:57:40

您可以将列表推导式与字符串方法一起使用。

>>> s
'foo-bar#baz?qux@127/\\9]'
>>> "".join(x for x in s if x.isalnum())
'foobarbazqux1279'

2008-11-17 09:12:49

将字符串转换为有效的文件名?

推荐文章

最新文章

标签