我最近迁移到了Python3.5。此代码在Python 2.7中正常工作:

with open(fname, 'rb') as f:
    lines = [x.strip() for x in f.readlines()]

for line in lines:
    tmp = line.strip().lower()
    if 'some-pattern' in tmp: continue
    # ... code

但是在3.5中,在tmp:contain行中的if“some pattern”上,我得到一个错误,该错误表示:

TypeError: a bytes-like object is required, not 'str'

我无法在in的任一侧使用.dedecode()解决问题,也无法使用

    if tmp.find('some-pattern') != -1: continue

有什么问题,我该如何解决?


当前回答

您以二进制模式打开了文件:

以下代码将抛出a TypeError:需要类似字节的对象,而不是“str”。

for line in lines:
    print(type(line))# <class 'bytes'>
    if 'substring' in line:
       print('success')

以下代码将起作用-您必须使用decode()函数:

for line in lines:
    line = line.decode()
    print(type(line))# <class 'str'>
    if 'substring' in line:
       print('success')

其他回答

正如前面已经提到的,您正在以二进制模式读取文件,然后创建一个字节列表。在下面的for循环中,您将字符串与字节进行比较,这就是代码失败的地方。

在添加到列表中时解码字节应该可以工作。更改后的代码应如下所示:

with open(fname, 'rb') as f:
    lines = [x.decode('utf8').strip() for x in f.readlines()]

字节类型是在Python 3中引入的,这就是为什么您的代码在Python 2中工作。在Python 2中,字节没有数据类型:

>>> s=bytes('hello')
>>> type(s)
<type 'str'>

您以二进制模式打开了文件:

以下代码将抛出a TypeError:需要类似字节的对象,而不是“str”。

for line in lines:
    print(type(line))# <class 'bytes'>
    if 'substring' in line:
       print('success')

以下代码将起作用-您必须使用decode()函数:

for line in lines:
    line = line.decode()
    print(type(line))# <class 'str'>
    if 'substring' in line:
       print('success')

对于这个小示例,在'获取http://www.py4inf.com/code/romeo.txtHTTP/1.0\n \n'解决了我的问题:

import socket

mysock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
mysock.connect(('www.py4inf.com', 80))
mysock.send(b'GET http://www.py4inf.com/code/romeo.txt HTTP/1.0\n\n')

while True:
    data = mysock.recv(512)
    if (len(data) < 1):
        break
    print (data);

mysock.close()

“b”字符在字符串文本前面做什么?

可以使用.encode()对字符串进行编码

例子:

'Hello World'.encode()

正如错误描述的那样,为了将字符串写入文件,需要首先将其编码为类似字节的对象,encodes()将其编码成字节字符串。

当我试图将一个字符(或字符串)转换为字节时,出现了这个错误,Python 2.7的代码如下:

# -*- coding: utf-8 -*-
print(bytes('ò'))

这是Python 2.7处理Unicode字符时的方式。

这在Python 3.6中不起作用,因为字节需要额外的参数进行编码,但这可能有点棘手,因为不同的编码可能会输出不同的结果:

print(bytes('ò', 'iso_8859_1')) # prints: b'\xf2'
print(bytes('ò', 'utf-8')) # prints: b'\xc3\xb2'

在我的例子中,为了解决这个问题,我必须在编码字节时使用iso_8859_1。