Python教程

【Python 正则表达式】实操中的问题-encoding

本文主要是介绍【Python 正则表达式】实操中的问题-encoding,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

提示错误:
UnicodeEncodeError: 'gbk' codec can't encode character '\ufb01' in position 2620: illegal multibyte sequence

解决方法:
问题的原因在于Python 3里面字符串的默认编码是Unicode的

取的网页上面的内容,在代码里面是存在字符串变量里的,Windows下面新建的文本文件默认的编码是gbk(Windows简体中文版的系统默认编码就是gbk),当把从网页上读取的内容写到文本文件里面去的时候,意味着把一个unicode的字符序列写入到一个编码是gbk的文件,最后就出错了,解决方法就是在打开一个文件的时候,指定文件的编码,让它以指定的编码打开。

with open(read_file, 'r', encoding='utf-8') as file_object:
content = file_object.read()

这篇关于【Python 正则表达式】实操中的问题-encoding的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!