通过查看网页源码, 网站编码格式为 utf-8, 可是通过 utf-8 解码提示 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte, 通过设置 ignore 参数, 成功得到了一堆乱码。 网站链接在此: http://www.bw30.com/tszt/huodong/09/wpsj/index.htm, 坐等各位大佬协助~
1
zealot0630 Oct 31, 2018
bom 了解一下
|
2
binux Oct 31, 2018
GB2312
|
3
foxyier OP @binux gb2312 和 gbk 都会报 UnicodeDecodeError: 'gb2312' codec can't decode byte 0xff in position 0: illegal multibyte sequence
|
4
ysc3839 Oct 31, 2018 via Android
估计是 UTF-8 BOM 吧?
|
5
Sylv Oct 31, 2018 via iPhone
上代码,要不然我们只能瞎猜。
|
6
fzzff Oct 31, 2018
chardet 试试
|
7
XIVN1987 Oct 31, 2018
同意楼上,百度“ UTF-8 BOM python ”试试
|