在Python中将没有BOM的UTF-8转换为带有BOM的UTF-8

只需使用“ utf-8-sig”编解码器：

fp = open("file.txt")
s = fp.read()
u = s.decode("utf-8-sig")

这样就可以得到一个unicode没有BOM的字符串。然后，您可以使用

s = u.encode("utf-8")

以在中获取普通UTF-8编码的字符串s。如果文件很大，则应避免将它们全部读入内存。BOM只是文件开头的三个字节，因此您可以使用以下代码将其从文件中删除：

import os, sys, codecs

BUFSIZE = 4096
BOMLEN = len(codecs.BOM_UTF8)

path = sys.argv[1]
with open(path, "r+b") as fp:
    chunk = fp.read(BUFSIZE)
    if chunk.startswith(codecs.BOM_UTF8):
        i = 0
        chunk = chunk[BOMLEN:]
        while chunk:
            fp.seek(i)
            fp.write(chunk)
            i += len(chunk)
            fp.seek(BOMLEN, os.SEEK_CUR)
            chunk = fp.read(BUFSIZE)
        fp.seek(-BOMLEN, os.SEEK_CUR)
        fp.truncate()

它打开文件，读取一个块，并将其比读取它的位置早3个字节写入文件。该文件被原位重写。较简单的解决方案是将较短的文件写入新文件，例如newtover的answer。那会更简单，但是在短时间内使用两倍的磁盘空间。

至于猜测编码，则可以从最具体到最不具体遍历整个编码：

def decode(s):
    for encoding in "utf-8-sig", "utf-16":
        try:
            return s.decode(encoding)
        except UnicodeDecodeError:
            continue
    return s.decode("latin-1") # will always work

UTF-16编码的文件不会解码为UTF-8，因此我们首先尝试使用UTF-8。如果失败，那么我们尝试使用UTF-16。最后，我们使用Latin-1-这将始终有效，因为所有256个字节在Latin-1中都是合法值。None在这种情况下，您可能想要返回，因为这实际上是一个后备，并且您的代码可能想要更仔细地处理（如果可以）。

python 2022/1/1 18:29:02 有360人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

如何在PHP变量中去除空格？

如何在PHP变量中去除空格？

php 2022-01-01 942
我可以在php中的SESSION数组上使用array_push吗？

我可以在php中的SESSION数组上使用array_push吗？

php 2022-01-01 939
如何使用bcrypt在PHP中对密码进行哈希处理？

如何使用bcrypt在PHP中对密码进行哈希处理？

php 2022-01-01 723
如何在PHP中使用XMLReader？

如何在PHP中使用XMLReader？

php 2022-01-01 845
PDOException“找不到驱动程序”在PHP

PDOException“找不到驱动程序”在PHP

php 2022-01-01 810
为什么在pom.xml的第1行中出现Unknown错误？

为什么在pom.xml的第1行中出现Unknown错误？

其他 2022-01-01 1003
__construct（）与SameAsClassName（）在PHP中的构造函数

__construct（）与SameAsClassName（）在PHP中的构造函数

php 2022-01-01 666
使用Retrofit2在POST请求中发送JSON

使用Retrofit2在POST请求中发送JSON

其他 2022-01-01 742
用单引号在PHP中打印换行符

用单引号在PHP中打印换行符

php 2022-01-01 678
可以嵌套在P元素内的HTML5元素列表？

可以嵌套在P元素内的HTML5元素列表？

其他 2022-01-01 697
为什么在PHP中通过标头（'Location ..'）重定向后必须调用'exit'？

为什么在PHP中通过标头（'Location ..'）重定向后必须调用'exit'？

php 2022-01-01 649
如何在PHP中发出异步GET请求？

如何在PHP中发出异步GET请求？

php 2022-01-01 661
如何在php中为其他所有函数调用自动调用函数

如何在php中为其他所有函数调用自动调用函数

php 2022-01-01 727
当软键盘出现在phonegap中时，输入字段隐藏

当软键盘出现在phonegap中时，输入字段隐藏

其他 2022-01-01 698
在PHP中连接n个数组的值

在PHP中连接n个数组的值

php 2022-01-01 681
在PHP中“ =>”是什么意思？

在PHP中“ =>”是什么意思？

php 2022-01-01 678
在PHP中写入新行到文件（换行）

在PHP中写入新行到文件（换行）

php 2022-01-01 648
文件上传可以在PHP中超时吗？

文件上传可以在PHP中超时吗？

php 2022-01-01 682
如何在Python中使用Selenium滚动到页面的末尾？

如何在Python中使用Selenium滚动到页面的末尾？

python 2022-01-01 668
在PHP中对关联数组进行排序

在PHP中对关联数组进行排序

php 2022-01-01 659

在Python中将没有BOM的UTF-8转换为带有BOM的UTF-8

撰写回答

推荐问题

如何在PHP变量中去除空格？

我可以在php中的SESSION数组上使用array_push吗？

如何使用bcrypt在PHP中对密码进行哈希处理？

如何在PHP中使用XMLReader？

PDOException“找不到驱动程序”在PHP

为什么在pom.xml的第1行中出现Unknown错误？

__construct（）与SameAsClassName（）在PHP中的构造函数

使用Retrofit2在POST请求中发送JSON

用单引号在PHP中打印换行符

可以嵌套在P元素内的HTML5元素列表？

为什么在PHP中通过标头（'Location ..'）重定向后必须调用'exit'？

如何在PHP中发出异步GET请求？

如何在php中为其他所有函数调用自动调用函数

当软键盘出现在phonegap中时，输入字段隐藏

在PHP中连接n个数组的值

在PHP中“ =>”是什么意思？

在PHP中写入新行到文件（换行）

文件上传可以在PHP中超时吗？

如何在Python中使用Selenium滚动到页面的末尾？

在PHP中对关联数组进行排序

分类汇总

您的鼓励是对我最大的支持