您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

不要自动放置html,head和body标签,Beautifulsoup

不要自动放置html,head和body标签,Beautifulsoup

In [35]: import bs4 as bs

In [36]: bs.BeautifulSoup('<h1>FOO</h1>', "html.parser")
Out[36]: <h1>FOO</h1>

将使用Python的内置HTML解析器解析HTML。引用文档:

与html5lib不同,此解析器不尝试通过添加<body>标签来创建格式正确的HTML文档。与lxml不同,它甚至不必费心添加<html>标签

另外,您可以使用html5lib解析器,然后选择以下元素<body>

In [61]: soup = bs.BeautifulSoup('<h1>FOO</h1>', 'html5lib')

In [62]: soup.body.next
Out[62]: <h1>FOO</h1>
其他 2022/1/1 18:26:14 有451人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶