您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

sed从html文件中删除标签

sed从html文件中删除标签

您可以使用许多HTML到文本转换器之一,可以使用Perl regex,<.+?>或者必须sed使用<[^>]*>

sed -e 's/<[^>]*>//g' file.html

如果没有错误的余地,请改用HTML解析器。例如,当元素分布在两行上时

<div
>Lorem ipsum</div>

此正则表达式将不起作用。

这正则表达式由三个部分组成<[^>]*>

后面跟着零个或多个字符*(不是结尾)>[...]字符类,当它开始^查找不在 类中的字符时

最后寻找关闭 >

更简单的正则表达式<.*>将不起作用,因为它会搜索可能的最长匹配项,即>输入行中的最后一个结束符。例如,当输入行中有多个标签

<name>Olaf</name> answers questions.

将导致

回答问题。

代替

奥拉夫回答问题。

另请参阅与Star和Plus重复,特别是当心贪婪!接下来,进行详细说明。

其他 2022/1/1 18:15:03 有588人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶