正则表达式
如从一段html中抽取h1标签内的内容
抽带有指定属性的标签或标签体
对于复杂的格式可能需要抽取 某几个标记之间的内容
删除html标签但保留标签体
删除标签属性但保留标签与标签体
经常用于爬虫结果处理
根据属性名与属性值 删除标签(只删除标签,保留标签体)
删除简单标签外的其他标签
删除所有空标签
删除标签及标签体
清除所有标签(只清除标签,不清除标签体)
删除 tags之外的标签 只删除标签不删除标签体
获取所有 包含attribute属性并且值=value 的标签与标签体
获取所有 包含attribute属性 的标签与标签体,不支持相同标签嵌套
根据属性名 删除标签(只删除标签,保留标签体)
删除所有 包含attribute属性=value值 的标签 连同标签体一起删除
删除所有 包含attribute属性 的标签连同标签体一起删除
从html中抽取内容片段
清除html源码中的标签或标签体
html代码中抽取指定标签
html中抽取标签时嵌套问题
从html源码中截取字符串
如何清理爬虫数据中一些不需要的 HTML 属性 只删除属性 不删除标签与标签体