正则表达式
这里并不是真的要写正则表达式,而是通过RegularUtil从文本内容中抽取内容,达到正则表达式的效果
如从一段html中抽取h1标签内的内容
抽带有指定属性的标签或标签体
对于复杂的格式可能需要抽取 某几个标记之间的内容
删除html标签但保留标签体
删除标签属性但保留标签与标签体
经常用于爬虫结果处理
- 根据属性名与属性值 删除标签(只删除标签,保留标签体)
- 删除简单标签外的其他标签
- 删除所有空标签
- 删除标签及标签体
- 清除所有标签(只清除标签,不清除标签体)
- 删除 tags之外的标签 只删除标签不删除标签体
- 获取所有 包含attribute属性并且值=value 的标签与标签体
- 获取所有 包含attribute属性 的标签与标签体,不支持相同标签嵌套
- 根据属性名 删除标签(只删除标签,保留标签体)
- 删除所有 包含attribute属性=value值 的标签 连同标签体一起删除
- 删除所有 包含attribute属性 的标签连同标签体一起删除
- 从html中抽取内容片段
- 清除html源码中的标签或标签体
- html代码中抽取指定标签
- html中抽取标签时嵌套问题
- 从html源码中截取字符串
- 如何清理爬虫数据中一些不需要的 HTML 属性 只删除属性 不删除标签与标签体