文档 首页

正则表达式

发布日期:2022-01-25
最后更新:2025-07-02 22:45:20
阅读:6,621

这里并不是真的要写正则表达式,而是通过RegularUtil从文本内容中抽取内容,达到正则表达式的效果

如从一段html中抽取h1标签内的内容
抽带有指定属性的标签或标签体
对于复杂的格式可能需要抽取 某几个标记之间的内容
删除html标签但保留标签体
删除标签属性但保留标签与标签体

经常用于爬虫结果处理

正则表达式 · 2022-11-07

根据属性名与属性值 删除标签(只删除标签,保留标签体)

正则表达式 · 2022-11-07

删除简单标签外的其他标签

正则表达式 · 2022-11-07

删除所有空标签

正则表达式 · 2022-11-07

删除标签及标签体

正则表达式 · 2022-11-07

清除所有标签(只清除标签,不清除标签体)

正则表达式 · 2022-11-07

删除 tags之外的标签 只删除标签不删除标签体

正则表达式 · 2022-11-07

获取所有 包含attribute属性并且值=value 的标签与标签体

正则表达式 · 2022-11-07

获取所有 包含attribute属性 的标签与标签体,不支持相同标签嵌套

正则表达式 · 2022-11-07

根据属性名 删除标签(只删除标签,保留标签体)

正则表达式 · 2022-11-07

删除所有 包含attribute属性=value值 的标签 连同标签体一起删除

正则表达式 · 2022-11-07

删除所有 包含attribute属性 的标签连同标签体一起删除

正则表达式 · 2022-10-27

从html中抽取内容片段

正则表达式 · 2022-10-27

清除html源码中的标签或标签体

正则表达式 · 2022-01-25

html代码中抽取指定标签

正则表达式 · 2022-01-25

html中抽取标签时嵌套问题

正则表达式 · 2022-01-25

从html源码中截取字符串

正则表达式 · 2022-11-07

如何清理爬虫数据中一些不需要的 HTML 属性 只删除属性 不删除标签与标签体