清除html源码中的标签或标签体

最后更新:2023-10-18 20:56:46 | 状态:未完成

通过爬虫爬取的html源码中提取内容时,如果遇到复杂的标签结构不利用抽取内容,可以先把部分标签清除

String html = "一段html源码";


清除所有标签(只清除标签,不清除标签体)

RegularUtil.removeAllTag(html)


清除所有 包含class属性 的标签与标签体

RegularUtil.removeTagAndBodyWithAttribute(html, "class")


删除所有 包含class属性=a值  的标签与标签体

RegularUtil.removeTagAndBodyWithAttributeValue(html, "class", "a")


根据属性名与属性值 删除标签(只删除标签,保留标签体)

RegularUtil.removeTagWithAttributeValue(html, "class", "a")


根据属性名 删除标签(只删除标签,保留标签体)

RegularUtil.removeTagWithAttribute(html, "class")

首页 最近更新 搜索 提交 回复