清除html源码中的标签或标签体
最后更新:2023-10-18 20:56:46
|
状态:未完成
通过爬虫爬取的html源码中提取内容时,如果遇到复杂的标签结构不利用抽取内容,可以先把部分标签清除
String html = "一段html源码";
清除所有标签(只清除标签,不清除标签体)
RegularUtil.removeAllTag(html)
清除所有 包含class属性 的标签与标签体
RegularUtil.removeTagAndBodyWithAttribute(html, "class")
删除所有 包含class属性=a值 的标签与标签体
RegularUtil.removeTagAndBodyWithAttributeValue(html, "class", "a")
根据属性名与属性值 删除标签(只删除标签,保留标签体)
RegularUtil.removeTagWithAttributeValue(html, "class", "a")
根据属性名 删除标签(只删除标签,保留标签体)
RegularUtil.removeTagWithAttribute(html, "class")