如何清理爬虫数据中一些不需要的 HTML 属性 只删除属性 不删除标签与标签体

最后更新:2023-10-18 20:56:28 | 状态:未完成

org.anyline.util.regula.RegularUtil
/**
 * 删除所有标签的属性 只删除属性 不删除标签与标签体
 * @param src html
 * @param attributes 属性 如果不传则删除所有属性
 * @return String
 */
public static String removeAttribute(String src, String ... attributes)


RegularUtil.removeAttribute("<div class='title'>主页</div>");
返回:
<div>主页</div>



首页 最近更新 搜索 提交 回复