-
从html源码中截取字符串
放多情况下我们并不需要复杂的标签内容,只需要截取几个关键字 如提取商品名称和商品价格,而这两个值有可能是根其他内容混在一块的 -
读取带表头表尾的excel
读取带表头表尾的excel 读取第1个sheet(下标从0开始) 表头在第0行,如果没有表头,结果集以下标作为key 数据从第1行开始 到第几行结束(如果负数表示 表尾有多少行不需要读取) -
excel根据内容定位单元格
excel根据内容定位单元格,支持正则表达式, -
关于日期类的链式操作
String ymd = DateBuilder.init().addYear(1).addDay(-1).format("yyyy-MM-dd"); -
清除html源码中的标签或标签体
通过爬虫爬取的html源码中提取内容时,如果遇到复杂的标签结构不利用抽取内容,可以先把部分标签清除 String html = "一段html源码"; 清除所有标签(只清除标签,不清除标签体) RegularUtil.removeAllTag(html) 清除所有 包含class属性 的标签与标签体 RegularUtil.removeTagAnd -
从html中抽取内容片段
String html = "一段html源码"; 获取所有 包含attribute属性 的标签与标签体,不支持相同标签嵌套 RegularUtil.getTagAndBodyWithAttribute(html, "class") 获取所有 包含attribute属性包含value值 的标签与标签体 RegularUtil.getTagAn -
如何清理爬虫数据中一些不需要的 HTML 属性 只删除属性 不删除标签与标签体
org.anyline.util.regula.RegularUtil /** * 删除所有标签的属性 * @param src html * @param attributes 属性 如果不传则删除所有属性 * @return String */ public static String removeAttribute(String -
删除所有 包含attribute属性 的标签连同标签体一起删除
删除所有 包含attribute属性 的标签连同标签体一起删除 RegularUtil.removeTagWithBodyByAttribute(str,"class") < -
删除所有 包含attribute属性=value值 的标签 连同标签体一起删除
删除所有 包含attribute属性=value值 的标签 连同标签体一起删除 RegularUtil.removeTagWithBodyByAttributeValue(s,"class","a")根据属性名与属性值 删除标签(只删除标签,保留标签体)
/** * 根据属性名与属性值 删除标签(只删除标签,保留标签体) * @param src xml/html * @param attribute 属性名 * @param value 属性值 * @return String */ public static String removeTagByAttributeValue(String src, String attribute, Str- 如果没有搜索到相关内容,就直接到群里喊一声,很快就有人回复
QQ群(86020680) 微信群 过期或满员联系管理员