AnyLine

从html源码中截取字符串

2022-01-25 | ZH

放多情况下我们并不需要复杂的标签内容，只需要截取几个关键字如提取商品名称和商品价格,而这两个值有可能是根其他内容混在一块的

读取带表头表尾的excel

2022-01-29 | ZH

读取带表头表尾的excel 读取第1个sheet(下标从0开始) 表头在第0行,如果没有表头，结果集以下标作为key 数据从第1行开始到第几行结束(如果负数表示表尾有多少行不需要读取)

excel根据内容定位单元格

2022-08-08 | ZH

excel根据内容定位单元格，支持正则表达式，

关于日期类的链式操作

2022-08-10 | ZH

String ymd = DateBuilder.init().addYear(1).addDay(-1).format("yyyy-MM-dd");

清除html源码中的标签或标签体

2022-10-27 | ZH

通过爬虫爬取的html源码中提取内容时，如果遇到复杂的标签结构不利用抽取内容，可以先把部分标签清除 String html = "一段html源码"; 清除所有标签(只清除标签,不清除标签体) RegularUtil.removeAllTag(html) 清除所有包含class属性的标签与标签体 RegularUtil.removeTagAnd

从html中抽取内容片段

2022-10-27 | ZH

String html = "一段html源码"; 获取所有包含attribute属性的标签与标签体,不支持相同标签嵌套 RegularUtil.getTagAndBodyWithAttribute(html, "class") 获取所有包含attribute属性包含value值的标签与标签体 RegularUtil.getTagAn

如何清理爬虫数据中一些不需要的 HTML 属性只删除属性不删除标签与标签体

2022-11-07 | ZH

org.anyline.util.regula.RegularUtil /** * 删除所有标签的属性 * @param src html * @param attributes 属性如果不传则删除所有属性 * @return String */ public static String removeAttribute(String

删除所有包含attribute属性的标签连同标签体一起删除

2022-11-07 | ZH

删除所有包含attribute属性的标签连同标签体一起删除 RegularUtil.removeTagWithBodyByAttribute(str,"class") <

删除所有包含attribute属性=value值的标签连同标签体一起删除

2022-11-07 | ZH

删除所有包含attribute属性=value值的标签连同标签体一起删除 RegularUtil.removeTagWithBodyByAttributeValue(s,"class","a")

根据属性名与属性值删除标签(只删除标签，保留标签体)

2022-11-07 | ZH

/** * 根据属性名与属性值删除标签(只删除标签，保留标签体) * @param src xml/html * @param attribute 属性名 * @param value 属性值 * @return String */ public static String removeTagByAttributeValue(String src, String attribute, Str

如果没有搜索到相关内容,就直接到群里喊一声，很快就有人回复


QQ群(86020680)	微信群	过期或满员联系管理员