html代码中抽取指定标签
最后更新:2023-10-18 21:03:48
|
状态:未完成
//获取所有超链接(a标签) /* * 提取单标签+双标签 * 不区分大小写 * 0:全文 1:开始标签 2:标签name 3:标签体 (单标签时null) 4:结束标签 (单标签时null) * 注意标签体有可能是HTML片段,而不是纯文本 */ List<List<String>> list = RegularUtil.fetchAllTag(html,"a"); log.warn("标签数量:"+list.size()); for(List<String> item:list){ log.warn("全文:"+item.get(0)); log.warn("开始标签:"+item.get(1)); log.warn("标签名称:"+item.get(2)); log.warn("标签体:"+item.get(3)); log.warn("结束标签:"+item.get(4)); } //抽取所有 a标签和li标签 //一定注意:这里的a有可能被包含在li内部,这时的a不会再抽取 list = RegularUtil.fetchAllTag(html,"a","li");