Java截取html

最后更新:2023-10-18 20:15:17 | 状态:未完成

在截取html时经常会遇到html标签被破坏的情况,这时需要识别出截止位置是否处于某个标签内部,如果在标签内容需要定位到标签的结束位置,否则会造成页面混乱,js异常的情况

经常用于显示文章部分内容的场景,如未登录情况下只显示前三分之一


String html = "完整内容";
经常需要清空多余的标签,如删除这几个之外的标签(只删除标签不删除标签体)
html = RegularUtil.removeHtmlTagExcept(html, "br","a","b","h1");
int end = html.length()/3;
String display = HtmlUtil.cut(html,0,end)
这时如果end位置某个标签内最终结果将会识别出end位置的结束标签并输出
也就是说最终结果不一定是 三分之一有可能多有可能少


如果需要从html中抽取内容请参考RegularUtil
最近更新 搜索 提交