Java截取html

发布日期：2022-01-01

最后更新：2026-03-27 15:32:57

阅读：14,632

在截取html时经常会遇到html标签被破坏的情况，这时需要识别出截止位置是否处于某个标签内部,如果在标签内容需要定位到标签的结束位置，否则会造成页面混乱,js异常的情况

经常用于显示文章部分内容的场景，如未登录情况下只显示前三分之一

String html = "完整内容";
经常需要清空多余的标签,如删除这几个之外的标签(只删除标签不删除标签体)
html = RegularUtil.removeHtmlTagExcept(html, "br","a","b","h1");
int end = html.length()/3;
String display = HtmlUtil.cut(html,0,end)
这时如果end位置某个标签内最终结果将会识别出end位置的结束标签并输出
也就是说最终结果不一定是 三分之一有可能多有可能少

如果需要从html中抽取内容请参考RegularUtil