网络爬虫

发布日期：2022-11-13

最后更新：2026-03-23 09:41:42

阅读：11,789

这里我们主要说爬取成功后的数据处理，主要针对html代码的解析，如果是json格式就不必说的。

简单的爬取用httpclient就可以，HttpUtil提供了更简单快捷的方式【参考】

在获取取html源码后，需要从源码中提取需要的数据，这里主要用到RegularUtil来处理html标签、属性、各种复杂场景下的字符截取
但并不需要写正则【参考】