HttpcClient+HtmlCleaner+Xpath爬取知乎用户信息以及图片
某一话题下,所有精华问题最高票用户
用户信息:用户名、学校、专业、公司、行业、关注数、被关注数等等
图片:用户答案中的所有图片
src/main/java/crawler
----------Spider.java 爬虫入口
src/main/java/domain
----------Page.java 网页Page Bean
----------User.java 用户User Bean
src/main/java/download
----------DownLoad.java 下载接口
----------DownLoadImpl.java 下载实现类
src/main/java/process
----------Process.java 解析接口
----------ProcessImpl.java 解析实现类
src/main/java/utils
----------PageUtil.java 下载页面源代码的工具类
----------PictureUtil.java 下载图片的工具类
----------UserUtil.java 解析用户主页信息的工具类
src/main/resources
----------log4j.properties 日志配置
src/test/java/crawler
----------TestSpider.java 爬虫测试类