Skip to content

HttpcClient+HtmlCleaner+Xpath爬取知乎某一话题下,所有精华问题最高票用户的信息及答案中的所有图片

License

Notifications You must be signed in to change notification settings

monsonlee/ZhiHuSpider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 

Repository files navigation

ZhiHuSpider

HttpcClient+HtmlCleaner+Xpath爬取知乎用户信息以及图片

某一话题下,所有精华问题最高票用户
用户信息:用户名、学校、专业、公司、行业、关注数、被关注数等等
图片:用户答案中的所有图片

src/main/java/crawler
          ----------Spider.java         爬虫入口

src/main/java/domain
          ----------Page.java           网页Page Bean
          ----------User.java           用户User Bean

src/main/java/download
          ----------DownLoad.java       下载接口
          ----------DownLoadImpl.java   下载实现类

src/main/java/process
          ----------Process.java        解析接口
          ----------ProcessImpl.java    解析实现类

src/main/java/utils
          ----------PageUtil.java       下载页面源代码的工具类
          ----------PictureUtil.java    下载图片的工具类
          ----------UserUtil.java       解析用户主页信息的工具类

src/main/resources
----------log4j.properties 日志配置

src/test/java/crawler
          ----------TestSpider.java     爬虫测试类

About

HttpcClient+HtmlCleaner+Xpath爬取知乎某一话题下,所有精华问题最高票用户的信息及答案中的所有图片

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages