这是一个基于Node.js的爬虫项目,主要用来爬取pixiv.net-插画网站上的高分图片
- 根据用户自定义规则来爬取满足条件的图片信息,包括链接和tag等。
- 爬下来的图片可以做一些有趣的应用,例如机器学习和推荐系统,或者一个第三方app等等
主要代码分布在getURL文件夹中
- 运行该项目需要redis,请在运行之前确保redis已经启动,并且为默认端口
- 将项目克隆到本地后,在根目录下运行
npm install
来安装依赖,本项目使用了shrinkpack来管理依赖,使得安装过程不需要http请求
- 进入cluster目录,运行
npm start
- 这会开启一个生产者和多个消费者,由运行机器的cpu数量决定,
###持久化 默认的持久化策略是存储在根目录下的url.dat文件中,开发者也可以自行实现。
-
等待优化,计划仍然使用redis实现
-
注:由于网络原因,pixiv的http request可能不流畅,因此运行前请在根目录下运行
npm test
来运行测试用例