Skip to content

Yuki-Minakami/PHelper

Repository files navigation

PHelper

这是一个基于Node.js的爬虫项目,主要用来爬取pixiv.net-插画网站上的高分图片

运行示例

screenshot

PHelper可以做什么

  • 根据用户自定义规则来爬取满足条件的图片信息,包括链接和tag等。
  • 爬下来的图片可以做一些有趣的应用,例如机器学习和推荐系统,或者一个第三方app等等

项目结构

主要代码分布在getURL文件夹中

getURL:按照ID逐个遍历pixiv上的图片,按一定规则筛选后提取页面中的图片URL,写入持久化介质中,目前默认写入到根目录下的url.dat文件中,该文件可以被导入到mongoDB中

准备工作

redis

  • 运行该项目需要redis,请在运行之前确保redis已经启动,并且为默认端口

安装与运行

安装依赖

  • 将项目克隆到本地后,在根目录下运行npm install来安装依赖,本项目使用了shrinkpack来管理依赖,使得安装过程不需要http请求

爬取链接

  • 进入cluster目录,运行npm start
  • 这会开启一个生产者和多个消费者,由运行机器的cpu数量决定,

###持久化 默认的持久化策略是存储在根目录下的url.dat文件中,开发者也可以自行实现。

下载图片

  • 等待优化,计划仍然使用redis实现

  • 注:由于网络原因,pixiv的http request可能不流畅,因此运行前请在根目录下运行 npm test来运行测试用例

更新日志,发布计划详见[wiki](https://github.com/Yuki-Minakami/PHelper/wiki)

如果有疑问欢迎提issue

About

功能完善的pixiv爬虫(2.0版本发布)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •