PHelper

这是一个基于Node.js的爬虫项目，主要用来爬取pixiv.net-插画网站上的高分图片

运行示例

PHelper可以做什么

根据用户自定义规则来爬取满足条件的图片信息，包括链接和tag等。
爬下来的图片可以做一些有趣的应用，例如机器学习和推荐系统，或者一个第三方app等等

项目结构

主要代码分布在getURL文件夹中

getURL：按照ID逐个遍历pixiv上的图片，按一定规则筛选后提取页面中的图片URL，写入持久化介质中,目前默认写入到根目录下的url.dat文件中，该文件可以被导入到mongoDB中

准备工作

redis

运行该项目需要redis，请在运行之前确保redis已经启动，并且为默认端口

安装与运行

安装依赖

将项目克隆到本地后，在根目录下运行npm install来安装依赖，本项目使用了shrinkpack来管理依赖，使得安装过程不需要http请求

爬取链接

进入cluster目录，运行npm start
这会开启一个生产者和多个消费者，由运行机器的cpu数量决定，

###持久化默认的持久化策略是存储在根目录下的url.dat文件中，开发者也可以自行实现。

下载图片

等待优化，计划仍然使用redis实现
注：由于网络原因，pixiv的http request可能不流畅，因此运行前请在根目录下运行 npm test来运行测试用例

Name		Name	Last commit message	Last commit date
Latest commit History 88 Commits
cluster		cluster
getURL		getURL
node_shrinkwrap		node_shrinkwrap
test		test
.gitignore		.gitignore
.travis.yml		.travis.yml
Dockerfile		Dockerfile
README.md		README.md
config.js		config.js
npm-shrinkwrap.json		npm-shrinkwrap.json
package.json		package.json
screenshot.gif		screenshot.gif

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

PHelper

这是一个基于Node.js的爬虫项目，主要用来爬取pixiv.net-插画网站上的高分图片

运行示例

PHelper可以做什么

项目结构

getURL：按照ID逐个遍历pixiv上的图片，按一定规则筛选后提取页面中的图片URL，写入持久化介质中,目前默认写入到根目录下的url.dat文件中，该文件可以被导入到mongoDB中

准备工作

redis

安装与运行

安装依赖

爬取链接

下载图片

更新日志，发布计划详见[wiki](https://github.com/Yuki-Minakami/PHelper/wiki)

如果有疑问欢迎提issue

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 2

Uh oh!

Languages

Yuki-Minakami/PHelper

Folders and files

Latest commit

History

Repository files navigation

PHelper

这是一个基于Node.js的爬虫项目，主要用来爬取pixiv.net-插画网站上的高分图片

运行示例

PHelper可以做什么

项目结构

getURL：按照ID逐个遍历pixiv上的图片，按一定规则筛选后提取页面中的图片URL，写入持久化介质中,目前默认写入到根目录下的url.dat文件中，该文件可以被导入到mongoDB中

准备工作

redis

安装与运行

安装依赖

爬取链接

下载图片

更新日志，发布计划详见[wiki](https://github.com/Yuki-Minakami/PHelper/wiki)

如果有疑问欢迎提issue

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 2

Uh oh!

Languages

Packages