江南大学校园网信息爬虫

简介

这是针对江南大学校园网各网站的信息采集爬虫, 爬取各类校园网站信息入江南听雨数据库, 作为江南听雨其他产品的数据源.

这个爬虫是采用 Python 语言的 Scrapy 框架开发的应用.

覆盖范围

如无说明, 都默认为只爬取相应栏目首页上的链接, 不深入抓取. 对应的爬虫名非单独说明即为相应网站的二级域名 (如 jw).

院系

江南大学数字媒体学院

党群/行政机构

江南大学教务处
江南大学新闻网的信息公告栏目
江南大学就业信息网
大学生创业网的通知公告栏目 (起点为此页面, 并非首页上相应栏目的 "更多" 链接)
江南大学研究生院
江南大学后勤信息网通知公告栏目的站内新闻, 不包括外链内容 (已由对应相关站点的爬虫负责)
江南大学信息化建设与管理中心的通知公告栏目
江南大学后勤管理处的通知公告栏目
江南大学保卫处的通知公告栏目

部署方法

TODO: 完善这一部分的细节

简略的草稿:

部署前提条件是有一个 Redis 服务器, 并且假定你已经准备好并且进入了一个 virtualenv 管理这个项目的依赖关系. pip install -r requirements.txt 就不用教了吧
首先定制 Rainfile.yml 中的数据库配置部分
然后部署爬虫附带的 Celery 服务: celery -A campuspiders.tasks worker, 这一步可以用 supervisord 之类的服务管理工具实现
设置 cronjob 按一定时间段分别触发各个爬虫的抓取任务
起 API 服务, 可以用 uWSGI 或者 gunicorn 这些东西做容器, 服务进程管理也用 supervisord 就行

授权

GPLv3+

Name		Name	Last commit message	Last commit date
Latest commit History 40 Commits
campuspiders		campuspiders
.gitignore		.gitignore
README.md		README.md
Rainfile.example.yml		Rainfile.example.yml
main.example.py		main.example.py
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg
urls.txt		urls.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

江南大学校园网信息爬虫

简介

覆盖范围

院系

党群/行政机构

部署方法

授权

About

Uh oh!

Releases

Packages

Languages

lhproject/campuspiders

Folders and files

Latest commit

History

Repository files navigation

江南大学校园网信息爬虫

简介

覆盖范围

院系

党群/行政机构

部署方法

授权

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages