Skip to content

前程无忧、智联招聘等招聘信息的抓取与分析,采用Scrapy-Redis+Django+MySQL+Celery+HTML5+JavaScript+Echart等技术。

Notifications You must be signed in to change notification settings

cnbillow/RecruitInfoCrawlAndDisplay

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 

Repository files navigation

基于Web爬虫的IT行业需求信息分析系统


临近毕业,找工作不易,所以对行业内的招聘信息做了个简单的分析,主要面向学历、城市、工作要求关键字等进行数据分析,并将其结果展示在Web端。该项目主要采用Python27、Django、Scrapy、Redis、Celery、Mysql、jieba分词、echarts、Bootstrap、jQuery等,其中Redis、Celery主要将Scrapy框架和Django框架结合,起到每隔一段时间更新相关分析图。

环境依赖

  • Python环境: Django1.8以上+Beatuifulsoup4(4.5.1)+Celery(3.1.25)+Django-celery(3.1.17)+lxml+MysqlDB+redis(2.10.5)+Scrapy(1.2.0)+scrapy-redis(0.6.3)+Unipath(1.1)+Twisted(16.6.0)
  • 数据库环境:MySQL5以上、Redis 3以上
  • 操作系统: Windows XP以上

数据来源

信息格式

网址工作工作类别平均月薪公司名称工作地点工作经验学历学位职业描述

项目架构图

部署方式

1. 安装所需要的库

  • bs4
  • scrapy
  • redis
  • scrapy-redis
  • pywin32
  • jieba
  • MySQLdb
  • django
  • celery(3.1.25)[ windows不支持4]
  • unipath
  • django-celery

2. 启动相关服务

Redis服务 MySQL服务

3. 配置相关环境

  • 配置数据库环境
  • 配置爬虫定时执行时间
  • 压入初始URL到Redis中(JobCrawl/lpush.py)

4. 启动程序

  • 启动定时任务
    • celery -A JobEvaluating worker --loglevel=INFO
    • celery -A JobEvaluating beat -s celerybeat-schedule
  • 同步数据库
    • python manage.py makemigrations
    • python manage.py migrate
  • 启动Django(python manage.py runserver)

About

前程无忧、智联招聘等招聘信息的抓取与分析,采用Scrapy-Redis+Django+MySQL+Celery+HTML5+JavaScript+Echart等技术。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published