Skip to content

usersx/Data-Warehouse-Tongji-2024

Repository files navigation

ETL 作业(第一部分)

1 数据说明

  1. origin_data_full是原始数据集

    • 根据给定的253,059个Product_id在 Amazon 网站爬取,并筛选出其中的电影页面
    • 获取字段如下:
    字段名称 说明
    ASIN 亚马逊标准识别码(Amazon Standard Identification Number),用于唯一标识亚马逊上的产品。
    Title 电影标题,影片的名称。
    Language 电影的语言,影片所使用的主要语言。
    Release year 电影上映年份,影片首次公开放映的年份。
    Release date 电影上映日期,影片首次公开放映的具体日期。
    Rated 电影评级,如PG-13、R等,表示适合的观众年龄层。
    Description 电影描述,影片的简介或剧情概述。
    Actors 电影演员,参与演出的主要演员名单。
    Directors 电影导演,指导影片制作的导演名单。
    Genres 电影类型,影片所属的分类,如动作、喜剧、剧情等。
    IMDb IMDb评分或标识,电影在IMDb网站上的评分或唯一标识符。
    edition 电影版本信息,如导演剪辑版、DVD版、蓝光版等。
  2. final_movie_info是经过处理最终得到的数据集

    • 对可能是相同的电影进行合并
    • 对相同的人名进行合并
    • 用最早评论时间补全上映时间
    • 建立数据合并后的血缘关系
  3. title_directors_mapping是去重后的数据血缘关系

    • 包含TitleDirectorsASIN_List三个字段

2 脚本说明

  1. run.py是爬虫脚本,用于爬取网页数据
  2. merge_movies.py用于对电影标题进行合并去重
    • 清除错误字符(引号等)
    • 去除标题中的版本信息
    • 电影去重等操作
  3. merge_names.py用于合并同一姓名的表现形式
    • 去除引号
    • 使用模糊匹配找到对应关系
    • 根据对应关系进行更改为统一形式
  4. handle_reviews.py用于处理电影评论集
    • 抽取电影ID
    • 提取电影的最早评论时间
    • 计算电影的评论数并添加到movie表
  5. addExtraTime.py 用于用最早评论时间补全上映时间

About

同济大学大三上数据仓库课程项目

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •