-
origin_data_full
是原始数据集- 根据给定的253,059个
Product_id
在 Amazon 网站爬取,并筛选出其中的电影页面 - 获取字段如下:
字段名称 说明 ASIN 亚马逊标准识别码(Amazon Standard Identification Number),用于唯一标识亚马逊上的产品。 Title 电影标题,影片的名称。 Language 电影的语言,影片所使用的主要语言。 Release year 电影上映年份,影片首次公开放映的年份。 Release date 电影上映日期,影片首次公开放映的具体日期。 Rated 电影评级,如PG-13、R等,表示适合的观众年龄层。 Description 电影描述,影片的简介或剧情概述。 Actors 电影演员,参与演出的主要演员名单。 Directors 电影导演,指导影片制作的导演名单。 Genres 电影类型,影片所属的分类,如动作、喜剧、剧情等。 IMDb IMDb评分或标识,电影在IMDb网站上的评分或唯一标识符。 edition 电影版本信息,如导演剪辑版、DVD版、蓝光版等。 - 根据给定的253,059个
-
final_movie_info
是经过处理最终得到的数据集- 对可能是相同的电影进行合并
- 对相同的人名进行合并
- 用最早评论时间补全上映时间
- 建立数据合并后的血缘关系
-
title_directors_mapping
是去重后的数据血缘关系- 包含
Title
、Directors
、ASIN_List
三个字段
- 包含
run.py
是爬虫脚本,用于爬取网页数据merge_movies.py
用于对电影标题进行合并去重- 清除错误字符(引号等)
- 去除标题中的版本信息
- 电影去重等操作
merge_names.py
用于合并同一姓名的表现形式- 去除引号
- 使用模糊匹配找到对应关系
- 根据对应关系进行更改为统一形式
handle_reviews.py
用于处理电影评论集- 抽取电影ID
- 提取电影的最早评论时间
- 计算电影的评论数并添加到movie表
addExtraTime.py
用于用最早评论时间补全上映时间