ETL 作业（第一部分）

1 数据说明

origin_data_full是原始数据集

字段名称	说明
ASIN	亚马逊标准识别码（Amazon Standard Identification Number），用于唯一标识亚马逊上的产品。
Title	电影标题，影片的名称。
Language	电影的语言，影片所使用的主要语言。
Release year	电影上映年份，影片首次公开放映的年份。
Release date	电影上映日期，影片首次公开放映的具体日期。
Rated	电影评级，如PG-13、R等，表示适合的观众年龄层。
Description	电影描述，影片的简介或剧情概述。
Actors	电影演员，参与演出的主要演员名单。
Directors	电影导演，指导影片制作的导演名单。
Genres	电影类型，影片所属的分类，如动作、喜剧、剧情等。
IMDb	IMDb评分或标识，电影在IMDb网站上的评分或唯一标识符。
edition	电影版本信息，如导演剪辑版、DVD版、蓝光版等。

final_movie_info是经过处理最终得到的数据集
- 对可能是相同的电影进行合并
- 对相同的人名进行合并
- 用最早评论时间补全上映时间
- 建立数据合并后的血缘关系
title_directors_mapping是去重后的数据血缘关系
- 包含Title、Directors、ASIN_List三个字段

Name		Name	Last commit message	Last commit date
Latest commit History 63 Commits
Data		Data
GetAndHandle		GetAndHandle
PPT		PPT
QueryServer		QueryServer
Submit		Submit
数据存储设计说明文件		数据存储设计说明文件
项目报告		项目报告
.gitignore		.gitignore
README.md		README.md