本repo是2020年复旦大学机器学习理论课程的pj,需要根据红外传感器测得的布匹特征,分析布匹成分,细化有2个任务(分类和回归),最后需要使用华为云ModelArts。
数据位于data目录,分为训练集train.json和测试集test.json两个文件,训练集中总共有140个布匹数据,测试集中共有50个布匹数据。每个布匹数据包括以下属性:
name
(字符串):表示该布匹是纯棉材质cotton
还是混合材质cotton_spandex
。训练集中,两种布匹各70个;测试集中,两种布匹各25个。label
(字符串):对于混合材质的布匹cotton_spandex
,该属性表示该布匹中混合物质的含量。对于纯棉材质的布匹,该属性无意义。该属性使用时应转换为浮点数使用。feat
(3维字符串数组):是一个大小为(n, 228, 4)的字符串数组,其中n至少为20。表示对每个布匹,共有n个采样点,每个采样点是一个大小为(228, 4)的布匹特征数组。对于每个采样点布匹特征数组,[i, 0]表示第i行对应的波长;[i, 1]、[i, 2]、[i, 3]分别表示在第i行对应的波长下,布匹的3类特征值。由于[:, 0]是红外线波长信息,使用时可以忽略(数组下标从0开始,[:, 0]表示数组第一列)。该属性使用时应转换为浮点数数组。
根据相关规定,原始数据不能扩散,所以这里的数据是原始数据增加高斯噪声以后的结果,并非原始数据。所有Notebook中的运行结果都是在原始数据上得到的,一般来说,在增加噪声后的数据上是不可能复现的。
- 分类任务:根据布匹特征
feat
,预测布匹是纯棉材质cotton
还是混合材质cotton_spandex
,也就是预测name
。 - 回归任务:对于混合材质的布匹
cotton_spandex
,根据布匹特征feat
,预测其中混合物质的含量,也就是预测name
为cotton_spandex
的布匹的label
。
本repo提供的解答位于solutions。