暴力的根源
积累财富而不付出劳动,
追求享乐而不关心他人,
拥有知识而没有品德,
经商而不讲道德,
研究科学而不讲人性,
膜拜神灵而不讲奉献,
搞政治而不讲原则。
——圣雄·甘地
所有实验通过pycharm跑通并基于Jupyter notebook运行
1.测试:通过感知器和支持向量机算法得到的分类器的分类准确率。
2.应用:输入鸢尾花的花瓣长度和宽度,得到分类器的预测结果。
1.1感知器实现
这里既可以手工搭建简单的神经也可以利用机器学习和深度学习等框架进行搭建
1.2.SVM(支持向量机实现)
在这个实验中
在本实验中,我们将利用已经学习过的技木,将一个语料库中的文档转换为文本特征,作为后续主题挖掘任务的基础。
实验步骤:
1.从教材工具包提供的语料库中任意选择几篇文档,阅读并概括文章的主题。
2.利用教材提供的工具包,对语料库中的所有文档进行中文分词操作、去除停止词与低频词,并记录词典的大小。
3.基于这个词典,计算出所有文档的词频向量。
4.利用教材提供的工具包,针对词典计算每个文档词频率—逆文档频率向量
在本实验中,我们将基于已有的文本特征,利用潜在语义分析技术对语料库进行主题挖掘。
实验步骤:
1.将文档的词频向量排列形成矩阵D。
2.设定主题数T=10,利用教材提供的工具包,对矩阵D进行非负矩阵分解操作,得到词频矩阵T和主题比重矩阵W。
3.根据词频矩阵T列出每个主题的高频词,并尝试解释这些主题的含义。
4.任选一两编文章,阅读并概括主题,与解出来的主题比重向量进行比较。
5.尝试使用词频-逆文档频率代替矩阵D中的词频,重复上述实验,并比较结果。
6.尝试更改主题数T,重复上述实验,比较结果并思考:主题数过多或过少会有什么问题?