《文本挖掘中若干核心技术研究》PDF电子版

  • 购买点数:8
  • 作  者:朱颢东著
  • 出 版 社:北京:北京理工大学出版社
  • 出版年份:2017
  • ISBN:9787568205061
  • 标注页数:120 页
  • PDF页数:128页
  • MD5值:25e761d4a0708559a9e38600db713554
图书介绍:本书以文本数据为研究对象,对文本挖掘中的若干核心技术进行研究,主要包括文本特征选择、文本分类、文本聚类、文本关联分析,其研究内容和创新点如下:(1)文本特征选择:首先系统地分析了常用的文本特征选择方法,总结了它们的不足;然后提出了优化的文档频、文本特征辨别能力、类内集中度等概念;紧接着,在此基础上给出了三种新的文本特征选择方法:①基于综合启发式的文本特征选择方法;②基于差别对象对集的文本特征选择方法;③基于二进制可辨矩阵的文本特征选择方法。实验结果表明:在微平均F1和宏平均F1方面,这三种方法比三种经典的文本特征选择方法“互信息”和“统计量”以及“信息增益”都要好,并且前一个方法优于后两个方法。(2)文本分类:首先对文本分类所涉及的各项技术进行了阐述;然后把粗糙集用于文本分类;紧接着提出了基于辨识集的属性约简算法和基于规则综合质量的属性值约简算法,并将其应用到文本分类规则的提取中。实验结果表明,其生成的规则属性较少,分类准确率和召回率都较高。针对传统ID3算法倾向于选择取值较多的属性的缺点,首先引进属性重要性来改进ID3算法,然后又进一步根据ID3算法中信息增益的计算特点,利用凸函数的