图书介绍:本书全面客观地分析了大数据时代垃圾信息的爆发态势和文本特性,并根据信息文档的多域结构特性和文本Token频率分布的幂律特性,提出了多域学习的思想,研究了一整套面向大数据的高效能垃圾文本分类方法。本书共分7章:第1章分析大数据时代垃圾信息态势;第2章概述垃圾信息过滤方法;第3章研究电子邮件文档和手机短信文档的文本特性;第4章研究多域学习总体框架;第5章提出基于Token频率索引的文本分类算法;第6章研究有监督反馈代价问题;第7章设计面向大数据的高效能垃圾文本过滤系统。本书研究的内容新颖前沿,提出的方法普适实用,设计的数据结构、算法时空高效、应用性强。本书可以作为普通高等院校、科研机构大数据计算技术相关专业高年级本科生或研究生的实验教材,也可以作为网络信息技术公司高级研究人员的参考书。