说明:k均值聚类是最著名的划分聚类算法,由于简洁和效率使得他成为所有聚类算法中最广泛使用的。给定一个数据点集合和需要的聚类数目k,k由用户指定,k均值算法根据某个距离函数反复把数据分入k个聚类中。 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举...
说明:由于传统的文本特征提取是基于建停用词表(库)进行文本的特征选择,该方式在文本 篇幅和数量巨大的情况下,其建立的停用词表将非常庞大,文本特征词的提取效率非常 低下,本算法采用基于词性的文本特征提取,由于中文词性数量有限,因此文本特征提 取效率很高,便于后期的文本聚类或分类。本算法分词依赖中...