Java两篇文章的相似度比较
作者: / 发布于2019/10/9/ 1200
实现原理: 1. 对两篇文档进行词频统计; 2. 利用“TF-IDF和余弦相似度”原理,计算两篇文档的相似度。 实现过程: 1.利用lucene对大量文章建立索引,创建语料库,来提高TF-IDF的准确度。 2. 通过余弦公式计算出两篇文章的相似度。
Copyright © 2004 - 2024 dezai.cn. All Rights Reserved 站长博客 粤ICP备13059550号-3