基于Simhash算法的文本查重系统的设计与实现 - 工业技术 - 发表网

基于Simhash算法的文本查重系统的设计与实现

本文刊于: 《湖南科技学院学报》 2021年第05期

关键词:
Simhash算法 文本相似度 余弦相似度 文本查重 Flask框架

全文下载:需积分3点
摘要
     为解决文本数据的个性化查重问题,提出基于Simhash算法的文本查重的方法,设计并实现了系统原型。首先,阐述了文本相似度模型和计算算法;其次,根据需求规划设计了系统整体实现架构并详细描述其设计过程;再次,描述了查重算法和查重功能模块实现的详细流程;最后,对系统原型进行功能测试和算法相似度计算准确性测试。实验证明:在小规模文本文档样本中,系统能较好的实现文本相似度的计算和特征库的个性化定制,可集成并适用于小规模企业办公系统等平台的文本相似性查重环境。


本文地址:www.fabiao.net/content-24-1198926-1.html

上一篇:工程教育认证背景下数据结构课程教学实践
下一篇:基于农业物联网的数据库集群系统优化设计

收藏
评论排行
公告 
相关期刊文献推荐