找回密码
 立即注册

QQ登录

只需一步,快速开始

luolanqiang 活字格认证

高级会员

136

主题

456

帖子

1398

积分

高级会员

积分
1398

微信认证勋章活字格认证

luolanqiang 活字格认证
高级会员   /  发表于:2020-6-15 00:53  /   查看:2233  /  回复:4
1金币
关于文本查重
有什么算法可以得到两段文本的相似度?就是类似于论文查重那种,一个简单的应用场景:考试题库管理。
比如说,考试题库在使用的过程中,肯定会不断的添加和完善,如果添加人员不只一个,这时候我们可能需要为维护人员筛选出类似题库,以供维护人员判断他当前录入的题库是否与已有的高度类似或者重复,目前我只能想到笨办法来解决这个问题:

受论文查重的启示,简单算法下,我们可以将文本拆分为3~5个字符为一组,然后去获得包含这些字符的数据记录,使用条件or来查询。如果使用其他的表达式,用sql函数来获取相似度的话,那其实与VBA的代码也差不多,很显然这些方法都并不智能。
现在有几个想法:
1、使用表达式,很复杂的表达式,例如用like函数,并且使用很多的通配符,这是个办法,但很显然比较麻烦;
2、笨办法,拆字符串,这点很多人都可以做到;
3、这个是否可以条用第三方引擎库来进行人工智能比对?
4、出个查重插件?
仅作为思考,
附件: 您需要 登录 才可以下载或查看,没有帐号?立即注册

最佳答案

查看完整内容

推荐你去网上找那种就是去对应的代码库,集成一下吧 这个我真的只有这一招了~

4 个回复

倒序浏览
最佳答案
最佳答案
Simon.hu讲师达人认证 悬赏达人认证 活字格认证
超级版主   /  发表于:2020-6-15 00:53:20
来自 2#
推荐你去网上找那种就是去对应的代码库,集成一下吧

这个我真的只有这一招了~
回复 使用道具 举报
13559541953活字格认证
高级会员   /  发表于:2020-6-15 11:16:04
3#
兄台,这个问题我之前也有思考过!
回复 使用道具 举报
13559541953活字格认证
高级会员   /  发表于:2020-6-15 11:18:56
4#
我有想过用JS实现,但是不太行
回复 使用道具 举报
Simon.hu讲师达人认证 悬赏达人认证 活字格认证
超级版主   /  发表于:2020-6-15 11:30:39
5#
为啥不行呢?老铁
回复 使用道具 举报
您需要登录后才可以回帖 登录 | 立即注册
返回顶部