找回密码
 立即注册

QQ登录

只需一步,快速开始

804241020

最新发帖
804241020
银牌会员   /  发表于:2015-12-1 09:23:00
11#
回复 9楼AvoCaDolol的帖子

感觉像加粗的地方都是重复的,是不是PDF采用重复来实现加粗的效果
回复 使用道具 举报
AvoCaDolol活字格认证 Wyn认证
社区贡献组   /  发表于:2015-12-1 09:44:00
12#
回复 11楼804241020的帖子

您好,原始文件的问题可能有很多种。我无法考证您的PDF来源以及做成的方式。
我通过Acrobat打开您的PDF,门诊号和45岁并没有加粗,只是字体不同。
当我切换字体为宋体后,他们显示就不是粗体了。
我推测有可能是做成这个PDF的工具在门诊这两个字上出错了,导致重复,而重复的字的位置都是一样的,这样就将所有门诊叠在一起了,看起来像加粗的。
提取PDF中文字的方法就是读取PDF源文件内容,如果源文件是重复的提取出来就是重复的。
LEADTOOLS无法判断用户需要提取什么样的内容,只能将所有文字都提取出来。
您的这个PDF使用普通的Adobe Reader打开后用鼠标框选文字进行拷贝出来的也是重复的。
解决方法有两种:
1、修改或者调整生成这个PDF的源程序,将其生成的PDF调整正确。
2、不使用源文件提取方法,而改用LEADTOOLS OCR功能进行文字识别。

以上, 谢谢。
回复 使用道具 举报
804241020
银牌会员   /  发表于:2015-12-1 09:56:00
13#
回复 12楼AvoCaDolol的帖子

好的,明白了,谢谢
回复 使用道具 举报
iceman
社区贡献组   /  发表于:2015-12-1 12:31:00
14#
回复 使用道具 举报
804241020
银牌会员   /  发表于:2015-12-1 12:56:00
15#
回复 12楼AvoCaDolol的帖子

但我这里用另一个软件pdfbox没有重复
回复 使用道具 举报
804241020
银牌会员   /  发表于:2015-12-1 12:56:00
16#
回复 14楼iceman的帖子

那个逐行读取PDF内容厂家有消息么?
回复 使用道具 举报
iceman
社区贡献组   /  发表于:2015-12-1 16:26:00
17#
回复 16楼804241020的帖子

已经发送了确认邮件,目前还没有收到进一步反馈。
回复 使用道具 举报
12
您需要登录后才可以回帖 登录 | 立即注册
返回顶部