如果逐行读取PDF文件？

回复 · 804241020

回复 9楼AvoCaDolol的帖子

感觉像加粗的地方都是重复的，是不是PDF采用重复来实现加粗的效果

AvoCaDolol · AvoCaDolol

回复 11楼804241020的帖子

您好，原始文件的问题可能有很多种。我无法考证您的PDF来源以及做成的方式。
我通过Acrobat打开您的PDF，门诊号和45岁并没有加粗，只是字体不同。
当我切换字体为宋体后，他们显示就不是粗体了。
我推测有可能是做成这个PDF的工具在门诊这两个字上出错了，导致重复，而重复的字的位置都是一样的，这样就将所有门诊叠在一起了，看起来像加粗的。
提取PDF中文字的方法就是读取PDF源文件内容，如果源文件是重复的提取出来就是重复的。
LEADTOOLS无法判断用户需要提取什么样的内容，只能将所有文字都提取出来。
您的这个PDF使用普通的Adobe Reader打开后用鼠标框选文字进行拷贝出来的也是重复的。
解决方法有两种：
1、修改或者调整生成这个PDF的源程序，将其生成的PDF调整正确。
2、不使用源文件提取方法，而改用LEADTOOLS OCR功能进行文字识别。

以上，谢谢。

回复 · 804241020

回复 12楼AvoCaDolol的帖子

好的，明白了，谢谢

iceman · iceman

回复 13楼804241020的帖子

回复 · 804241020

回复 12楼AvoCaDolol的帖子

但我这里用另一个软件pdfbox没有重复

回复 · 804241020

回复 14楼iceman的帖子

那个逐行读取PDF内容厂家有消息么？

iceman · iceman

回复 16楼804241020的帖子

已经发送了确认邮件，目前还没有收到进一步反馈。

		自动登录	找回密码
密码			立即注册

[已处理] 如果逐行读取PDF文件？

活字格认证

Wyn高级认证

微信认证勋章

元老葡萄