找回密码
 立即注册

QQ登录

只需一步,快速开始

804241020

银牌会员

2

主题

15

帖子

3240

积分

银牌会员

积分
3240
最新发帖
804241020
银牌会员   /  发表于:2015-11-25 17:29  /   查看:11719  /  回复:16
在LeadTools.pdf.dll提供了PDFFile和PDFDocument读取PDF文件,这里想逐行读取PDF文件内容,但在PDFFile和PDFDocument类中未找到相关的方法,有没有其他方法呢

16 个回复

正序浏览
iceman
社区贡献组   /  发表于:2015-12-1 16:26:00
17#
回复 16楼804241020的帖子

已经发送了确认邮件,目前还没有收到进一步反馈。
回复 使用道具 举报
804241020
银牌会员   /  发表于:2015-12-1 12:56:00
16#
回复 14楼iceman的帖子

那个逐行读取PDF内容厂家有消息么?
回复 使用道具 举报
804241020
银牌会员   /  发表于:2015-12-1 12:56:00
15#
回复 12楼AvoCaDolol的帖子

但我这里用另一个软件pdfbox没有重复
回复 使用道具 举报
iceman
社区贡献组   /  发表于:2015-12-1 12:31:00
14#
回复 使用道具 举报
804241020
银牌会员   /  发表于:2015-12-1 09:56:00
13#
回复 12楼AvoCaDolol的帖子

好的,明白了,谢谢
回复 使用道具 举报
AvoCaDolol活字格认证 Wyn认证
社区贡献组   /  发表于:2015-12-1 09:44:00
12#
回复 11楼804241020的帖子

您好,原始文件的问题可能有很多种。我无法考证您的PDF来源以及做成的方式。
我通过Acrobat打开您的PDF,门诊号和45岁并没有加粗,只是字体不同。
当我切换字体为宋体后,他们显示就不是粗体了。
我推测有可能是做成这个PDF的工具在门诊这两个字上出错了,导致重复,而重复的字的位置都是一样的,这样就将所有门诊叠在一起了,看起来像加粗的。
提取PDF中文字的方法就是读取PDF源文件内容,如果源文件是重复的提取出来就是重复的。
LEADTOOLS无法判断用户需要提取什么样的内容,只能将所有文字都提取出来。
您的这个PDF使用普通的Adobe Reader打开后用鼠标框选文字进行拷贝出来的也是重复的。
解决方法有两种:
1、修改或者调整生成这个PDF的源程序,将其生成的PDF调整正确。
2、不使用源文件提取方法,而改用LEADTOOLS OCR功能进行文字识别。

以上, 谢谢。
回复 使用道具 举报
804241020
银牌会员   /  发表于:2015-12-1 09:23:00
11#
回复 9楼AvoCaDolol的帖子

感觉像加粗的地方都是重复的,是不是PDF采用重复来实现加粗的效果
回复 使用道具 举报
804241020
银牌会员   /  发表于:2015-12-1 09:11:00
10#
回复 9楼AvoCaDolol的帖子

那我们看到的并不是重复的内容,LeadTool有没有什么方法不提取这种重复的内容
回复 使用道具 举报
AvoCaDolol活字格认证 Wyn认证
社区贡献组   /  发表于:2015-11-30 16:10:00
9#
回复 8楼804241020的帖子

您好,您的问题我已经再现,但是我通过Adobe Acrobat Pro打开您的原始PDF发现您的这个门诊号和年龄本身就是重复的。
门门门门诊诊诊诊号:P900105364-0
44445555岁 申请科室:
如下图:


我使用的是Adobe专门编辑PDF的工具打开的,看到的是PDF的源文件内容,发现里面内容是重复的。
我将您的PDF在Acrobat中做了修改,现在里面的内容正确了,您可以使用我提供的这个PDF试试。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复 使用道具 举报
12下一页
您需要登录后才可以回帖 登录 | 立即注册
返回顶部