回复 11楼804241020的帖子
您好,原始文件的问题可能有很多种。我无法考证您的PDF来源以及做成的方式。
我通过Acrobat打开您的PDF,门诊号和45岁并没有加粗,只是字体不同。
当我切换字体为宋体后,他们显示就不是粗体了。
我推测有可能是做成这个PDF的工具在门诊这两个字上出错了,导致重复,而重复的字的位置都是一样的,这样就将所有门诊叠在一起了,看起来像加粗的。
提取PDF中文字的方法就是读取PDF源文件内容,如果源文件是重复的提取出来就是重复的。
LEADTOOLS无法判断用户需要提取什么样的内容,只能将所有文字都提取出来。
您的这个PDF使用普通的Adobe Reader打开后用鼠标框选文字进行拷贝出来的也是重复的。
解决方法有两种:
1、修改或者调整生成这个PDF的源程序,将其生成的PDF调整正确。
2、不使用源文件提取方法,而改用LEADTOOLS OCR功能进行文字识别。
以上, 谢谢。 |