找回密码
 立即注册

QQ登录

只需一步,快速开始

896918198

注册会员

1

主题

10

帖子

17

积分

注册会员

积分
17
最新发帖
896918198
注册会员   /  发表于:2019-10-22 09:57  /   查看:7120  /  回复:15
本帖最后由 896918198 于 2019-10-22 10:30 编辑

Hi 版主,

我使用的是19版本,DocumentConverterDemo在处理双层PDF时候自动走OCR识别,如何设置用双层PDF读取的方式转换?
LeadTools提供的Demo用的PDF是走双层读取的,而我的双层PDF走OCR识别,想知道哪里可以设置。

另外,PDFDocumentDemo是能很好的解出双层PDF各对象元素的,有没有快速版面分析出各段落呢? 类型OCR识别的段落Zone的感觉。

帮忙呀


15 个回复

倒序浏览
Richard.Ma讲师达人认证 悬赏达人认证 SpreadJS 开发认证
超级版主   /  发表于:2019-10-22 10:46:48
沙发
1你说的LeadTools测试用的PDF是走双层读取(看起来这个就是你需要的),这个是指哪个demo呢?

2.没有快速版面分析出各段落,因为本身pdf文本的组成不是按照段落来的,是按照对象来的。当然如果只是需要一个大概的段落位置信息的话,如你所说,那可以尝试用OCR中的AutoZone的方式,自动识别出段落Zone
回复 使用道具 举报
896918198
注册会员   /  发表于:2019-10-22 10:56:17
板凳
用的是DocumentConverterDemo这个Demo。想通过双层取值方式取得文本(PDF自身是双层的),而不是通过OCR。




回复 使用道具 举报
896918198
注册会员   /  发表于:2019-10-22 11:05:50
地板
本帖最后由 896918198 于 2019-10-22 11:11 编辑

Running job...
Info: Job:My Job Started
Info: Job:My Job Job.InputDocumentFileName:C:\Users\Public\Documents\LEADTOOLS Images\Leadtools.pdf
Info: Job:My Job Job.InputDocumentFirstPageNumber:1
Info: Job:My Job Job.InputDocumentLastPageNumber:-1
Info: Job:My Job Job.OutputDocumentFileName:C:\Users\jingyang.yu\Desktop\123456.docx
Info: Job:My Job Job.DocumentFormatocx
Info: Job:My Job Job.RasterImageFormat:Unknown
Info: Job:My Job DocumentTypedf
Info: Job:My Job DocumentId:f38ec531b568449583b137a849ef8cda
Info: Job:My Job MimeType:application/pdf
Info: Job:My Job Pages.Count:5
Info: Job:My Job Converting document format (SVG)
C:\Users\Public\Documents\LEADTOOLS Images\Leadtools.pdf     <<<<< SVG模式
---------------------------------------------------------------------------------------------------------------------------------------------
Running job...
Info: Job:My Job Started
Info: Job:My Job Job.InputDocumentFileName:C:\Users\Public\Documents\LEADTOOLS Images\PDFSegmentation.pdf
Info: Job:My Job Job.InputDocumentFirstPageNumber:1
Info: Job:My Job Job.InputDocumentLastPageNumber:-1
Info: Job:My Job Job.OutputDocumentFileName:C:\Users\jingyang.yu\Desktop\123456.docx
Info: Job:My Job Job.DocumentFormatocx
Info: Job:My Job Job.RasterImageFormat:Unknown
Info: Job:My Job DocumentTypedf
Info: Job:My Job DocumentId:e64f99ccb5504231bb7b518d74a02552
Info: Job:My Job MimeType:application/pdf
Info: Job:My Job Pages.Count:1
Info: Job:My Job Converting document format (OCR)
Info: Job:My Job CreateOcrDocument
C:\Users\Public\Documents\LEADTOOLS Images\PDFSegmentation.pdf     <<<<<< OCR模式


不知道怎么调整? 如何强制执行SVG呢?

回复 使用道具 举报
Richard.Ma讲师达人认证 悬赏达人认证 SpreadJS 开发认证
超级版主   /  发表于:2019-10-22 17:15:45
5#
我这边测试了一下双层PDF导出为docx,看起来并不是通过ocr得到的结果,是直接读取的文本,你那边测试的文档可以发我一下
回复 使用道具 举报
896918198
注册会员   /  发表于:2019-10-22 18:35:57
6#
测试图片

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复 使用道具 举报
Richard.Ma讲师达人认证 悬赏达人认证 SpreadJS 开发认证
超级版主   /  发表于:2019-10-22 23:31:12
7#
好的,明天帮你验证问题
回复 使用道具 举报
896918198
注册会员   /  发表于:2019-10-29 09:49:59
8#
Hi 版主  有验证吗
回复 使用道具 举报
Richard.Ma讲师达人认证 悬赏达人认证 SpreadJS 开发认证
超级版主   /  发表于:2019-10-29 12:02:41
9#
抱歉给你回复晚了, 附件是转换的文件,如果不需要OCR的话,只需要设置在存在SVG时,不进行OCR识别即可

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复 使用道具 举报
896918198
注册会员   /  发表于:2019-11-1 09:46:56
10#
谢谢版主 ,  我这使用的是19版本,我在验证一下。
回复 使用道具 举报
12下一页
您需要登录后才可以回帖 登录 | 立即注册
返回顶部