如何从PDF文件中的表格中提取文本?

huangapple go评论202阅读模式
英文:

how can get text from table in pdf file?

问题

我想从PDF文件中的表格中提取文本?

我无法获取表格中的单元格。我尝试运行Leadtools的示例,但它无法自动检测单元格。

> https://www.leadtools.com/help/leadtools/v20/dh/fo/iocrtablezonemanager.html

你能给我建议吗?感谢所有帮助。

英文:

I want to get text from table in PDF file?
如何从PDF文件中的表格中提取文本?

I cannot get cell in table. I was try to run example of Leadtools but it cannot auto detect cell.

> https://www.leadtools.com/help/leadtools/v20/dh/fo/iocrtablezonemanager.html

Can you give me advice? Thanks all

答案1

得分: 0

在类似于您发布的图像的表格中,您应该能够使用IOcrPage.TableZoneManager.AutoDetectCells()方法找到单元格。这个方法在当前版本的LEADTOOLS中附带的OcrMultiEngineDemo项目中使用。

以下是测试方法:

  1. 运行OCR多引擎演示。
  2. 选择OmniPage OCR引擎。
  3. 打开包含表格的图像或PDF文件。
  4. 在表格周围绘制一个区域。
  5. 从OCR->区域菜单中选择“更新区域...”。
  6. 在“更新区域”对话框中,单击如附图所示的“检测单元格”。

如果这没有给出您期望的结果,请将您正在测试的实际文件发送到support@leadtools.com,并解释您的测试方法。

英文:

In tables similar to the image you posted, you should be able to find the cells using the IOcrPage.TableZoneManager.AutoDetectCells() method. This method is used in the OcrMultiEngineDemo project that’s shipped with the current version of LEADTOOLS.

Here’s how you can test it:

  1. Run the OCR Multi-Engine Demo.
  2. Select the OmniPage OCR Engine
  3. Open the image or PDF file that contains the table.
  4. Draw a zone around the table.
  5. Choose “Update Zones…” from the OCR->Zones menu.
  6. In the “Update Zones” dialog, click “Detect Cells” as shown in attached image.

如何从PDF文件中的表格中提取文本?

If this doesn’t give you the result you’re expecting, send the actual files you’re testing with to support@leadtools.com and explain how you tested exactly.

huangapple
  • 本文由 发表于 2020年1月6日 18:39:29
  • 转载请务必保留本文链接:https://go.coder-hub.com/59610608.html
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定