英文:
Specifying the document language in Google Document AI API
问题
我试图使用Google Cloud Document AI解析手写文档。文档包含西里尔字母字符,但是Document AI偶尔会检测到拉丁字符的单词。是否有一种方法可以指定文档的语言,以便它将尝试识别特定语言中的单词,而不考虑置信度?
英文:
I'm trying to parse a handwritten document with Google Cloud Document AI. The document contains Cyrillic characters, however Document AI occasionally detects words with Latin characters. Is there way to specify the language of the document, so it will try to recognize the words in particular language regardless of the confidence?
答案1
得分: 2
以下是翻译好的部分:
这些是在Document AI中支持的语言。
目前无法指定在文档中识别特定语言中的单词。它只能检测语言。
如果您希望实现指定文档语言的功能,可以在问题跟踪器上提出新的功能请求,描述您的要求。
英文:
These are the languages supported in Document AI.
Currently it's not possible to specify the language to recognize the words in a particular language in the document. It can only detect language.
If you want the feature to specify the language of the document to be implemented, you can open a new feature request on the issue tracker describing your requirement.
答案2
得分: 2
最近有一个对Document AI的更新,支持languageHints
参数,允许您指定语言。请注意:目前只有在使用v1beta3端点的Document OCR处理器时才能使用此功能。
如果语言是支持的,则在发送处理请求时在processOptions
字段中提供语言的BCP-47
代码。
英文:
There was a recent update to Document AI that supports the languageHints
parameter, which allows you to specify a language. Note: This only works when using the v1beta3
endpoint with the Document OCR processor at this time.
If the language is supported, then provide the BCP-47
code for the language in the processOptions
field when sending the processing request.
通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库,让每个人都能够通过互相帮助和分享经验来进步。
评论