了解从表单提取数据

已完成

窗体和其他文档具有 具有语义含义的文本数据。 语义含义是指给定上下文中字词、短语或符号的预期含义或解释。 语义意义不仅仅是单词(语法)的文本定义,重点介绍单词或句子实际传达的内容。

文档智能 介绍了处理文本并将语义含义附加到提取文本的 AI 功能。 作为光学字符识别(OCR)的扩展,文档智能自动执行提取和理解信息的过程。

请考虑需要处理大量支出索赔、项目成本和其他会计目的的收据的组织。 使用文档智能,公司可以拍摄收据的扫描图像,使用 OCR 将文本数字化,并提取语义含义。 表单中的数据的语义含义可以在字段值对中描述。

  • 字段名称是数据输入的键或类型。
  • 字段说明是字段名称所表示的定义。
  • 该值对应于字段名称,是特定于内容的数据。

例如,在发票中,识别的字段可能包括:

  • 商家的名称、地址和电话号码
  • 购买的日期和时间
  • 购买的每件商品的名称、数量和价格
  • 总计、小计和税额

表单中的数据通过 边界框识别。

购买 Surface Pro 和 Surface 触控笔的已扫描收据的屏幕截图。

例如,收据上的地址信息保存为 afield nameaddress以及value123 Main Street坐标 [4.1, 2.2], [4.3, 2.2], [4.3, 2.4], [4.1, 2.4]。 机器学习模型可以解释文档或表单中的数据,因为它们经过训练以识别边界框坐标位置中的模式。

数据提取的结果与每个字段和数据对的 置信度 相关联。 此 置信度 是介于 0 和 1 之间的百分比,表示可能的准确度级别。 以高置信度分数(更接近 1)提取的数据可以更自信地用于实际表示原始内容中的内容。