腾佑旗下产品:
云服务器 智能五合一建站 咨询热线:400-996-8756
绑定享折扣 注册百度云
产品分类:

VIMER-StrucTexT 2.0类别文心-CV大模型应用OCR识别和结构化模型概述VIMER-StrucTexT 2.0 是端到端文档 OCR 表征学习预训练模型,创新性地提出“单模态图像输入、多模态表征学习”预训练框架,在 5 项不同文档图像理解任务上刷新 SOTA 结果。模型简介VIMER-StrucTexT 2.0 首次创新性地提出“单模态图像输入、多模态表征学习”预训练框架

  • *.2折

    官方价:咨询

  • *.2折

    官方价:咨询

  • *.2折

    官方价:咨询

免费申请测试 >> *价格优惠政策请联系客服咨询

优势介绍用实力去解决每一个客户的问题

  • 预训练流程包括四个环节

    1)基于网络公开数据抓取超 1 亿张文档图像数据,采用百度高精 OCR 服务进行文字检测和识别,保留高置信度文字内容(包括文字位置信息和文本识别内容);2)将文档图像进行随机文本区域遮罩,并输入给 Encoder (如 CNN 和 Transformer 结合结构)进行特征高效编码;3)利用文字位置信息对遮盖的文本区域特征进行提取,得到每个文本区域的表征信息; 4)最后将表征信息分别输入给两个任务分支图像重建和文本推理,通过大数据的加持能够让 Encoder 充分学习多模态知识。

  • 应用任务

    经过大数据预训练产出的 VIMER-StrucTexT 2.0 模型,可以作为下游应用任务的基础模型,常见的文档理解应用任务包括文档图像分类、文档版式分析、表格结构解析、文档 OCR 和端到端信息抽取等。

  • 典型应用场景

    泛卡证票据信息抽取应用,可广泛适用于身份认证、金融开户、征信评估、商户入驻等业务场景,政务办公文档还原应用,对办公场景的各类文档进行结构化识别,如企业年报、论文、行业报告等。

VIMER-StrucTexT 2.0

类别文心-CV大模型

应用OCR识别和结构化


模型概述

VIMER-StrucTexT 2.0 是端到端文档 OCR 表征学习预训练模型,创新性地提出“单模态图像输入、多模态表征学习”预训练框架,在 5 项不同文档图像理解任务上刷新 SOTA 结果。


模型简介

VIMER-StrucTexT 2.0 首次创新性地提出“单模态图像输入、多模态表征学习”预训练框架,仅通过单一文档图像的输入,就能让模型充分捕获语义和结构信息。经过大规模文档图像数据充分学习后的预训练模型,显著提高文档理解全景应用任务效果,包括文档图像分类、文档版式分析、表格结构解析、文档 OCR、端到端信息抽取等。VIMER-StrucTexT 2.0 同时解决了训练数据匮乏和传统 OCR + NLP 链路过长导致的模型表达能力不足、优化效率偏低等问题,能够广泛应用于各行各业行文档、卡证、票据等图像文字识别和结构化理解。


预训练任务

VIMER-StrucTexT 2.0 预训练环节采用的是 CV&NLP 前沿的 Mask-Predict 机制。预训练流程包括四个环节:1)基于网络公开数据抓取超 1 亿张文档图像数据,采用百度高精 OCR 服务进行文字检测和识别,保留高置信度文字内容(包括文字位置信息和文本识别内容);2)将文档图像进行随机文本区域遮罩,并输入给 Encoder (如 CNN 和 Transformer 结合结构)进行特征高效编码;3)利用文字位置信息对遮盖的文本区域特征进行提取,得到每个文本区域的表征信息; 4)最后将表征信息分别输入给两个任务分支图像重建和文本推理,通过大数据的加持能够让 Encoder 充分学习多模态知识。

  • 图像重建:采用图像生成模型设计方式,还原被遮罩的文本区域图像。

  • 文本推理:利用文本区域表征信息直接做判决,推理出被遮罩的文本内容。

应用任务

经过大数据预训练产出的 VIMER-StrucTexT 2.0 模型,可以作为下游应用任务的基础模型,加持不同任务分支网络和对应训练数据即可高效调优,常见的文档理解应用任务包括文档图像分类、文档版式分析、表格结构解析、文档 OCR 和端到端信息抽取等,具体任务描述如下:

文档图像分类:根据文档数据的行业属性一般可以将文档图像归类为合同、简历、表单、卡证、票据等;

文档版式分析:根据文档数据的内容和空间布局信息,可以将文档图像按照不同属性的进行空间划分包括标题、段落、图、列表、表格等;

表格结构解析:需要完成对表格数据进行单元格排列信息的解析;

文档 OCR:对文档图像中出现的文字进行高准确检测和识别;

端到端信息抽取:完整的文档理解服务需要完成用户定义的关键字段文字信息提取,既要完成字段的准确分类,也要完成对应文字内容的识别。

模型效果

任务类型测评集合评价方式V2.0
文档图像分类RVL-CDIPAccuray93.3
文档版式分析PubLayNetF1-score95.4
表格结构解析PubTabNetTEDs97.1
文档 OCRFUNSD1-NED84.1
中文信息抽取XFUND-CHN1-NED67.5

典型应用场景

  1. 泛卡证票据信息抽取应用,可广泛适用于身份认证、金融开户、征信评估、商户入驻等业务场景,性能相较 VIMER-StrucTexT 1.0 提升 30% 以上。

  2. 政务办公文档还原应用,对办公场景的各类文档进行结构化识别,如企业年报、论文、行业报告等,方便对文档类图片进行结构化分析,版式分析和表格结构化解析等能力最大错误率下降达 50%。

使用方法

  1. VIMER-StrucTexT 2.0 相关模型将陆续开放,了解详细信息。

  2. VIMER-StrucTexT 2.0 近期也将陆续升级百度 AI 开放平台相关 OCR 产品矩阵,以及百度零门槛 AI 开放平台产品 EasyDL-OCR,敬请期待。


相关产品推荐

联系方式

400-996-8756 点击这里给我发消息 AI@tuidc.com
腾佑AI人工智能

微信公众号

腾佑AI人工智能

手机站

COPYRIGHT 2007-2020 TUIDC ALL RIGHTS RESERVED 腾佑科技-百度AI人工智能_百度人脸识别_图像识别_语音识别提供商

地址:河南省郑州市姚砦路133号金成时代广场6号楼13层 I CP备案号:豫B2-20110005-1 公安备案号: 41010502003271

声明:本站发布的内容版权归郑州腾佑科技有限公司所有,本站部分素材来源于网络及网友投稿,若无意中侵犯了您的版权,请致电在线客服我们将在核实后予以删除!