UDOP项目原作解读:统一视觉、语言、格式、任务的通用文档处理模型

简介: UDOP项目原作解读:统一视觉、语言、格式、任务的通用文档处理模型


文档 AI(Document Artificial Intelligence)领域研究包括文档内容提取,分析和理解。近日,微软 Cognitive Services Research 和 UNC Chapel Hill 提出了文档 AI 的基石模型 “Universal Document Processing (UDOP)”。该模型统一了图像、文本和格式模态,并以生成模型的方式整合了各类文档理解和文档生成任务。

UDOP 利用文本内容和文档图像之间的空间相关性,提出用统一的表征方法来建模图像、文本和格式模态。UDOP 在大规模未标记文档语料库和多样化标记数据上进行预训练,学习生成文档图像的文本和布局模态。UDOP 在文档 AI 领域首次实现了高质量的文档图像生成和定制化的内容编辑。UDOP 在 8 个文档 AI 任务上刷新了记录,在 “DUE Benchmark” 上排名第一。

机器之心最新一期线上分享邀请到了微软 Azure 的高级研究员杨子弋及其学生唐子能,为大家分享他们近期工作 UDOP。


分享主题:UDOP:统一视觉、语言、格式、任务的通用文档处理模型

分享嘉宾:

唐子能,UNC Chapel Hill 数学专业大四本科生。师从 Mohit Bansal 教授。他曾在 2022 年于微软 Azure 实习,导师为杨子弋博士。他曾获得获得 2023 年度 CRA Outstanding Undergraduate Researcher Award。

杨子弋,微软 Azure Cognitive Services Research 高级研究员,博士毕业于斯坦福大学,师从 Eric Darve 教授。研究方向为多模态理解和生成,及自然语言处理。

分享摘要:UDOP 是文档人工智能领域的基石模型。我们将介绍 UDOP 的模型结构与大规模生成式预训练方法,以及 UDOP 如何统一文本,图像,格式模态和各类任务。UDOP 在各类文档理解任务上大幅度刷新了记录。我们也将展示 UDOP 作为第一个有文档图像生成与编辑能力的模型的视觉生成效果。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/udop

2)论文链接:

https://arxiv.org/abs/2212.02623

3)代码仓库:

https://github.com/microsoft/i-Code/tree/main/i-Code-Doc

相关文章
|
2天前
|
人工智能 文字识别 计算机视觉
【AAAI 2024】M2Doc:文档版面分析的可插拔多模态融合方法
M2Doc是一种创新的多模态融合方法,设计用于增强文档版面分析任务中的纯视觉目标检测器。该方法包括Early-Fusion和Late-Fusion模块,前者通过门控机制融合视觉和文本特征,后者则在框级别合并这两种特征。M2Doc易于集成到各种目标检测器,实验证明它能显著提升DocLayNet和M6Doc数据集上的性能,特别是与DINO结合时,在多个数据集上达到SOTA结果。此外,研究表明M2Doc对于增强复杂逻辑版面分析任务中的文本理解和语义关联特别有效。
|
机器学习/深度学习 人工智能 自然语言处理
aiXcoder XL 智能编程大模型发布:自然语言一键生成方法级代码
aiXcoder XL 的出现,为程序员提供了大模型时代的个性化智能编程体验。随着 AI 技术的发展和普及,这或将重新定义编程领域。
637 0
aiXcoder XL 智能编程大模型发布:自然语言一键生成方法级代码
|
2天前
|
机器学习/深度学习 存储 人工智能
人工智能平台PAI产品使用合集之如何通过通用文本标记解决方案文档与PAI机器学习平台一起使用
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
2天前
|
JSON 人工智能 数据库
【AI大模型应用开发】【LangChain系列】1. 全面学习LangChain输入输出I/O模块:理论介绍+实战示例+细节注释
【AI大模型应用开发】【LangChain系列】1. 全面学习LangChain输入输出I/O模块:理论介绍+实战示例+细节注释
60 0
【AI大模型应用开发】【LangChain系列】1. 全面学习LangChain输入输出I/O模块:理论介绍+实战示例+细节注释
|
2天前
|
数据采集 存储 人工智能
【AI大模型应用开发】【LangChain系列】实战案例4:再战RAG问答,提取在线网页数据,并返回生成答案的来源
【AI大模型应用开发】【LangChain系列】实战案例4:再战RAG问答,提取在线网页数据,并返回生成答案的来源
65 0
|
2天前
|
存储 人工智能 数据库
【AI大模型应用开发】【LangChain系列】2. 一文全览LangChain数据连接模块:从文档加载到向量检索RAG,理论+实战+细节
【AI大模型应用开发】【LangChain系列】2. 一文全览LangChain数据连接模块:从文档加载到向量检索RAG,理论+实战+细节
76 0
|
9月前
|
JSON 人工智能 API
HarmonyOS学习路之开发篇—AI功能开发(关键字提取)
在日常生活中充满了各种各样的信息,这些信息千变万化。文本语言作为信息传递的一种载体,同样面临有用信息和无用信息糅杂在一起的问题。关键字提取帮助用户在众多文本信息中快速提取出关键信息和核心内容,节省时间提高效率。
|
9月前
|
JSON 前端开发 数据可视化
SolidUI AI生成可视化,0.1.0版本模块划分以及源码讲解
SolidUI AI生成可视化,0.1.0版本模块划分以及源码讲解
79 0
|
10月前
|
SQL XML 自然语言处理
从零开始构建一个电影知识图谱,实现KBQA智能问答[上篇]:本体建模、RDF、D2RQ、SPARQL endpoint与两种交互方式详细教学
从零开始构建一个电影知识图谱,实现KBQA智能问答[上篇]:本体建模、RDF、D2RQ、SPARQL endpoint与两种交互方式详细教学
从零开始构建一个电影知识图谱,实现KBQA智能问答[上篇]:本体建模、RDF、D2RQ、SPARQL endpoint与两种交互方式详细教学
|
机器学习/深度学习 自然语言处理 达摩院
如何用一套语音识别系统实现多语种混合自由说?
语音识别技术,也被称为自动语音识别 (Automatic Speech Recognition,ASR),其目标是将语音转成文字。
259 0
http://www.vxiaotou.com