UDOP项目原作解读：统一视觉、语言、格式、任务的通用文档处理模型-阿里云开发者社区

UDOP项目原作解读：统一视觉、语言、格式、任务的通用文档处理模型

2023-05-24 294

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： UDOP项目原作解读：统一视觉、语言、格式、任务的通用文档处理模型

文档 AI（Document Artificial Intelligence）领域研究包括文档内容提取，分析和理解。近日，微软 Cognitive Services Research 和 UNC Chapel Hill 提出了文档 AI 的基石模型 “Universal Document Processing (UDOP)”。该模型统一了图像、文本和格式模态，并以生成模型的方式整合了各类文档理解和文档生成任务。

UDOP 利用文本内容和文档图像之间的空间相关性，提出用统一的表征方法来建模图像、文本和格式模态。UDOP 在大规模未标记文档语料库和多样化标记数据上进行预训练，学习生成文档图像的文本和布局模态。UDOP 在文档 AI 领域首次实现了高质量的文档图像生成和定制化的内容编辑。UDOP 在 8 个文档 AI 任务上刷新了记录，在 “DUE Benchmark” 上排名第一。

机器之心最新一期线上分享邀请到了微软 Azure 的高级研究员杨子弋及其学生唐子能，为大家分享他们近期工作 UDOP。

分享主题：UDOP：统一视觉、语言、格式、任务的通用文档处理模型

分享嘉宾：

唐子能，UNC Chapel Hill 数学专业大四本科生。师从 Mohit Bansal 教授。他曾在 2022 年于微软 Azure 实习，导师为杨子弋博士。他曾获得获得 2023 年度 CRA Outstanding Undergraduate Researcher Award。

杨子弋，微软 Azure Cognitive Services Research 高级研究员，博士毕业于斯坦福大学，师从 Eric Darve 教授。研究方向为多模态理解和生成，及自然语言处理。

分享摘要：UDOP 是文档人工智能领域的基石模型。我们将介绍 UDOP 的模型结构与大规模生成式预训练方法，以及 UDOP 如何统一文本，图像，格式模态和各类任务。UDOP 在各类文档理解任务上大幅度刷新了记录。我们也将展示 UDOP 作为第一个有文档图像生成与编辑能力的模型的视觉生成效果。

相关链接：

1）SOTA！模型平台项目主页链接：

https://sota.jiqizhixin.com/project/udop

2）论文链接：

https://arxiv.org/abs/2212.02623

3）代码仓库：

https://github.com/microsoft/i-Code/tree/main/i-Code-Doc