当前位置: 首页 > news >正文

网站改版完成包包网站建设策划书

网站改版完成,包包网站建设策划书,物流网站系统php源码,Wordpress刷新CDN缓存摘要 科学知识主要存储在书籍和科学期刊中#xff0c;通常以PDF的形式。然而PDF格式会导致语义信息的损失#xff0c;特别是对于数学表达式。我们提出了Nougat#xff0c;这是一种视觉transformer模型#xff0c;它执行OCR任务#xff0c;用于将科学文档处理成标记语言通常以PDF的形式。然而PDF格式会导致语义信息的损失特别是对于数学表达式。我们提出了Nougat这是一种视觉transformer模型它执行OCR任务用于将科学文档处理成标记语言并证明了我们的模型在新的科学文档数据集上的有效性。 引言 存储在pdf中的知识信息提取有难度其中数学表达式的语义信息会丢失。现有的OCR方法没有办法识别公式。为此我们引入了Nougat,这是一种基于transformer的模型能将文档页面的图像转换为格式化的标记文本。这篇论文的主要贡献如下 1) 发布能够将PDF转换为轻量级标记语言的预训练模型 2) 我们引入了一个将pdf转为标记语言的pipeline 3) 我们的方法仅依赖于页面的图像支持扫描的论文和书籍 模型 以前的VDU(视觉文档理解)方法要么依赖于第三方OCR工具要么专注于文档类型例如收据、发票或类似表单的文档。最近的研究表明不需要外部OCR在VDU中也能实现有竞争力的结果。 如图1所示我们的模型基于donut构建是一个encoder-decoder模型允许端到端的训练。 编码器 视觉encoder首先接受一张文档图像裁剪边距并调整图像大小成固定的尺寸(H,W)如果图像小于矩形那么增加额外的填充以确保每个图像具有相同的维度。我们使用了Swin Transformer将图像分为不重叠的固定大小的窗口然后应用一系列的自注意力层来聚集跨窗口的信息。该模型输出一个embedding patch 其中d是隐层维度N是patch的数目。 解码器 使用带有cross-attention的mBART解码器解码然后生成一系列tokens最后tokens被投影到vocabulary的大小产生logits。我们使用作为decoder SetUP 我们用96 DPI的分辨率渲染文档图像。由于swin transformer的限制性我们将input size设置为(896,672)文档图像先resize,然后pad到所需的大小这种输入大小允许我们使用Swin基础模型架构。我们用预训练的权重初始化了模型Transformer解码器的最大序列长度是4096。这种相对较大的规模是因为学术研究论文的文本可能是密集的尤其表格的语法是token密集的。BART解码器是一个10层的decoder-only transformer。整个架构共有350M参数在推理的时候文本使用greedy decoding生成的。 训练使用AdamW优化器训练3个epochbatch_size是192初始化学习率是; 数据增强 在图像识别任务中使用数据增强来提高泛化性是有效的。由于我们的训练集只有学术论文所以我们需要应用一系列的transformation来模拟扫描文档的缺陷和可变性。这些变换包括腐蚀膨胀高斯噪声高斯模糊位图转换图像压缩网格失真和弹性变换。每个都有一个固定的概率来应用给给定图像。每个转换的效果如图所示 在训练过程中我们会用随机替换token的方式给groud truth增加扰动。 数据 目前没有pdf页面和其对应的source code的成对数据集。因为我们根据arxiv上的开源文章建立了自己的数据集。对于layout多样性我们引入了PMC开源非商业数据集的子集。在预训练过程中也引入了一部分行业文档库数据。 ARXIV 我们从arxiv上收集了174w的pape收集其源代码并编译pdf。为了保证格式的一致性我们首先用latex2html处理源文件并将他们转为html文件。这一步很重要因为他们是标准化的并且去掉了歧义尤其是在数学表达式中。转换过程包括替换用户定义的宏添加可选括号规范化表以及用正确的数字替换引用。然后我们解析html文件并将他们转换为轻量级标记语言支持标题粗体和斜体文本、公式表等各种元素。这样我们能保证源代码格式是正确的方便后续处理。整个过程如图所示 PMC 我们还处理了来自PMC的文章其中除了PDF文件之外还可以获得具有语义信息的XML文件。我们将这些文件解析为与arxiv文章相同的标记语言格式我们选择使用PMC少得多的文章因为XML文件并不总是具有丰富的语义信息。通常方程和表格存储为图像这些情况检测起来并非易事这导致我们决定将PMC文字的使用限制在预训练阶段。 IDL IDL是行业产生的文档集合。这个仅用在预训练阶段用于教模型基本的OCR 分页 我们根据pdf的页中断来分割markdown标记然后将每个pdf页面转为图像来获得图像-标记pair。在编译过程中Latex会自动确定pdf的页面中断。由于我们没有重新编译每篇论文的Latex源我们必须启发式地将源文件拆分为对应不同页面的部分。为了实现这一点我们使用PDF页面上的嵌入文本和源文本进行匹配。 然而PDF中的图像和表格可能不对应他们在源代码中的位置。为了解决这个问题我们在预处理阶段去掉了这些元素。然后将识别的标题和XML文件中的标题进行比较并根据他们的Levenshtein距离进行匹配。一旦源文档被分成单个页面删除的图形和表格就会在每个页面的末尾重新插入。
http://www.sadfv.cn/news/319176/

相关文章:

  • 家乡网站建设可行性分析制作wordpress页面模板
  • 做网站容易 但运营难nginx优化wordpress网站速度
  • 全国学校网站建设it外包人员最后什么下场
  • 米拓建站下载东莞开发游戏软件公司
  • 烟台放心的一站式网站建设正规免费网站建设公司
  • 旅游网站页面设计个人免费开发app
  • ps4gta5网站建设中wordpress插件过多不好
  • 云服务器网站文件夹怎么将html变成为网址
  • 做百度竞价网站修改影响排名吗全网网络营销
  • 被网站管理员设置拦截dw做公司网站
  • 点击进入官方网站专业商城网站建设多少钱
  • 化妆品网站建设预算明细表带商城的wordpress
  • 房产官方网站网站备案 登陆
  • 网站模板购买网站建设与管理好学吗
  • 信息发布网站推广技巧网络推广企业营销
  • 网站开发项目管理文档模板汕头八景
  • 移动端网站制作案例公司大厅设计效果图大全
  • 站长工具官网北京响应式网站开发
  • 俄文网站开发地点东莞智通人才网最新招聘信息
  • 上海装饰公司网站建设济南个人制作网站
  • 沈阳网站设计运营公司网站与网页区别是什么
  • 网站索引量突然下降国内免费接码
  • 没有网站怎么做推广wordpress媒体库插件
  • 锡盟建设局网站网站建设技术支持 会天下
  • 自己学习做网站乡村网站建设
  • 门户网站开发注意哪些seo查询在线
  • 最快做网站的语言方维服务客户类型
  • 网站布局优化策略seo博客写作
  • 天天新品网做网站php用户管理系统源码
  • 免费dede企业网站模板礼物说wordpress