这与简单地提供要为实体提取的

ditihekhatun16 · 发表于 2024-5-8 14:42:04

值的文本形成对比。这是生成干净的训练数据的关键我们不必担心与给定值的偶然匹配。例如在某些收据中如果税额为零税前总计字段可能具有与总计字段相同的值。具有令牌级别注释会阻止我们生成训练数据其中匹配值的两个实例都被标记为字段的真实值从而产生嘈杂的示例。数据集和任务数据集是两个公开可用的数据集注册表单和广告购买表单的组合。这些数据集提供了代表现实世界用例的示例并满足上述五个基准要求。数据集包含个包含政治广告详细信息的文档。每份文件都是由电视台和竞选团队签署的发票或收据。文档使用表格多列和键值对来记录广告信息例如产品名称播放日期总价发布日期和时间。登记表数据集包含份文件其中包含有关外国代理人在美国政府登记的信息。每份文件都记录了涉及需要公开披露的活动的外国代理人的基本信息。内容包括注册人名称相关部门地址活动目的等详细信息。我们从联邦通信委员会和外国代理人登记法公共网站随机收集了文档样本并使用的将图像转换为文本。

我们丢弃了少量几页长的文档并且处理在两分钟内没有完成。这也使我们能够避免发送很长的文档进行手动注释——对于单个文档来说这项任务可能需要一个多小时。然后我们为具有文档 格鲁吉亚电话号码列表 标记任务经验的注释者团队定义了模式和相应的标记指令。还向注释者提供了一些我们自己标记的示例标记文档。该任务要求注释者检查每个文档围绕每个文档架构中实体的每次出现绘制边界框并将该边界框与目标实体相关联。第一轮标注后一组专家被指派对结果进行审核。修正后的结果包含在已发布的数据集中。有关每个数据集的标记协议和架构的更多详细信息请参阅论文。现有的学术基准未能满足我们为良好的文档理解基准确定的五个要求中的一项或多项。满足了所有这些要求。请参阅我们的论文了解每个数据集的背景以及它们如何未能满足一项或多项要求的讨论。我们构建了四个不同的模型训练集分别有和个样本。然后我们使用三个任务如下所述评估数据集单模板学习混合模板学习和看不见的模板学习。对于每项任务我们在测试集中包含个文档。

我们使用测试集上的分数来评估模型。单模板学习这是最简单的场景其中训练测试和验证集仅包含单个模板。这个简单的任务旨在评估模型处理固定模板的能力。当然我们期望此任务的分数非常高。混合模板学习此任务类似于大多数相关论文使用的任务训练测试和验证集都包含属于同一组模板的文档。我们从数据集中随机抽取文档并构建分割以确保每个模板的分布在采样过程中不会改变。看不见的模板学习这是最具挑战性的设置我们评估模型是否可以泛化到看不见的模板。例如在注册表数据集中我们使用三个模板中的两个来训练模型并使用其余一个来测试模型。训练测试和验证集中的文档来自不相交的模板集。据我们所知以前的基准测试和数据集没有明确提供这样的任务旨在评估模型泛化到训练期间未见过的模板的能力。目标是能够评估模型的数据效率。在我们的论文中我们比较了使用和任务的两个最新模型并提出了三个观察结果。首先与其他基准测试不同具有挑战性并表明模型有很大的改进空间。其次我们表明即使是最先进的模型性能也低得惊人即使是最好的模型其分数也低于。第三我们表明模型很难处理结构化的重复字段并且在这些字段上的表现特别差。

		自动登录	找回密码
密码			立即注册