在强化学习(RL)中,基于价值的算法学会将每个观察结果与可能从中获得的状态和奖励联系起来。我们观察到,许多自我监督的图像预训练方法与这种表述具有相似性:将图像的作物与附近观点相关联的学习特征,例如 ...
自动解析扫描文档到结构丰富的机器可读格式中仍然是文档AI中的关键瓶颈,因为传统的多阶段管道遭受了错误传播和对各种布局的适应性有限。我们介绍了Layoutrl,这是一种端到端的增强学习框架,该框架通过优化标准化编辑距离,段落计数准确性和阅读顺序保存的综合奖励来训练模型,以明确地进行布局意识。利用我们新发布的数据集Infinity-Doc-55k,该数据集结合了55K高保真扫描文档解析数据与专家滤波的 ...
基于文本的人搜索旨在使用自然语言描述在相机网络中检索特定的个人。但是,当前的基准测试经常表现出对步行或站立等共同行动的偏见,从而忽略了在现实世界中识别异常行为的关键需求。为了满足此类要求,我们提出了一项新任务,基于文本的人的异常搜索,通过文字同时找到常规活动或异常活动的行人 ...
由于其广泛的应用要求,空中对象检测一直是一个热门话题。但是,大多数现有的方法只能处理预定义的类别,这限制了其对现实世界中公开方案的适用性。在本文中,我们通过利用图像和文本之间的关系扩展了空中对象检测到打开场景,并提出了OVA-DRET,这是一种高效的空中图像开放式视频检测器 ...
最近的一些作品认为,大型语言模型(LLMS)可以通过改善网络威胁智能(CTI)任务的自动化来驯服网络安全领域的数据洪水。这项工作提出了一种评估方法,除了允许在使用零射击学习,几乎没有射击学习和微调的CTI任务上测试LLM之外,还允许量化其一致性和信心水平。我们使用三个最先进的LLM和350个威胁情报报告的数据集进行了实验,并提供了依靠LLMS依靠CTI的潜在安全风险的新证据 ...
对于专业艺术家来说,层已成为必不可少的工具,使他们能够建立一个层次结构,从而可以独立控制各个视觉元素。在本文中,我们提出了LayeringDiff,这是一种用于合成分层图像的新型管道,该管道首先使用现成的图像生成模型生成复合图像,然后将图像分解为其组成的前景和背景层。通过从复合图像中提取图层,而不是从头开始生成它们,LayeringDiff绕开了对大规模训练的需求,以开发单个层的生成能力 ...
大型生成模型,尤其是基于扩散的方法的最新进展显着增强了图像编辑的功能。但是,实现对图像组成任务的精确控制仍然是一个挑战。允许独立编辑图像组件的分层表示对于用户驱动的内容创建至关重要,但是现有的方法通常很难将图像分解为具有准确保留的透明视觉效果(例如阴影和反射)的合理层 ...
社区问题回答(CQA)平台可以被视为社区中的重要知识库,但是在实时利用历史互动和领域知识的有效利用仍然是一个挑战。现有的方法通常不足以外部知识,无法纳入动态的历史质量检查环境,或者缺乏适合工业部署的记忆机制。我们提出了Comrag,这是一个实时工业CQA的检索型生成框架,该框架通过基于质心的存储机制将静态知识与动态历史QA对整合在一起,该机制旨在检索,生成和有效的存储 ...