特定领域的视觉文档理解(VRDU)提出了重大挑战,这是由于文档在医学,金融和材料科学等领域的复杂性和敏感性。现有的大型(多模式)语言模型(LLMS/MLLM)取得了令人鼓舞的结果,但是面对面的限制,例如幻觉,域的适应不足以及依赖广泛的微调数据集。本文介绍了Syndoc,这是一个新颖的框架,结合了歧视性和生成性模型来应对这些挑战 ...
0 0 0 2025/10/03 arXiv:2509.23273v1 sealaes
在大量大数据的帮助下,深度学习在众多领域取得了巨大的成功。但是,数据标签的质量是一个问题,因为在许多实际情况下缺乏高质量的标签。由于嘈杂的标签严重降低了深神经网络的概括性能,因此从嘈杂的标签中学习(强大的培训)正在成为现代深度学习应用中的重要任务 ...
0 0 0 2025/10/03 arXiv:2007.08199v7 Cauchy
深度神经网络需要大量标记的数据才能实现良好的性能。在现实世界应用中,标签通常是从诸如众包以节省成本的非专家中收集的,因此很嘈杂。在过去的几年中,已经开发了用于处理嘈杂标签的深度学习方法,其中许多是基于小损失标准 ...
0 0 0 2025/10/03 arXiv:2106.09291v1 Cauchy
最先进的(SOTA)文本到SQL方法仍然显着落后于人类在诸如Bird等挑战基准方面的专家。探索测试时间扩展的当前方法缺乏精心策划的策略,并且忽略了模型的内部推理过程。为了弥合这一差距,我们介绍了Agent-Scale-SQL,这是一个新型框架,利用可扩展的计算来提高性能 ...
0 0 0 2025/10/03 arXiv:2509.24403v3 18916369915
航空视觉和语言导航(VLN)是一项新的任务,使无人机(UAVS)通过自然语言说明和视觉提示在户外环境中导航。由于户外空中场景中复杂的空间关系,它仍然具有挑战性。在本文中,我们提出了一个用于空中VLN任务的端到端的零拍框架,其中引入了大型语言模型(LLM)作为行动预测的代理 ...
0 0 0 2025/10/03 arXiv:2410.08500v3 七杀破军
尽管小组卷积网络能够根据对称模式学习强大的表示,但它们缺乏了解它们之间有意义的关系的明确手段(例如,相对位置和姿势) ...
0 0 0 2025/10/03 arXiv:2002.03830v3 chitose
最近,学习模棱两可的表示引起了相当大的研究关注。 Dieleman等人引入了四个操作,可以将其插入CNN,以学习对旋转的深度表示 ...
0 0 0 2025/10/03 arXiv:1705.08623v2 chitose
最近在理解紫外线摄动理论的性质上取得了很大的进步,并与$ 2D $的$ 2D $ intectable Field Theories借助肾小球奇异性。多亏了Bethe Ansatz和大型$ N $技术,还可以计算非扰动校正,并导致在存在化学势能的情况下自由能重建自由能。这是测试QFT中复兴的理想舞台,并确定仅从扰动序列的知识中重建确切结果是否以及如何重建 ...
0 0 0 2025/10/02 arXiv:2405.02224v1 rrrroot

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)