我们介绍了VideoComp,这是一个基准和学习框架,用于推进视频文本的理解,旨在在细粒度的时间对齐中改善视觉模型(VLMS)。与关注静态图像文本构图或隔离单事件视频的现有基准分析不同,我们的基准测试目标在连续的多事件视频中对齐。利用带有时间本地化事件标题的视频文本数据集(e ...
0 0 0 2025/07/22 arXiv:2504.03970v2 anjianxiang001
本文介绍了基于 Transformer 的大语言模型(LLM)推断的限制研究,重点是分布式推理系统中记忆带宽,内存能力和同步开销所施加的基本性能瓶颈。我们开发了一个硬件不足的性能模型,该模型将实现细节抽象化,从而可以分析各种当前和近乎未来的硬件技术。我们的分析涵盖了GPU和TPU等当前使用的HBM3存储器技术到基于高级HBM4和高级3D堆叠DRAM技术的系统 ...
0 0 0 2025/07/22 arXiv:2507.14397v1 jane88
现有的条件降级扩散概率模型(DDPM)具有噪声条件框架(NCF)对于3D场景理解任务仍然具有挑战性,因为场景中的复杂几何细节增加了拟合语义标签的数据分布梯度(得分)的难度。与非DDPM相比,这也会导致培训和推理时间更长。从不同的角度来看,我们深入研究了条件网络主导的模型范式 ...
0 0 0 2025/07/22 arXiv:2411.16308v4 ttt
扩散模型已显着改善了文本形象的生成,从文本描述中产生了高质量的现实图像。除了产生外,对象级图像编辑仍然是一个具有挑战性的问题,需要精确的修改,同时保持视觉连贯性。现有的基于文本的教学编辑方法与本地化形状和布局转换相努力,通常会引入意想不到的全球变化 ...
0 0 0 2025/07/22 arXiv:2504.08111v1 anjianxiang001
仿真是以安全且具有成本效益的方式开发和基准自动驾驶汽车规划软件的重要工具。但是,现实的仿真需要精确建模细微且复杂的多代理交互行为。为了应对这些挑战,我们介绍了Waymax,这是一种新的数据驱动模拟器,用于在多代理场景中自动驾驶,设计用于大规模的模拟和测试 ...
0 0 0 2025/07/22 arXiv:2310.08710v1 zhlstone
Transformer是自然语言处理的首选模型,引起了医学成像社区的关注。鉴于能够利用长期依赖性的能力, Transformer 有望帮助非典型的卷积神经网络克服其空间归纳偏见的固有缺点。但是,最近提出的基于 Transformer 的大多数分割方法简单地将 Transformer 视为辅助模块,以帮助将全局上下文编码为卷积表示 ...
0 0 0 2025/07/22 arXiv:2109.03201v6 尼斯湖
将网页设计转换为功能性 UI 代码是构建网站的关键步骤,这可能既费力又耗时。为了自动化这种从设计到代码的转换过程,人们提出了使用基于学习的网络和多模态大语言模型(MLLM)的各种自动化方法。然而,这些研究仅在小范围的静态网页上进行评估,忽略了动态交互元素,使得它们对于现实世界的网站部署不太实用 ...
0 1 0 2025/07/22 arXiv:2411.03292v2 15966829631
文档级关系提取(RE)旨在确定整个文档中实体之间的关系。它需要复杂的推理技能来综合各种知识,例如核心和常识。大规模知识图(kgs)包含大量现实世界事实,可以为文档级别提供宝贵的知识 ...
0 0 0 2025/07/22 arXiv:2207.11433v1 DUNK_911

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)