多年来,性能评估已成为计算机视觉领域的重要组成部分,使得许多子领域取得了切实进展。虽然头部说话视频生成已成为一个新兴的研究主题,但对该主题的现有评估存在许多局限性。例如,大多数方法都使用人类受试者(例如 ...
0 0 0 2024/04/29 arXiv:2005.03201v1 kingsley
我们提出了 GTE,一种通过多阶段对比学习训练的通用文本嵌入模型。根据最近将各种 NLP 任务统一为单一格式的进展,我们通过对来自多个来源的不同数据集进行对比学习来训练统一的文本嵌入模型。通过在无监督预训练和监督微调阶段显着增加训练数据的数量,我们比现有的嵌入模型实现了显着的性能提升 ...
0 0 0 2024/04/29 arXiv:2308.03281v1 xumeng_paper
大多数现有的基于骨架的一次性动作识别侧重于原始低级信息(例如关节位置),并且可能会遭受局部信息丢失和泛化能力较低的影响 ...
0 0 0 2024/04/29 arXiv:2403.10082v1 Adventure
随着多模态大型语言模型 (MLLM) 的发展,以文本为中心的视觉问答 (VQA) 取得了长足的进步,但开源模型仍然落后于 GPT4V 和 Gemini 等领先模型,部分原因是缺乏广泛、高水平的模型。 -质量指令调整数据。为此,我们引入了一种创建大规模、高质量指令调优数据集 Square-10M 的新方法,该数据集是使用闭源 MLLM 生成的。数据构建过程被称为 Square,由四个步骤组成:自我提 ...
0 0 0 2024/04/29 arXiv:2404.12803v1 bage
由于宽松的衣服包含已被证明难以通过神经网络预测的动态模式,因此我们首先说明如何使用专门设计用于模仿经典数值模拟中最重要的弹道特征的实时数值算法来粗略地近似这些模式。尽管在选择用作全模拟代理的数值算法时存在一定的灵活性,但为了促进实时性能,稳定性和精度必须独立于任何时间步长限制或类似要求,这一点至关重要。为了减少需要近似其动力学的自由度数量,我们模拟刚性框架并使用蒙皮来重建所需网格的粗略近似;正如人 ...
0 0 0 2024/04/29 arXiv:2404.16896v1 ForrestPi
随着多个行业开始对大规模 3D 虚拟世界进行建模,对能够在 3D 内容的数量、质量和多样性方面进行扩展的内容创建工具的需求变得越来越明显。在我们的工作中,我们的目标是训练高性能的 3D 生成模型来合成纹理网格,这些网格可以直接由 3D 渲染引擎使用,从而可以立即在下游应用程序中使用。先前的 3D 生成建模工作要么缺乏几何细节,要么受限于它们可以生成的网格拓扑,通常不支持纹理,要么在合成过程中利用神 ...
0 0 0 2024/04/29 arXiv:2209.11163v1 happy
我们推出 RoboGen,这是一种生成机器人代理,可以通过生成模拟自动大规模学习各种机器人技能。 RoboGen 利用基础模型和生成模型的最新进展。我们不直接使用或调整这些模型来产生策略或低级动作,而是提倡一种生成方案,该方案使用这些模型自动生成多样化的任务、场景和训练监督,从而在最少的人类监督下扩大机器人技能的学习 ...
0 0 0 2024/04/29 arXiv:2311.01455v2 czvzb
与之前更复杂的多阶段方法相比,本文提出了一种端到端的半监督目标检测方法。课程中的端到端训练逐渐提高伪标签质量,越来越准确的伪标签反过来有利于目标检测训练。我们还在这个框架内提出了两种简单但有效的技术:软教师机制,其中每个未标记边界框的分类损失由教师网络产生的分类分数来衡量;一种框抖动方法,用于选择可靠的伪框来学习框回归 ...
0 0 0 2024/04/29 arXiv:2106.09018v3 hzl

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)