发现多模式话语的语义对于理解人类语言和增强人类机器互动至关重要。现有方法在利用非语言信息来辨别无监督的方案中的复杂语义方面存在局限性。本文介绍了一种新颖的无监督多模式聚类方法(UMC),从而为该领域做出了开创性的贡献 ...
0 0 0 2025/04/21 arXiv:2405.12775v1 Abidalswark
从单相机图像和视频中,3D人类姿势估计的最新进展取决于参数模型,例如SMPL。但是,这些模型过于简化解剖结构,限制了它们在捕获真正的关节位置和运动中的准确性,从而降低了它们在生物力学,医疗保健和机器人技术中的适用性。另一方面,生物力学上精确的姿势估计通常需要基于标记的运动捕获系统和优化技术 ...
0 0 0 2025/04/21 arXiv:2501.07800v1 2359175938
被污染或掺假的食物对人类健康构成了重大风险。给定的一组标记的用于培训,机器学习和自然语言处理的网络文本可以自动检测此类风险。我们发布了一个7,546个简短文本的数据集,描述了公共食品召回公告 ...
0 0 0 2025/04/21 arXiv:2403.11904v3 Yhanu
为控制机器人的控制,已经提出了基于二次程序级联的层次逆动力学。它们具有重要的好处,但据我们所知,从未在控制的人类机器人上实施,在这种类扭矩控制的类人动物上,模型不准确,传感器噪声和实时计算要求可能是有问题的。使用现有算法的重新制定,我们提出了可以实现实时控制的问题的简化问题 ...
0 0 0 2025/04/21 arXiv:1410.7284v2 parsifalster
大型语言模型中的先进推理在具有挑战性的任务上取得了出色的性能,但是普遍的长篇文本推理范式面临着临界限制:二次计算缩放,序列长度,序列长度,由最大上下文边界限制的推理以及超出预先训练上下文窗口以外的绩效降低。现有方法主要压缩推理链,而无需解决基本缩放问题。为了克服这些挑战,我们引入了Inftythink,这种范式将单片推理转化为中间摘要的迭代过程 ...
0 0 0 2025/04/21 arXiv:2503.06692v2 overwatcher
基于视频的面部表达识别旨在将给定视频分类为几种基本情绪。如何整合单个帧的面部特征对于此任务至关重要。在本文中,我们提出了框架注意网络(FAN),以自动在端到端框架中突出一些歧视性帧 ...
0 0 32 2025/04/21 arXiv:1907.00193v2 Chess
注释定性的大规模面部表达数据集非常困难,这是由于面部表情模棱两可,低质量的面部图像和注释者的主观性所引起的不确定性。这些不确定性导致了深度学习时代大规模面部表达识别(FER)的关键挑战。为了解决这个问题,本文提出了一个简单而有效的自我固化网络(SCN),该网络(SCN)有效地抑制了不确定性,并防止深层网络无法拟合过度不确定的面部图像 ...
0 0 0 2025/04/21 arXiv:2002.10392v2 Chess
llm(llm)进行推荐,将推荐任务转换为自然语言任务。它支持生成式推荐,直接生成要推荐的项目,而不是像传统推荐模型那样计算每个候选项目的排名分数,从而简化了从多级过滤到单级过滤的推荐流程。为了避免在决定推荐哪些项目时生成过长的文本和幻觉推荐 ...
0 0 0 2025/04/21 arXiv:2305.06569v6 Duluoz

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)