AI的一个宏伟目标是建立一个可以根据自然语言说明进行准确导航的机器人,这要求代理人感知场景,理解和地面语言,并在现实世界中的环境中采取行动。这里的一个主要挑战是在培训期间看不见的新环境中学习导航。与所见的环境相比,大多数现有方法在看不见的环境中的表现越来越差 ...
0 1 0 2025/05/12 arXiv:1904.04195v1 hanju
量化技术可以通过利用高吞吐量整数指令来减少深神网络的大小,并改善推理潜伏期和吞吐量。在本文中,我们回顾了量化参数的数学方面,并在各种神经网络模型上评估了它们的选择,以用于不同的应用领域,包括视觉,语音和语言。我们专注于具有高通量整数数学管道的处理器可以加速加速的量化技术 ...
0 0 0 2025/05/12 arXiv:2004.09602v1 felixslu
该技术报告引入了针对StreamPetr框架的有针对性改进,专门旨在增强速度估计,这是影响整体Nuscenes检测评分的关键因素。尽管在Nuscenes数据集上评估时,虽然流媒体表现出强大的3D边界检测性能,但其高平均精度反映出我们的分析将速度估计确定为实质性瓶颈。为了克服这一限制,我们提出了一种定制的定制位置嵌入策略,以增强时间建模功能 ...
0 0 0 2025/05/12 arXiv:2504.12643v2 xubiao
基于BEV(Bird-Eye-View)的多视图3D检测最近取得了重大改进。但是,最新模型的巨大记忆消耗使它们很难在车辆上部署,而非平凡的潜伏期将影响流媒体应用程序的实时感知。尽管量化广泛应用于减轻模型,但我们在论文中表明,在BEV任务中直接应用量化将1)使训练不稳定,2)导致无法忍受的性能降解 ...
0 0 0 2025/05/12 arXiv:2308.10515v1 xubiao
在每日场景中,从情感支持到个人互动,社交聊天机器人已成为必不可少的聪明人。但是,具有被动响应机制的传统聊天机器人通常依靠用户来通过提出新主题来启动或维持对话,从而导致参与度降低和缩短对话持续时间。在本文中,我们介绍了一个新颖的框架,通过个性化的实时检索和一代,为社交聊天机器人提供了背景意见的主动对话 ...
0 0 0 2025/05/12 arXiv:2504.20624v1 paperxixi
网络威胁情报(CTI)对于当今的网络安全环境至关重要,提供了理解和减轻不断发展的网络威胁的基本见解。大型语言模型(LLM)最近的兴起在该领域表现出了潜力,但担心其可靠性,准确性和幻觉持续存在。尽管现有的基准提供了对LLM的一般评估,但尚无基准测试来解决CTI特定任务的实际和应用方面 ...
0 0 0 2025/05/12 arXiv:2406.07599v3 jacktang310
视觉语言动作(VLA)模型是通过整合视觉感知,语言理解和动作执行来迈向通用机器人系统的重要步骤。但是,对这些模型的系统评估,尤其是其在分布(OOD)环境中的零击概括功能,仍然有限。在本文中,我们介绍了Multinet V0 ...
0 0 0 2025/05/12 arXiv:2505.05540v1 蔡明方
3D中的机器人操作需要学习机器人操纵器的自由度联合空间轨迹。机器人必须具有语义和视觉感知能力,以将其工作空间的实际映射转换为对象操纵所需的低级控制。最近的工作证明了微调大型视觉模型(VLM)的功能,以了解RGB图像,语言说明和关节空间控制之间的映射 ...
0 0 0 2025/05/12 arXiv:2505.05800v1 蔡明方

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)