最近在机器人领域,视觉-语言-动作(VLA)模型作为一种变革性方法出现,使机器人能够通过在端到端学习框架内集成视觉和语言输入来执行复杂的任务。虽然 VLA 模型提供了重要的功能,但它们也引入了新的攻击面,使其容易受到对抗性攻击。由于这些漏洞基本上未被探索,本文系统地量化了基于 VLA 的机器人系统的鲁棒性 ...
0 0 0 2025/09/01 arXiv:2411.13587v4 兔兔突突
现有的文本对图像扩散模型表现出在产生以文本提示为指导的高质量图像中的显着功能。但是,通过精确的空间控制实现多主体组成合成仍然是一个重大挑战。在这项工作中,我们解决了可控制的多主体合成(LMS)的任务,该任务既需要忠实地重建参考主体及其在统一图像中指定区域中的准确位置 ...
0 1 0 2025/08/31 arXiv:2508.14440v1 yisinoya
点云完成旨在通过部分观察来完成几何和拓扑形状。但是,缺少原始形状的某些拓扑,现有方法直接预测完整点的位置,而无需预测完整形状的结构化和拓扑信息,从而导致性能较低。为了更好地解决缺失的拓扑部分,我们提出了湖网,这是一种新颖的拓扑感知点云完成模型,它通过定位对齐的关键点,并具有新颖的关键点 - 骨骼形状形状的预测方式 ...
0 0 0 2025/08/31 arXiv:2203.16771v1 liushibo
在许多情况下,例如对象跟踪,形状检索和机器人技术,检测到对齐的3D关键是必不可少的。但是,由于关键点本身的模棱两可,通常很难为所有类型的对象准备高质量的数据集。同时,当前的无监督探测器无法生成具有良好覆盖范围的对齐关键点 ...
0 0 0 2025/08/31 arXiv:2103.10814v1 liushibo
点完成是指从部分点云中完成对象缺失的几何形状。现有作品通常通过解码从输入点编码的潜在特征来估计缺失形状。但是,现实世界中的物体通常具有多种拓扑和表面细节,潜在特征可能无法代表以恢复清洁和完整的表面 ...
0 0 0 2025/08/31 arXiv:2010.07428v1 liushibo
在本文中,我们通过使用自我发挥机制和多尺度特征融合来捕获多层次上下文信息来解决3D对象检测任务。大多数现有的3D对象检测方法单独识别对象,而无需对这些对象之间的上下文信息进行任何考虑。相比之下,我们建议多级上下文投票(MLCVNET)以最新的votenet为基础,以识别3D对象 ...
0 0 0 2025/08/31 arXiv:2004.05679v1 liushibo
$ e(3)$  -  eproivariant神经网络已在各种3D建模任务中取得了成功。这些网络中的基本操作是张量产品,该产品以模棱两可的方式进行了两个几何特征以创建新功能。由于张量产品的计算复杂性很高,因此已经投入了大量精力来优化此操作的运行时 ...
0 0 0 2025/08/31 arXiv:2506.13523v2 TJ
在NLP领域,大型语言模型(LLMS)在各种任务中都显着提高了性能。但是,对LLM的全面评估仍然是社区的不可避免的挑战。最近,采用多项选择问答(MCQA)作为评估LLM的基准已获得了相当大的吸引力 ...
0 0 0 2025/08/31 arXiv:2402.01349v3 yiyiyi

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)