我们介绍了第一个数据驱动的多视图3D点跟踪器,旨在使用多个相机视图在动态场景中跟踪任意点。与现有的单眼跟踪器不同,这些跟踪器在深度歧义和遮挡方面挣扎,或者先前需要20多个相机和乏味的每序列优化的多摄像机方法,我们的馈电模型直接使用实用数量的相机直接预测3D对应关系(例如, ...
0 0 0 2025/09/09 arXiv:2508.21060v1 陆三七
本文介绍了DIFFSURF,这是一种基于 Transformer 的DENORISION扩散模型,用于生成和重建3D表面。具体而言,我们设计了一个扩散 Transformer 体系结构,该结构可预测来自嘈杂的3D表面顶点和正态的噪声。借助这种结构,Diffsurf能够以各种姿势和形状(例如人体,手,动物和人造物体)产生3D表面 ...
0 0 0 2025/09/09 arXiv:2408.14860v1 FOUR_A
深入加强学习(DRL)已成为流量信号控制(TSC)的流行方法,因为它能够从复杂的交通环境中学习自适应策略。在基于DRL的TSC方法中,两个主要控制范式是``选择阶段''和``switch''策略。尽管选择阶段范式中的代理会自适应地选择下一个活动相,但该范式可能会导致驾驶员的意外相位序列,从而破坏他们的预期并可能损害交叉点的安全性 ...
0 0 0 2025/09/09 arXiv:2509.03118v1 zweq
大型语言模型(LLM)的出现对各个领域产生了重大影响,从自然语言处理到医学和金融等领域。然而,尽管 LLM 迅速普及,但其在电信领域的应用仍然有限,通常依赖于缺乏特定领域专业化的通用模型。这种专业化的缺乏导致表现不佳,特别是在处理电信特定技术术语及其相关数学表示时 ...
0 0 0 2025/09/09 arXiv:2409.05314v3 hxhhxh
计算机中的SRAM体系结构为在一系列数据密集型应用程序中实现更高的性能和能源效率提供了一种有希望的方法。但是,先前的评估很大程度上取决于模拟器或小型原型,从而限制了对其现实世界潜力的理解。在这项工作中,我们在现实的工作负载下介绍了商业计算机设备GSI APU的全面性能和能量表征 ...
0 0 0 2025/09/09 arXiv:2509.05451v1 jane88
Spotify的主页具有多种内容类型,包括音乐,播客和有声读物。但是,历史数据倾向于音乐,这使得提供平衡和个性化的内容组合变得具有挑战性。此外,用户对不同内容类型的偏好可能会有所不同,具体取决于一天中的时间,一周中的一天,甚至他们使用的设备 ...
0 0 0 2025/09/09 arXiv:2509.05460v1 榴莲糯米甜甜
随着多模式大语言模型(MLLM)的快速发展,它们越来越多地部署为能够完成复杂计算机任务的自动计算机使用代理。但是,出现了一个紧迫的问题:在对话方案中为一般MLLM设计和对齐的安全风险原则是否可以有效地转移到现实世界中的计算机使用方案中?现有关于评估基于MLLM的计算机使用代理的安全风险的研究遭受了几个局限性:它缺乏现实的交互式环境,或者狭义地关注一种或几种特定的风险类型。这些局限性忽略了现实环境的 ...
0 0 0 2025/09/09 arXiv:2506.00618v3 hhhhh
主题到视频(S2V)的一代旨在创建忠实地纳入参考内容的视频,从而在视频的制作中增强了灵活性。为了建立S2V生成的基础架构,我们提出了OpenS2V-Nexus,由(i)Opens2V-Eval,细粒基准和(ii)OpenS2V-5M,一个百万级数据集组成。与从VBENCH继承的现有S2V基准相反,该基准的重点是对产生的视频的全球和粗粒度评估,OpenS2V-Eval着重于该模型生成具有自然主题外观 ...
0 0 0 2025/09/09 arXiv:2505.20292v4 Lewandofski

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)