下一代无线技术(用于沉浸质量的通信,联合通信和传感)需要高度平行的架构,以进行大规模的数据处理。一个通用的架构模板通过将数十枚核心分组为共享的内存群集来扩展,然后将其缩放为多群集的多核系统。这种层次设计用于GPU和加速器,需要在更少的大簇和更小的群集之间进行平衡,从而影响设计复杂性,同步,沟通效率和可编程性 ...
0 0 0 2025/07/14 arXiv:2507.05012v1 jane88
在机器人上实现运动机车的操作需要超越传统跟踪奖励(只需引导机器人沿参考轨迹)即可到达驱动真正动态的,面向目标的行为的任务奖励。诸如“尽可能扔球”或“尽快抬起重量”之类的命令强迫机器人表现出运动性能固有的敏捷性和力量。但是,仅带有任务奖励的培训引入了两个主要挑战:这些奖励容易剥削(奖励黑客),探索过程可能缺乏足够的方向 ...
0 0 0 2025/07/14 arXiv:2502.10894v1 computer1
个人治疗效果(ITE)估计需要调整人群之间具有不同治疗的协变性转移,而深层表示学习在学习协变量的平衡表示方面表现出了巨大的希望。但是,现有方法主要考虑二元治疗的情况。在本文中,我们认为治疗是连续变量的更实际和挑战性的情况(e ...
0 0 0 2025/07/14 arXiv:2312.10570v1 RRdec
我们解决了个性化的连续治疗效果(ICTE)估计问题,其中我们使用观察数据预测了任何连续价值治疗对个体的影响。此估计任务中的主要挑战是,在培训数据中,治疗分配的可能混淆与个人的协变量存在混淆,而在推断ICTE期间,需要对独立采样治疗进行预测。与依靠正规化器或不稳定的GAN培训的先前工作相反,我们主张通过独立采样治疗并推断出反事实的直接方法 ...
0 0 0 2025/07/14 arXiv:2401.15447v1 RRdec
零声音转换(VC)旨在将源扬声器的音色转换为任何以前看不见的目标扬声器,同时保留原始的语言内容。尽管取得了显着的进展,但在与地面真相记录的基础上达到一定程度的说话者相似性和自然性仍然构成了巨大的挑战。在本文中,我们提出了CTEFM-VC,这是一种零击VC框架,利用内容吸引的音色集合建模和流程匹配 ...
0 0 0 2025/07/14 arXiv:2411.02026v1 wenzhanwujian
我们介绍了音频Flamingo 3(AF3),这是一种完全开放的最先进的(SOTA)大型音频语言模型,可以在语音,声音和音乐中推动推理和理解。 AF3介绍:(i)AF-WHISPER,一种统一的音频编码器,使用新颖的策略训练了在所有3种语音,声音和音乐方式中进行联合表示的学习; (ii)灵活的,按需思考,使模型在回答之前可以做出经过思考的推理; (iii)多转,多审计聊天; (iv)长时间的音频理 ...
0 0 0 2025/07/14 arXiv:2507.08128v1 zhangqi33
现有方法通过合并辅助一对多的分配来增强检测 Transformer 的训练。在这项工作中,我们将模型视为一个多任务框架,同时执行一对一和一对一的预测。我们研究了在这两个训练目标中,每个组件在 Transformer 解码器中的作用,包括自我注意力,交叉注意力和前馈网络 ...
0 0 0 2025/07/14 arXiv:2412.10028v4 argbunint256
LiDAR语义分割在自主驾驶中起着至关重要的作用。现有的基于Voxel的LIDAR语义分割方法将统一分区应用于3D LiDAR Point Cloud,以基于笛卡尔/圆柱坐标形成结构化表示。尽管这些方法显示出令人印象深刻的性能,但现有基于体素的方法的缺点仍然存在两个方面:(1)它需要足够大的输入素分辨率分辨率,这带来了大量的计算成本和内存消耗 ...
0 0 0 2025/07/14 arXiv:2505.24634v2 wenzhanwujian

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)