视觉语言模型表现出令人印象深刻的功能,作为能够自动化各种计算机任务的计算机使用代理(CUAS)。随着其商业潜力的增长,最有能力的CUA系统的关键细节仍然关闭。由于这些代理人将越来越多地介导数字互动并代表我们执行结果决定,因此研究社区需要访问开放CUA框架以研究其能力,局限性和风险 ...
0 0 0 2025/09/28 arXiv:2508.09123v2 dqyzhwk
最近,交互式数字人类视频生成引起了广泛的关注,并取得了显着的进步。但是,构建可以实时与不同输入信号交互的实用系统对现有方法仍然具有挑战性,这种方法通常在繁重的计算成本和有限的可控性方面挣扎。在这项工作中,我们引入了一个自回归视频生成框架,该框架可以以流方式进行交互式多模式控制和低延迟外推 ...
0 0 0 2025/09/28 arXiv:2508.19320v2 yanghedada
多模式推理仍然是人工智能中的基本挑战。尽管基于文本的推理取得了长足的进步,但即使是GPT-O3等最先进的模型,也很难在多模式场景中保持强劲的性能。为了解决这一差距,我们介绍了一个标题辅助推理框架,该框架有效地弥合了视觉和文字方式 ...
0 0 0 2025/09/28 arXiv:2509.06079v1 15966829631
最近的研究表明,大型语言模型(LLMS)可以通过自我进行提高翻译质量。在本文中,我们通过将细化从句子级别扩展到文档级翻译,特别是专门针对文档对文档(doc2doc)翻译的改进,从而将其扩展到了这一想法。由于句子到句子(已发送2sent)和doc2oc翻译地址转换过程的不同方面,因此我们建议使用两个中间翻译的微调llms进行翻译改进,并结合了send2sent和doc2doc的优势 ...
0 0 0 2025/09/28 arXiv:2504.05614v1 luke
近年来,以LLM驱动的自动源代理已经成为有前途的方向。但是,这些LLM代理中的许多代理都是经验设计的或基于直觉的,通常缺乏系统的设计原理,从而导致多种代理结构具有有限的通用性和可扩展性。在本文中,我们主张通过结合计算机系统的见解来构建LLM代理 ...
0 0 0 2025/09/28 arXiv:2504.04485v1 aaaa1
卷积神经网络主要导致3D医疗图像分割,但可能受到小型接受场的限制。变形金刚通过自我注意捕获全球关系方面表现出色,但在高分辨率下受到高计算成本的挑战。最近,曼巴(Mamba)是一种状态空间模型,已成为顺序建模的有效方法 ...
0 0 0 2025/09/27 arXiv:2409.17675v1 chenyiyi
自主驾驶系统的开发在严重取决于模拟中复杂和多样化的交通情况的能力。在这种情况下,必须准确模拟摄像机,激光雷达或雷达等车辆传感器的能力。但是,当前的传感器模拟器利用游戏发动机(例如虚幻或统一),需要手动创建环境,对象和材料属性 ...
0 0 0 2025/09/27 arXiv:2005.03844v2 zhanguanglun
联合学习(FL)已成为分布式机器学习的有前途的框架,可以在不共享本地数据的情况下进行协作模型培训,从而保留隐私和增强安全性。但是,由于用户行为,偏好和设备特征之间的差异而产生的数据异质性为联合学习带来了重大挑战。大多数以前的作品都忽略了聚合权重的调整,仅依靠数据集大小进行重量分配,这通常会导致不稳定的收敛性和降低模型性能 ...
0 0 0 2025/09/27 arXiv:2503.15842v1 Nxixi

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)