一译 —— 文档和论文翻译、对照阅读、讨论和社区

Learning Interactive Real-World Simulators

基于互联网数据训练的生成模型彻底改变了文本、图像和视频内容的创建方式。也许生成模型的下一个里程碑是模拟响应人类、机器人和其他交互式代理所采取的动作的真实体验。现实世界模拟器的应用范围从游戏和电影中的可控内容创建，到纯粹在模拟中训练可直接部署在现实世界中的具体代理 ...

0 0 0 2025/01/22 arXiv:2310.06114v3 liukai

Advancing Agentic Systems: Dynamic Task Decomposition, Tool Integration and Evaluation using Novel Metrics and Dataset

大型语言模型 (LLM) 的进步通过实现动态、上下文感知的任务分解和自动化工具选择，正在彻底改变自主代理系统的开发。这些复杂的系统在各个行业中具有巨大的自动化潜力，可以管理复杂的任务，与外部系统交互以增强知识，并独立执行操作。本文提出了推动该领域发展的三个主要贡献： - 高级代理框架：处理多跳查询、生成和执行任务图、选择适当工具并适应实时变化的系统 ...

0 0 0 2025/01/22 arXiv:2410.22457v1 YONG

Unified Human-Scene Interaction via Prompted Chain-of-Contacts

人景交互（HSI）是实体人工智能和虚拟现实等领域的重要组成部分。尽管在运动质量和物理合理性方面取得了进步，但在 HSI 的实际应用之前，还需要进一步探索两个关键因素，即多功能交互控制和用户友好界面的开发。本文提出了一个统一的HSI框架UniHSI，它支持通过语言命令对多种交互进行统一控制 ...

0 0 0 2025/01/22 arXiv:2309.07918v5 liukai

Enhancing High-order Interaction Awareness in LLM-based Recommender Model

大型语言模型（LLM）通过将推荐任务转化为文本生成任务，在推荐任务中展现了突出的推理能力。然而，现有的方法要么忽视用户-项目高阶交互，要么无法有效地建模。为此，本文提出了一种增强的基于 LLM 的推荐器（ELMRec） ...

0 0 0 2025/01/22 arXiv:2409.19979v3 lty12358

Pegasus: The second connectivity graph for large-scale quantum annealing hardware

Pegasus 是一种图，与图 Chimera 相比，它在量子退火硬件的量子位之间提供了显着增强的连接性。这是自 2009 年推出 Chimera 并于 2011 年用于 D-Wave 第一个商用量子退火器以来，D-Wave 构建的量子退火器连接图的首次根本性变化。在本文中，我们描述了一种定义 Pegasus 连接性的算法，并提供了我们认为以图形方式可视化 Pegasus 的最佳方法，以便查看哪些 ...

0 0 0 2025/01/22 arXiv:1901.07636v1 odenkkk

Bridge-SR: Schrödinger Bridge for Efficient SR

语音超分辨率（SR）可以从低分辨率版本中生成更高采样率的波形，是语音恢复中长期存在的关键任务。之前的工作已经探索了不同数据空间中的语音 SR，但这些方法要么需要额外的压缩网络，要么表现出有限的合成质量和推理速度。受概率生成模型最新进展的推动，我们提出了 Bridge-SR，这是一种语音波形域中新颖且高效的任意至 48kHz SR 系统 ...

0 0 0 2025/01/22 arXiv:2501.07897v1 yyname

Deep Reinforcement Learning Guided Improvement Heuristic for Job Shop Scheduling

最近使用深度强化学习（DRL）解决作业车间调度问题（JSSP）的研究重点是构造启发式。然而，它们的性能仍然远未达到最优，主要是因为底层图表示方案不适合在每个构建步骤对部分解决方案进行建模。本文提出了一种新颖的 DRL 引导改进启发式方法来解决 JSSP，其中采用图表示来编码完整的解决方案 ...

0 0 0 2025/01/22 arXiv:2211.10936v3 liukai

InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling

本文旨在通过长而丰富的上下文（LRC）建模来提高视频多模态大语言模型（MLLM）的性能。因此，我们开发了新版本的 InternVideo2.5，重点是增强原始 MLLM 感知细粒度细节和捕获视频中长形式时间结构的能力 ...

0 0 0 2025/01/22 arXiv:2501.12386v1 15261487245

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）