arxiv的文档

arxiv 南京

个性签名 ...

3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning

构建紧凑而有益的3D场景表示形式对于有效的体现探索和推理至关重要，尤其是在长时间的复杂环境中。现有表示形式，例如以对象为中心的3D场景图，通过将场景建模为具有限制性文本关系的孤立对象，使空间关系过度简化，这使得难以解决需要细微的空间理解的查询。此外，这些表示缺乏积极探索和记忆管理的自然机制，从而阻碍了它们对终身自治的应用 ...

0 0 0 0 2025/07/20 arXiv:2411.17735v5 weanhear

Bridging the Gulf of Envisioning: Cognitive Design Challenges in LLM Interfaces

大型语言模型（LLMS）具有动态功能，并且似乎可以理解复杂而模棱两可的自然语言提示。但是，校准LLM的交互对于接口设计师和最终用户都具有挑战性。一个核心问题是我们对人类认知过程如何以执行行动的目标和形式意图开头的有限掌握，即使在既定的互动模型（例如诺曼的执行和评估）等既定互动模型中也是如此 ...

0 0 0 0 2025/07/20 arXiv:2309.14459v2 bambooliu

Learning to Cut by Watching Movies

视频内容的创建一直以令人难以置信的速度增长；但是，创建引人入胜的故事仍然具有挑战性，需要非平凡的视频编辑专业知识。许多视频编辑组件非常难以自动化，这主要是由于缺乏原始视频材料。本文重点介绍了计算视频编辑的新任务，即割伤合理性的任务 ...

0 0 0 0 2025/07/20 arXiv:2108.04294v3 En1gma3

ML-Agent: Reinforcing LLM Agents for Autonomous Machine Learning Engineering

大型语言模型（LLM）基于代理的出现已经显着推动了自主机器学习（ML）工程的发展。但是，大多数现有的方法在很大程度上取决于手动及时工程，无法根据各种实验经验进行适应和优化。为此，我们首次探讨了基于学习的代理ML的范式，LLM代理通过使用在线增强学习（RL）对ML任务进行交互式实验来学习 ...

0 0 0 0 2025/07/20 arXiv:2505.23723v1 wowzhangji

LoopSplat: Loop Closure by Registering 3D Gaussian Splats

基于3D高斯夹层（3DG）的同时定位和映射（SLAM）最近显示出对更准确，密集的3D场景地图的希望。但是，现有的基于3DGS的方法无法通过循环封闭和/或全局捆绑捆绑调整来解决场景的全局一致性。为此，我们提出了LoopsPlat，该LoopsPlat将RGB-D图像作为输入，并使用3DGS子包和框架对模型跟踪执行密集映射 ...

0 1 0 0 2025/07/20 arXiv:2408.10154v2 GAX

MLLM-Based UI2Code Automation Guided by UI Layout Information

将用户界面转换为代码（UI2Code）是网站开发的关键步骤，这是耗时且劳动力密集的。 UI2Code的自动化对于简化此任务至关重要，有益于提高发展效率。该任务存在基于深度学习的方法；但是，他们在很大程度上依赖大量标记的培训数据，并努力将其推广到现实世界中，看不见的网页设计 ...

0 0 0 0 2025/07/20 arXiv:2506.10376v1 bubble22333

HeterRec: Heterogeneous Information Transformer for Scalable Sequential Recommendation

连续推荐系统利用 Transformer 体系结构证明了捕获用户行为模式的非凡功能。这些系统的核心是构建有效项目表示形式的关键挑战。传统方法通过简单的串联或基本神经体系结构采用特征融合来创建统一表示序列 ...

0 0 0 0 2025/07/20 arXiv:2503.01469v3 plain

A disciplined approach to neural network hyper-parameters: Part 1 -- learning rate, batch size, momentum, and weight decay

尽管在过去的几年中，深度学习为图像，语音和视频处理的应用取得了令人眼花spection乱的成功，但大多数培训都是对次优的超参数的培训，需要不必要的较长的培训时间。设置超参数仍然是一门黑色艺术，需要多年的经验才能获得。该报告提出了几种有效的方法来设置高参数，从而大大减少训练时间并改善绩效 ...

0 0 0 0 2025/07/20 arXiv:1803.09820v2 18801130956

TTS-CtrlNet: Time varying emotion aligned text-to-speech generation with ControlNet

文本到语音（TTS）的最新进展使自然语音综合，但精细的，随着时间的变化情绪控制仍然具有挑战性。现有方法通常只允许语音级控制，并且需要使用大型情感语音数据集进行完整的模型进行微调，这会降低性能。受到控制网络中现有模型的启发（Zhang等，2023），我们提出了第一种基于控制网络的基于控制网的方法，用于可控的流程匹配TTS（TTS-CTRLNET），该方法冻结了原始模型并引入了可训练的副本，以处理其处理其他条件 ...

0 0 0 0 2025/07/20 arXiv:2507.04349v1 xiaoyangnihao

TokenWeave: Efficient Compute-Communication Overlap for Distributed LLM Inference

大型语言模型（LLMS）的分布式推断甚至可以通过高速互连（例如NVLINK）引入高达20％的开销。已经提出了多种技术来通过将计算分解为更细粒度的任务并在完成后与子任务进行重叠的通信来减轻这些间接费用。但是，大型计算将细粒度分解为GPU上许多较小的计算会导致开销 ...

0 0 0 0 2025/07/20 arXiv:2505.11329v2 tea5