arxiv的文档

arxiv 南京

个性签名 ...

Resource Constrained Deep Reinforcement Learning

在城市环境中，供应资源必须不断与“正确”位置（存在客户需求的地方）匹配，以改善生活质量。例如，必须定期将救护车与基站相匹配，以减少EMS（紧急管理系统）紧急事件的响应时间；必须将车辆（汽车，自行车，踏板车等）与对接站进行匹配，以减少共享出行系统中需求损失 ...

0 0 0 0 2025/06/26 arXiv:1812.00600v1 naristlia

GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement

我们提出了一种来自多视图图像的3D网格重建的新方法。我们的方法从使用基于 Transformer 的三光发电机和神经辐射场（NERF）模型的大型重建模型（例如LRM）汲取灵感，该模型在多视图图像上训练。但是，在我们的方法中，我们引入了几种重要的修改，使我们能够显着提高3D重建质量 ...

0 0 0 0 2025/06/26 arXiv:2406.05649v2 zhifeiji

MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models

随着大型语言模型（LLMS）从被动文本生成器到能够进行工具交互的主动推理代理发展，模型上下文协议（MCP）已成为动态工具发现和编排的标准化框架。尽管采用了广泛的行业，但现有的评估方法无法充分评估该新范式中的工具利用能力。本文介绍了MCP-Radar，这是第一个旨在通过新颖的五维方法测量来评估MCP框架中LLM性能的第一个综合基准测试：答案准确性，工具选择效率，计算资源效率，参数构建准确性和执行速度 ...

0 0 0 0 2025/06/26 arXiv:2505.16700v1 yyoyy

ObjectNav Revisited: On Evaluation of Embodied Agents Navigating to Objects

我们重新审视对象目标导航（ObjectNAV）的问题。在其最简单的形式中，ObjectNav定义为在未探索的环境中指定的标签指定的对象的任务。特别是，该代理在随机位置初始化，并在环境中姿势，并要求找到对象类别的实例e ...

0 0 1 1 2025/06/26 arXiv:2006.13171v2 18601752667

GOAT-TTS: LLM-based Text-To-Speech Generation Optimized via A Dual-Branch Architecture

尽管大型语言模型（LLM）通过离散的 Token 化范式彻底改变了文本到语音（TTS）的综合，但当前的体系结构在三个关键方面之间表现出基本的紧张局势：1）由语音提示量化量化引起的声学特征的不可逆转损失； 2）严格依赖精确对齐的及时的语音文本对，从而限制现实世界的部署； 3）在优化语音 Token 生成期间，灾难性忘记了LLM的本地文本理解。为了应对这些挑战，我们提出了一种基于LLM的文本到语音生成方法，该方法通过新颖的双分支体系结构（Goat-TTS）进行了优化。我们的框架介绍了两个关键的创新：（1）模态对准分支结合了语音编码器和投影仪，以捕获连续的声学嵌入，从而在副语言特征（语言，音色，情感）和没有成绩单依赖性的情况下实现了副语言特征（语言，音色，情感）之间的双向相关性；（2）语音产生分支在LLM的顶部K层上采用模块化微调进行语音 Token 预测，同时冷冻底部K层以保留基础语言知识 ...

0 0 0 0 2025/06/26 arXiv:2504.12339v2 zhangqi33

DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis

从单视图像中生成人头的高质量360度视图对于启用可访问的沉浸式触觉应用程序和可扩展的个性化内容创建至关重要。虽然全部产量的尖端方法仅限于建模现实的人头，但最新的基于扩散的动态 - 友善的头部合成的方法只能产生正面视图，并与视图一致性斗争，从而阻止其转换为真正的3D模型，以从任意角度渲染。我们介绍了一种新颖的方法，可产生完全一致的360度头视图，可容纳人类，风格化和拟人形式，包括眼镜和帽子等配件 ...

0 0 0 0 2025/06/26 arXiv:2503.15667v1 rcc

FDA Jamming Against Airborne Phased-MIMO Radar-Part I: Matched Filtering and Spatial Filtering

分阶段的多输入多输出（分阶段）雷达雷达越来越受到关注，因为它享受了波形多样性的优势和频率多样的阵列MIMO（FDA-MIMO）雷达的范围依赖性，而无需通过分区发射子阵列来牺牲相干处理增益。这个两部分的系列提出了一个受频率不同阵列（FDA）雷达启发的电子对策（ECM）的框架，称为FDA干扰，评估了其对抗机载的梯级模拟物雷达的有效性。该部分介绍了FDA干扰器的原理和类别，并提出了基于两个阶段MIMO雷达，分阶段阵列（PA）雷达和FDA-MIMO雷达的FDA干扰信号模型 ...

0 0 0 0 2025/06/26 arXiv:2408.03050v1 mmmmp

Detect Anything 3D in the Wild

尽管在近距离3D对象检测中深入学习取得了成功，但现有的方法在新型对象和摄像机配置中零弹性概括。我们介绍了Detany3D，这是一个迅速的3D检测基础模型，该模型能够仅使用单眼输入来检测任意摄像机配置下的任何新颖对象。培训3D检测的基础模型从根本上受到注释3D数据的可用性有限的限制，这激发了Detany3D利用广泛预先训练的2D基础模型嵌入的丰富先验知识来弥补这种稀缺性 ...

0 0 0 0 2025/06/26 arXiv:2504.07958v2 xiaozhi

Leaky Thoughts: Large Reasoning Models Are Not Private Thinkers

我们在用作个人代理的大型推理模型的推理轨迹中研究隐私泄漏。与最终输出不同，通常认为推理轨迹是内部和安全的。我们通过表明推理轨迹经常包含敏感用户数据来挑战这一假设，该数据可以通过提示注射或意外泄漏到输出中提取 ...

0 0 0 0 2025/06/26 arXiv:2506.15674v1 keve

How to Train Long-Context Language Models (Effectively)

我们研究语言模型（LM）的持续训练和监督微调（SFT），以有效利用长上下文信息。我们首先建立一个可靠的评估协议来指导模型开发——我们使用一组广泛的长上下文任务，而不是困惑或简单的大海捞针（NIAH）测试，并在 SFT 后使用指令数据评估模型因为这可以更好地揭示长上下文能力。在我们强大的评估的支持下，我们进行了彻底的实验来决定继续预训练的数据组合、指令调整数据集和许多其他设计选择 ...

0 0 0 0 2025/06/26 arXiv:2410.02660v2 sarah