arxiv的文档

arxiv 南京

个性签名 ...

FIT: A Metric for Model Sensitivity

模型压缩对于在边缘设备上部署深度学习至关重要。通过权重和激活的量化实现的低精度表示可以减少推理时间和内存需求。然而，量化和预测模型对与此过程相关的变化的响应仍然具有挑战性 ...

0 0 0 0 2025/10/24 arXiv:2210.08502v1 boboshen

InfMAE: A Foundation Model in the Infrared Modality

近年来，基础模型席卷了计算机视觉领域，促进了不同模式下各种任务的开发。然而，如何设计红外基础模型仍然是一个悬而未决的问题。在本文中，我们提出了 InfMAE，这是红外模态的基础模型 ...

0 0 0 0 2025/10/24 arXiv:2402.00407v2 18804024672

MetaAgent: Automatically Constructing Multi-Agent Systems Based on Finite State Machines

大型语言模型 (LLM) 已证明能够解决多智能体系统中的各种实际任务。然而，现有的人工设计的多智能体框架通常仅限于一小组预定义的场景，而当前的自动化设计方法也受到一些限制，例如缺乏工具集成、依赖外部训练数据以及僵化的通信结构。在本文中，我们提出了 MetaAgent，一种基于有限状态机的框架，可以自动生成多代理系统 ...

0 0 0 0 2025/10/24 arXiv:2507.22606v1 louishsu

DeepWideSearch: Benchmarking Depth and Width in Agentic Information Seeking

当前的搜索代理从根本上缺乏同时对多跳检索进行深度推理和大规模信息收集的能力，这对于综合市场分析和业务开发等实际应用来说是一个关键缺陷。为了弥补这一差距，我们引入了 DeepWideSearch，这是第一个明确设计用于评估智能体在信息搜索中整合深度和宽度的基准。在 DeepWideSearch 中，代理必须处理大量数据，每个数据都需要对多跳检索路径进行深度推理 ...

0 0 0 0 2025/10/24 arXiv:2510.20168v1 麦兜

Atom-Searcher: Enhancing Agentic Deep Research via Fine-Grained Atomic Thought Reward

Large language models (LLMs) exhibit remarkable problem-solving abilities, but struggle with complex tasks due to static internal knowledge.检索增强的生成（RAG）增强了对外部信息的访问，但由于严格的工作流程，多跳的推理和战略搜索仍然有限。 Recent advancements in agentic deep research empower LLMs to autonomously reason, search, and synthesize information. ...

0 0 0 0 2025/10/24 arXiv:2508.12800v3 十门山几

On Learning Multi-Modal Forgery Representation for Diffusion Generated Video Detection

来自扩散模型的大量合成视频对信息安全和真实性构成威胁，导致对生成内容检测的需求不断增加。然而，现有的视频级检测算法主要集中于检测面部伪造，通常无法识别具有多种语义的扩散生成的内容。为了推动视频取证领域的发展，我们提出了一种名为多模态检测（MM-Det）的创新算法，用于检测扩散生成的视频 ...

0 0 0 0 2025/10/24 arXiv:2410.23623v3 sun.jiping

Rotate Both Ways: Time-and-Order RoPE for Generative Recommendation

生成推荐器（通常是基于 Transformer 的自回归模型）从用户的交互历史记录中预测下一个项目或操作。它们的有效性取决于模型如何表示交互事件在序列中发生的位置（离散索引）以及它在挂钟时间中发生的时间。流行的方法通过学习嵌入或相对注意偏差来注入时间 ...

0 0 0 0 2025/10/24 arXiv:2510.20455v1 lyq1

MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation

使用扩散 Transformer （DiT）生成长视频的瓶颈是完全注意力与序列长度的二次缩放。由于注意力高度冗余，输出由一小部分查询密钥对主导。现有的稀疏方法依赖于分块粗略估计，其精度-效率权衡受到块大小的限制 ...

0 0 0 0 2025/10/24 arXiv:2510.18692v1 bnexx

Low-Frequency First: Eliminating Floating Artifacts in 3D Gaussian Splatting

3D高斯裂（3DGS）是3D重建的强大且在计算上有效的表示。尽管具有优势，但3DGS通常会产生浮动伪像，这些伪影是从实际的几何形状脱离的错误结构，并显着降低了视觉保真度。尚未完全探索引起这些伪像的基本机制，特别是在低质量初始化方案中 ...

0 0 0 0 2025/10/24 arXiv:2508.02493v3 zhifeiji

Noise-robust voice conversion with domain adversarial training

过去几年，语音转换在录音室质量的测试场景下，在语音质量和说话人相似度方面取得了长足的进步。然而，在实际应用中，来自源说话人或目标说话人的测试语音可能会被各种环境噪声破坏，从而严重降低语音质量和说话人相似度。在本文中，我们提出了一种基于编码器-解码器的噪声鲁棒语音转换框架，该框架由说话者编码器、内容编码器、解码器和两个域对抗神经网络组成 ...

0 0 0 0 2025/10/24 arXiv:2201.10693v1 jack_j