arxiv的文档

AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection

全域红外小目标检测 (Omni-IRSTD) 提出了巨大的挑战，因为单一模型必须同时无缝适应不同的成像系统、不同的分辨率和多个光谱带。当前的方法主要依赖于纯视觉建模范式，这些范式不仅要应对复杂的背景干扰和固有稀缺的目标特征，而且在发生重大域转移和外观变化的复杂全场景环境中表现出有限的泛化能力。在这项工作中，我们揭示了现有范例中的一个关键疏忽：忽略了描述成像参数和采集条件的现成辅助元数据，例如光谱带、传感器平台、分辨率和观察视角。为了解决这一限制，我们提出了辅助元数据驱动的红外小目标探测器（AuxDet），这是一种新颖的多模式框架，它是第一个将元数据纳入 IRSTD 范式以进行场景感知优化的框架。通过基于多层感知器（MLP）的高维融合模块，AuxDet 将元数据语义与视觉特征动态集成，指导每个单独样本的自适应表示学习。此外，我们使用一维卷积块设计了一个轻量级的预先初始化的增强模块，以进一步细化融合特征并恢复细粒度的目标线索。对具有挑战性的 WideIRSTD-Full 基准进行的大量实验表明，AuxDet 始终优于最先进的方法，验证了辅助信息在提高全域 IRSTD 任务的鲁棒性和准确性方面的关键作用。代码可从此 https URL 获取 ...

0 0 0 0 2025/12/10 arXiv:2505.15184v2 Fun_James

TextlessRAG: End-to-End Visual Document RAG by Speech Without Text

文档图像封装了丰富的知识，而语音查询的可移植性则实现了更广泛、灵活的应用场景。然而，之前的工作还没有探索通过直接在语音中提供的查询来通过视觉文档图像进行知识库问答。我们提出了 TextlessRAG，这是第一个针对大规模文档图像进行基于语音的问答的端到端框架。与之前的方法不同，TextlessRAG 消除了 ASR、TTS 和 OCR，直接解释语音、检索相关视觉知识，并在完全无文本的管道中生成答案。为了进一步提高性能，我们集成了布局感知重排序机制来优化检索。实验证明效率和准确性都有显着提高。为了推进这一方向的研究，我们还发布了第一个双语语音文档 RAG 数据集，其中包含中文和英文语音查询以及多模态文档内容。数据集和我们的管道都将在存储库中提供：此 https URL ...

0 0 0 0 2025/12/10 arXiv:2509.07538v2 lichenbook

Temporal Query Network for Efficient Multivariate Time Series Forecasting

足够对变量（又称通道）之间的相关性进行充分建模对于实现准确的多元时间序列预测（MTSF）至关重要。在本文中，我们提出了一种称为时间查询（TQ）的新型技术，以更有效地捕获多元相关性，从而改善MTSF任务中的模型性能。从技术上讲，TQ技术采用定期移动的可学习向量作为注意机制中的查询来捕获全局可变模式，而键和值则从原始输入数据中得出来编码本地，样本级相关性 ...

0 0 0 0 2025/12/10 arXiv:2505.12917v2 nnstake

LATTICE: Democratize High-Fidelity 3D Generation at Scale

我们推出了 LATTICE，这是一种用于高保真 3D 资产生成的新框架，它弥补了 3D 和 2D 生成模型之间的质量和可扩展性差距。虽然 2D 图像合成受益于固定的空间网格和完善的 Transformer 架构，但 3D 生成从根本上来说仍然更具挑战性，因为需要从头开始预测空间结构和详细的几何表面。现有 3D 表示的计算复杂性以及缺乏结构化和可扩展的 3D 资产编码方案加剧了这些挑战。为了解决这个问题，我们提出了 VoxSet，这是一种半结构化表示，可将 3D 资产压缩为锚定到粗体素网格的一组紧凑的潜在向量，从而实现高效且位置感知的生成。 VoxSet 保留了先前 VecSet 方法的简单性和压缩优势，同时将显式结构引入潜在空间，允许位置嵌入指导生成并实现强大的 Token 级测试时间扩展。基于这种表示，LATTICE 采用两级管道：首先生成稀疏体素化几何锚点，然后使用整流流变换器生成详细的几何结构。我们的方法本质上很简单，但支持任意分辨率解码、低成本训练和灵活的推理方案，在各个方面实现了最先进的性能，并为可扩展的高质量 3D 资产创建迈出了重要一步 ...

0 0 0 0 2025/12/10 arXiv:2512.03052v1 happy

Mesh RAG: Retrieval Augmentation for Autoregressive Mesh Generation

3D 网格是工业设计、游戏、模拟和机器人等应用的关键构建块。传统上，网格是由艺术家手动制作的，这是一个耗时且难以扩展的过程。为了自动化和加速这种资产创建，自回归模型已成为艺术网格生成的强大范例。然而，当前提高质量的方法通常依赖于更大的模型或更长的序列，这会导致更长的生成时间，并且它们固有的顺序性质强加了严格的质量与速度权衡。这种顺序依赖性也使增量编辑变得非常复杂。为了克服这些限制，我们提出了 Mesh RAG，这是一种新颖的、免训练的、即插即用的自回归网格生成模型框架。受语言模型 RAG 的启发，我们的方法通过利用点云分割、空间转换和点云注册来检索、生成和集成网格组件，从而增强了生成过程。这种基于检索的方法将生成与其严格的顺序依赖关系解耦，从而促进高效且可并行的推理。我们展示了 Mesh RAG 在各种基础自回归网格生成模型中的广泛适用性，表明它显着提高了网格质量，与顺序零件预测相比加快了生成速度，并支持增量编辑，所有这些都无需模型重新训练 ...

0 0 0 0 2025/12/10 arXiv:2511.16807v1 happy

Topology Sculptor, Shape Refiner: Discrete Diffusion Model for High-Fidelity 3D Meshes Generation

在本文中，我们介绍了拓扑雕塑、形状细化器 (TSSR)，这是一种基于离散扩散模型 (DDM) 生成高质量、艺术风格 3D 网格的新颖方法。我们使用 TSSR 的主要动机是实现高度准确的标记预测，同时实现并行生成，这比顺序自回归方法具有显着优势。通过允许 TSSR 同时“查看”所有网格 Token ，我们将效率和控制提升到了一个新的水平。我们通过三个关键创新来利用这种并行生成功能：1）解耦训练和混合推理，它将基于 DDM 的生成明显分为拓扑雕刻阶段和随后的形状细化阶段。这种战略解耦使 TSSR 能够有效捕获复杂的局部拓扑和总体全局形状。 2）改进的沙漏架构，具有通过面部顶点序列级旋转位置嵌入（RoPE）丰富的双向注意力，从而在网格结构中捕获更丰富的上下文信息。 3）一种新颖的连接损失，它充当拓扑约束，以进一步增强生成的网格的真实性和保真度。对复杂数据集的大量实验表明，TSSR 可以生成高质量的 3D 艺术家风格网格，能够以 1024^3 美元的卓越空间分辨率实现多达 10,000 个面孔。代码将发布在：此 https URL ...

0 0 0 0 2025/12/10 arXiv:2510.21264v2 happy

HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing

本研究引入了 HQ-Edit，这是一个基于指令的高质量图像编辑数据集，包含约 200,000 次编辑。与之前依赖属性指导或人工反馈构建数据集的方法不同，我们利用先进的基础模型（即 GPT-4V 和 DALL-E 3）设计了一个可扩展的数据收集管道。为了确保其高质量，首先在线收集不同的示例，进行扩展，然后用于创建高质量的双联画，其中包含带有详细文本提示的输入和输出图像，然后通过后处理确保精确对齐。此外，我们提出了两个评估指标：对齐和连贯性，以使用 GPT-4V 定量评估图像编辑对的质量。 HQ-Edits 高分辨率图像，细节丰富，并配有全面的编辑提示，大大增强了现有图像编辑模型的功能。例如，经过 HQ-Edit 微调的 InstructPix2Pix 可以获得最先进的图像编辑性能，甚至超越那些使用人工注释数据微调的模型。项目页面就是这个 https URL ...

0 0 0 0 2025/12/10 arXiv:2404.09990v1 ranking666

A Geometric Unification of Concept Learning with Concept Cones

可解释性的两种传统并存，但很少相互交流：概念瓶颈模型（CBM），它规定了概念应该是什么；稀疏自动编码器（SAE），它发现出现的概念。 CBM 使用监督来使激活与人类标记的概念保持一致，而 SAE 则依靠稀疏编码来发现新出现的激活。我们表明，这两种范式都实例化了相同的几何结构：每个范式都学习激活空间中的一组线性方向，其非负组合形成概念锥。因此，监督方法和无监督方法的区别并不在于种类，而在于它们如何选择这个锥体。基于这一观点，我们提出了两种范式之间的操作桥梁。 CBM 提供人类定义的参考几何形状，而 SAE 可以通过其学习的锥体接近或包含 CBM 的锥体的程度来评估。这个遏制框架产生了将归纳偏差（例如 SAE 类型、稀疏性或扩展比）与合理\footnote{我们采用 \citet{jacovi2020towards} 的术语联系起来的定量指标，它区分忠实的解释（准确反映模型计算）和合理的解释（与人类直觉和领域知识一致）。 CBM 概念通过构造（由人类选择或注释）是合理的，尽管不一定忠实于组织数据流形的真正潜在因素。}概念。使用这些指标，我们发现了稀疏性和扩展因子的“最佳点”，最大限度地提高了与 CBM 概念的几何和语义一致性。总体而言，我们的工作通过共享的几何框架统一了监督和无监督的概念发现，提供了原则性指标来衡量 SAE 进展并评估发现的概念与合理的人类概念的一致性 ...

0 0 0 0 2025/12/10 arXiv:2512.07355v1 18804024672

Instruction Tuning with GPT-4

先前的工作表明，使用机器生成的指令跟踪数据对大型语言模型（LLM）进行微调，使此类模型能够在新任务上实现卓越的零样本能力，并且不需要人工编写的指令。在本文中，我们首次尝试使用 GPT-4 生成用于 LLM 微调的指令跟踪数据。我们对指令调整 LLaMA 模型的早期实验表明，GPT-4 生成的 52K 英文和中文指令跟踪数据在新任务上比以前最先进的模型生成的指令跟踪数据具有更优越的零样本性能。我们还收集 GPT-4 的反馈和比较数据，以实现全面的评估和奖励模型训练。我们公开使用 GPT-4 生成的数据以及代码库 ...

0 0 0 0 2025/12/10 arXiv:2304.03277v1 macianzhi

Yume: An Interactive World Generation Model

Yume 旨在使用图像、文本或视频来创建一个交互式、现实和动态的世界，允许使用外围设备或神经信号进行探索和控制。在本报告中，我们提出了 \method 的预览版本，它从输入图像创建动态世界，并允许使用键盘操作探索世界。为了实现这种高保真和交互式视频世界的生成，我们引入了一个精心设计的框架，该框架由四个主要组件组成，包括相机运动量化、视频生成架构、高级采样器和模型加速。首先，我们量化相机运动，以使用键盘输入进行稳定的训练和用户友好的交互。然后，我们引入带有内存模块的 Masked Video Diffusion Transformer~（MVDT），用于以自回归方式生成无限视频。之后，采样器引入了免训练的抗伪影机制（AAM）和基于随机微分方程的时间旅行采样（TTS-SDE），以实现更好的视觉质量和更精确的控制。此外，我们通过对抗性蒸馏和缓存机制的协同优化来研究模型加速。我们使用高质量的世界探索数据集\sekai来训练\方法，并且在不同的场景和应用中取得了显着的效果。所有数据、代码库和模型权重均可在此 https URL 上获取。 Yume将每月更新以实现其最初的目标。项目页面：此 https URL ...

0 0 0 0 2025/12/10 arXiv:2507.17744v1 kevinson