arxiv的文档

arxiv 南京

个性签名 ...

Large Language Models Do Multi-Label Classification Differently

多标签分类在现实世界中很普遍，但是在这种情况下，大型语言模型（LLM）的行为被研究了。我们通过分析每个一代步骤中模型的输出分布来研究自回旋的LLM如何执行多标签分类，重点关注主观任务。我们发现他们的预测行为反映了生成所有相关标签所需的基础语言建模中的多个步骤，因为它们在每个步骤中都倾向于抑制所有标签 ...

0 0 0 0 2025/07/11 arXiv:2505.17510v1 munian

Past, Present, and Future of Simultaneous Localization And Mapping: Towards the Robust-Perception Age

同时本地化和映射（SLAM）在于环境模型（地图）的并发结构，以及在其中移动的机器人状态的估计。在过去的30年中，SLAM社区取得了惊人的进步，实现了大规模的现实应用程序，并见证了该技术向行业的稳定过渡。我们调查了SLAM的当前状态 ...

0 0 0 0 2025/07/11 arXiv:1606.05830v4 yojewong

A Systematic Evaluation of Large Language Models of Code

代码的大型语言模型（LMS）最近在完成自然语言描述中完成代码和综合代码方面表现出了巨大的希望。但是，当前的最新代码LMS（例如 ...

0 0 0 0 2025/07/11 arXiv:2202.13169v3 Yieww

MonoTher-Depth: Enhancing Thermal Depth Estimation via Confidence-Aware Distillation

热图像中的单眼深度估计（MDE）是在诸如雾，烟雾和弱光等具有挑战性条件下运行的机器人系统的至关重要技术。与基础RGB MDE模型相比，标记的热数据的有限可用性限制了热MDE模型的概括能力，该模型受益于各种场景中数百万图像的数据集。为了应对这一挑战，我们引入了一条新型的管道，该管道通过多功能RGB MDE模型通过知识蒸馏增强了热量MDE ...

0 0 0 0 2025/07/11 arXiv:2504.16127v1 dsy

Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation

自回归（AR）建模，以其下一句话的预测范式而闻名，是最先进的语言和视觉生成模型的基础。传统上，`` Token ''被视为最小的预测单元，通常是语言或视觉中量化贴片的离散符号。但是，2D图像结构的最佳 Token 定义仍然是一个空旷的问题 ...

0 0 0 0 2025/07/11 arXiv:2502.20388v2 pp5u

Generating Compositional Scenes via Text-to-image RGBA Instance Generation

文本到图像扩散生成模型可以以乏味的及时工程为代价产生高质量的图像。可以通过引入布局条件来提高可控性，但是现有方法缺乏布局编辑能力和对对象属性的细粒度控制。多层生成的概念具有解决这些局限性的巨大潜力，但是将图像实例同时生成场景组成限制了对细粒对象属性的控制，在3D空间和场景操作能力中相对定位 ...

0 0 0 0 2025/07/11 arXiv:2411.10913v1 wonglliam

QuadricFormer: Scene as Superquadrics for 3D Semantic Occupancy Prediction

3D占用预测对于强大的自主驾驶系统至关重要，因为它可以全面地感知环境结构和语义。大多数现有方法采用基于密集的体素的场景表示，忽略了驾驶场景的稀疏性，导致效率低下。最近的著作探索了基于稀疏高斯人的以对象为中心的表示，但它们的椭圆形形状先验限制了各种结构的建模 ...

0 0 0 0 2025/07/11 arXiv:2506.10977v1 yivan

Personalized Face Inpainting with Diffusion Models by Parallel Visual Attention

面部介绍在各种应用中很重要，例如照片修复，图像编辑和虚拟现实。尽管面部生成模型取得了重大进展，但确保在灌溉过程中保持一个人的独特面部身份仍然是一个难以捉摸的目标。当前的最新技术以Mystyle为例，需要资源密集的微调和每个新身份的大量图像 ...

0 0 0 0 2025/07/11 arXiv:2312.03556v1 哦吼

Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection

AI生成的图像（AIGIS），例如自然图像或面部图像，已经变得越来越重要但具有挑战性。在本文中，我们从一个新的角度开始，挖掘了AIGI检测中的失败概括的原因，名为\ textit {不对称现象}，在那里，训练有素的探测器倾向于过分地过度适应有限和单调的假模式，从而使功能空间变得高度狭窄，并使其变得高度狭窄，并变得非常低落，这是一个非常有效的综合性，并具有明确的范围，并有效地构成了有效的范围。一种潜在的补救措施是将预先训练的知识纳入视觉基础模型（较高级别），以扩大功能空间，从而减轻了模型过于适合假货 ...

0 0 0 0 2025/07/11 arXiv:2411.15633v4 Hollowyuk

SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound

大型语言模型（LLMS）通过音频编解码器具有显着高级的音频处理，这些音频编解码器将音频转换为离散 Token ，从而使语言建模技术应用于音频数据。但是，传统的编解码器通常在高比特率或狭窄领域（例如语音）中运行，并且缺乏有效语言建模所需的语义线索。在解决这些挑战时，我们介绍了Semanticodec，这是一种新颖的编解码器，旨在将音频压缩为每秒不到一百个标记，包括语音，一般声音和音乐，而不会损害质量 ...

0 0 0 0 2025/07/11 arXiv:2405.00233v2 rosyclouds