arxiv的文档

arxiv 南京

个性签名 ...

MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models

通过扩展模型大小和训练数据，大型视觉语言模型 (LVLM) 在多模式任务中表现出了卓越的性能。然而，这些密集的 LVLM 会产生大量的计算成本，并激发了对稀疏专家混合 (MoE) 架构的探索。虽然 MoE 提高了参数效率，但有效应用 MoE 来同时对 LVLM 中的模态特定特征和跨模态关联进行建模仍然具有挑战性 ...

0 0 0 0 2025/10/24 arXiv:2508.09779v1 YGking

DiFaReli++: Diffusion Face Relighting with Consistent Cast Shadows

我们提出了一种在野外进行单视图面部重新照明的新颖方法。处理非漫反射效果（例如全局照明或投射阴影）长期以来一直是面部重新照明的一个挑战。先前的工作通常假设朗伯曲面、简化的照明模型或涉及估计 3D 形状、反照率或阴影贴图 ...

0 0 0 0 2025/10/24 arXiv:2304.09479v4 SOOKIE

Towards Time Series Reasoning with LLMs

多模态大语言模型（MLLM）在视觉等领域的理解和推理方面取得了巨大进步，但我们尚未看到时间序列取得如此广泛的成功。尽管之前关于时间序列 MLLM 的工作在时间序列预测方面表现出了良好的性能，但很少有工作展示如何将 LLM 用于自然语言的时间序列推理。我们提出了一种新颖的多模式时间序列 LLM 方法，该方法能够以强大的零样本性能学习跨各个领域的通用信息 ...

0 0 0 0 2025/10/24 arXiv:2409.11376v2 Peer

Efficient Pre-Training of LLMs via Topology-Aware Communication Alignment on More Than 9600 GPUs

大型语言模型 (LLM) 的缩放定律表明，通往机器智能的道路需要大规模的训练。因此，企业不断构建大规模的GPU集群，并推出跨越数千个计算节点的训练作业。然而，由于其复杂的通信模式，LLM 预训练面临着独特的挑战，其中 GPU 在特定组内以稀疏但大量的突发方式交换数据 ...

0 0 0 0 2025/10/24 arXiv:2509.15940v1 allen1000

SynTSBench: Rethinking Temporal Pattern Learning in Deep Learning Models for Time Series

深度学习的最新进展推动了时间序列预测的快速进步，但许多最先进的模型在实际应用中仍然难以实现稳健的性能，即使它们在标准基准数据集上取得了强劲的结果。这种持续存在的差距可归因于深度学习架构的黑盒性质和当前评估框架的固有局限性，这些框架往往缺乏对不同模型的具体优势和劣势提供清晰、定量洞察的能力，从而使针对特定预测场景选择适当模型变得复杂。为了解决这些问题，我们提出了一种综合数据驱动的评估范例 SynTSBench，它通过可编程特征配置系统地评估时间序列预测模型的基本建模能力 ...

0 0 0 0 2025/10/24 arXiv:2510.20273v1 faceboy

Orientation Matters: Making 3D Generative Models Orientation-Aligned

人类在关于规范姿势的强大先验的指导下，从单个图像中直观地感知物体的形状和方向。然而，由于训练数据不一致，现有的 3D 生成模型经常会产生不一致的结果，从而限制了它们在下游任务中的可用性。为了解决这一差距，我们引入了方向对齐的 3D 对象生成任务：从单个图像生成跨类别方向一致的 3D 对象 ...

0 0 0 0 2025/10/24 arXiv:2506.08640v1 wonglliam

Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains

通过可验证的奖励（RLVR）扩展增强学习到现实世界任务通常需要平衡客观和主观评估标准。但是，许多这样的任务缺乏单一的，明确的地面真相，很难为培训后语言模型定义可靠的奖励信号。尽管传统的基于偏好的方法提供了解决方法，但它们依靠难以解释的不透明奖励功能，并且容易出现虚假的相关性 ...

0 0 0 0 2025/10/24 arXiv:2507.17746v2 zhongzh

Compressing Large Language Models using Low Rank and Low Precision Decomposition

如今，大型语言模型 (LLM) 的大小令人望而却步，因此很难将其部署在内存受限的边缘设备上。这项工作介绍了 $\rm CALDERA$ ——一种新的训练后 LLM 压缩算法，该算法利用权重矩阵 $\mathbf{W}$ 固有的低秩结构，通过低秩、低精度分解将其近似为 $\mathbf{W} \approx \mathbf{Q} + \mathbf{L}\mathbf{R}$。这里，$\mathbf{L}$和$\mathbf{R}$是低秩因子，$\mathbf{Q}$、$\mathbf{L}$和$\mathbf{R}$的条目被量化 ...

0 0 0 0 2025/10/24 arXiv:2405.18886v2 youkbok

3DPR: Single Image 3D Portrait Relight using Generative Priors

在给定单眼肖像图像作为输入的情况下，渲染新颖的、重新照亮的人头视图本质上是一个受约束不足的问题。传统的图形解决方案是通过可微分渲染将输入图像显式分解为几何体、材质和光照；但这受到底层模型的多重假设和近似以及这些场景组件的参数化的限制。我们提出了 3DPR，这是一种基于图像的重新照明模型，它利用从光阶段捕获的多视图一次一光 (OLAT) 图像中学习到的生成先验 ...

0 0 0 0 2025/10/24 arXiv:2510.15846v1 SOOKIE

FIT: A Metric for Model Sensitivity

模型压缩对于在边缘设备上部署深度学习至关重要。通过权重和激活的量化实现的低精度表示可以减少推理时间和内存需求。然而，量化和预测模型对与此过程相关的变化的响应仍然具有挑战性 ...

0 0 0 0 2025/10/24 arXiv:2210.08502v1 boboshen