arxiv的文档

arxiv 南京

个性签名 ...

Fine-grained List-wise Alignment for Generative Medication Recommendation

准确且安全的药物建议对于有效的临床决策至关重要，尤其是在多发性病例中。但是，现有系统依赖于忽略协同药物效应和潜在的不良药物相互作用（DDIS）的点上的预测范例（DDIS）。我们提出了Flame，这是一个针对大语言模型（LLMS）的细粒度列表对齐框架，从而逐渐逐渐产生药物清单 ...

0 0 1 25 2025/06/29 arXiv:2505.20218v1 高德帅

Emerging Properties in Unified Multimodal Pretraining

统一多模式的理解和产生在尖端专有系统中表现出了令人印象深刻的能力。在这项工作中，我们介绍了Bagel，这是一种开源的基础模型，该模型本地支持多模式的理解和产生。 Bagel是一种统一的，仅在大规模交织文本，图像，视频和Web数据中策划的数万亿个 Token 的统一模型 ...

0 0 0 0 2025/06/29 arXiv:2505.14683v2 lizijian9630

Beyond the Surface: Measuring Self-Preference in LLM Judgments

最近的研究表明，大型语言模型（LLMS）在担任法官时表现出自我的偏见，这意味着他们倾向于比其他模型产生的反应相比，倾向于自己的反应。现有方法通常通过计算法官模型分配给其自身响应的分数之间的差异以及分配给其他模型的响应的分数之间的差异来衡量这种偏见。但是，这种方法将自我偏爱偏见与响应质量混为一谈，因为法官模型的较高质量响应也可能导致积极得分差异，即使在没有偏见的情况下也是如此 ...

0 0 0 0 2025/06/29 arXiv:2506.02592v1 hhhhh

Omni3D: A Large Benchmark and Model for 3D Object Detection in the Wild

从单个图像中识别3D中的场景和对象是计算机视觉的长期目标，该目标具有机器人技术和AR/VR的应用。对于2D识别，大型数据集和可扩展解决方案已导致前所未有的进步。在3D中，现有的基准规模较小，而方法则专门研究几个对象类别和特定域，e ...

0 0 0 0 2025/06/29 arXiv:2207.10660v2 xiaozhi

Decoupled Distillation to Erase: A General Unlearning Method for Any Class-centric Tasks

在这项工作中，我们提出了脱钩的蒸馏（DELETE），这是一种以任何为中心的任务的一般且强大的学习方法。为了得出这一点，我们首先提出了一个理论框架，以分析学习损失的一般形式，并将其分解为遗忘和保留术语。通过理论框架，我们指出，一类先前的方法可以主要被表达为一种损失，在缺乏保留术语的监督的同时，隐含地优化了遗忘术语，扰乱了预训练的模型的分布，并努力地努力地保留了其余类的知识 ...

0 0 0 0 2025/06/29 arXiv:2503.23751v1 xixiaixixi

Knowledge-based Review Generation by Coherence Enhanced Text Planning

作为一项自然语言生成任务，产生信息丰富且连贯的评论文本是一项挑战。为了增强生成的文本的信息，现有解决方案通常学会从知识图（kgs）中复制实体或三倍。但是，他们缺乏选择和安排合并知识的总体考虑，这往往会导致文本不一致 ...

0 0 0 0 2025/06/29 arXiv:2105.03815v1 Ahmoon

Hierarchical and Collaborative LLM-Based Control for Multi-UAV Motion and Communication in Integrated Terrestrial and Non-Terrestrial Networks

在各种现实世界中，无人驾驶汽车（UAV）已被广泛采用。但是，多-UAV系统的控制和优化仍然是一个重大挑战，尤其是在动态和约束环境中。这项工作探讨了包括高海拔平台站（HAP）在内的集成地面和非事物网络中运行的多个UAV的联合运动和通信控制 ...

0 0 0 0 2025/06/29 arXiv:2506.06532v1 xsxsxsxsxs

Aligning Multimodal Representations through an Information Bottleneck

对比损失已被广泛用作多模式表示学习的工具。但是，从经验上观察到，他们的使用对于学习一致的表示空间无效。在本文中，我们认为这种现象是由表示空间中特定于模式的信息引起的 ...

0 0 0 0 2025/06/29 arXiv:2506.04870v1 15713628555

Learning to Reason under Off-Policy Guidance

大型推理模型（LRMS）的最新进展表明，诸如多步推理和自我反射之类的复杂行为可以通过可验证的奖励〜（\ textit {rlvr}）通过强化学习而出现。但是，现有的\ textIt {rlvr}方法本质上是``policy''，将学习限制为模型自己的输出，并且未能超出其初始能力以外的推理能力。为了解决此问题，我们介绍\ textbf {luffy}（\ textbf {l}收入以\ textbf {u} nder o \ textbf {ff} -polic \ textbf {y}指南），一个框架，可以增强\ textit \ textit {rlvr}的框架 ...

0 0 0 0 2025/06/29 arXiv:2504.14945v5 CaptainR

Robust Correction of Sampling Bias Using Cumulative Distribution Functions

不同的域和偏见的数据集可能会导致训练和目标分布之间的差异（称为协变量移动）。当前减轻此方法的方法通常依赖于估计训练和目标概率密度功能的比率。这些技术需要参数调整，并且在不同的数据集中可能不稳定 ...

0 1 0 0 2025/06/29 arXiv:2010.12687v1 zzr613