arxiv的文档

arxiv 南京

个性签名 ...

Dex1B: Learning with 1B Demonstrations for Dexterous Manipulation

为灵巧的手动操纵生成大规模的示范仍然具有挑战性，并且近年来提出了几种方法来解决这一问题。其中，生成模型已成为有希望的范式，从而有效地创造了多样化和物理上合理的示范。在本文中，我们介绍了Dex1b，这是一种由生成模型生产的大规模，多样化和高质量的演示数据集 ...

0 0 0 0 2025/07/01 arXiv:2506.17198v1 13718039169

Learning Image-adaptive 3D Lookup Tables for High Performance Photo Enhancement in Real-time

近年来，基于学习的方法越来越受欢迎，以增强照片的颜色和色调。但是，许多现有的照片增强方法要么带来不令人满意的结果，要么消耗过多的计算和内存资源，从而阻碍其应用于实际上在高分辨率图像（通常超过12百万像素）上。在本文中，我们学习图像自适应的3维查找表（3D LUTS），以实现快速稳固的照片增强功能 ...

0 0 0 0 2025/07/01 arXiv:2009.14468v1 howieeyang

FIRST: Teach A Reliable Large Language Model Through Efficient Trustworthy Distillation

大型语言模型（LLMS）在我们的日常生活中变得越来越普遍，导致人们期望LLM值得信赖 - 精确且精心校准（预测信心应与其基础真理正确性的可能性保持一致）。如今，微调已成为通过显着提高下游任务的准确性来调整模型来实用使用的最流行方法。尽管取得了很高的准确性，但我们发现，由于“调谐引起的错误校准”，微调仍然与令人满意的可信赖性相距甚远 ...

0 0 0 0 2025/07/01 arXiv:2408.12168v2 ka

VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning

Vision语言导航（VLN）是体现AI的核心挑战，要求代理使用自然语言指令导航现实世界环境。当前基于语言模型的导航系统在离散拓扑图上运行，将路径计划限制为预定义的节点连接。我们提出了VLN-R1，这是一个端到端的框架，利用大型视觉模型（LVLM）将以自我为中心的视频流直接转化为连续导航动作，采用基于GRPO的培训，灵感来自DeepSeek-R1 ...

0 0 0 0 2025/07/01 arXiv:2506.17221v2 jesson

Neural Dueling Bandits: Preference-Based Optimization with Human Feedback

上下文对决匪徒用于建模匪徒问题，其中学习者的目标是使用观察到的嘈杂的人类偏好反馈在过去的上下文中找到给定上下文的最佳手臂。但是，现有算法假定奖励函数是线性的，在许多现实生活应用程序（例如在线建议或对Web搜索结果排名）中，它可能是复杂且非线性的。为了克服这一挑战，我们使用神经网络使用先前选择的武器的偏好反馈来估算奖励功能 ...

0 0 0 0 2025/07/01 arXiv:2407.17112v2 syhhh

Robust Contrastive Learning Using Negative Samples with Diminished Semantics

由于发展了更有效的对比学习方法，因此无监督的学习最近取得了出色的进步。但是，CNN容易依赖于人类认为非语义的低级特征。这种依赖性已被猜想引起对图像扰动或域移位缺乏鲁棒性 ...

0 0 0 0 2025/07/01 arXiv:2110.14189v2 15966829631

Hogwild! Inference: Parallel LLM Generation via Concurrent Attention

大型语言模型（LLMS）已经证明了通过高级推理，长形成内容生成和工具使用来解决日益复杂的任务的能力。解决这些任务通常涉及长时间的推理时间计算。在人类问题解决中，加快工作的共同策略是协作：将问题分为子任务，同时探索不同的策略，等等 ...

0 0 0 0 2025/07/01 arXiv:2504.06261v3 remaper

Training Language Models to Self-Correct via Reinforcement Learning

自我纠正是大型语言模型（LLM）的高度理想能力，但一直发现它在现代LLM中基本上是无效的。当前的训练自校正方法通常取决于多个模型，更高级的模型或其他形式的监督。为了解决这些缺点，我们开发了一种多转弯的在线增强学习方法（RL）方法，该方法得分可显着提高LLM使用完全自我生成的数据的自我纠正能力 ...

0 0 0 0 2025/07/01 arXiv:2409.12917v2 syhhh

Listwise Reward Estimation for Offline Preference-based Reinforcement Learning

在加强学习（RL）中，设计精确的奖励功能仍然是一个挑战，尤其是在与人类意图保持一致时。引入了基于偏好的RL（PBRL），以通过从人类反馈中学习奖励模型来解决这个问题。但是，现有的PBRL方法具有局限性，因为它们经常忽略表明偏好相对强度的二阶偏好 ...

0 0 0 0 2025/07/01 arXiv:2408.04190v1 zengyanxiang

LLM2Rec: Large Language Models Are Powerful Embedding Models for Sequential Recommendation

顺序推荐旨在通过对类似用户或项目的历史行为进行协作过滤（CF）信号进行建模来预测用户的未来交互。传统的顺序推荐器主要依赖于基于ID的嵌入，该嵌入方式通过高阶共发生模式捕获CF信号。但是，这些嵌入完全取决于过去的相互作用，缺乏可转移的知识来推广到看不见的领域 ...

0 0 0 0 2025/07/01 arXiv:2506.21579v1 18746307039