arxiv的文档

arxiv 南京

个性签名 ...

How deep is knowledge tracing?

在理论认知科学中，高度结构化模型的参数具有直接的心理解释和高度复杂，通用的通用模型，这些模型的参数和表示很难解释。前者通常会提供更多关于认知的见解，但后者通常表现更好。最近，这种紧张局势在教育数据挖掘的领域中浮出水面，在这些领域中，一种深入的学习方法可以预测学生在一系列练习中进行锻炼时的表现 - 被称为深知识追踪或DKT ---证明了在该领域的中流台上具有惊人的性能优势，贝叶斯知识追踪或BKT ...

0 0 0 0 2025/08/03 arXiv:1604.02416v2 乐乐

PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

过程级别的奖励模型（PRM）对于复杂的推理和决策任务至关重要，其中每个中间步骤在推理过程中都起着重要作用。由于语言模型在推理过程中容易出现各种类型的错误，因此需要PRM具有细微的功能来检测现实世界中各种隐式错误类型。但是，当前的基准主要集中于步骤正确性，无法系统地评估PRMS的性能 ...

0 0 0 0 2025/08/03 arXiv:2501.03124v5 yang99

SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator

大型语言模型（LLMS）在各种自然语言处理任务中表现出非凡的表现。但是，由于它们的二次复杂性，它们的大小构成了巨大的挑战，尤其是在计算需求和推理速度方面。在这项工作中，我们确定了一个关键模式：某些看似毫无意义的分离器 Token （i ...

0 0 0 0 2025/08/02 arXiv:2412.12094v6 orion.zou

MoE-Loco: Mixture of Experts for Multitask Locomotion

我们提出了Moe-Loco，这是用于腿部机器人的多任务运动的专家（MOE）框架的混合物。我们的方法使一项政策能够处理各种地形，包括酒吧，坑，楼梯，斜坡和挡板，同时支持四足和双足步态。使用MOE，我们减轻了多任务增强学习中通常出现的梯度冲突，从而提高了训练效率和性能 ...

0 0 0 0 2025/08/02 arXiv:2503.08564v2 晚餐杀手

Unified Video Action Model

统一的视频和动作模型对机器人技术具有巨大的希望，其中视频为动作预测提供了丰富的场景信息，而动作为视频预测提供了动态信息。但是，有效地结合视频生成和动作预测仍然具有挑战性，而当前基于视频的方法则难以在行动准确性和推理速度中与直接策略学习的性能相匹配。为了弥合这一差距，我们介绍了统一的视频动作模型（UVA），该模型共同优化了视频和动作预测，以实现高准确性和有效的动作推断 ...

0 0 0 0 2025/08/02 arXiv:2503.00200v3 晚餐杀手

Video Language Planning

我们有兴趣在生成的视频和语言的空间中启用复杂的长马任务的视觉规划，并利用在互联网规模数据上预见的大型生成模型中的最新进展。为此，我们提出了视频语言计划（VLP），该算法由树木搜索过程组成，在该过程中，我们训练（i）视觉语言模型可以用作策略和价值功能，以及（ii）文本对视频模型作为动态模型。 VLP作为输入为长马任务指令和当前图像观察，并输出一个长期的视频计划，该计划提供了详细的多模式（视频和语言）规格，描述了如何完成最终任务 ...

0 0 0 0 2025/08/02 arXiv:2310.10625v1 晚餐杀手

Compositional Generative Modeling: A Single Model is Not All You Need

对大量数据训练的大型单片生成模型已成为AI研究中日益占主导地位的方法。在本文中，我们认为我们应该通过将较小的生成模型组合在一起来构建大型生成系统。我们展示了这种组成生成方法如何使我们能够以更高的数据有效的方式学习分布，从而可以在培训时对数据分布的一部分进行概括 ...

0 0 0 0 2025/08/02 arXiv:2402.01103v3 晚餐杀手

Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models

Trinity-RFT是一种通用，灵活且可扩展的框架，旨在加强大型语言模型的微调（RFT）。它是由脱钩的设计构建的，由（1）RFT核组成，该核核统一和概括了同步/异步，policy/policy/policy/off-policy以及RFT的在线/离线模式，（2）无缝整合，以使代理 - 环境互动以高效效率和稳健性以及（3）系统pipeliness ipline pipeliness ipline in floces-Environal互动。 Trinity-RFT可以轻松适应各种应用程序方案，并用作探索高级强化学习范式的统一平台 ...

0 0 0 0 2025/08/02 arXiv:2505.17826v2 anjianxiang001

Deep Knowledge Tracing and Dynamic Student Classification for Knowledge Tracing

在智能辅导系统（ITS）中，已经研究了在学习过程中追踪学生的知识状态数十年，以提供更多支持性的学习指示。在本文中，我们提出了一个知识追踪的新型模型，即i）捕获学生的学习能力，并在常规时间间隔中动态分配具有相似能力的不同群体，ii）将这些信息与被称为深知识跟踪的经常性神经网络体系结构相结合。实验结果证实，所提出的模型在预测学生绩效方面比用于学生建模的最先进的技术要好得多 ...

0 0 0 0 2025/08/02 arXiv:1809.08713v2 乐乐

Synthetic Combinations: A Causal Inference Framework for Combinatorial Interventions

考虑一个有$ N $异质单位和$ P $干预的设置。我们的目标是学习这些$ p $干预的任何组合的特定于单位的潜在结果，即 ...

0 0 0 0 2025/08/02 arXiv:2303.14226v2 bestenevoy