基于验证集绩效的早期停止是一种流行的方法,可以在监督学习的背景下找到不足和过度拟合之间的正确平衡。但是,在加强学习中,即使对于受监督的子问题(例如世界模型学习),由于数据集正在不断发展,早期停止也不适用。作为解决方案,我们提出了一种新的通用方法,该方法基于培训不足和过度拟合检测,在不用于培训的连续收集经验的一小部分中,动态调整了数据(UTD)比率 ...
0 0 0 2025/07/07 arXiv:2303.10144v1 EaKal
我们介绍了DabStep,这是一种新颖的基准,用于评估AI代理在现实的多步数据分析任务上。 DABSTEP包括从财务分析平台中衍生出的450多个现实世界挑战,要求模型将基于代码的数据处理与上下文推理相结合而不是异质文档。每个任务都需要一种迭代,多步骤解决方法的方法,在数据操作中测试功能,交叉引用多个来源以及确切的结果报告 ...
0 0 0 2025/07/07 arXiv:2506.23719v1 wdn
使用大型语言模型(LLM)的成本很高。但是,训练后的重量量化可以通过压缩其大小以使其大小以使其有限的内存和节省带宽来解决此问题。由于并非所有的重量维度都同样重要,因此这些方法通常依赖于灵敏度度量,这表明权重对损耗函数的元素影响,并用于预处理原始权重以更好地量化 ...
0 0 0 2025/07/07 arXiv:2503.01901v1 xiximayou
尽管LLM在各种NLP任务上表现出很强的性能,但值得注意的是,这些任务中的大多数都依赖于利用LLMS参数中编码的大量知识,而不是在没有先验知识的情况下解决新问题。在认知研究中,后者的能力被称为流体智能,这对于评估人类智能至关重要。关于流体智能评估的最新研究强调了LLMS能力的严重缺陷 ...
0 0 0 2025/07/07 arXiv:2502.07190v2 WillVV
基于大语言模型(LLM)并与工具和内存相互作用的代理AI系统在功能和范围方面已快速提高。但是,由于已显示LLM在多语言环境中挣扎,通常会导致性能降低和安全性降低,因此代理系统风险继承这些限制。这引起了人们对此类系统的全球可访问性的担忧,因为用英语以外的其他语言进行交互的用户可能会遇到不可靠或关键安全的代理行为 ...
0 0 0 2025/07/07 arXiv:2505.15935v1 wdn
视觉语言模型(vlm),例如夹,在图像级视觉感知方面展示了令人印象深刻的零样本传输能力。然而,这些模型在需要精确定位和识别的实例级任务中表现出有限的性能。之前的研究表明,结合视觉提示,例如彩色方框或圆圈,可以提高模型识别感兴趣物体的能力... ...
0 0 0 2025/07/07 arXiv:2306.04356v2 Archer
知识追踪( kt)是根据学生与智能辅导系统的历史交互来预测学生未来表现的问题。最近,许多工作从模型架构、对抗性增强等不同角度提出了许多将深度神经网络应用于 kt的特殊方法,这使得整体算法和系统变得越来越复杂 ...
0 0 0 2025/07/07 arXiv:2302.06881v2 smallz
由于其二次时间的复杂性,有效的注意力实现对于大型模型至关重要。幸运的是,注意通常表现出稀疏性,即 ...
0 0 0 2025/07/07 arXiv:2502.18137v5 zhangxinyu

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)