推荐系统需要优化各种类型的用户反馈,例如点击,喜欢和共享 ...
0 0 0 2025/05/18 arXiv:2504.05669v1 逸卿
运动预测是对未来代理状态或场景演变的预期,植根于人类认知,桥接感知和决策。它使智能系统(例如机器人和自动驾驶汽车)能够在动态的,人类参与的环境中安全起作用,并告知更广泛的时间序列推理挑战。随着方法,表示和数据集的进步,该领域已经取得了迅速的进步,反映在快速发展的基准结果中 ...
0 0 0 2025/05/18 arXiv:2505.09074v1 布朗瓶
AI的进度被评估的质量瓶颈而言,强大的LLM-AS-A-A-Gudge模型被证明是核心解决方案。通过更强的经过思考的推理,可以提高判断力的能力,从而激发了寻找培训此类模型思考的最佳食谱的需求。在这项工作中,我们介绍了J1,这是一种培训此类模型的增强学习方法 ...
0 0 0 2025/05/18 arXiv:2505.10320v1 fkxie
我们提出了一种基于模型的RL的方法,该方法在具有挑战性的Craftax-Classic基准上实现了新的最新性能,这是一个开放世界的2D生存游戏,要求代理商表现出广泛的一般能力 - 例如强大的概括,深度探索和长期推理。通过一系列旨在提高样本效率的仔细设计选择,我们的MBRL算法仅在100万个环境步骤后获得67.4%的奖励,大大优于Dreamerv3,它实现了53 ...
0 0 0 2025/05/18 arXiv:2502.01591v1 打笨蛋
推理语言模型(RLMS)的最新发展代表了大型语言模型中的一种新颖进化。特别是,DeepSeek-R1的最新发布产生了广泛的社会影响,并激发了研究社区的热情,以探索语言模型的明确推理范式。但是,DeepSeek尚未完全开源,其中包括DeepSeek-R1-Zero,DeepSeek-R1和蒸馏小型型号 ...
0 0 0 2025/05/18 arXiv:2505.00551v3 l_y
近年来,很少有射击和零拍的学习学会预测带有注释的实例的标签,因此引起了极大的关注。传统方法通常将频繁拍摄(FREQ-shot;具有丰富实例的标签),很少的射击和零击学习作为独特的挑战,仅针对这些情况之一优化了系统。然而,在现实世界中,标签出现差异很大 ...
0 0 0 2025/05/18 arXiv:2403.03863v1 Jooooe
llm交流的方式。信息提示对于指导llm产生所需的输出至关重要。然而,即时工程通常是乏味且耗时的,需要大量的专业知识,限制了其广泛使用... ...
0 0 0 2025/05/18 arXiv:2408.04560v1 mikecyz
尚不清楚量子机学习(QML)在处理实用和有意义的任务时是否具有真正的优势。将经典数据编码为量子状态是QML中的关键步骤之一。振幅编码已被广泛使用,因为它在将$ 2^{n} $编码$ n $ Qubits的$ 2^{n} $编码中 ...
0 0 0 2025/05/18 arXiv:2503.01545v1 oracle

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)