随着LLM代理人变得越来越有能力自主造成伤害,AI开发人员将依靠越来越复杂的控制措施来防止可能未对准的药物造成伤害。人工智能开发人员可以通过运行控制评估来证明他们的控制措施足够:测试练习,其中红色团队会产生试图颠覆控制措施的代理。为了确保控制评估准确地捕获未对准的风险,应将授予该红色团队的负担能够适应应在控制措施下部署的代理的能力概况 ...
0 0 0 2025/05/06 arXiv:2504.05259v1 leec
具有 Transformer 体系结构在内的强大基础模型,包括大型语言模型(LLMS),在各个行业中都引入了生成AI的新时代。基于这些基础模型,行业和研究社区目睹了大量的新应用。这些应用程序包括问答,客户服务,图像和视频生成以及代码完成等 ...
0 0 0 2025/05/06 arXiv:2407.09111v2 yli
时间知识图预测(TKGF)旨在根据历史上观察到的事件来预测未来事件。最近,大型语言模型(LLMS)表现出了显着的功能,对他们在时间知识图(TKG)推理的应用中产生了重大的研究兴趣。现有的基于LLM的方法已将历史事实或静态图表整合到LLMS中 ...
0 0 0 2025/05/06 arXiv:2501.11911v1 wozengyi
我们提出了Kimi-vl,这是一种有效的开放源代码混合物(MOE)视觉模型(VLM),它提供了高级的多模式推理,长期理解和强大的代理能力 - 同时仅激活其语言解码器的2.8B参数(Kimi-i-vl-vl-a3b)。 KIMI-VL在具有挑战性的领域表现出强大的性能:作为通用VLM,Kimi-VL在多转变代理任务中脱颖而出(e ...
0 0 0 2025/05/06 arXiv:2504.07491v2 zl1994
我们提出了图形神经扩散(GRAND),将图作为连续扩散过程的深度学习,并将图形神经网络(GNN)视为基础PDE的离散化。在我们的模型中,层结构和拓扑对应于时间和空间操作员的离散选择。我们的方法允许对广泛的GNN类的原则开发,这些新阶层能够解决图形学习模型的常见困境,例如深度,过度厚度和瓶颈 ...
0 0 0 2025/05/06 arXiv:2106.10934v2 tuxiaolv
大型语言模型(LLMS)在编程和数学推理任务中表现出强大的能力,但受到有限的高质量培训数据的约束。可以利用合成数据来增强微调结果,但是几个因素会影响该过程,包括模型大小,合成数据量,修剪策略和微调回合的数量。我们探索这些轴并研究哪些条件可以自我改善 ...
0 0 0 2025/05/06 arXiv:2504.18116v1 zhuangxialie
大型语言模型(LLMS)通常通过检索语义相似的信息或通过诸如经过思考链(链链)的结构提示来提高推理能力来提高性能。尽管两种策略都被认为是至关重要的,但尚不清楚哪些策略对模型性能产生更大的影响,或者两者的组合是否有必要。本文通过提出一个利用因果关系的知识图(kg)的随机漫步推理方法来回答这个问题 ...
0 0 0 2025/05/06 arXiv:2410.11588v1 15942315998
随着语言模型(LM)输出变得越来越自然,评估其质量的越来越困难。同时,通过缩放测试时间计算增加LMS的“思考”时间已证明是一种有效的技术,可以解决数学和代码等领域中的具有挑战性的问题。这提出了一个自然的问题:通过花费更多的测试时间计算,可以提高LM的评估能力吗?为了回答这一点,我们调查了使用推理模型LMS本地产生长期思考的推理 - 作为评估者 ...
0 0 0 2025/05/06 arXiv:2503.19877v1 leec

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)