AI编程工具可实现强大的代码生成,并且最近的原型试图通过主动的AI代理来减少用户的努力,但是它们对编程工作流程的影响仍未得到探索。我们介绍和评估Codellaborator,这是一种设计探针LLM代理,该代理商根据编辑活动和任务上下文启动编程帮助。我们探索了三个接口变体,以评估越来越明显的AI支持之间的权衡:仅及时的,主动的代理和具有存在和上下文的主动代理(Codellaborator) ...
机器学习中最近的许多胜利取决于调整良好的超参数。这在增强学习(RL)中尤为突出,在该学习中,配置的小变化可能导致失败。尽管调整超参数的重要性仍然很昂贵,并且通常以幼稚而费力的方式进行 ...
宇宙速度场是对总物质分布的无偏探针,但在中间和高红移处直接测量的挑战是具有挑战性的。大尺度速度场通过动力学Sunyaev-Zeldovich(KSZ)效应在宇宙微波背景(CMB)中印记。我们通过将二次估计量应用于CMB温度图和星系的3D位置,从KSZ效应中执行大规模速度场的第一个3D重建 ...
我们介绍了一个新颖的指标,以使用碎片的相互作用图来量化国际象棋位置的脆弱性。这个脆弱得分$ f $捕捉到位置内的紧张局势,并是游戏中倾斜点的有力指标。在著名的游戏中,最大的脆弱性通常与以出色的举动为标志性的决定性时刻保持一致 ...
强化学习(RL)及其与深度学习的整合在各种机器人控制任务中取得了令人印象深刻的表现,从运动计划和导航到端到端的视觉操作。但是,仅通过使用数据来保证在无模型RL中稳定稳定性。从控制理论的角度来看,稳定性是任何控制系统的最重要属性,因为它与机器人系统的安全性,鲁棒性和可靠性密切相关 ...
我们推出盖亚(Gaia),这是通用人工智能助理的基准,如果解决 ...
生成单元测试是软件开发中的至关重要的任务,要求程序员大量时间和精力。大型语言模型(LLMS)的出现引入了单元测试脚本生成的新颖途径。这项研究旨在通过实验研究LLM的有效性,特异性地说明了Chatgpt,用于生成Python程序的单元测试脚本,以及生成的测试用例与现有单位测试生成器(Pynguin)生成的测试案例的比较 ...
在最近的AI推理的最新发展中,大型语言模型(LLMS)经过培训以自动生成经过思考的推理步骤,这些步骤在数学和编码任务上表现出了令人信服的性能。但是,当在推理过程中混合偏见以形成强烈的逻辑论点时,它可能会导致更有害的结果并进一步引起幻觉。在本文中,我们根据烧烤数据集对DeepSeek-R1的8B和32B变体进行了评估,并研究了通过推理步骤引起并放大的偏差 ...