最近,ChatGPT的出现引起了计算语言学界的广泛关注。先前的许多研究表明,ChatGPT 在各种 NLP 任务上在自动评估指标方面取得了显着的性能。然而,ChatGPT 作为评估指标的能力仍有待探索 ...
神经渲染方法在各种学术和工业应用中显着提高了照片级真实感3D场景渲染的性能。最新的3D高斯喷射方法结合了基于图元的表示和体积表示的优点,实现了最先进的渲染质量和速度。然而,它通常会导致严重的炎症的高斯模型,尝试适应每个训练视图,而忽略了底层的场景几何形状...... ...
最近的研究提出利用大型语言模型 (LLM) 和上下文学习 (ICL) 来处理代码智能任务,而无需进行微调。 ICL 采用任务指令和一组示例作为演示,指导模型在不更新参数的情况下生成准确的答案。虽然 ICL 已被证明对于代码智能任务有效,但其性能在很大程度上依赖于所选的示例 ...
对于评估机器学习模型生成的或人类编写的文本的质量,人类评估是必不可少的且不可避免的。然而,人类评估非常难以重现,其质量也不稳定,阻碍了不同自然语言处理(NLP)模型和算法之间的公平比较。最近,当仅提供任务指令时,大型语言模型(LLM)在看不见的任务上表现出了卓越的性能 ...
大型语言模型(LLM)最近在代码生成方面取得了令人印象深刻的性能,为程序员在软件开发方面提供了革命性的帮助。然而,由于 LLM 的自回归性质,它们很容易在代码生成过程中受到错误累积的影响。一旦产生错误, LLM 只能继续生成以此为条件的后续代码,因为他们无法调整先前的输出 ...
ToolPlanner: A Tool Augmented LLM for Multi Granularity Instructions with Path Planning and Feedback
最近,工具增强的 LLM 受到越来越多的关注。根据指令,工具增强的 LLM 可以与各种外部工具进行多轮交互并提供最终答案。然而,以前的 LLM 接受的培训过于详细,其中包括 API 名称或参数,而真正的用户不会明确提及这些 API 详细信息 ...
以最少的人为干预完成复杂的计算机任务的自主代理有可能改变人机交互,显着提高可访问性和生产力。然而,现有的基准测试要么缺乏交互式环境,要么仅限于特定应用程序或领域的环境,无法反映现实世界计算机使用的多样性和复杂性,从而限制了任务的范围和代理的可扩展性。为了解决这个问题,我们推出了 OSWorld,这是第一个可扩展的、真实的多模式代理计算机环境,支持任务设置、基于执行的评估以及跨各种操作系统(例如 U ...
自回归(AR)模型将图像生成重新表述为下一个 Token 预测,展示了巨大的潜力,并成为扩散模型的强有力竞争对手。然而,类似于 ControlNet 的控制到图像生成在 AR 模型中仍然很大程度上未被探索。尽管受大型语言模型进步的启发,一种自然的方法是将控制图像标记为标记,并在解码图像标记之前将它们预填充到自回归模型中,但与 ControlNet 相比,它在生成质量方面仍然存在不足,并且效率低下 ...