本文提出了一种先进的数学问题解决框架 LLaMA-Berry,用于增强大型语言模型(LLM)的数学推理能力。该框架将蒙特卡罗树搜索(MCTS)与迭代自精炼相结合来优化推理路径,并利用成对奖励模型来全局评估不同的路径。通过利用 LLM 的自我批评和重写能力,应用于 MCTS (SR-MCTS) 的 Self-Refine 通过促进对解决方案空间的更有效探索,克服了传统逐步和贪婪搜索算法的低效率和局限性 ...
在本文中,我们认为通常用于离线评估顺序推荐系统的范式不适合评估基于强化学习的推荐系统。我们发现大多数现有的基于强化学习的推荐的离线评估实践都是基于下一项预测协议,并详细说明了这种评估协议的三个缺点。值得注意的是,它无法反映强化学习 (RL) 预期带来的潜在好处,同时隐藏了某些离线 RL 代理的关键缺陷 ...
因果发现旨在根据观测数据估计变量之间的因果结构。大型语言模型 (LLM) 通过推理与变量相关的元数据而不是其实际数据值,提供了解决因果发现问题的新视角,这种方法称为基于知识的因果发现。在本文中,我们研究了小语言模型(SLM,定义为参数少于 10 亿个 LLM)的能力,以及基于提示的学习以实现基于知识的因果发现 ...
大型语言模型(LLM)在许多自然语言任务中表现出令人印象深刻的能力。然而,自回归生成过程使得LLM在进行多步推理时容易产生错误、幻觉和不一致陈述的。在论文中,通过将LLM的多步推理思维视为式搜索问题,我们的目标是通过引入Q*来解决病理学问题,Q*是一个通用、通用敏捷的框架,用于深思熟虑的规划指导LLM解码过程... ...
数据处理在当前的多模态模型训练中发挥着重要作用。在本文中。我们对现代多模态模型训练中使用的常见数据处理技术进行了全面回顾,重点关注扩散模型和多模态大语言模型(MLLM) ...
在写作和说话时,人们有时会停下来思考。尽管以推理为中心的作品通常将推理视为回答问题或完成代理任务的方法,但推理几乎隐含在所有书面文本中。例如,这适用于证明的字里行间未说明的步骤或对话背后的心理理论 ...
低秩适应(LoRA)使用可插入的低秩矩阵更新密集的神经网络层,是性能最好的参数高效微调范例之一。此外,它在跨任务泛化和隐私保护方面具有显着优势。因此,LoRA近年来备受关注,相关文献数量呈指数级增长 ...
半监督学习的令人印象深刻的进步促使研究人员探索其在计算机视觉领域的目标检测任务中的潜力。半监督目标检测 (SSOD) 利用小型标记数据集和较大的未标记数据集的组合。这种方法有效地减少了对大型标记数据集的依赖,这些数据集的获取通常既昂贵又耗时 ...
由生成式人工智能提供支持的企业聊天机器人正在成为提高员工生产力的关键应用程序。检索增强生成 (RAG)、大型语言模型 (LLM) 以及 Langchain 和 Llamaindex 等编排框架对于构建这些聊天机器人至关重要。然而,创建有效的企业聊天机器人具有挑战性,需要细致的 RAG 管道工程 ...
OpenAI 的 GPT-4 所展示的令人印象深刻的多模态功能引起了人们对多模态大型语言模型 (MLLM) 开发的浓厚兴趣。使用机器生成的指令跟踪数据对 MLLM 进行可视化指令调整已证明可以增强跨各种任务的零样本能力。然而,对控制指令数据质量的探索有限 ...