2022年,随着ChatGPT的发布,大规模语言模型获得了广泛关注。 ChatGPT 不仅在参数和预训练语料规模上超越了之前的模型,而且通过对大量高质量的人工标注数据进行微调,实现了革命性的性能提升。这一进展让企业和研究机构认识到,构建更智能、更强大的模型依赖于丰富且高质量的数据集 ...
Edge-AI 是边缘计算和人工智能 (AI) 的融合,已成为一种有前途的范例,可以在靠近用户的网络边缘部署先进的 AI 模型。在 Edge-AI 中,联合持续学习(FCL)已成为一种命令式框架,它融合了来自不同客户的知识,同时保护数据隐私,并在学习新任务时保留以前任务的知识。通过这样做,FCL旨在确保学习模型在动态和分布式环境中稳定可靠的性能 ...
我们推出了 Byte Latent Transformer (BLT),这是一种新的字节级 LLM 架构,它首次将基于标记化的 LLM 性能大规模与推理效率和鲁棒性方面的显着改进相匹配。 BLT 将字节编码为动态大小的补丁,作为主要的计算单元。补丁根据下一个字节的熵进行分段,在数据复杂性增加时分配更多的计算和模型容量 ...
在本文中,我们提出了一个系统的努力,以设计,评估和实施现实的对话推荐系统(CRS)。我们系统的目的是允许用户输入自由形式的文本以请求建议,然后收到相关和多样的项目列表。虽然先前关于合成查询的工作使用1-3个工具增强了大语言模型(LLMS),但我们认为,对于有效处理真实的用户请求,必须使用更广泛的工具箱 ...
这份多模态大语言模型 (MLLM) 调查和应用指南探索了快速发展的 MLLM 领域,研究了它们的架构、应用程序以及对人工智能和生成模型的影响。从基本概念开始,我们深入研究 MLLM 如何集成各种数据类型,包括文本、图像、视频和音频,以使复杂的人工智能系统能够进行跨模式理解和生成。它涵盖了培训方法、架构组件以及各个领域的实际应用等基本主题,从视觉讲故事到增强的可访问性 ...
本文提出了一种先进的数学问题解决框架 LLaMA-Berry,用于增强大型语言模型(LLM)的数学推理能力。该框架将蒙特卡罗树搜索(MCTS)与迭代自精炼相结合来优化推理路径,并利用成对奖励模型来全局评估不同的路径。通过利用 LLM 的自我批评和重写能力,应用于 MCTS (SR-MCTS) 的 Self-Refine 通过促进对解决方案空间的更有效探索,克服了传统逐步和贪婪搜索算法的低效率和局限性 ...
在本文中,我们认为通常用于离线评估顺序推荐系统的范式不适合评估基于强化学习的推荐系统。我们发现大多数现有的基于强化学习的推荐的离线评估实践都是基于下一项预测协议,并详细说明了这种评估协议的三个缺点。值得注意的是,它无法反映强化学习 (RL) 预期带来的潜在好处,同时隐藏了某些离线 RL 代理的关键缺陷 ...
因果发现旨在根据观测数据估计变量之间的因果结构。大型语言模型 (LLM) 通过推理与变量相关的元数据而不是其实际数据值,提供了解决因果发现问题的新视角,这种方法称为基于知识的因果发现。在本文中,我们研究了小语言模型(SLM,定义为参数少于 10 亿个 LLM)的能力,以及基于提示的学习以实现基于知识的因果发现 ...
大型语言模型(LLM)在许多自然语言任务中表现出令人印象深刻的能力。然而,自回归生成过程使得LLM在进行多步推理时容易产生错误、幻觉和不一致陈述的。在论文中,通过将LLM的多步推理思维视为式搜索问题,我们的目标是通过引入Q*来解决病理学问题,Q*是一个通用、通用敏捷的框架,用于深思熟虑的规划指导LLM解码过程... ...
数据处理在当前的多模态模型训练中发挥着重要作用。在本文中。我们对现代多模态模型训练中使用的常见数据处理技术进行了全面回顾,重点关注扩散模型和多模态大语言模型(MLLM) ...