大型语言模型(LLM)表现出了各种复杂任务的熟练程度。 LLM的一种重要应用是应对软件工程挑战,尤其是通过根据用户报告的问题修复代码来解决GITHUB上的现实世界任务。但是,许多当前的方法依赖于专有的LLM,这限制了可重复性,可访问性和透明度 ...
语言模型(LMS)最近结合了由路由器和一系列专家组成的专家层的混合物,以扩大其参数计数,并且鉴于固定的计算预算。在以前的努力的基础上,表明 Token 专家分配主要受 Token 身份和位置的影响,我们追踪相似性通知的文本对的路由决策,以评估学到的 Token 杂物分配的上下文敏感性。我们观察到编码层中的路由主要取决于(语义)关联,但是上下文提示提供了额外的细化层 ...
在本文中,我研究了AI驱动的推荐系统(RSS)所带来的道德和人类学挑战,这些挑战已成为塑造数字环境和社交互动的核心。通过策划个性化内容,RSS不仅反映了用户的偏好,还可以在社交媒体,娱乐平台和电子商务上积极建立个人体验。尽管无处不在,但RSS的道德含义仍然不足以探索,即使对隐私,自主权和心理福祉的担忧加剧了 ...
近年来,类人形机器人引起了极大的关注。增强学习(RL)是控制整个人形机器人身体的主要方法之一。 RL使代理可以通过在任务奖励的指导下从环境互动中学习来完成任务 ...
从可验证的奖励(RLVR)中学习的强化学习已被广泛用作提高大语言模型的推理能力的事实上的方法,并在数学和竞争性编程任务等可验证的域中取得了显着的成功。但是,当应用于代理环境时,RLVR的功效会大大降低。这些设置的特征是多步,复杂的问题解决,即使对于Frontier LLM,也会导致高失败率,因为奖励景观对于通过常规RLVR而言有效的模型培训太稀疏 ...
端到端的自主驾驶需要对复杂和多样化的交通环境进行适应性和强大的处理。但是,普遍的单模计划方法试图学习整体政策,同时努力获得多样化的驾驶技能来处理各种情况。因此,本文提出了Geminus,这是Experts的混合物端到端的自主驾驶框架,该驾驶框架具有全球专家,场景自适应专家小组,并配备了双感知路由器 ...
模仿学习的最新进展导致了基于 Transformer 的行为基础模型(BFM),该模型可以对人形生物剂进行多模式,类人类的控制。虽然在零发的稳健行为上表现出色,但BFM通常需要精心及时的及时工程来完成特定任务,并可能产生次优的结果。我们介绍了“任务 Token ”,这是一种有效地量身定制BFM的特定任务的方法,同时保留其灵活性 ...
前向后的表示(FB)是最近提出的框架(Touati等人,2023; Touati&Ollivier,2021),旨在为在给定加强学习(RL)环境中指定的任何新任务(无需培训新任务)提供零射击的有效政策。在这里,我们解决了FB模型培训的两个核心局限性 ...
无监督的强化学习(RL)的目的是培训预训练药物,可以解决复杂环境中的各种下游任务。尽管最近取得了进步,但现有方法可能需要几个局限性:它们可能需要在每个下游任务上运行RL过程才能达到令人满意的性能,他们可能需要访问具有覆盖范围良好或特定于任务特定示例的数据集,或者可能会预先培训的政策,或者与未经治疗的损失相关,而这些损失与关注的下游任务相关。在本文中,我们引入了一种新颖的算法,将无监督的RL定期化,以模仿未标记的行为数据集的轨迹 ...
医疗图像是在具有较大视野的高分辨率上获取的,以捕获临床决策所需的细粒度。因此,培训有关医学图像的深度学习模型可能会产生巨大的计算成本。在这项工作中,我们应对缩减医学图像的挑战,以提高下游计算效率,同时保持与临床相关的功能 ...