投机解码是一种有效的方法,可以通过使用小型草稿模型来预测目标模型的输出来加速大型语言模型(LLMS)的推理。但是,当将投机解码适应特定于域的目标模型时,由于域移位,通用草图模型的接受率大大下降。在这项工作中,我们系统地研究了用于培训领域草案模型的知识蒸馏技术,以提高其推测准确性 ...
GPT-4O样大型多模型(LMM)的出现提高了整合文本,视觉和语音方式的探索,以支持更灵活的多模式相互作用。现有的LMM通常是沿序列维度的模态的串联表示,并将其馈入大型语言模型(LLM)骨架。虽然序列维耦合对于模态积分很简单,但它通常很大程度上依赖于大规模数据来学习模态对齐 ...
基于结果监督的现有强化学习策略已被证明有效地增强了代码生成的大型语言模型(LLM)的性能。尽管基于过程监督的加强学习在处理多步推理任务方面表现出了巨大的希望,但其在代码生成中的有效性在很大程度上没有被忽视和不足。主要障碍源于构建高质量的流程监督数据的资源密集型性质,该数据需要大量的人类专业知识和计算资源 ...
高级大型语言模型(LLMS)在各种复杂和长篇小说的自然语言任务中取得了令人印象深刻的表现。但是,由于密钥价值(KV)缓存的记忆需求不断增加,在具有隐私问题的商品GPU(PC)上本地执行长篇小说LLM推理仍然具有挑战性。现有系统通常会识别重要的 Token ,并有选择地将其KV数据卸载到GPU和CPU内存 ...
我们介绍了一种新颖的表示,用于学习和生成计算机辅助设计(CAD)模型,形式为$ \ textIt {boundary代表} $(b-reps)。我们的表示统一了B-REP原始基以不同阶的连续几何特性(例如 ...
现有的大型语言模型(LLMS)面临遵循复杂说明的挑战,尤其是当存在多个限制和以并行,链接和分支结构进行组织时。一种直观的解决方案,即经营链(COT),预计普遍提高LLM的能力。但是,我们发现香草cot由于简单地解释说明的表面推理模式而对性能产生负面影响 ...
我们介绍了新颖的声学综合(NVAS)任务:鉴于在源观点上观察到的视线和声音,我们可以从看不见的目标视点综合该场景的声音吗?我们提出了一种神经渲染方法:视觉引导的声学合成(VIGAS)网络,该网络通过分析输入音频 - 视觉提示来综合空间中任意点的声音。为了对此任务进行基准测试,我们收集了两个首先的大规模多视频视听数据集,一个是合成的,一个是真实的。我们表明,我们的模型成功地说明了有关空间提示的原因,并在两个数据集上综合了忠实的音频 ...
终身价值(LTV)预测努力预测用户对特定项目的累积购买贡献,仍然是广告商热衷于解决的至关重要的挑战。精确的LTV预测系统增强了用户兴趣与精心设计的广告的一致性,从而为广告商带来了可观的利润。但是,由于缺乏在现实世界广告方案中通常观察到的数据,因此这个问题变得复杂 ...
Pyslam是一个开源的Python框架,用于视觉大满贯,支持单眼,立体声和RGB-D摄像机。它提供了一个灵活的界面,用于集成古典和现代的本地功能,使其适应各种大满贯任务。该框架包括不同的环闭合方法,体积重建管道以及对深度预测模型的支持 ...
尽管大型语言模型取得了进步,但Text2SQL仍然面临许多挑战,尤其是在复杂和特定领域的查询中。在财务中,数据库设计和财务报告的布局在金融实体和国家之间的差异很大,这使得text2sql更具挑战性。我们提出了FinStat2SQL,这是一种轻巧的文本2SQL管道,可以对财务报表进行自然语言查询 ...