gpt-3等大型语言模型(lm)具有惊人的上下文学习能力,lm从这些示例中学习,而无需明确地进行学习预训练。因此,尚不清楚什么能够实现情境学习... ...
常规的无监督域适应性(UDA)假定训练数据是从单个域中采样的。这忽略了从多个来源收集培训数据的更实际的方案,需要多源域的适应性。我们为解决这个问题做出了三个主要贡献 ...
我们介绍了Aibrix,这是一种云原生,开源框架,旨在优化和简化云环境中的大规模LLM部署。与传统的云本地堆栈不同,Aibrix遵循共同设计的理念,确保基础架构的每一层都是专门建立的,可与Vllm这样的推理引擎无缝集成。 Aibrix引入了几项关键创新,以降低推理成本并提高性能,包括用于动态适配器调度的高密度LORA管理,LLM特定的自动制剂以及前缀感知,负载感知的路由 ...
本文介绍了我们的面向任务的对话系统ubar,它在对话会话级别上对面向任务的对话进行建模。具体来说,ubar是通过对大型预训练单向语言模型gpt-2对整个对话会话的序列进行微调获得的,整个对话会话由每个对话的用户话语、信念状态、数据库结果、系统行为和系统响应组成转动。此外,ubar在更现实的环境中进行评估,其中其对话上下文可以访问用户话语及其生成的所有内容,例如信念状态、系统行为和系统响应 ... ...
CERN的大型强子对撞机产生了来自高能粒子碰撞的大量复杂数据,要求需要复杂的分析技术来有效解释。神经网络(包括图形神经网络)通过表示碰撞作为图表,在事件分类和对象识别等任务中显示了有希望。但是,尽管图形神经网络的预测精度表现出色,但它们的“黑匣子”性质通常会限制其解释性,因此很难相信他们的决策过程 ...
预训练的语言模型已在各种自然语言处理任务中表现出卓越的性能。但是,这些模型通常包含数亿个参数,这限制了它们的实用性,因为实际应用程序中的延迟要求。现有方法通过知识蒸馏训练小型压缩模型 ...
现有的微调方法要么调整预训练模型的所有参数(完整的微调),该参数效率不高,要么仅调节最后一个线性层(线性探测),与完整的微调相比,它的精度下降了明显的准确性下降。在本文中,我们提出了一种称为SSF的新参数有效的微调方法,表示研究人员只需要扩展和移动由预训练的模型提取的深度特征即可赶上完整微调的性能。这样,即使使用较少数量的可调参数,SSF也出奇地优于其他参数有效的微调方法 ...
我们提出了第一种能够使用手机随便捕获的照片/视频来重建可变形场景的方法。我们的方法通过优化一个额外的连续体积变形场来增强神经辐射场(NERF),从而扭曲每个观察到的点到一个规范的5D NERF中。我们观察到这些类似NERF的变形场容易容易局部最小值,并为基于坐标的模型提出了一种粗到1的优化方法,该方法允许进行更强大的优化 ...