图形用户界面(GUI)代理为自动化复杂的数字任务提供跨平台解决方案,具有转换生产力工作流程的巨大潜力。但是,它们的性能通常受到高质量轨迹数据的稀缺性的限制。为了解决这一限制,我们在专门的中期训练阶段提出了培训视觉语言模型(VLM),推理密集型任务,然后研究如何纳入这些任务如何促进对GUI计划方案的概括 ...
尽管大型语言模型(LLM)在知识回忆和推理方面表现出色,但随着现实世界的发展或适应特定领域的知识,它们的静态性质导致了过时的信息,突出了有效的知识注入的需求。但是,当前对知识注射的研究仍然是肤浅的,主要集中在知识记忆和检索上。本文提出了一个四层知识注入框架,该框架系统地定义了知识注入的水平:记忆,检索,推理和关联 ...
大型卷积网络模型最近在ImageNet基准测试中表现出了令人印象深刻的分类性能。但是,尚无清楚地了解他们为什么表现如此出色,或者如何改善它们。在本文中,我们解决了这两个问题 ...
大型语言模型(llm)已展现出令人印象深刻的泛化未知任务的能力。在命名实体识别( ner)任务中,最近的进展表明,通过采用以实体为中心的模式,通过指令调整 ...
我们介绍了Falcon系列:7b,40b和180b参数,仅因素模型,该模型训练了以不同的高质量语料库为主要由Web数据组装而来的高质量语料库。最大的型号Falcon-180B已接受了3.5万亿 Token 的培训,该文本是最大的公开记录的预算训练 ...
为了解决自然语言中大型语言模型性能对 SQL 任务的挑战,我们引入了 XiYan-SQL,这是一种创新框架,采用多生成器集成策略来改进候选生成。我们介绍 M-Schema,一种半结构化模式表示方法,旨在增强对数据库结构的理解。为了提高生成的候选 SQL 查询的质量和多样性,XiYan-SQL 将上下文学习 (ICL) 的巨大潜力与监督微调的精确控制相结合 ...
将知识从标记的源域中学到的知识转移到无监督域适应(UDA)的原始目标域(UDA)对于自动驾驶系统的可扩展部署至关重要。 UDA中的最新方法通常采用一个关键思想:利用来自源和目标域的联合监督信号进行自我训练。在这项工作中,我们改善并扩展了这一方面 ...
本文提出了一种有效分割图像的新方法,这些方法可以集成到任何模型和方法论中。我们选择的范式是用于1900检测的医学图像(3-D胸CT扫描)的分类。我们的方法包括视觉模型的组合,这些模型将CT扫描分割,然后将其馈送到一个名为Racnet的深层神经结构中,以进行COVID-19的检测。特别是,引入了一个名为SAM2Clip2SAM的新型框架进行分割,以利用各个段的任何模型(SAM)和对比性语言图像预训练 ...