最近,预培训的编程语言模型(例如Codebert)在代码搜索中已证明了可观的收益。尽管表现出色,但他们依靠大量并行数据的可用性来微调查询和代码之间的语义映射。这限制了他们在特定于领域的语言中的实用性,并具有相对较少和昂贵的数据 ...
源代码的表示学习对于将机器学习应用于软件工程任务至关重要。从多语言源代码数据集中进行的学习代码表示比单语言数据集中的学习更有效,因为来自多语言数据集的更多培训数据可提高该模型从源代码中提取语言 - 敏捷信息的能力。但是,现有的多语言培训忽略了特定于语言的信息,这对于对不同编程语言进行建模源代码至关重要,同时只专注于学习具有不同语言之间共享参数的统一模型,以进行语言 - 语言信息信息建模 ...
自动文本摘要(ATS)利用自然语言处理(NLP)算法,旨在创建简洁准确的摘要,从而显着减少处理大量文本所需的人力。 ATS引起了学术界和工业界的极大兴趣。过去已经进行了许多研究来调查苯丙胺类兴奋剂方法;然而,它们通常缺乏现实世界实施的实用性,因为它们经常从理论角度对以前的方法进行分类 ...
奖励模型(RMS)对于将语言模型与人类偏好保持一致至关重要。当前,对RMS的评估取决于对手动注释的偏好数据的验证集测量准确性。尽管此方法是直接且广泛采用的,但RM准确性与下游政策绩效之间的关系仍然不足 ...
通过将语言模型与人类的期望结成一致,从人类反馈中学习可以显着增强自然语言处理。该对齐的关键因素是训练过程中使用的奖励模型的强度。这项研究探讨了更强的奖励模型是否总是导致更好的语言模型 ...
算子学习是机器学习的一个新兴领域,旨在学习无限维函数空间之间的映射。在这里,我们揭示了算子学习架构和计算机视觉的条件神经场之间的联系,为检查流行的算子学习模型之间的差异提供了统一的视角。我们发现许多常用的算子学习模型可以被视为神经场,其调节机制仅限于逐点和/或全局信息 ...
基础模型已经彻底改变了语言建模,而在科学计算中是否复制了这种成功。我们提出了Omniarch,这是第一个旨在通过物理对齐来解决多尺度和多物理科学计算问题的原型。我们通过一个统一的建筑解决了这三个挑战 ...
本文介绍了一个多代理应用系统,旨在提高办公室的协作效率和工作质量。该系统集成了人工智能,机器学习和自然语言处理技术,从而实现了任务分配,进度监控和信息共享等功能。系统中的代理能够根据团队成员的需求提供个性化的协作支持,并合并数据分析工具以提高决策质量 ...