随着快速发展,生成式大语言模型 (LLM) 主导着从理解到推理的各种自然语言处理 (NLP) 任务。然而,由于可访问性的增加和对来自互联网的大量文本数据的不受限制的模型训练,语言模型的固有缺陷可能会加剧。恶意对手可能会在线发布中毒数据,并对受毒数据预先训练的受害者 LLM 进行后门攻击 ...
为了改善多模式大型语言模型的(MLLM)处理图像和复杂说明的能力,研究人员主要策划大规模的视觉说明调谐数据集,这些数据集是从现有视觉任务中来自现有视觉任务或使用LLMS和图像描述的合成生成的。但是,它们通常会遭受关键缺陷,包括未对准的教学图像对和低质量的图像。此类问题阻碍了训练效率并限制了绩效的提高,因为在嘈杂或无关的数据上浪费资源对整体能力的好处最小 ...
我们表明,如果通过减去奖励的经验平均水平来解决持续强化学习问题的折现方法,则可以表现出色。在常用折扣因素上,改进是很大的,并且随着折现因子接近一个的进一步增加。此外,我们表明,如果问题的奖励通过常数转移,那么标准方法的性能差得多,而以奖励为中心的方法不受影响 ...
我们探索可扩展的机器人数据如何解决通用机器人操作的现实世界挑战。与现有数据集相比,我们引入了一个大型平台,这是一个大型平台,在五个部署方案中,在五个部署方案中包括超过100万个轨迹,在五个部署方案中,数据量表的速度提高。 Agibot World通过标准化的收集管道加速,并保证了高质量和多样化的数据分布 ...
本文描述了使用众包收集声学场景数据的管道。解释了众包的详细过程,包括计划,验证标准和实际用户界面。由于数据收集,我们提出了Cochlscene,这是一种用于声学场景分类的新型数据集 ...
音频字幕是使用免费文本的一般音频内容描述的新任务。这是一个模式的翻译任务(不是语音到文本),其中系统接受音频信号并输出文本描述(即 ...
在本文中,我们介绍了Rank-R1,这是一种基于LLM的新型Reranker,在执行排名任务之前,在用户查询和候选文档上执行推理。基于大语言模型(LLM)的现有文档重新依克方法通常依赖于提示或微调LLMS根据与查询的相关性订购或标记候选文档。对于Rank-R1,我们使用强化学习算法以及仅一组相关标签(没有任何推理监督)来增强基于LLM的Rerankers的推理能力 ...
椭圆形设计的概念首先是由Pandey(2022)引入的,是对单位圆圈$ S^1 $的球形设计的完整概括。在本文中,我们阐明了研究椭圆形设计与二维PROUHET-TARRY-ESCOTT(PTE)问题(PTE)问题(2007年)引入的问题的优势。我们首先提供了一个组合标准,用于从一对椭圆形设计中构建二维PTE问题的解决方案 ...