音乐的大型深度学习模型,包括专注于学习通用音乐音频表示的音乐,通常被认为需要大量的培训数据才能实现高性能。如果是真的,这将在音频数据或注释稀缺的情况下构成挑战,例如代表性不足的音乐传统,非庞大的流派以及个性化的音乐创作和聆听。了解这些模型在有限的DATA场景中如何行事对于开发解决方案的技术至关重要 ...
Representation learning is all about discovering the hidden modular attributes that generate the data faithfully. We explore the potential of Denoising Diffusion Probabilistic Model (DM) in unsupervis ...
根据尤瓦尔·诺亚·哈拉里(Yuval Noah Harari)的说法,大规模的人类合作是由编码共同信念和价值观的共同叙述所驱动的。这项研究探讨了这些叙述是否可以类似地推动LLM代理人进行协作。我们使用有限重复的公共物品游戏,其中LLM代理商选择合作或利己主义支出策略 ...
大型推理模型(LRMS),例如OpenAI-O1和DeepSeek-R1,表现出令人印象深刻的长途推理能力。但是,他们对静态内部知识的依赖将其表现限制在复杂,知识密集的任务上,并阻碍了他们生成需要综合不同Web信息的全面研究报告的能力。为了解决这个问题,我们建议\ textbf {WebThinker},这是一位深入的研究代理,授权LRMS自主搜索网络,导航网页和在推理过程中的研究报告草案草案 . ...
基于文本的视觉问题回答(VQA)需要在图像中读取和理解文本以正确回答给定的问题。但是,大多数当前方法只需添加从图像中提取的光学字符识别(OCR) Token 中提取到VQA模型中,而无需考虑OCR Token 的上下文信息并挖掘OCR Token 和场景对象之间的关系。在本文中,我们为基于文本的VQA提出了一种以文本为中心的方法,称为Ruart(阅读,理解和回答相关文本) ...
在不同数据集上训练的大型高容量模型在训练有效处理下游应用程序方面取得了显着的成功。在从NLP到计算机视觉的领域,这导致了预训练模型的整合,通用预主干网成为许多通用预主干网应用程序的起点。机器人技术领域能否实现这样的集成?传统上,机器人学习方法适用于每个程序、每个机器人甚至每个环境训练一个单独的模型... ...
情节记忆 - 回忆以时间和空间为基础的特定事件的能力 - 是人类认知的基石,不仅可以连贯讲故事,而且还可以计划和决策制定。尽管具有显着的功能,但大型语言模型(LLMS)缺乏强大的情节记忆机制:我们认为,将情节记忆能力整合到LLM中对于向AI促进AI迈向人类认知,提高其始终如一地推理和将其在真实事件中的输出扎根的潜力至关重要。为了应对这一挑战,我们引入了一个综合框架,以建模和评估LLM情节记忆功能 ...
对比度学习(CL)通过信息性的自学信号增强了顺序推荐(SR)模型的训练。现有方法通常依靠数据增强策略来创建积极的样本并促进表示不变性。某些策略(例如重新排序和项目替代)可能会无意中改变用户意图 ...