大型语言模型(LLM)精通跨各个领域的事实知识。但是,在先前看到的知识或从外部来源整合新知识的能力仍然是一个重大挑战。在这项工作中,我们提出了一种称为SKI的新型合成知识摄入方法,该方法利用了细粒度的合成,交织的生成和组装增强策略,以构建原始知识来源的高质量数据表示 ...
0 0 0 2025/05/07 arXiv:2410.09629v1 hxhhxh
尽管大语言模型(LLM)在文本理解和生成中取得了显着的成功,但其文本聚类任务的潜力仍然没有得到充实。我们观察到,强大的封闭源LLM提供了实体集的高质量聚类,但由于所需的庞大计算功率和相关成本而无法扩展。因此,我们提出了仙人掌(上下文感知的聚类和增强的三胞胎损失),这是一种系统的方法,利用开源的LLMS来有效,有效地监督实体子集,尤其是专注于基于文本的实体 ...
0 0 0 2025/05/07 arXiv:2405.00988v1 wanghuiyong
尽管开源视频生成和编辑模型取得了重大进展,但单个模型通常仅限于特定的任务,无法满足用户的各种需求。有效地协调这些模型可以解锁广泛的视频生成和编辑功能。但是,手动协调是复杂且耗时的,要求用户深入了解任务要求,并拥有对每个模型的性能,适用性和局限性的全面知识,从而增加了进入障碍 ...
0 0 0 2025/05/07 arXiv:2411.18983v1 likelike
我们介绍了$ \ texttt {complex-edit} $,这是一种综合基准,旨在系统地评估基于教学的图像编辑模型,跨不同复杂性的指令。为了开发此基准,我们利用GPT-4O自动按大规模收集各种编辑说明。我们的方法遵循结构良好的``编辑''管道:我们首先独立生成单独的原子编辑任务,然后整合它们以形成凝聚力,复杂的说明 ...
0 0 0 2025/05/07 arXiv:2504.13143v1 likelike
由于内容制作和/或交付期间的普遍条件,视觉伪影经常被引入到流视频内容中。由于这些会降低用户体验的质量,因此自动、准确地检测它们以实现有效的质量测量和增强非常重要。现有的检测方法通常关注单一类型的伪影和/或通过对客观质量指数进行阈值化来确定伪影的存在 ...
0 0 0 2025/05/07 arXiv:2406.00212v2 13080420360
大型语言模型(LLM)在复杂的推理任务中取得了显着进步,但由于依赖静态内部知识和仅文本推理,它们在根本上仍然限制了它们。现实世界中的解决问题通常需要动态,多步推理,自适应决策以及与外部工具和环境互动的能力。在这项工作中,我们介绍了艺术家(自我改进 Transformer 中的代理推理和工具集成),这是一个统一的框架,与LLMS的代理推理,强化学习和工具集成紧密结合 ...
0 1 0 2025/05/07 arXiv:2505.01441v1 firefly2024
视觉语言动作模型(VLAS)通常在演示任务上实现高性能,但是在需要推断时会大力挣扎,并结合以新颖方式从不同任务中学到的技能。例如,VLA可能会成功地将奶油奶酪放在碗里,将碗放在橱柜顶部,但仍然无法将奶油奶酪放在橱柜顶部。在这项工作中,我们证明了来自不同任务的行为可以通过在推理时操纵VLA的内部表示有效地重组 ...
0 0 0 2025/05/07 arXiv:2505.03500v1 蔡明方
在过去的几十年中,金融中的计算情报一直是学术界和金融行业的一个非常流行的话题。已经发表了许多研究,导致各种模型。同时,在机器学习(ML)领域内,深度学习(DL)最近开始引起很多关注,这主要是由于其在经典模型上的表现要出色 ...
0 0 0 2025/05/07 arXiv:2002.05786v1 spkang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)