随着大型语言模型(LLM)的快速发展,它们强大的代码生成功能已被广泛应用于代码完成和自动化开发等任务,证明了提高编码效率的价值。但是,广泛使用LLM生成的代码也带来了一些新的挑战。一方面,诸如代码出处,版权纠纷和代码质量的调节等问题变得越来越令人关注 ...
随着将多模式的大语言模型(MLLM)整合到机器人系统和各种AI应用中,将情绪智力(EI)功能嵌入这些模型对于使机器人能够有效地解决人类的情绪需求并在现实世界中无缝交互至关重要。现有的静态,基于文本或文本图像基准测试忽略了现实世界相互作用的多模式复杂性,并且无法捕获情感表达的动态,多模式的性质,从而使它们不足以评估MLLMS的EI。基于EI的既定心理理论,我们建立了Emobench-M,这是一种新颖 ...
图形神经网络(GNN)在输入特征空间和组合图结构上运行,使了解其预测背后的基本原理变得具有挑战性。随着GNNS获得广泛的流行并在各种领域(例如药物发现)展示了成功的成功,研究其可解释性已成为至关重要的任务。为了解决这个问题,已经提出了许多解释性方法,最近的努力从特定于实例的解释转变为基于全球概念的解释性 ...
随着合成内容越来越多地渗透到网络上,生成的AI模型可以通过其自身的输出进行重新训练:称为“自噬”的过程。这导致了模型崩溃:逐代的绩效和多样性逐渐丧失。最近的研究检查了模型崩溃的出现,各种生成的AI模型和数据类型,并提出了依赖于纳入人为实现的内容的缓解策略 ...
对语音印象的细粒度控制(例如,使语音更明亮或更平静)是创建更可控制的文本到语音的关键边界 ...
多模式大型语言模型(MLLM)服务系统通常采用KV-CACHS压缩来减少内存足迹。但是,现有的压缩方法引入了大量的处理开销和排队延迟,尤其是在并发服务方案中。我们提出\ texttt {fastcache},这是一个新颖的服务框架,通过两项关键创新有效地解决这些挑战:(1)一种动态批处理策略,优化了跨预填充,压缩和解码阶段的请求安排,以及(2)有效的KV-cache存储池机制,可以消除记忆片段的高 ...
跨模式检索(CMR)是多媒体研究中的一项基本任务,重点是检索不同模式的语义相关目标。尽管传统的CMR方法通过基于嵌入的相似性计算匹配文本和图像,但预训练的生成模型的最新进步已确立了生成检索作为有希望的替代方案。该范式为每个目标分配一个唯一标识符,并利用生成模型直接预测与输入查询相对应的标识符而无需明确索引 ...
高质量的长篇文章指令数据对于对齐长篇小说大型语言模型(LLMS)至关重要。尽管公开发布了Qwen和Llama等模型,但他们的长篇小说指令数据仍然专有。人类注释是昂贵且具有挑战性的,而基于模板的合成方法限制了规模,多样性和质量 ...