在现代语音综合中,副语言信息(例如说话者的声音音色,情感状态和动态韵律)在传达细微差别超越语义之外的细微效果中起着关键作用。传统的文本对语音(TTS)系统依赖于固定样式标签或插入语音提示来控制这些线索,从而严重限制了灵活性。最近的尝试试图采用自然语言指令来调节副语言特征,从而大大改善了教学驱动的TTS模型的概括 ...
思想链(COT)推理的进步显着增强了大语言模型(LLMS)和大型视觉模型(LVLMS)的能力。但是,视频婴儿床推理的严格评估框架仍然没有。当前的视频基准无法充分评估推理过程,并暴露出失败是否源于感知或推理能力的缺陷 ...
在可解释的人工智能(XAI)领域,反事实示例向用户解释了训练有素的决策模型的预测,通过指示对实例进行的修改以更改其相关的预测。这些反事实示例通常被定义为优化问题的解决方案,其成本函数结合了几个标准,可以量化Desiderata,以满足用户需求的良好解释。可以考虑各种适当的属性,因为用户需求通常未知,并且一个用户之间的不同之处;他们的选择和形式化很困难 ...
任何时间多代理路径查找(MAPF)是多代理系统中可扩展路径优化的有前途的方法。 MAPF-LNS基于大型邻域搜索(LNS),是当前的最新方法,通过破坏和修复解决方案的选定路径,可以迭代地优化快速初始解决方案。当前的MAPF-LNS变体通常使用自适应选择机制在多种破坏启发式方法中进行选择 ...
生成AI的最新进展加速了新型化学物质和材料的发现。但是,将这些发现过渡到工业规模的生产仍然是一个关键的瓶颈,因为它需要开发全新的化学制造工艺。当前的AI方法在遵守工程限制的同时,尽管它们在缩放化学过程中的作用至关重要,但仍无法自动产生PFD或PID。我们为自动生成工业可行的PFD和PID提供了一个封闭的循环,物理意识框架 ...
近年来,将知识图纳入推荐系统已引起人们的关注。通过探索知识图内的互链接,可以将用户和项目之间的连接作为路径发现,从而为用户项目交互提供丰富而互补的信息。这种连接不仅揭示了实体和关系的语义,而且有助于理解用户的兴趣 ...
尽管图像压缩是视觉数据处理的基础,并且启发了许多标准和学习的编解码器,但这些方法仍然以每个像素极低的位数遭受严重的质量降解。尽管最近基于扩散的模型在低比特率下提供了增强的生成性能,但由于多个脱氧步骤,它们仍然产生有限的感知质量和过度的解码潜伏期。在本文中,我们提出了图像压缩(DIFFO)的第一个单步扩散模型,该模型在超低比特率下提供了高感知质量和快速解码 ...
使用大语言模型(LLMS)在机器人控制中的最新进展表现出了巨大的潜力,这主要是由于LLMS了解自然语言命令并以各种语言生成可执行计划的能力。但是,在涉及移动机器人(尤其是无人机)的实时和交互应用中,LLMS固有的顺序 Token 生成过程引入了大量延迟,即 ...
DCE-MRI中的乳腺癌病变细分由于异质性肿瘤形态和模糊边界,仍然具有挑战性。为了应对这些挑战,本研究提出了一个新型的杂种网络HCMA-UNET,用于乳腺癌的病变分割。我们的网络由轻巧的CNN骨干和一个多视图轴向自我发作Mamba(Mism)模块组成 ...
多模式大型语言模型(MLLM)具有严重的安全性,使用由文本和其他模式的数据组成的多模式数据集的HTTP URL安全对准可以有效地增强MLLM的安全性,构造这些数据集是昂贵的。现有的低资源安全对准方法(包括文本一致性)已被发现与其他模式相比的安全风险挣扎。为了解决这个问题,我们提出了合成嵌入增强安全对齐(SEA)的嵌入,该渐变更新优化了其他模态的嵌入,以扩展文本数据集 ...