我们提出CAT4D,这是一种从单眼视频中创建4D(动态3D)场景的方法。 CAT4D利用了一个多视图视频扩散模型,该模型在数据集的各种组合中训练,以在任何指定的相机姿势和时间戳上启用新颖的视图合成。结合一种新型的采样方法,该模型可以将单眼视频转换为多视频视频,从而通过优化可变形的3D高斯表示,从而实现了可靠的4D重建 ...
大型视觉模型(VLM)的快速发展推动了基于纯的GUI代理的开发,该代理能够感知和操作图形用户界面(GUI)以自主满足用户指令。但是,现有方法通常采用离线学习框架,该框架面临两个核心局限性:(1)对元素接地和动作监督的高质量手动注释的严重依赖,以及(2)对动态和互动环境的适应性有限。为了解决这些限制,我们提出了Zerogui,这是一个可扩展的在线学习框架,用于以零成本自动化GUI代理培训 ...
尽管大型语言模型 (LLM) 取得了许多进步,并且发展速度前所未有,但由于各种原因,它们对我们日常生活各个方面的影响和融入仍然有限。阻碍其广泛采用的一个关键因素是幻觉的出现, LLM 发明的答案听起来很现实,但却偏离了事实真相。在本文中,我们提出了一种在大型语言模型中检测幻觉的新方法,该方法解决了在各种现实场景中采用这些模型的关键问题 ...
自动检测单词和音节级别的突出性对于构建计算机辅助语言学习系统至关重要。已经表明,由当前最新的(SOTA)文本到语音(TTS)系统学到的韵律嵌入系统可以在综合语音中产生单词和音节级别的突出性,就像本地语音一样自然。为了了解在非本地环境下TTS中韵律嵌入以突出检测的有效性,考虑到与突出相关的嵌入:持续时间,能量和俯仰,从天然和非本地语音中提取的嵌入中进行了比较分析:sota tts naty Fast ...
韵律包含丰富的信息,超出了单词的字面意义,这对于语音的清晰度至关重要。当前的模型仍然缺乏措辞和语调。当将长句子与复杂的结构合成时,他们不仅会错过或错位中断,而且会产生不自然的语调。我们提出了ProsodyFM,这是一种具有流量匹配(FM)骨架的文本到语音综合(TTS)模型,旨在增强韵律的措辞和语调方面 ...
本文为数据预处理中的连续特征选择(CFS)提供了新的框架,尤其是在可能出现未知类别的开放和动态环境的背景下。 CFS遇到了两个主要挑战:发现未知知识和已知知识的转移。为此,提出的CFS方法将连续学习(CL)的优势与粒状球计算(GBC)相结合,该计算的重点是构建粒状球知识基础,以检测未知类别,并促进先前学习的知识的转移以进行进一步的特征选择 ...
指导微调在NLP任务中至关重要,从而增强了预验证的模型跟踪功能和特定于任务的性能。但是,由于数据收集困难和高生产成本,获得大型模型的高质量微调数据是具有挑战性的。为了解决这个问题,我们提出了一种新的数据增强方法,该方法通过具有不同认知水平的多个代理之间的相互作用来丰富原始数据 ...