本文介绍了一种新颖的手机控制架构,称为“应用程序代理”,用于跨各种 Android 应用程序进行有效的交互和控制。所提出的轻量级多模式应用程序控制(LiMAC)将文本目标和过去的移动序列作为输入为了解决智能手机固有的计算限制,我们在 LiMAC 中引入了一个集成了微调视觉语言模型 (VLM) 的小型动作转换器 (AcT)。实时决策和任务执行 ...
尽管韵律与话语结构的语言信息有关,但大多数文本到语音(TTS)系统仅考虑到每个句子中,这在将文本段落转换为自然和表现力的语音时都具有挑战性。在本文中,我们建议使用附近句子的文本嵌入,以在不使用任何明确的韵律功能的情况下以端到端的方式改善段落的韵律产生。更具体地说,由基于预先训练的BERT模型提取的句子嵌入的其他CU编码器生成的杂化(CU)上下文向量用于增强Tacotron2解码器的输入 ...
生成和判别模型之间的协同作用受到了越来越多的关注。虽然歧视性的对比语言图像预训练(剪辑)在高级语义上表现出色,但它在感知细粒度的视觉细节方面挣扎。通常,为了增强表示形式,生成模型将Clip的视觉特征作为重建条件 ...
标准的单片图像超分辨率通过固定的下采样内核从高分辨率图像创建了配对的训练数据。但是,现实世界中的超级分辨率(RWSR)在低分辨率输入中面临未知的降解,始终缺乏配对的训练数据。现有方法通过在培训输入中学习复杂的合成增强来学习盲目的一般模型来解决这个问题;他们牺牲了特定降解的表现,以更广泛地概括许多可能的概括 ...
扩散模型在各种图像生成、编辑、增强和翻译任务中表现出了令人印象深刻的性能。特别是,预训练的文本到图像稳定扩散模型以其强大的生成先验为具有挑战性的现实图像超分辨率(Real-ISR)和图像风格化问题提供了潜在的解决方案。然而,沿着这条线的现有方法通常无法保持忠实的像素级图像结构 ...
全向图像(odi)通常用于现实世界的视觉任务 ...
图形神经网络(GNN)精通图形表示学习,并在多功能任务(例如节点分类和链接预测)上实现有希望的性能。通常,全面的超参数调整对于完全解锁GNN的最佳性能至关重要,尤其是对于复杂的任务,例如大图和远程图上的节点分类。这通常与高计算和时间成本以及仔细设计适当的搜索空间有关 ...
单眼深度估计对于3D场景的理解和下游应用是基本的。但是,即使在监督的设置下,由于缺乏完整的几何限制,它仍然具有挑战性和不适。尽管场景可以由数百万像素组成,但高级图案的模式较少 ...