我们介绍了Randar,这是一种仅解码器的视觉自回归(AR)模型,该模型能够以任意 Token 订单生成图像。与以前仅依赖于预定义的生成顺序的仅解码器的AR模型不同,Randar消除了这种诱导偏见,从而在仅解码器的一代中解锁了新功能。我们的基本设计可以通过在预测每个图像 Token 之前插入“位置指令 Token ”来实现随机顺序,代表下一个图像 Token 的空间位置 ...
深度强化学习(RL)在解决复杂的机器人任务(例如四倍的运动)方面表现出了令人印象深刻的结果。然而,当前的求解器无法制定尊重硬约束的有效政策。在这项工作中,我们主张将约束纳入机器人学习,并将约束作为终止(CAT),这是一种新颖的约束RL算法 ...
社会搜索研究涉及研究方法论,利用社交信息,以更好地满足在线社交媒体中的用户信息需求,同时简化搜索工作,从而减少所花费的时间和所使用的计算资源。从以前的研究开始,在这项工作中,我们分析了社会搜索领域的当前艺术状况,提出了新的分类法并突出了当前的局限性和开放研究方向。我们将社会搜索领域分为三个子类别,在这里,社会方面起着关键作用:社会问题与回答,社交内容搜索和社交协作搜索 ...
已知许多文本分类任务是高度依赖域的。不幸的是,培训数据的可用性在范围内可能会大不相同。更糟糕的是,对于某些域而言,可能根本没有任何带注释的数据 ...
人类的言论超出了信息的传递。这是一种深刻的情感交流和个人之间的联系。尽管文本到语音(TTS)模型取得了长足的进步,但它们仍然面临着控制发言中情感表达的挑战。在这项工作中,我们提出了一种新型的情感控制TTS模型,该模型可利用大型语言模型(LLMS),以实现精细的自由式自由式自然语言情感控制,以及音素增强的变化设计,使模型输出 Token 和音频 Token 并行,以增强内容的链接(Chaine of ...
在本文中,我们专注于无监督的机器阅读理解域(MRC),其中源域具有大量的标记数据,而目标域中仅可用无标记的段落。为此,我们提出了一个对抗性域适应框架(ADAMRC),其中($ i $)伪问题首先是针对目标域中未标记的段落生成的,然后($ ii $)将域分类器纳入MRC模型,以预测哪个域是一个给定的通道Questage-Quemestage-Quemestage-Quemestage-Quemest ...
卷积神经网络 (CNN) 具有先进的图像超分辨率 (SR),但大多数基于 CNN 的方法仅依赖于基于像素的变换,通常会导致伪影和模糊,特别是在严重下采样(例如 8 倍或 16 倍)的情况下 ...
同时的语音翻译(Simulst)在处理部分语音输入时会逐步产生翻译。尽管大型语言模型(LLMS)在离线翻译任务中展示了强大的功能,但将其应用于模拟构成显着的挑战。现有的基于LLM的Simulst方法由于反复编码双向语音编码而产生了大量的计算开销,或者它们取决于固定的读/写策略,从而限制了效率和性能 ...