Omnistyle2通过将其重新构架作为数据问题引入了一种新颖的艺术风格转移方法。我们的关键见解是命运,通过从艺术品中删除风格元素来恢复自然,无风格的对应物,从而逆转样式转移。这产生了DST-100K,这是一个大规模数据集,它通过将真实的艺术风格与其基本内容保持一致,从而提供真实的监督信号 ...
开放式视频对象检测(OVD)旨在检测训练注释以外的对象,在训练注释之外,探测器通常与预训练的视觉模型(例如,剪辑)对齐,以继承其可推广的识别能力,以便探测器可以识别新对象或新颖对象。但是,以前的作品将功能空间与剪辑保持一致,并且无法有效地学习语义知识。在这项工作中,我们提出了一个名为HD-OVD的分层语义蒸馏框架,以构建一个全面的蒸馏过程,该过程在三个方面利用了剪辑模型的可推广知识 ...
本技术报告介绍了我们最新的旗舰大语言模型(LLM)Yi-Lightning。它取得了出色的表现,在 Chatbot Arena 上总体排名第六,在中文、数学、编码和硬提示等专业类别中取得了特别出色的成绩(第二至第四名)。 Yi-Lightning 利用增强的专家混合 (MoE) 架构,具有先进的专家分段和路由机制以及优化的 KV 缓存技术 ...
推荐系统在物品冷启动问题中面临着一个关键的挑战,该问题限制了内容多样性,并通过努力推荐新项目来加剧流行性偏见。尽管现有的解决方案通常依赖于辅助数据,但是本文阐明了许多推荐系统的固有以用户为中心的明显但同样紧迫的问题。我们认为,在具有较大且迅速扩展的项目清单的环境中,传统的关注点心是找到“最佳用户的最佳物品”,这可能会无意间掩盖了新生内容的理想受众 ...
当前的不足检测方法在很大程度上依赖于昂贵和稀缺的人类通知数据。为了解决这个问题,某些方法采用启发式或统计功能来产生不同的句子,从而部分改善了检测性能。但是,这些句子通常偏离现实生活中的情况,从而限制了整体模型的增强 ...
由于收集和注释面向任务的对话的高成本,对话状态跟踪(DST)的零和很少的学习对对话状态跟踪(DST)引起了重大兴趣。最近的工作表明,文化学习需要很少的数据和零参数更新,甚至在几次设置(Hu等人2022)中胜过训练有素的方法 ...
多模式的视觉语言模型在开放世界应用程序中获得了突出性,这是由模型体系结构,培训技术和高质量数据的进步驱动的。但是,它们的性能通常受到特定于任务的数据不足的限制,导致概括和产出偏差。劳动密集型的手动任务标签过程妨碍了现有的努力来增加微调数据集中的任务多样性,该过程通常仅生产几百个任务类型 ...
决策 Transformer (DT)是一种用于强化学习的最近提出的体系结构,将决策过程框架为自动回归序列建模问题,并使用 Transformer 模型以一系列状态,动作和奖励来预测下一个动作。在本文中,我们分析了 Transformer 模型在连续控制任务的完整DT体系结构中的重要性。也就是说,我们通过LSTM模型替换 Transformer ,同时保持其他部分保持不变以获取我们所谓的决策LST ...