可解释的推荐系统旨在阐明每个建议背后的解释,从而使用户能够理解基础逻辑。先前的作品以多任务方式执行评级预测和解释生成。但是,这些作品在预测的评级和解释之间遭受了不连贯的影响 ...
扩散模型在文本到图像任务中表现出令人印象深刻的实力。最近的方法添加了图像级结构控件,例如 ...
视觉接地(VG)是视觉和语言领域的关键主题,涉及在图像中找到由表达式描述的特定区域。为了减少对手动标记数据的依赖,已经开发了无监督的视觉接地,以使用伪标记定位区域。但是,现有的无监督方法的性能高度取决于伪标签的质量,这些方法总是遇到有限多样性的问题 ...
推理已经成为语言模型(LMS)的下一个主要领域,并随着学术和工业实验室的迅速发展。但是,这种进步通常超过方法论严格,许多评估依赖于缺乏透明度,鲁棒性或统计基础的基准实践。在这项工作中,我们进行了一项全面的实证研究,发现当前的数学推理基准对微妙的实施选择非常敏感,包括解码参数,随机种子,及时格式化,甚至硬件和软件框架配置 ...
语义沟通旨在传输有意义有效的信息,而不是专注于单个符号或位。与传统沟通相比,这会导致诸如延迟,带宽使用率和更高的吞吐量之类的好处。但是,由于需要通用指标来基准语义信息丢失和实践能源消耗的共同影响,因此语义沟通构成了重大挑战 ...
我们研究视频中精确地交换对象的问题,并关注一个用户提供的参考对象图像,重点是与手相互作用的问题。尽管扩散模型最近在视频编辑中取得了巨大的进步,但这些模型通常在处理手动相互作用(HOI)的复杂性方面通常不足,无法产生逼真的编辑,尤其是当对象交换导致对象形状或功能性变化时。为了弥合这一差距,我们提出了HOI-SWAP,这是一种基于扩散的视频编辑框架,以一种自我监督的方式训练 ...
本文提出了一种用于自动停车的分段轨迹优化(STO)方法,该方法将使用基于迭代的SQP方法将初始轨迹改进了动态可行且无碰撞的方法。 Sto保持了高级全球规划师的操纵策略,同时允许在切换点上弯曲以提高操纵效率。为了确保安全性,通过GJK加速椭圆形缩小和扩展来构建凸门走廊,在每次迭代中都作为安全限制 ...
本文探索了一种简单有效的文本分类基线。我们的实验表明,我们的快速文本分类器,fastText在准确性方面通常与深度学习分类器相当,并且训练和评估速度快了许多数量级。我们可以使用标准多核cpu在不到10分钟的时间内训练超过10亿个单词的10fastText,并在不到一分钟的时间内对312K类中的50万个句子进行分类... ...