随着实际应用中视频数据的爆炸式增长,视频的全面表示变得越来越重要。在本文中,我们解决了视频场景识别问题,其目标是学习高级视频表示来对视频中的场景进行分类。由于现实场景中视频内容的多样性和复杂性,这项任务仍然是一个挑战 ...

0 0 0 0 2024/04/28 arXiv:2401.04354v1 taotao1993

由于这些视觉数据中存在大量的局部冗余和复杂的全局依赖性,从图像和视频中学习判别性表示是一项具有挑战性的任务。卷积神经网络(CNN)和视觉变换器(ViT)是过去几年的两个主要框架。尽管 CNN 可以通过小邻域内的卷积有效地减少局部冗余,但有限的感受野使其难以捕获全局依赖性 ...

0 0 0 0 2024/04/26 arXiv:2201.09450v3 taotao1993

在本文中,我们介绍了 BeaverTails 数据集,旨在促进大型语言模型 (LLM) 中安全对齐的研究。该数据集独特地将问答对的有用性和无害性注释分开,从而为这些关键属性提供了不同的视角。总的来说,我们收集了 333,963 个问答 (QA) 对的安全元标签和 361,903 对专家比较数据的有用性和无害性指标 ...

0 0 0 0 2024/04/02 arXiv:2307.04657v3 taotao1993

在这项研究中,我们提出了 AniPortrait,这是一种新颖的框架,用于生成由音频和参考肖像图像驱动的高质量动画。我们的方法分为两个阶段。最初,我们从音频中提取 3D 中间表示并将其投影到一系列 2D 面部标志中 ...

0 0 0 0 2024/04/02 arXiv:2403.17694v1 taotao1993

模型大小、数据量、计算和模型性能的规律在自然语言处理(NLP)领域得到了广泛的研究。然而,光学字符识别 (OCR) 中的缩放定律尚未得到研究。为了解决这个问题,我们进行了全面的研究,包括检查文本识别领域的性能与模型规模、数据量和计算之间的相关性 ...

0 1 0 0 2024/03/19 arXiv:2401.00028v3 taotao1993

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)