taotao1993的文档

taotao1993

个性签名 ...

Knowledge-enhanced Multi-perspective Video Representation Learning for Scene Recognition

随着实际应用中视频数据的爆炸式增长，视频的全面表示变得越来越重要。在本文中，我们解决了视频场景识别问题，其目标是学习高级视频表示来对视频中的场景进行分类。由于现实场景中视频内容的多样性和复杂性，这项任务仍然是一个挑战 ...

0 0 0 0 2024/04/28 arXiv:2401.04354v1 taotao1993

UniFormer: Unifying Convolution and Self-attention for Visual Recognition

由于这些视觉数据中存在大量的局部冗余和复杂的全局依赖性，从图像和视频中学习判别性表示是一项具有挑战性的任务。卷积神经网络（CNN）和视觉变换器（ViT）是过去几年的两个主要框架。尽管 CNN 可以通过小邻域内的卷积有效地减少局部冗余，但有限的感受野使其难以捕获全局依赖性 ...

0 0 0 0 2024/04/26 arXiv:2201.09450v3 taotao1993

BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset

在本文中，我们介绍了 BeaverTails 数据集，旨在促进大型语言模型 (LLM) 中安全对齐的研究。该数据集独特地将问答对的有用性和无害性注释分开，从而为这些关键属性提供了不同的视角。总的来说，我们收集了 333,963 个问答 (QA) 对的安全元标签和 361,903 对专家比较数据的有用性和无害性指标 ...

0 0 0 0 2024/04/02 arXiv:2307.04657v3 taotao1993

AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation

在这项研究中，我们提出了 AniPortrait，这是一种新颖的框架，用于生成由音频和参考肖像图像驱动的高质量动画。我们的方法分为两个阶段。最初，我们从音频中提取 3D 中间表示并将其投影到一系列 2D 面部标志中 ...

0 0 0 0 2024/04/02 arXiv:2403.17694v1 taotao1993

An Empirical Study of Scaling Law for OCR

模型大小、数据量、计算和模型性能的规律在自然语言处理（NLP）领域得到了广泛的研究。然而，光学字符识别 (OCR) 中的缩放定律尚未得到研究。为了解决这个问题，我们进行了全面的研究，包括检查文本识别领域的性能与模型规模、数据量和计算之间的相关性 ...

0 1 0 0 2024/03/19 arXiv:2401.00028v3 taotao1993

Knowledge-enhanced Multi-perspective Video Representation Learning for Scene Recognition

UniFormer: Unifying Convolution and Self-attention for Visual Recognition

BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset

AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation

An Empirical Study of Scaling Law for OCR

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）