Generative AI提供了一种简单的,基于及时的替代方案,用于微调较小的BERT风格的LLM,以进行文本分类任务。这有望消除对手动标记培训数据和特定于任务的模型培训的需求。但是,是否可以兑现这一承诺,仍然是一个悬而未决的问题 ...
0 0 0 2025/05/29 arXiv:2406.08660v2 jecc
神经网络并不能很好地概括地看不见域移动的数据,这是机器学习和AI的长期问题。为了克服问题,我们提出了MixStyle,这是一个简单的插件,无参数的模块,可以改善域的概括性能,而无需收集更多数据或增加模型容量。 MixStyle的设计很简单:它在训练过程中单个前传中混合了两个随机实例的特征统计信息 ...
0 1 0 2025/05/29 arXiv:2107.02053v2 15966829631
使用Vision Transformer(VIT)骨架的单流体系结构最近对实时无人机跟踪显示出很大的潜力。但是,诸如建筑物和树木等障碍物的频繁阻塞暴露了一个主要缺点:这些模型通常缺乏有效处理闭塞的策略。需要新的方法来增强航空跟踪中单流VIT模型的闭塞弹性 ...
0 1 0 2025/05/29 arXiv:2504.09228v1 bin
第五代(5G)移动通信系统已经进入了商业开发的阶段,为用户提供了新的服务和改进的用户体验,并为各个行业提供了许多新颖的机会。但是,5G仍然面临许多挑战。为了应对这些挑战,国际工业,学术和标准组织已经开始研究第六代(6G)无线通信系统 ...
0 1 0 2025/05/29 arXiv:2302.14536v1 1099372147
视频大型语言模型(VLLM)最近在处理复杂的视频内容方面已经取得了显着进步,但是由于视频输入产生的数千个视觉 Token 的计算成本很高,因此它们的推论效率仍然受到限制。我们从经验上观察到,与单个图像输入不同,VLLM通常在不同的解码迭代中从不同框架中参加视觉 Token ,从而使一个弹性的修剪策略容易误解了重要的 Token 。在此激励的情况下,我们提出了Dycoke,这是一种无训练的 Toke ...
0 0 0 2025/05/29 arXiv:2411.15024v3 lizijian9630
尽管在对象识别领域取得了很大的进步,但深度学习的进步仍有几个因素对深度学习模型的表现产生负面影响。域转移是这些因素之一,是由测试和培训数据分布中的差异引起的。在本文中,我们关注域泛化中紧凑特征聚类的问题,以帮助优化多域数据中的嵌入空间 ...
0 0 0 2025/05/29 arXiv:2303.01233v1 15966829631
视觉 Transformer (VIT)在大规模图像识别中取得了巨大的成功。他们将每2D图像分为固定数量的补丁,每个贴片被视为 Token 。通常,代表具有更多 Token 的图像将导致更高的预测准确性,而这也会导致计算成本大幅提高 ...
0 0 0 2025/05/29 arXiv:2105.15075v2 lizijian9630
可自定义的多语言零击声语音合成(SVS)在音乐构图和短视频配音中具有各种潜在的应用。但是,现有的SVS模型过于取决于音素和音符边界注释,从而限制了它们在零拍的场景中的鲁棒性,并在音素和音符之间产生不良的过渡。此外,他们还通过不同的提示缺乏有效的多层次风格控制 ...
0 0 0 2025/05/29 arXiv:2505.14910v2 caoyuhn.126

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)