视频实例细分(VIS)是具有不同应用程序的关键任务,包括自动驾驶和视频编辑。现有方法通常在现实世界中的复杂和长视频上表现不佳,这主要是由于两个因素。首先,离线方法受到紧密耦合的建模范式的限制,该模型范式均等对待所有帧并无视相邻帧之间的相互依赖性 ...
0 0 0 2025/05/09 arXiv:2306.03413v3 chengwenxuan7
我们介绍\ textbf {d} ecoupled \ textbf {vi} deo \ textbf {s} ementementation(dvis)框架,这是一种具有挑战性的通用视频细分任务的新方法,包括视频实例段(VIS),视频语义分割(VISE Semantic Sementation(VIS),视频语义序列(VSS),和视频panoptict(视频panoptict)。与以前以端到端 ...
0 0 0 2025/05/09 arXiv:2312.13305v1 chengwenxuan7
众所周知,大型语言模型(LLM)容易受到精心设计的对抗性攻击或越狱,尽管使用安全微调方法与人类的偏好保持一致,但导致了令人反感的内容。尽管输入 Token 空间的巨大维度使得找到可以越狱这些模型的对抗性提示是不可避免的,但我们旨在评估安全性微调的LLM是否安全地抵抗自然提示,这些提示与有毒种子提示在对齐后会引起安全响应。我们出乎意料地发现,流行的对齐的LLM(例如GPT-4)可以使用幼稚的提示来妥 ...
0 0 0 2025/05/09 arXiv:2412.03235v2 12321
基于 Transformer 的大型语言模型(LLM)在各种任务中取得了巨大的成功。然而,由于资源限制和沟通开销,对联合学习(FL)设置中的这种大规模模型(FL)设置中的微调构成了重大挑战。低级适应性(LORA)通过训练紧凑,低级矩阵而不是完全微调的大型模型来解决这些问题 ...
0 0 0 2025/05/09 arXiv:2505.00333v1 IQ_QI
遥感(RS)视觉任务已获得了重要的学术和实际重要性。但是,它们遇到了许多阻碍有效特征提取的挑战,包括对单个图像中表现出很大变化的多个对象的检测和识别。尽管以前的双分支或多分支架构策略在管理这些对象差异方面已经有效,但它们同时导致了计算需求和参数计数的大幅度增加 ...
0 0 0 2025/05/09 arXiv:2501.10040v1 澹台心木
Recent advancements in video understanding within visual large language models (VLLMs) have led to notable progress. However, the complexity of video data and contextual processing limitations still h ...
0 0 0 2025/05/09 arXiv:2504.20384v1 gavin218
随着大型语言模型(LLM)的出现,神经机器翻译(NMT)的领域发生了变化。自然语言处理(NLP)最近的许多重点都用于建模机器翻译和许多其他使用单个预训练的 Transformer 解码器的问题,而编码器decoder架构(在早期NMT模型中是标准的编码器架构)受到了相对较少的关注。在本文中,我们通过将LLM的世界与NMT世界结合在一起,探讨了通用,高效且易于优化的翻译模型 ...
0 0 0 2025/05/09 arXiv:2503.06594v1 杨mp
神经网络中通常发生的计算成语是对矩阵乘法的结果进行一些点式操作。这种操作序列通常表示为深度学习编译器中的计算图。当编译到GPU目标时,这些计算可以单独映射到Cublas和Cudnn等库提供的手动调整实现 ...
0 0 0 2025/05/09 arXiv:2006.12645v3 lzyrapx

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)