大型语言模型(LLM)在各种任务中都表现出了令人印象深刻的表现,并且它们在边缘方案中的应用引起了极大的关注。然而,非常适合边缘方案的稀疏激活混合物(MOE)模型由于其高内存需求而受到相对较少的关注。已经提出了基于卸载的方法来应对这一挑战,但他们面临着专家预测的困难 ...
0 0 0 2025/02/19 arXiv:2502.12224v1 hwrabbit
我们的工作着重于解决长尾数据分布的具有挑战性但自然的视觉识别任务(即,一些类占据了大多数数据,而大多数类的样本很少) ...
0 0 0 2025/02/19 arXiv:1912.02413v4 zcr10086
逻辑图像理解涉及解释和推理图像视觉内容中的关系和一致性。这种功能对于诸如工业检查等应用至关重要,在工业检查中,逻辑异常检测对于维持高质量标准和最小化昂贵的召回至关重要。先前在异常检测方面的研究(AD)依赖于设计算法的先验知识,该算法通常需要大量的手动注释,重要的计算能力和大量培训数据 ...
0 0 0 2025/02/19 arXiv:2501.01767v2 晴天小熊猫
3D多对象跟踪(MOT)提供周围物体的轨迹,协助机器人或车辆进行更智能的路径计划和避免障碍物。现有的3D MOT方法基于逐个检测框架通常使用单个运动模型在整个跟踪过程中跟踪对象。但是,由于周围环境中的变化,对象可能会改变其运动模式 ...
0 0 0 2025/02/19 arXiv:2502.09672v1 L1MICH233
大型语言模型(LLMS)的计划能力近年来引起了人们的关注,因为它们具有出色的多步推理能力及其在广泛领域中概括的能力。尽管一些研究人员强调了LLMS执行复杂的计划任务的潜力,但其他研究人员则强调了其性能的重大限制,尤其是当这些模型的任务是处理长途推理的复杂性时。在这项调查中,我们对使用LLM在自动化计划中使用的现有研究进行了严格的研究,并详细研究了其成功和缺点 ...
0 0 0 2025/02/19 arXiv:2502.12435v1 hwrabbit
我们推出 DeepSeek-V3,这是一种强大的专家混合 (MoE) 语言模型,总参数为 671B,每个 Token 激活 37B。为了实现高效的推理和经济高效的训练,DeepSeek-V3 采用了多头潜在注意力(MLA)和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了彻底的验证。此外,DeepSeek-V3首创了负载均衡的辅助无损策略,并设置了多 Token 预测训 ...
0 1 0 2025/02/19 arXiv:2412.19437v2 kangyuliu
我们研究了大语言模型(LLM)在解决复杂任务中的推理和计划功能。推理时间技术的最新进展表明,通过探索推理过程中的中间步骤,在没有额外培训的情况下增强LLM推理的潜力。值得注意的是,OpenAI的O1模型通过新颖的多步推理和验证来显示出令人鼓舞的性能 ...
0 0 0 2025/02/19 arXiv:2502.12521v1 hwrabbit
公共大规模的文本到图像扩散模型,例如稳定的扩散,已引起社区的重大关注。这些模型可以轻松地用于使用低级改编(Loras)的新概念定制。但是,多种概念洛拉斯共同支持多个自定义概念的利用提出了挑战 ...
0 0 0 2025/02/19 arXiv:2305.18292v2 yisinoya

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)