小脑的晶圆尺度发动机(WSE)技术在单个晶圆上融合了多个模具。它解决了内存带宽,延迟和可扩展性的挑战,使其适合人工智能。这项工作评估了WSE-3体系结构,并将其与主要的基于GPU的AI加速器进行了比较,尤其是NVIDIA的H100和B200 ...
0 0 0 2025/04/23 arXiv:2503.11698v1 hwrabbit
我们介绍了Eagle 2.5,这是一个用于长篇文化多模式学习的Frontier Vision语言模型(VLMS)。我们的工作解决了长期视频理解和高分辨率图像理解中的挑战,并为这两个任务引入了通才框架 ...
0 0 0 2025/04/23 arXiv:2504.15271v1 haoyi199815
在多模式学习中,某些模式比其他模式更具影响力,并且它们的缺席可能对分类/分割精度产生重大影响。在应对这一挑战时,我们提出了一种新颖的方法,称为Meta学习的模态加权知识蒸馏(METAKD),该方法使多模型模型即使缺少关键模式,也能够保持高精度。 Metakd通过元学习过程适应估计每种方式的重要性权重 ...
0 0 0 2025/04/23 arXiv:2405.07155v3 ICEBLUE
近年来,无人驾驶飞机(UAV)相关的技术扩大了该地区的知识,引发了需要解决方案的新问题和挑战。此外,由于该技术允许人们通常进行自动化的过程,因此在工业领域的需求非常大。这些车辆的自动化已在文献中解决,采用了不同的机器学习策略 ...
0 0 0 2025/04/23 arXiv:2212.03828v1 xdd
这项工作提出了一个大型语言模型(LLM)的代理商OpenFOAMGPT,专为以OpenFOAM为中心的计算流体动力学(CFD)仿真,利用OpenAI的两个基础模型:GPT-4O和一个The GPT-4O和一个想法(COT)(COT)(COT)可启用的O1预览模型。两种代理都表现出跨多个任务的成功。尽管使用O1模型的 Token 价格是GPT-4O的六倍,但它在处理复杂任务(从零击中设置到边界条件修 ...
0 0 0 2025/04/23 arXiv:2501.06327v1 GiveYouAFIst
区域级字幕旨在为特定图像区域生成自然语言描述,同时突出其区别特征。但是,现有的方法难以在多范围内产生独特的标题,从而限制了其现实世界的适用性。为了满足详细的区域级别理解的需求,我们介绍了UECA数据集,这是一个针对多晶体区域字幕的大规模数据集 ...
0 0 0 2025/04/23 arXiv:2504.05305v1 Rainbow
标题变性问题挑战了区域级的字幕,该问题是指预先训练的多模式模型倾向于预测最频繁的标题,但错过了较不频繁的标题。在这项研究中,我们提出了可控的区域级字幕(ControlCAP)方法,该方法将控制词引入多模型模型以解决标题变性问题。在具体而言,ControlCAP利用一个区分模块在标题空间内生成控制单词,以将其划分为多个子空间 ...
0 0 0 2025/04/23 arXiv:2401.17910v3 Rainbow
机器人指令以下任务需要无缝整合视觉感知,任务计划,目标定位和运动执行。但是,由于在操作约束下将冗长的指令置于可操作的计划中,因此在零拍摄的情况下,现有的指导以下任务计划方法是数据驱动或零镜头方案的表现不佳。为了解决这个问题,我们提出了FlowPlan,这是一种结构化的多阶段LLM工作流程,可提高零击管道,并弥合零摄像机和数据驱动的内在学习方法之间的性能差距 ...
0 0 0 2025/04/23 arXiv:2503.02698v1 jueli

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)