一译 —— 文档和论文翻译、对照阅读、讨论和社区

A Comparison of the Cerebras Wafer-Scale Integration Technology with Nvidia GPU-based Systems for Artificial Intelligence

小脑的晶圆尺度发动机（WSE）技术在单个晶圆上融合了多个模具。它解决了内存带宽，延迟和可扩展性的挑战，使其适合人工智能。这项工作评估了WSE-3体系结构，并将其与主要的基于GPU的AI加速器进行了比较，尤其是NVIDIA的H100和B200 ...

0 0 0 2025/04/23 arXiv:2503.11698v1 hwrabbit

Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

我们介绍了Eagle 2.5，这是一个用于长篇文化多模式学习的Frontier Vision语言模型（VLMS）。我们的工作解决了长期视频理解和高分辨率图像理解中的挑战，并为这两个任务引入了通才框架 ...

0 0 0 2025/04/23 arXiv:2504.15271v1 haoyi199815

Meta-Learned Modality-Weighted Knowledge Distillation for Robust Multi-Modal Learning with Missing Data

在多模式学习中，某些模式比其他模式更具影响力，并且它们的缺席可能对分类/分割精度产生重大影响。在应对这一挑战时，我们提出了一种新颖的方法，称为Meta学习的模态加权知识蒸馏（METAKD），该方法使多模型模型即使缺少关键模式，也能够保持高精度。 Metakd通过元学习过程适应估计每种方式的重要性权重 ...

0 0 0 2025/04/23 arXiv:2405.07155v3 ICEBLUE

Reinforcement Learning for UAV control with Policy and Reward Shaping

近年来，无人驾驶飞机（UAV）相关的技术扩大了该地区的知识，引发了需要解决方案的新问题和挑战。此外，由于该技术允许人们通常进行自动化的过程，因此在工业领域的需求非常大。这些车辆的自动化已在文献中解决，采用了不同的机器学习策略 ...

0 0 0 2025/04/23 arXiv:2212.03828v1 xdd

OpenFOAMGPT: a RAG-Augmented LLM Agent for OpenFOAM-Based Computational Fluid Dynamics

这项工作提出了一个大型语言模型（LLM）的代理商OpenFOAMGPT，专为以OpenFOAM为中心的计算流体动力学（CFD）仿真，利用OpenAI的两个基础模型：GPT-4O和一个The GPT-4O和一个想法（COT）（COT）（COT）可启用的O1预览模型。两种代理都表现出跨多个任务的成功。尽管使用O1模型的 Token 价格是GPT-4O的六倍，但它在处理复杂任务（从零击中设置到边界条件修 ...

0 0 0 2025/04/23 arXiv:2501.06327v1 GiveYouAFIst

URECA: Unique Region Caption Anything

区域级字幕旨在为特定图像区域生成自然语言描述，同时突出其区别特征。但是，现有的方法难以在多范围内产生独特的标题，从而限制了其现实世界的适用性。为了满足详细的区域级别理解的需求，我们介绍了UECA数据集，这是一个针对多晶体区域字幕的大规模数据集 ...

0 0 0 2025/04/23 arXiv:2504.05305v1 Rainbow

ControlCap: Controllable Region-level Captioning

标题变性问题挑战了区域级的字幕，该问题是指预先训练的多模式模型倾向于预测最频繁的标题，但错过了较不频繁的标题。在这项研究中，我们提出了可控的区域级字幕（ControlCAP）方法，该方法将控制词引入多模型模型以解决标题变性问题。在具体而言，ControlCAP利用一个区分模块在标题空间内生成控制单词，以将其划分为多个子空间 ...

0 0 0 2025/04/23 arXiv:2401.17910v3 Rainbow

FlowPlan: Zero-Shot Task Planning with LLM Flow Engineering for Robotic Instruction Following

机器人指令以下任务需要无缝整合视觉感知，任务计划，目标定位和运动执行。但是，由于在操作约束下将冗长的指令置于可操作的计划中，因此在零拍摄的情况下，现有的指导以下任务计划方法是数据驱动或零镜头方案的表现不佳。为了解决这个问题，我们提出了FlowPlan，这是一种结构化的多阶段LLM工作流程，可提高零击管道，并弥合零摄像机和数据驱动的内在学习方法之间的性能差距 ...

0 0 0 2025/04/23 arXiv:2503.02698v1 jueli

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）