arxiv的文档

arxiv 南京

个性签名 ...

Numerical models outperform AI weather forecasts of record-breaking extremes

基于人工智能（AI）的模型正在彻底改变天气预报，并在各种基准任务上超过了领先的数值天气预测系统。但是，它们推断并可靠地预测前所未有的极端事件的能力尚不清楚。在这里，我们表明，对于纪录的天气极端，数值模型高分辨率预测（HRES）来自欧洲中等天气预报中心的高分辨率预测（HRES）仍然一贯胜过最先进的AI模型图形广播，Graphcast Operations，Panguct Operations，Pangue-Weather，Pangu-Weather，Pangu-Weather，Pangu-Weather Operational和Fuxi ...

0 0 0 0 2025/08/25 arXiv:2508.15724v1 swaydy

MolmoAct: Action Reasoning Models that can Reason in Space

推理对于有目的的行动至关重要，但是大多数机器人基础模型将感知和指示直接绘制为控制，从而限制了适应性，泛化和语义基础。我们介绍了动作推理模型（ARM），这是一种通过结构化的三阶段管道整合感知，计划和控制的机器人基础模型。我们的模型Molmoact将观测和指令编码为深度感知 Token ，将中层空间计划作为可编辑的轨迹痕迹生成中层空间计划，并预测精确的低级动作，实现可解释和可解释的行为 ...

0 0 0 0 2025/08/25 arXiv:2508.07917v3 odenkkk

Where to show Demos in Your Prompt: A Positional Bias of In-Context Learning

内部文化学习（ICL）是大语言模型（LLMS）的重要新兴能力，在提示中包括一些演示（emos），可以在推断过程中很少进行学习。但是，已经发现ICL的性能可以对演示的选择及其顺序敏感。本文首次研究了未开发的ICL的新位置偏置：我们观察到，当演示，系统提示和LLM输入中的用户消息的位置变化时，预测和准确性会大大漂移 ...

0 0 0 0 2025/08/25 arXiv:2507.22887v1 boydfd

AgentOrchestra: A Hierarchical Multi-Agent Framework for General-Purpose Task Solving

代理系统的最新进展表明，在解决通用和高度复杂的任务方面具有显着的能力。但是，大多数当前模型都缺乏协调专用代理的机制，并且有限地推广到新的或不同领域的能力。为此，我们介绍了AgentorChestra，这是一种用于通用任务解决的层次多代理框架，将高级计划与模块化代理协作集成在一起 ...

0 0 0 0 2025/08/25 arXiv:2506.12508v3 boydfd

Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization

我们提出了Klear-Reasoner，这是一个具有较长推理能力的模型，在解决问题期间表现出了仔细的审议，并在多个基准测试中实现了出色的性能。尽管在当前社区中已经有许多与推理模型相关的出色作品，但由于培训细节的披露不完整，重现高性能推论模型仍然存在许多问题。该报告提供了对推理模型的深入分析，涵盖了从数据制备和长期经过经过经过经过经过经验的监督链监督的微调（长COT SFT）到加固学习（RL）的整个培训工作流程，以及每个实验组件的详细消融研究 ...

0 0 0 0 2025/08/25 arXiv:2508.07629v2 ymx

Deep Think with Confidence

大型语言模型（LLMS）通过测试时间缩放方法（例如自遇到性能和多数投票）在推理任务方面表现出了巨大的潜力。但是，这种方法通常会导致准确性和高计算开销的回报降低。为了应对这些挑战，我们充满信心地介绍了深层思考（DeepConf），这是一种简单而强大的方法，可在测试时提高推理效率和性能 ...

0 0 0 0 2025/08/24 arXiv:2508.15260v1 quziyan

LongRoPE2: Near-Lossless LLM Context Window Scaling

Longrope2是一种新颖的方法，它将预训练的大语言模型（LLM）的有效上下文窗口扩展到目标长度，同时保留在原始较短上下文窗口上的性能。这是通过三个贡献来实现的：（1）一个假设，即较高绳索维度的训练不足有助于在现有方法中观察到的持续分布（OOD）问题；（2）一种有效的绳索恢复算法，该算法采用以“针驱动”的困惑为指导的进化搜索来解决训练问题不足；（3）一种混合的上下文窗口训练方法，该方法微调型号的权重以采用重新续线序列的重新绳索，同时用原始绳索保留短上下文性能。在Llama3-8b和Phi3-Mini-3上进行了广泛的实验 ...

0 0 0 0 2025/08/24 arXiv:2502.20082v1 ymx

Numerical models outperform AI weather forecasts of record-breaking extremes

MolmoAct: Action Reasoning Models that can Reason in Space

Where to show Demos in Your Prompt: A Positional Bias of In-Context Learning

AgentOrchestra: A Hierarchical Multi-Agent Framework for General-Purpose Task Solving

Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization

Deep Think with Confidence

LongRoPE2: Near-Lossless LLM Context Window Scaling

Temporal and Heterogeneous Graph Neural Network for Financial Time Series Prediction

CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation

PACiM: A Sparsity-Centric Hybrid Compute-in-Memory Architecture via Probabilistic Approximation

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）