一译 —— 文档和论文翻译、对照阅读、讨论和社区

Rethinking Benchmark and Contamination for Language Models with Rephrased Samples

大型语言模型越来越多地对人类产生的所有数据进行了培训。由于预训练或微调数据集中的潜在污染，许多人对公共基准的可信度提出了担忧。虽然大多数数据净化工作都采用字符串匹配（e ...

0 0 0 2025/09/08 arXiv:2311.04850v2 yiyiyi

Operator-Based Machine Intelligence: A Hilbert Space Framework for Spectral Learning and Symbolic Reasoning

传统的机器学习模型，尤其是神经网络，植根于有限维参数空间和非线性函数近似。本报告探讨了一种替代表述，其中学习任务表示为无限尺寸希尔伯特空间中的采样和计算，从功能分析，信号处理和光谱理论中利用工具。我们回顾了基础概念，例如复制内核希尔伯特空间（RKHS），光谱操作员学习和小波域表示 ...

0 0 0 2025/09/08 arXiv:2507.21189v1 KingXHJ

Can LLMs Replace Human Evaluators? An Empirical Study of LLM-as-a-Judge in Software Engineering

最近，已经部署了大型语言模型（LLMS）来解决各种软件工程（SE）任务，例如代码生成，可显着推进SE任务的自动化。但是，评估这些LLM生成的代码和文本的质量仍然具有挑战性。常用的通行证@k公制需要广泛的单位测试和配置的环境，需要高的人工成本，并且不适合评估LLM生成的文本 ...

0 0 0 2025/09/08 arXiv:2502.06193v3 mikecyz

EventRR: Event Referential Reasoning for Referring Video Object Segmentation

引用视频对象细分（RVO）旨在在表达式引用的视频中分割对象。当前的RVO方法将表达式视为非结构化序列，忽略了其对参考推理必不可少的至关重要的语义结构。此外，与图像引用的表达式相反，其语义仅关注对象属性和对象对象关系，视频引用表达式还涵盖事件属性和事件事件 - 事件的时间关系 ...

0 0 0 2025/09/08 arXiv:2508.07171v2 chengwenxuan7

When AIs Judge AIs: The Rise of Agent-as-a-Judge Evaluation for LLMs

随着大型语言模型（LLM）的能力和自主权的增长，评估其输出，尤其是在开放式且复杂的任务中，HAS成为关键的瓶颈。新的范式正在出现：使用AI代理作为评估者本身。这种“代理 - 法官”方法利用LLM的推理和观点能力来评估其他模型的质量和安全性，并有望镇痛和细致的人类评估替代方案 ...

0 0 0 2025/09/08 arXiv:2508.02994v1 mikecyz

MM-DREX: Multimodal-Driven Dynamic Routing of LLM Experts for Financial Trading

金融市场的固有非平稳性和多模式信息的复杂性对现有的定量交易模型构成了重大挑战。传统的方法依靠固定结构和单峰数据努力来适应市场政权的转变，而大型语言模型（LLM）驱动的解决方案（尽管具有多模式的理解力）却遭受了静态策略和同质专家设计的影响，缺乏动态的调整和良好的决策机制。为了解决这些限制，我们提出了MM-Drex：基于大语言模型的多模式驱动的，动态的专家框架 ...

0 0 0 2025/09/08 arXiv:2509.05080v1 MarxZhao

Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation

大型语言模型（LLM）在培训（从AI反馈中学习）和大规模响应评估（LLM-AS-A-A-Gudge）中广泛用作人类标签的代理。一致性和评估是可靠LLM的开发中的关键组成部分，反馈协议的选择在两者中都起着核心作用，但仍在研究中。在这项工作中，我们表明选择反馈方案进行评估（绝对得分与相对偏好）可以显着影响评估可靠性并引起系统的偏见 ...

0 0 0 2025/09/08 arXiv:2504.14716v2 mikecyz

Disentangling Physical Dynamics from Unknown Factors for Unsupervised Video Prediction

通过偏微分方程（PDE）描述的利用物理知识是改善无监督视频预测方法的一种吸引人的方式。由于物理学对描述通用视频的完整视觉内容过于限制，因此我们介绍了Phydnet，这是一种两分支深度架构，它明确地将PDE Dynamics从未知的互补信息中删除。第二个贡献是提出一个新的经常性物理细胞（Phycell），灵感来自数据同化技术，用于在潜在空间中执行PDE受限的预测 ...

0 0 0 2025/09/08 arXiv:2003.01460v2 SummeRain

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）