一译 —— 文档和论文翻译、对照阅读、讨论和社区

Embodying computation in nonlinear perturbative metamaterials

设计进行高级计算的超材料构成了重大挑战。强大的设计策略将问题分为两个步骤：首先，在离散或紧密结合模型中编码所需的功能，其次，识别符合模型的超材料几何形状。将此方法应用于信息处理任务需要准确地映射非线性 - 计算的重要元素 - 从离散模型到几何形状 ...

0 0 0 2025/09/15 arXiv:2509.01625v1 odenkkk

BabyAI: A Platform to Study the Sample Efficiency of Grounded Language Learning

由于实际和科学的原因，允许人类可以交互训练人工代理人理解语言指示是必需的，但是鉴于当前学习方法的数据效率较差，该目标可能需要大量的研究工作。在这里，我们介绍了Babyai研究平台，以支持调查，以将人类包括在循环中进行基础语言学习。 Babyai平台包括一个可扩展的套件，其中包括19个级别的难度 ...

0 0 0 2025/09/15 arXiv:1810.08272v4 plum

Semantic Frame Induction using Masked Word Embeddings and Two-Step Clustering

关于语义框架诱导的最新研究表明，通过使用带有上下文化词嵌入的基于聚类的方法来实现相对较高的性能。但是，这些方法有两个潜在的缺点：一个是它们过多地关注框架引起的动词的表面信息，而另一个则倾向于将同一动词的实例分为太多不同的帧簇。为了克服这些缺点，我们使用掩盖单词嵌入和两步聚类提出了一种语义框架诱导方法 ...

0 0 0 2025/09/15 arXiv:2105.13466v1 ycs233

YESciEval: Robust LLM-as-a-Judge for Scientific Question Answering

大型语言模型（LLMS）推动了对现代搜索引擎的科学提问，但他们的评估鲁棒性仍然没有得到充实。我们介绍了YesCieval，这是一个开源框架，将基于细分的标题评估与强化学习结合在一起，以减轻LLM评估者的乐观偏见。我们发布了来自多个LLM的评估得分，包括对抗性变体，包括对抗性变体 ...

0 0 0 2025/09/15 arXiv:2505.14279v2 树叶无声

MBCT: Tree-Based Feature-Aware Binning for Individual Uncertainty Calibration

大多数机器学习分类器仅涉及分类准确性，而某些应用（例如医学诊断，气象预测和计算广告）需要该模型来预测真正的概率，称为校准估计值。在先前的工作中，研究人员开发了几种校准方法来后处理预测因子的输出，以获得校准值，例如binning和缩放方法。与缩放相比，嵌入方法显示具有无分布的理论保证，这激发了我们更喜欢校准方法进行校准 ...

0 0 0 2025/09/15 arXiv:2202.04348v2 小棠跑快点

Multi-Shot Character Consistency for Text-to-Video Generation

文本到视频模型在从文本描述中生成简短的视频剪辑方面取得了长足的进步。然而，仍然存在一个重大挑战：生成几个相同角色的视频镜头，保留其身份，而不会伤害视频质量，动态和对文本提示的响应能力。我们提出了视频故事板，这是一种无训练的方法，可以通过共享它们之间的特征来实现验证的文本对视频模型，以生成具有一致角色的多个镜头 ...

0 0 0 2025/09/15 arXiv:2412.07750v3 fengdragon

Parametric-ControlNet: Multimodal Control in Foundation Models for Precise Engineering Design Synthesis

本文介绍了一种生成模型，旨在对文本形象至图像基础生成的AI模型（例如稳定扩散）进行多模式控制，该模型是专门针对工程设计综合量身定制的。我们的模型提出了参数，图像和文本控制方式，以增强设计精度和多样性。首先，它使用扩散模型处理部分和完整的参数输入，该模型充当设计自动完成的副驾驶，并与参数编码器结合以处理信息 ...

0 0 0 2025/09/15 arXiv:2412.04707v1 jiangyh

Don't Judge Code by Its Cover: Exploring Biases in LLM Judges for Code Evaluation

随着大型语言模型（LLM）作为评估者的日益增长的使用，其应用程序已扩展到代码评估任务，在那里他们在不依赖参考实现的情况下评估了生成的代码的正确性。尽管这提供了可伸缩性和灵活性，但它也提出了一个关键的，尚未解决的问题：LLM法官是否可以公平，牢固地评估具有表面变化的语义上等效的代码？在功能上正确的代码通常表现出变化，例如可变名称，注释或格式化的差异 - 不应影响其正确性。但是，LLM法官是否可以可靠 ...

0 0 0 2025/09/15 arXiv:2505.16222v1 树叶无声

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）