一译 —— 文档和论文翻译、对照阅读、讨论和社区

DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

视觉模型（VLM）的快速进步在解决涉及视觉上下文的数学推理任务方面表现出了巨大的潜力。与可以可靠地将解决方案步骤应用于与次要修改的类似问题的人不同，我们发现像GPT-4O这样的SOTA VLM在这些情况下会始终如一地失败，从而揭示了其数学推理能力的局限性。在本文中，我们研究了VLM中的数学推理鲁棒性，并评估了这些模型在同一问题的不同变体下的表现，例如视觉数值或函数图的变化 ...

0 0 0 2025/03/13 arXiv:2411.00836v2 Dreamer

E-EVAL: A Comprehensive Chinese K-12 Education Evaluation Benchmark for Large Language Models

随着大语模型（LLM）的加速发展，中国K-12教育领域正在使用许多LLM。 LLM和教育的整合越来越近，但是目前尚无评估专注于中国K-12教育领域的LLM的基准。因此，迫切需要进行全面的自然语言处理基准，以准确评估中国K-12教育领域中各种LLM的功能 ...

0 0 0 2025/03/13 arXiv:2401.15927v1 Dreamer

AI Challenger : A Large-scale Dataset for Going Deeper in Image Understanding

通过利用大规模图像数据集，计算机视觉取得了重大进展。但是，对于超出分类的复杂计算机视觉任务的大规模数据集仍然有限。本文提出了一个名为AIC（AI Challenger）的大规模数据集，该数据集具有三个子数据集，人关键点检测（HKD），大规模属性数据集（LAD）和图像中文字幕（ICC） ...

0 0 0 2025/03/13 arXiv:1711.06475v1 shiwei

InferDPT: Privacy-Preserving Inference for Black-box Large Language Model

ChatGPT 等大型语言模型 (LLM) 极大地简化了文本生成任务。然而，他们也对数据泄露和未经授权的数据收集等隐私风险表示担忧。现有的隐私保护推理解决方案面临着与计算时间和通信成本相关的实际挑战 ...

0 0 0 2025/03/13 arXiv:2310.12214v7 xyz_syx

A Unified Search and Recommendation Framework Based on Multi-Scenario Learning for Ranking in E-commerce

搜索和建议（S＆R）是电子商务中最重要的两个情况。大多数用户通常在S＆R方案中与产品进行交互，表明进行联合建模的可能性和潜力。传统的多Scenario模型使用共享参数来学习多个任务的相似性以及特定于任务的参数以了解单个任务的差异 ...

0 0 0 2025/03/13 arXiv:2405.10835v2 motefly

SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories

尽管MLLM表现出足够的图像理解能力，但他们仍然在像素级的理解力上挣扎，从而限制了其实际应用。当前的评估任务（例如VQA和视觉接地）仍然太粗糙，无法准确评估细粒的像素理解。尽管分割是用于像素级理解的基础，但现有方法通常需要MLLM来生成隐式 Token ，该 Token 通过外部像素解码器解码 ...

0 0 0 2025/03/13 arXiv:2503.08625v1 zed

PASER: Post-Training Data Selection for Efficient Pruned Large Language Model Recovery

修剪模型是压缩大语言模型的有效方法。但是，此过程通常会导致模型能力的重大降解。虽然通常采用培训后技术（例如教学调音）来恢复模型性能，但现有方法通常忽略模型能力的不均匀恶化和造成高计算成本 ...

0 0 0 2025/03/13 arXiv:2502.12594v1 lalaxiao

FuseMoE: Mixture-of-Experts Transformers for Fleximodal Fusion

随着临界领域的机器学习模型越来越多地应对多模式数据，他们面临着处理各种方式的双重挑战，通常由于缺失的元素以及收集的样本的时间不规则性和稀疏性而经常不完整。在克服高质量培训样本的稀缺时，成功利用这些复杂数据是改善这些模型的预测性能的关键。我们介绍了``fusemoe''，这是一种与创新的门控函数合并的专家框架 ...

0 0 0 2025/03/13 arXiv:2402.03226v3 henryhz

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）