一译 —— 文档和论文翻译、对照阅读、讨论和社区

Aligning Multimodal LLM with Human Preference: A Survey

大型语言模型（LLM）可以通过简单的提示处理各种一般任务，而无需特定于任务的培训。基于LLM的多模式大语言模型（MLLM）在解决涉及视觉，听觉和文本数据的复杂任务方面具有令人印象深刻的潜力。但是，与真实性，安全性，类似O1的推理以及与人类偏好的一致性有关的关键问题仍未得到充分解决 ...

0 1 0 2025/05/08 arXiv:2503.14504v2 weight

RELIEF: Reinforcement Learning Empowered Graph Feature Prompt Tuning

根据自然语言处理（NLP）的成就，“预训练，及时”范式的出现最近扩展了其概括能力和数据效率以图形表示学习。初始图形提示调谐方法量身定制了针对图形神经网络（GNN）模型预先训练的特定策略（例如Edge预测）的专用提示功能，从而限制了其适用性。相比之下，另一项开创性的研究系列通过向输入图的特征空间添加提示来探讨了通用提示，从而消除了对特定的预训练策略的依赖 ...

0 1 0 2025/05/08 arXiv:2408.03195v3 weight

MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement Learning for Discrete Prompt Optimization

可以使用基于RL的技术来搜索提示，这些提示将最大化一组用户指定的奖励功能。但是，在许多目标应用程序中，自然奖励功能彼此之间存在紧张关系 - 例如，内容保存与样式转移任务中的样式匹配 ...

0 1 0 2025/05/08 arXiv:2402.11711v2 weight

TR2MTL: LLM based framework for Metric Temporal Logic Formalization of Traffic Rules

交通规则正式化对于验证自动驾驶汽车（AV）的合规性和安全至关重要。但是，自然语言交通规则作为正式规范的手动翻译需要领域知识和逻辑专业知识，这限制了其适应性。本文介绍了TR2MTL，该框架采用大型语言模型（LLMS）自动将流量规则（TR）转化为公制时间逻辑（MTL） ...

0 0 0 2025/05/08 arXiv:2406.05709v1 liangzai

CoIR: A Comprehensive Benchmark for Code Information Retrieval Models

尽管信息检索（IR）在各种NLP任务中取得了巨大成功，但大多数IR系统主要在自然语言中处理查询和语料库，从而忽略了代码检索的领域。代码检索至关重要，但仍未探索，现有方法和基准不足代表各种域和任务中代码的多样性。在解决这一差距时，我们提出了COIR（代码信息检索基准），这是一种专门旨在评估代码检索功能的强大而全面的基准 ...

0 0 0 2025/05/08 arXiv:2407.02883v2 smpublic

The RSNA-ASNR-MICCAI BraTS 2021 Benchmark on Brain Tumor Segmentation and Radiogenomic Classification

Brats 2021挑战赛庆祝其成立10周年，并由北美放射学会（RSNA），美国神经放射学会（ASNR）以及医学图像计算和计算机辅助干预（MICCAI）协会共同组织。自成立以来，小子一直专注于作为脑神经胶质瘤分割算法的常见基准测试场所，并具有良好的多机构多参数磁共振成像（MPMRI）数据。神经胶质瘤是中枢神经系统中最常见的原发性恶性肿瘤，具有不同程度的侵略性和预后 ...

0 0 0 2025/05/08 arXiv:2107.02314v2 MeanttoBe

Describe Anything: Detailed Localized Image and Video Captioning

为图像和视频中的特定区域生成详细而准确的描述仍然是视觉模型的基本挑战。我们介绍了描述任何模型（DAM），该模型是为详细的局部字幕（DLC）设计的。大坝通过两个关键创新来保留本地细节和全球环境：一个焦点提示，可确保对目标区域的高分辨率编码，以及一个局部视觉骨干，将精确的本地化与更广泛的环境相结合 ...

0 1 1 2025/05/08 arXiv:2504.16072v1 haoyi199815

RLIPv2: Fast Scaling of Relational Language-Image Pre-training

关系语言图像预训练（RLIP）旨在使视觉表示与关系文本保持一致，从而提高计算机视觉任务中关系推理的能力。但是，由于RLIPV1体系结构的缓慢收敛性和现有场景图数据的有限可用性的阻碍，Scaling RlipV1具有挑战性。在本文中，我们提出了RLIPV2，这是一个快速收敛的模型，可以将关系预训练缩放到大规模伪标记的场景图数据 ...

0 0 0 2025/05/08 arXiv:2308.09351v1 yiyi07

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）