一译 —— 文档和论文翻译、对照阅读、讨论和社区

Splat-MOVER: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting

我们提出了Splat-Mover，这是一种用于开放式机器人操作的模块化机器人堆栈，它利用高斯分裂（GSPLAT）场景表示的编辑性来启用多阶段的操纵任务。 SPLAT-MOVER由：（i）Ask-Splat，一种GSPLAT表示，将语义和掌握的负担功能提炼到3D场景中。 Ask-Splat可以对3D场景进行几何，语义和负担能力理解，这在许多机器人任务中至关重要； （ii）See-Splat是一种使用 ...

0 0 0 2025/04/08 arXiv:2405.04378v4 zsh231264

Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization

与高度容量密集的模型相比，专家（MOE）结构的混合物（MOE）结构的混合降低了训练和推断成本。升级是一种使用预训练的密集模型初始化和训练MOE模型的方法。虽然升级会导致最初的性能增长，但训练的进展比从头开始训练时慢，从长远来看，训练的表现较慢 ...

0 0 0 2025/04/08 arXiv:2502.19261v2 kkkrd

Controllable Protein Sequence Generation with LLM Preference Optimization

设计具有特定属性的蛋白质为应对生物医学挑战提供了重要的解决方案。预训练的蛋白质大语言模型（LLM）在蛋白质序列产生上显示出令人鼓舞的结果。但是，为了控制特定属性的序列产生，现有工作仍然表现出较差的功能和结构稳定性 ...

0 0 0 2025/04/08 arXiv:2501.15007v1 哎呀大地瓜呀

LORS: Low-rank Residual Structure for Parameter-Efficient Network Stacking

深度学习模型，尤其是基于 Transformer 的模型，通常采用众多具有相同体系结构并执行相似功能的堆叠结构。尽管有效，但这种堆叠范式导致参数数量大幅增加，这对实际应用构成了挑战。在当今越来越大的模型的景观中，堆叠深度甚至可以达到数十个，进一步加剧了这个问题 ...

0 0 0 2025/04/08 arXiv:2403.04303v1 19396386025

Roleplay-doh: Enabling Domain-Experts to Create LLM-simulated Patients via Eliciting and Adhering to Principles

最近的作品将LLMS带到角色扮演现实的社交场景，以帮助新手实践其社交技能。但是，模拟敏感互动（例如心理健康）是具有挑战性的。隐私问题限制了数据访问，并且收集专家反馈（尽管至关重要）是费力的 ...

0 0 0 2025/04/08 arXiv:2407.00870v2 bubbleoo

Beyond the Script: Testing LLMs for Authentic Patient Communication Styles in Healthcare

有效的患者沟通在医疗保健中是关键的，但是传统的医学培训通常缺乏接触多样化的人际动态。为了弥合这一差距，本研究建议使用大型语言模型（LLM）来模拟真实的患者沟通方式，特别是源自SATIR模型的“原告”和“理性”角色，同时还确保了多种适用性，以适应多样化的文化背景，并增强医疗专业人员的可及性。利用高级及时的工程，包括行为提示，作者的笔记和固执机制，我们开发了体现细微的情感和对话性状的虚拟患者（VPS） ...

0 0 0 2025/04/08 arXiv:2503.22250v1 bubbleoo

CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs

尽管具有令人印象深刻的能力，但多模式的大型语言模型（MLLM）仍然在幻觉上挣扎。最近的研究试图通过使用基于文本响应的偏好对应用直接偏好优化（DPO）来缓解这种情况。但是，我们对表示分布的分析表明，多模式DPO努力努力使图像和文本表示并区分幻觉和非抗解描述 ...

0 0 0 2025/04/08 arXiv:2501.16629v1 哎呀大地瓜呀

InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment

无需使用明确的奖励，直接偏好优化（DPO）将配对的人类偏好数据用于微调生成模型，这种方法在大语言模型（LLMS）中引起了相当大的关注。但是，对具有人类偏好的文本对象（T2I）扩散模型的探索仍然有限。与监督的微调相比，由于长长的马尔可夫链过程和反向过程的棘手性，对齐扩散模型的现有方法均具有低训练效率和不足的生成质量 ...

0 0 0 2025/04/08 arXiv:2503.18454v1 哎呀大地瓜呀

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）