一译 —— 文档和论文翻译、对照阅读、讨论和社区

On The Landscape of Spoken Language Models: A Comprehensive Survey

口语处理的领域正在从培训定制的，特定于任务的模型转变为使用和优化语言模型（SLM），这些模型（SLM）充当通用语音处理系统。这种趋势类似于在（文本）自然语言处理领域发生的通用语言模型的发展。 SLM包括语音的“纯”语言模型 -  Token 化语音序列的分布模型，以及将语音编码器与文本语言模型相结合的模型，通常包括口语和书面输入或输出 ...

0 1 1 2025/05/03 arXiv:2504.08528v1 weanhear

Automatic Detection and Classification of Symbols in Engineering Drawings

提出了一种在设计图，绘图或计划布局中查找和分类各种组件和对象的方法。该方法会自动找到传奇表中存在的对象，并借助多个深神经网络找到其位置，计数和相关信息。该方法已在多个图纸或设计模板上进行了预训练，以学习可能有助于表示新模板的功能集 ...

0 0 0 2025/05/03 arXiv:2204.13277v1 eFang

nnU-Net Revisited: A Call for Rigorous Validation in 3D Medical Image Segmentation

NNU-NET的发布标志着3D医疗图像分割的范式转移，表明正确配置的U-NET体系结构仍然可以实现最新的结果。尽管如此，对新型架构的追求以及与U-NET基线相比优越性能的主张继续。在这项研究中，我们证明，当对常见验证缺点进行审查时，例如使用不足的基线，数据集和忽视的计算资源时，许多最近的主张都无法坚持 ...

0 0 0 2025/05/03 arXiv:2404.09556v2 JackWang

HyPerAlign: Hypotheses-driven Personalized Alignment

一致性算法广泛用于基于反映其预期的现实世界用例的偏好注释，将大型语言模型（LLMS）与人类用户相结合。通常，这些（通常是发散的）偏好是在各种用户集合中汇总的，从而产生了与“普通用户”偏好相符的微调模型。然而，在非常具体的上下文和情况下，各个用户都使用了当前的模型，从而强调了对用户依赖的偏好控制的需求 ...

0 0 0 2025/05/03 arXiv:2505.00038v1 微生心月

HiPrompt: Few-Shot Biomedical Knowledge Fusion via Hierarchy-Oriented Prompting

可以通过全面的生物医学知识库来增强医疗决策过程，这些知识基础需要通过统一索引系统从不同来源构建的知识图。索引系统经常在层次结构中组织生物医学术语，以使对准实体具有细粒度的粒度。为了解决生物医学知识融合（BKF）任务中稀缺监督的挑战，研究人员提出了各种无监督方法 ...

0 0 0 2025/05/03 arXiv:2304.05973v1 readpapers

TC-RAG:Turing-Complete RAG's Case study on Medical LLM Systems

为了追求增强特定领域的大语言模型（LLMS），检索成名的一代（RAG）是一种有希望的解决方案，用于减轻诸如幻觉，过时的知识和高度专业查询的专业知识等问题。但是，现有的抹布方法因忽略系统状态变量而无法实现，这对于确保自适应控制，检索停止和系统收敛至关重要。在本文中，我们通过严格的证明介绍了TC-rag，这是一个新颖的框架，通过合并图灵完整的系统来管理状态变量，从而解决了这些挑战，从而实现了更有效和准 ...

0 0 0 2025/05/03 arXiv:2408.09199v1 15942315998

EditSplat: Multi-View Fusion and Attention-Guided Optimization for View-Consistent 3D Scene Editing with 3D Gaussian Splatting

3D编辑中的最新进展突出了实时，用户友好的AR/VR应用程序的文本驱动方法的潜力。但是，当前方法依赖于2D扩散模型，而没有充分考虑多视图信息，从而导致多视图不一致。尽管3D高斯裂口（3DG）显着提高了渲染质量和速度，但由于预先训练的高斯人保留了过多的源信息，因此其3D编辑过程会遇到困难，而效率低下 ...

0 0 0 2025/05/03 arXiv:2412.11520v2 assvga

NavRAG: Generating User Demand Instructions for Embodied Navigation through Retrieval-Augmented LLM

视觉和语言导航（VLN）是体现代理的重要技能，可以按照自然语言说明在3D环境中导航。高性能导航模型需要大量的培训数据，手动注释数据的高成本严重阻碍了该领域。因此，一些以前的方法将轨迹视频转化为用于扩展数据的分步说明，但是此类说明与用户的通信方式不太匹配，这些通信方式简要描述了目的地或状态特定的需求 ...

0 0 0 2025/05/03 arXiv:2502.11142v3 0mind

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）