一译 —— 文档和论文翻译、对照阅读、讨论和社区

MC3D-AD: A Unified Geometry-aware Reconstruction Model for Multi-category 3D Anomaly Detection

3D异常检测（AD）是控制制成品质量的有前途的方法。但是，现有方法通常需要仔细培训每个类别的特定任务模型，从而导致高成本，低效率和较弱的概括。因此，本文介绍了一个新型的多类别3D异常检测（MC3D-AD）的统一模型，该模型旨在利用局部和全局几何感知信息来重建所有类别的正常表示 ...

0 0 0 2025/05/08 arXiv:2505.01969v1 青云

Learning Multi-Modal Whole-Body Control for Real-World Humanoid Robots

人形机器人的基础能力应包括坚固的站立，步行和模仿整体运动和部分运动。这项工作介绍了蒙版的类人动物控制器（MHC），该控制器通过跟踪目标轨迹而不是类人体状态变量的选定子集，同时确保对扰动的平衡和鲁棒性来支持所有这些功能。使用经过精心设计的课程对MHC进行了模拟训练，该课程模仿了跨越站立，步行，优化的参考轨迹，重新定位的视频剪辑和人类运动捕获数据的行为库的部分掩盖动作 ...

0 0 0 2025/05/08 arXiv:2408.07295v3 yukun

MiME: Multilevel Medical Embedding of Electronic Health Records for Predictive Healthcare

深度学习模型使用电子健康记录（EHR）数据表现出许多预测性医疗保健任务的最新性能，但是这些模型通常需要超过大多数医疗保健系统能力的培训数据量。外部资源（例如医学本体）用于弥合数据量限制，但是由于与术语的不一致，这种方法通常不直接适用或有用。为了解决数据不足挑战，我们利用EHR数据的固有多级结构，尤其是医疗代码之间的编码关系 ...

0 0 0 2025/05/08 arXiv:1810.09593v1 readpapers

MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding

大型语言模型 (LLM) 在交互式聊天机器人、文档分析和代理工作流程等长上下文应用程序中变得越来越普遍，但以低延迟和高吞吐量服务长上下文请求具有挑战性。推测性解码 (SD) 是一种广泛使用的技术，可以在不牺牲性能的情况下减少延迟，但传统观点认为其功效仅限于小批量大小。在 MagicDec 中，我们表明，令人惊讶的是，即使对于中长序列的高吞吐量推理机制，SD 也能实现加速 ...

0 0 0 2025/05/08 arXiv:2408.11049v5 anhao

Infogent: An Agent-Based Framework for Web Information Aggregation

尽管看似性能的Web代理在任务完成基准测试中，但大多数现有方法还是基于预设的代理来评估代理：Web导航任务由具有标记任务完成的最终状态的线性操作序列组成。相比之下，我们的工作着重于网络导航以进行信息汇总，其中代理必须探索不同的网站以收集信息以进行复杂的查询。我们从两个不同的角度考虑Web信息聚合：（i）直接API驱动的访问依赖于网络的文本视图，利用外部工具（例如Google Search API） ...

0 0 0 2025/05/08 arXiv:2410.19054v1 arthur

TVG: A Training-free Transition Video Generation Method with Diffusion Models

过渡视频在媒体生产中起着至关重要的作用，增强了视觉叙事的流程和连贯性。诸如变形之类的传统方法通常缺乏艺术吸引力，需要专业技能，从而限制了它们的有效性。基于扩散模型的视频生成的最新进展为创造过渡提供了新的可能性，但面临诸如较差的框架间关系建模和突然内容变化之类的挑战 ...

0 0 0 2025/05/08 arXiv:2408.13413v1 kevinson

Engineering Monosemanticity in Toy Models

在某些神经网络中，单个神经元对应于输入中的自然``特征''。这样的\ emph {单语义}神经元在可解释性研究方面具有很大的帮助，因为它们可以清晰地理解。在这项工作中，我们报告了初步尝试在玩具模型中设计单位气质的尝试 ...

0 0 0 2025/05/08 arXiv:2211.09169v1 Jasper1

OpenFly: A Versatile Toolchain and Large-scale Benchmark for Aerial Vision-Language Navigation

Vision语言导航（VLN）旨在通过利用语言说明和视觉提示，在体现的AI中发挥关键作用来指导代理商度过环境。室内VLN已经进行了广泛的研究，而户外空中VLN仍然没有被忽略。潜在的原因是，户外空中视图涵盖了广阔的区域，使数据收集更具挑战性，从而导致缺乏基准测试 ...

0 0 0 2025/05/08 arXiv:2502.18041v4 zw

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）