一译 —— 文档和论文翻译、对照阅读、讨论和社区

Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention

使用体积表示（例如签名距离函数（SDF））生成高分辨率的3D形状，提出了实质性的计算和内存挑战。我们介绍了Direct3D-S2，这是一个基于稀疏量的可扩展3D生成框架，可通过大幅降低培训成本，从而达到较高的输出质量。我们的关键创新是空间稀疏注意（SSA）机制，它极大地提高了扩散 Transformer （DIT）计算稀疏数据的效率 ...

0 0 0 2025/06/05 arXiv:2505.17412v2 happy

SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning

SQL（NL2SQL）的自然语言通过将自然语言查询转换为结构化的SQL语句，从而可以与数据库进行直观的交互。尽管最近在增强数据库应用程序中的人类计算机互动方面取得了进步，但重大挑战仍然存在，尤其是在涉及多桌子连接和嵌套查询的复杂场景中的推理性能方面。当前的方法论主要利用监督的微调（SFT）来训练NL2SQL模型，这可能会限制新环境中的适应性和可解释性（e ...

0 0 0 2025/06/05 arXiv:2504.08600v2 zhangxinhao

Restructuring Vector Quantization with the Rotation Trick

矢量量化的变异自动编码器（VQ-VAE）旨在压缩连续输入到离散的潜在空间，并以最小的失真重建它。它们通过维护一组向量（通常称为代码簿）来运行，并将每个编码器输出量化为代码簿中最近的向量。但是，由于矢量量化是不可差异的，因此编码器的梯度围绕矢量量化层流动，而不是通过直接近似值通过它 ...

0 0 0 2025/06/05 arXiv:2410.06424v2 Daenerays

AnyTeleop: A General Vision-Based Dexterous Robot Arm-Hand Teleoperation System

基于视觉的远程操作提供了赋予机器人人类水平的智能以与环境进行物理交互的可能性，同时只需要低成本的相机传感器。然而，当前基于视觉的远程操作系统是针对特定的机器人模型和部署环境进行设计和工程的，随着机器人模型池的扩大和操作环境多样性的增加，其扩展性很差。在本文中，我们提出了 ...

0 0 0 2025/06/05 arXiv:2307.04577v3 xsx-666

Comparisons between a Large Language Model-based Real-Time Compound Diagnostic Medical AI Interface and Physicians for Common Internal Medicine Cases using Simulated Patients

开发基于LLM的实时复合诊断医学AI接口的目标，并进行了临床试验，该试验比较了基于美国医疗许可检查（USMLE）的常见内科病例的该界面和医生，步骤2临床技能（CS）样式考试。方法于2024年8月20日进行了非随机临床试验。我们招募了一名普通医师，两名内科居民（第二年和第三年）和五名模拟患者 ...

0 0 0 2025/06/05 arXiv:2505.20609v1 王德发

Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis

准确地理解情绪对于人类计算机互动等领域至关重要。由于情绪的复杂性及其多模式的性质（例如 ...

0 0 0 2025/06/05 arXiv:2501.09502v1 rayjue

DexterityGen: Foundation Controller for Unprecedented Dexterity

教机器人灵巧的操纵技巧（例如使用工具）提出了重大挑战。当前的方法可以大致分为两种策略：人类近距离（用于模仿学习）和SIM到现实的强化学习。第一种方法很难，因为人类很难在没有触摸反馈的情况下在不同的实施例上产生安全有灵活的运动 ...

0 0 0 2025/06/05 arXiv:2502.04307v1 wchiyu98

FilterLLM: Text-To-Distribution LLM for Billion-Scale Cold-Start Recommendation

基于大型语言模型（LLM）的冷启动推荐系统在数十亿级的情况下继续面临重大的计算挑战，因为它们遵循“文本对判断”范式。此方法处理用户项目的内容对作为输入，并迭代评估每对。为了维持效率，现有方法依赖于对用户项目对的小候选池进行过滤 ...

0 0 0 2025/06/05 arXiv:2502.16924v1 帅哥

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）