建模用户动作序列已成为工业推荐系统研究中的流行重点,特别是对于点击率(CTR)预测任务。但是,行业规模的CTR模型通常依靠短用户序列,从而限制了其捕获长期行为的能力。此外,这些模型通常缺乏在重点排名框架内的集成动作预测任务,从而降低了其预测能力 ...
0 0 0 2025/06/05 arXiv:2506.02267v1 fc
由于模型上下文协议(MCP),大型语言模型(LLMS)现在可以访问广泛的外部工具。这大大扩展了他们作为各种代理商的能力。但是,LLMS完全依靠工具的文本描述来决定使用哪些工具 - 令人惊讶的脆弱过程 ...
0 0 0 2025/06/05 arXiv:2505.18135v1 hhhhh
工具选择是LLM代理的关键组成部分。该过程通过两步机制 -  \ emph {reterieval}和\ emph {selection}  - 从工具库中选择最合适的工具作为给定任务。在这项工作中,我们介绍了\ textit {toolhijacker},这是一种新颖的提示注射攻击定位工具在No-Box方案中的选择 ...
0 0 0 2025/06/05 arXiv:2504.19793v1 hhhhh
在当前自动回归网格生成方法中,下一坐标预测范式已成为事实上的标准。尽管它们的有效性,但对于将网格序列化为序列的各种引物器仍未有效测量。在本文中,我们介绍了新的度量全态凝集(PTME),以理论上在没有任何培训的情况下从理论上评估现有的网格标记 ...
0 0 0 2025/06/05 arXiv:2505.13573v1 happy
在本文中,我们介绍了TalkingMachines,这是一个有效的框架,将验证的视频生成模型转换为实时,音频驱动的角色动画师。 TalkingMachines通过将音频大语言模型(LLM)与我们的视频生成基础模型集成在一起,从而实现自然的对话体验。我们的主要贡献包括:(1)我们将预验证的SOTA图像到视频DIT调整为180亿参数的音频驱动的头像生成模型; (2)我们通过从双向教师模型中的不对称知识 ...
0 0 0 2025/06/05 arXiv:2506.03099v1 KingYi
使用体积表示(例如签名距离函数(SDF))生成高分辨率的3D形状,提出了实质性的计算和内存挑战。我们介绍了Direct3D-S2,这是一个基于稀疏量的可扩展3D生成框架,可通过大幅降低培训成本,从而达到较高的输出质量。我们的关键创新是空间稀疏注意(SSA)机制,它极大地提高了扩散 Transformer (DIT)计算稀疏数据的效率 ...
0 0 0 2025/06/05 arXiv:2505.17412v2 happy
SQL(NL2SQL)的自然语言通过将自然语言查询转换为结构化的SQL语句,从而可以与数据库进行直观的交互。尽管最近在增强数据库应用程序中的人类计算机互动方面取得了进步,但重大挑战仍然存在,尤其是在涉及多桌子连接和嵌套查询的复杂场景中的推理性能方面。当前的方法论主要利用监督的微调(SFT)来训练NL2SQL模型,这可能会限制新环境中的适应性和可解释性(e ...
0 0 0 2025/06/05 arXiv:2504.08600v2 zhangxinhao
矢量量化的变异自动编码器(VQ-VAE)旨在压缩连续输入到离散的潜在空间,并以最小的失真重建它。它们通过维护一组向量(通常称为代码簿)来运行,并将每个编码器输出量化为代码簿中最近的向量。但是,由于矢量量化是不可差异的,因此编码器的梯度围绕矢量量化层流动,而不是通过直接近似值通过它 ...
0 0 0 2025/06/05 arXiv:2410.06424v2 Daenerays

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)