arxiv的文档

arxiv 南京

个性签名 ...

GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot

我们介绍了GLM-4-Voice，这是一个聪明且类似人类的端到端口语聊天机器人。它支持中文和英语，进行实时的语音对话，并根据用户说明来不同，例如情感，语调，语音率和方言。 GLM-4-VOICE使用超低比特量（175bps），单代码书籍 Token ，带有12 ...

0 0 0 0 2025/06/27 arXiv:2412.02612v1 wenzhanwujian

Prompt Engineering Through the Lens of Optimal Control

及时的工程（PE）已成为指导大型语言模型（LLM）解决复杂任务的关键技术。它的重要性强调了其显着提高人机相互作用的效率和有效性的潜力。随着任务越来越复杂，最近的高级PE方法已经扩展了单轮交互的局限性，以采用多发相互作用，从而使与LLMS更深入，更细微的互动 ...

0 0 0 0 2025/06/27 arXiv:2310.14201v2 lb47719448

Decoupling Representation and Classifier for Long-Tailed Recognition

视觉世界的长尾分布对基于深度学习的分类模型构成了巨大的挑战。现有的解决方案通常涉及集体平衡策略，例如 ...

0 1 0 0 2025/06/27 arXiv:1910.09217v2 yqstar

On the Theories Behind Hard Negative Sampling for Recommendation

负面采样已被大量用于在大规模数据上训练推荐模型，其中采样示例通常不仅可以加速收敛性，而且可以提高模型的准确性。然而，尚未透露硬性阴性采样（HNS）有效性的原因。在这项工作中，我们通过对HNS进行彻底的理论分析来填补研究空白 ...

0 1 0 0 2025/06/27 arXiv:2302.03472v2 yqstar

GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior

多模式的大语言模型（MLLM）在革新图形用户界面（GUI）自动化方面显示出很大的潜力。但是，现有的GUI模型主要依赖于从几乎没有错误的离线轨迹中学习，因此缺乏反射和错误恢复功能。为了弥合这一差距，我们提出了GUI-Reflection，这是一个新颖的框架，将自我反射和误差校正能力明确整合到整个专用培训阶段中的端到端多模式GUI模型中：GUI特定的前培训，离线监督监督的细调（SFT）以及在线反射调节 ...

0 0 0 0 2025/06/27 arXiv:2506.08012v1 dqyzhwk

Fast Greedy MAP Inference for Determinantal Point Process to Improve Recommendation Diversity

确定点过程（DPP）是一种优雅的排斥概率模型，其应用在各种机器学习任务中的应用，包括摘要和搜索。但是，在许多应用中起重要作用的DPP的最大后验（MAP）推断是NP-HARD，即使流行的贪婪算法仍然太昂贵了，无法在大型实时场景中使用。为了克服计算挑战，在本文中，我们提出了一种新型算法，以极大地加速DPP的贪婪地图推断 ...

0 0 0 0 2025/06/27 arXiv:1709.05135v2 yangmudan

BlockDialect: Block-wise Fine-grained Mixed Format Quantization for Energy-Efficient LLM Inference

大型语言模型（LLM）的迅速增加在记忆使用和计算成本方面提出了重大挑战。量化权重和激活都可以解决这些问题，并通过硬件支持的细粒度缩放率作为减轻异常值的有前途解决方案。但是，现有方法难以捕获细微的块数据分布 ...

0 0 0 0 2025/06/27 arXiv:2501.01144v3 xiaotai

Whole-Body Conditioned Egocentric Video Prediction

鉴于过去的视频和相对3D身体姿势代表的动作，我们训练模型以预测人类动作（PEVA）的自我视频。通过根据人体联合层次结构结构的运动学姿势轨迹的条件，我们的模型学会了从第一人称角度从第一人称角度来塑造环境的身体行为。我们在Nymeria上训练自动回归有条件扩散 Transformer ，这是一个大规模的以现实世界中心视频和身体姿势捕获的数据集 ...

0 0 0 0 2025/06/27 arXiv:2506.21552v1 odenkkk

End-to-end Learning of Deep Visual Representations for Image Retrieval

尽管深度学习已成为许多计算机视觉任务的最高性能方法中的关键要素，但到目前为止，它未能为实例级图像检索带来类似的改进。在本文中，我们认为，关于图像检索的深层方法的原因不大的原因是三重：i）嘈杂的训练数据，ii）不适当的深度建筑，iii）次优培训程序。我们解决这三个问题 ...

0 0 0 0 2025/06/27 arXiv:1610.07940v2 jeft

Seamless: Multilingual Expressive and Streaming Speech Translation

当今，大型自动语音翻译系统缺乏关键功能，与人与人之间的对话相比，机器介导的沟通感觉无缝。在这项工作中，我们介绍了一个模型系列，该模型可以以流式传播方式端到端表达和多语言翻译。首先，我们贡献了大量多语言和多模式SeamlessM4T模型SeamlessM4T V2的改进版本 ...

0 0 0 0 2025/06/27 arXiv:2312.05187v1 rosyclouds