arxiv的文档

arxiv 南京

个性签名 ...

LeVo: High-Quality Song Generation with Multi-Preference Alignment

大型语言模型（LLM）和音频语言模型的最新进展已大大改善了音乐的发电，尤其是歌词到歌曲的一代。但是，现有的方法仍然在歌曲的复杂组成和高质量数据的稀缺性方面困难，从而导致声音质量，音乐性，跟随教学和声音启动和谐的限制。为了应对这些挑战，我们介绍了LEVO，这是一个基于LM的框架，由LELM和音乐编解码器组成 ...

0 0 0 0 2025/06/27 arXiv:2506.07520v2 wkw1220632

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

近年来，在多模式理解模型和图像产生模型中都取得了显着的进步。尽管取得了各自的成功，但这两个领域还是独立发展的，导致了独特的建筑范式：尽管基于自动进程的架构占多模式的理解，但基于扩散的模型已成为图像生成的基石。最近，人们对开发整合这些任务的统一框架的兴趣越来越大 ...

0 0 0 0 2025/06/27 arXiv:2505.02567v3 alex666

Revisiting Point Cloud Shape Classification with a Simple and Effective Baseline

处理点云数据是许多实际系统的重要组成部分。因此，已经提出了各种基于点的方法，并报告了随着时间的推移基准的稳定改进。我们研究了这一进展的关键要素，并发现了两个关键结果 ...

0 0 0 0 2025/06/27 arXiv:2106.05304v1 DamnMan

Skill-based Multi-objective Reinforcement Learning of Industrial Robot Tasks with Planning and Knowledge Integration

在具有小批量的现代工业环境中，为新任务设置机器人系统应该很容易。存在策略，例如 ...

0 0 0 0 2025/06/27 arXiv:2203.10033v1 mencius

Knowledge-Augmented Large Language Models for Personalized Contextual Query Suggestion

大型语言模型（LLMS）在解决各种自然语言任务方面表现出色。但是，由于重新培训或进行微调涉及的巨大成本，它们基本上仍然是静态的，难以个性化。然而，各种应用程序可能会受益于为用户的偏好，目标和知识量身定制的几代人 ...

0 0 0 0 2025/06/27 arXiv:2311.06318v2 wangluyi

CLIFF: Carrying Location Information in Full Frames into Human Pose and Shape Estimation

自上而下的方法主导了3D人类姿势和形状估计的领域，因为它们与人类检测脱钩，并使研究人员可以专注于核心问题。但是，裁剪是他们的第一步，从一开始就丢弃了位置信息，这使自己无法准确预测原始相机坐标系中的全局旋转。为了解决此问题，我们建议将完整框架（悬崖）的位置信息携带到此任务中 ...

0 0 0 0 2025/06/27 arXiv:2208.00571v2 小小卡拉米

MiniMax-Remover: Taming Bad Noise Helps Video Object Removal

视频扩散模型的最新进展推动了视频编辑技术的快速进步。但是，由于幻觉对象和视觉伪像等问题，视频对象的删除是视频编辑的关键子任务，仍然具有挑战性。此外，现有方法通常依赖于计算昂贵的采样程序和无分类器指导（CFG），从而导致推理缓慢 ...

0 0 0 0 2025/06/27 arXiv:2505.24873v1 17761975202

MEDITRON-70B: Scaling Medical Pretraining for Large Language Models

大型语言模型（LLMS）可能会使获得医学知识的机会民主化。尽管已经为利用和提高LLM的医学知识和推理能力而做出了许多努力，但由此产生的模型是封闭的（例如 ...

0 0 0 0 2025/06/27 arXiv:2311.16079v1 keve

A Token-level Text Image Foundation Model for Document Understanding

近年来，一般视觉基础模型（VFM）见证了采用的越来越多，尤其是作为流行多模式大型语言模型（MLLM）的图像编码器。但是，在没有语义上的细粒度监督的情况下，这些模型仍然在下游文本图像相关任务的背景下遇到基本预测错误，即 ...

0 0 0 0 2025/06/27 arXiv:2503.02304v2 zhangsen

Whole-Body Control Framework for Humanoid Robots with Heavy Limbs: A Model-Based Approach

人形机器人经常由于沉重的四肢运动而面临重大的平衡问题。在尝试动态运动或在具有不规则地形的环境中运行时，这些挑战尤其明显。为了应对这一挑战，本手稿使用基于模型的方法结合了基诺 - 动力学计划者和层次结构优化问题，为肢体繁重的人形机器人提出了一个全身控制框架 ...

0 0 0 0 2025/06/27 arXiv:2506.14278v1 daniu22