在生成模型中的最新突破,主要扩散模型和整流的流量彻底改变了视觉内容的创造,但是将模型输出与人类偏好保持一致仍然是一个关键的挑战。现有的强化学习(RL)基于视觉生成的方法面临临界局限性:与现代普通微分方程(ODES)基于基于的采样范式的不相容性,大规模培训中的不稳定性以及缺乏视频生成的验证。 This paper introduces DanceGRPO, the first unified fra ...
现代GPU凭借其专门的硬件(如张量核心),对于要求AI和深度学习应用至关重要。这项研究介绍了NVIDIA HOPPER GPU架构的全面,多级微型分析分析,并深入研究了其性能特征和新颖特征。我们基于Hopper的内存子系统延迟和吞吐量,将其L2分区的缓存行为和全局内存访问模式与最近的GPU Generations,Ampere和Ada Lovelace进行了比较 ...
复杂非线性功能的准确近似是许多科学和工程领域的基本挑战。传统的神经网络体系结构,例如多层感知器(MLP),通常很难有效地捕获高维功能中存在的复杂模式和不规则性。本文介绍了Chebyshev Kolmogorov-Arnold网络(Chebyshev Kan),这是一种新的神经网络架构,灵感来自Kolmogorov-Arnold代表定理,并结合了Chebyshev多项式的强大近似功能 ...
ML和HPC应用程序越来越多地结合了密集和稀疏的内存访问计算,以最大程度地提高存储效率。但是,现有的CPU和GPU努力以始终高的计算效率灵活地处理这些异质工作负载。我们介绍了Occamy,一个432核,768-DP-GFLOP/S,Dual-HBM2E,双芯片RISC-V系统,具有耐潜力的层次结构互连和核内流媒体(SUS),旨在加速FP8至FP8至FP8至FP64 mL和HPC和HPC的工作量 . ...
视力大型语言模型(LLM)的最新发展取得了显着的进步,但仍遇到对多模式通才的挑战,例如粗粒度的实例级别的理解,对图像和视频的统一支持缺乏统一的支持,以及在各种视觉任务中的覆盖范围不足。在本文中,我们介绍了Vivron,这是一种通用像素级视觉LLM,旨在全面理解,生成,分割和编辑静态图像和动态视频。 Votron在LLM主链的基础上建立在其前端模块内的图像,视频和像素级区域视觉效果的编码器,同时采用 ...
最近的进步将基于频率的技术逐渐融入深度学习模型,从而显着提高了时间序列分析任务的准确性和效率。然而,现实世界中的频谱频谱差距序列序列,其中能量集中在低频区域,而中频频段则可以忽略不计,这阻碍了现有深度学习模型提取关键频率信息的能力。此外,多变量时间序列中的共享键频率(不同的时间序列共享难以区分的频率模式)很少被现有文献所利用 ...
时间序列预测是统计和机器学习中的长期问题。关键挑战之一是通过长期依赖性处理序列。为此,最近的工作线应用了短时傅立叶变换(STFT),该变换将序列分配为多个子序列,并分别应用傅立叶变换 ...
低级别适应性(LORA)由于其效率和模块化而广泛用于将大型语言模型(LLM)调整为特定领域。同时,香草·洛拉(Vanilla Lora)在多任务场景中与任务冲突斗争。最近的作品通过将每个Lora模块视为专家来采用专家(MOE)的混合物,从而通过多个专业的Lora模块来减轻任务干扰 ...