了解和建模用户生成的内容的普及(UGC)在社交媒体平台上的简短视频提出了一个至关重要的挑战,对内容创建者和推荐系统的影响很大。这项研究深入研究了预测用户互动有限的新发布视频参与的复杂性。令人惊讶的是,我们的发现表明,以前视频质量评估数据集的平均意见分数与视频参与水平不密切相关 ...
视觉模型(VLM)为多模式任务带来了强大的理解和推理能力。同时,还出现了对移动设备上有能力的ARITICKENT的巨大需求,例如AI Assistant Software。一些努力试图将VLM迁移到Edge设备以扩大其应用程序范围 ...
大型语言模型(LLM)已显着提高了自动代码生成的领域。但是,在评估LLMS生成的代码中可能存在的社会偏见的评估中存在一个显着的研究差距。为了解决这个问题,我们提出了一个新颖的公平框架,即 ...
图形处理单元(GPU)不断发展,以符合当代通用工作负载的计算需求,尤其是利用深度学习技术驱动的那些工作量,尤其是那些由人工智能(AI)驱动的工作。大量研究已致力于剖析特征多种GPU世代的微体系指标,这些指标有助于研究人员了解硬件细节并利用它们来优化GPU程序。但是,最新的Hopper GPU呈现出一组新型属性,包括支持FP8,DPX和分布式共享内存的新张量核心 ...
这项工作引入了Diffuseloco,这是一个框架,用于培训从离线数据集的动态腿部运动的多技能扩散策略,从而实现了现实世界中机器人的各种技能的实时控制。大规模的离线学习导致了计算机视觉,自然语言处理和机器人操纵域的突破。但是,扩大学习腿机器人运动的学习,尤其是在单个政策中的多种技能方面,对先前的在线强化学习方法提出了重大挑战 ...
医疗问题回答需要广泛访问专业的概念知识。当前的范式,检索型发电(RAG)通过大规模的语料库检索获得了专业知识知识,并使用这些知识来指导通用大型语言模型(LLM)来生成答案。但是,现有的检索方法通常忽略事实知识的重要性,这限制了检索概念知识的相关性并限制了其在现实情况下的适用性,例如基于电子健康记录(EHRS)的临床决策 ...
Transformer 模型的成功将深度学习模型量表推向了数十亿个参数。但是,由于单个GPU的内存资源有限,因此仍然缺乏选择最佳并行策略的最佳实践,因为它需要深度学习和并行计算方面的域专业知识。巨大的AI系统通过引入统一的界面来解决上述挑战,以将模型培训的顺序代码扩展到分布式环境 ...
大语言模型的流行激增引起了人们对这些模型可能向人类学习的偏见的担忧。我们调查了群集团的团结和群体敌意是否存在于56种大语言模型中。我们发现,当提示完成句子时,几乎所有基础语言模型和某些指令微调模型都表现出明确的内部阳性和外群阴性关联(e ...