随着生成AI(Genai)技术的产出的提高,将它们与人类创建的内容区分开来变得越来越具有挑战性。水印方案是一种有前途的方法,可以解决区分AI和人类生成内容的问题。这些方案将隐藏的信号嵌入了AI生成的内容中,以实现可靠的检测 ...
在人工智能(AI)领域中,了解和建模数据生成过程(DGP)的追求至关重要。事实证明,深层生成模型(DGM)擅长捕获复杂的数据分布,但通常在概括和解释性方面缺乏。另一方面,因果关系提供了一个结构化的镜头来理解推动数据生成的机制,并突出了这些过程中固有的因果效应动态 ...
具有离散潜在变量的概率模型自然捕获由离散类组成的数据集。但是,它们很难有效地训练,因为通常不可能通过离散变量进行反向传播。我们提出了一种新的方法,可以使用变分自动编码器框架训练具有离散潜在变量的一类概率模型,包括通过离散潜在变量进行反向传播 ...
本文介绍了 PowerInfer-2,这是一个专为智能手机上的大型语言模型 (LLM) 高速推理而设计的框架,对于大小超过设备内存容量的模型特别有效。 PowerInfer-2 的关键见解是通过将传统矩阵计算分解为细粒度神经元集群计算来利用智能手机中的异构计算、内存和 I/O 资源。具体来说,PowerInfer-2 具有多态神经元引擎,可针对 LLM 推理的各个阶段调整计算策略 ...
卫星上的深度学习模型可以实时解释遥感图像,减少向地面传输数据的需要并节省通信资源。随着卫星数量和观测频率的增加,对星载实时图像判读的需求不断增长,凸显了该技术的重要性和发展不断扩大。然而,由于无线卫星通信中上行链路带宽的限制,更新卫星上部署的星载物体检测模型的广泛参数具有挑战性... ...
语音翻译(S2ST)是一项变革性的技术,它弥合了全球交流差距,从而实现了外交,旅游业和国际贸易的实时多语言互动。我们的评论检查了S2ST的演变,比较了依赖于自动语音识别(ASR),机器翻译(MT)和文本(TTS)组件的传统级联模型,这些组件具有较新的端到端语音翻译(DST)模型,这些模型绕过了中间文本表示。尽管级联模型提供模块化和优化的组件,但它们会遭受错误传播,延迟增加和韵律损失的困扰 ...
最近的DeepSeek-R1通过加强学习(RL)和基于规则的奖励展示了LLMS推理能力的出现。在这个想法的基础上,我们是第一个探索基于规则的RL如何增强图形用户界面(GUI)操作预测任务的多模式大语言模型(MLLM)的推理功能。为此,我们策划了136个具有挑战性的任务的小型但高质量的数据集,其中包括移动设备上的五种常见动作类型 ...
空中机器人可以通过自主处理检查和映射任务来提高施工现场的生产率。但是,确保在人工工人附近的安全导航仍然具有挑战性。尽管对静态环境中的导航进行了充分的研究,但由于感知和计划的挑战,导航动态环境仍然开放 ...