本文提出了一个新型的序列到序列神经读物(S2SND)框架,以在线和离线扬声器诊断。它是从我们以前的目标扬声器语音活动检测系统的序列到序列架构开发的,然后通过解决两个关键问题而演变为新的诊断范式。 1)扬声器检测:拟议的方法可以利用部分给出的扬声器嵌入来发现未知的说话者并预测音频信号中的目标语音活动 ...
在大数据领域中,云边缘设备合作在工业场景中很普遍。但是,缺乏对与该领域数据管理相关的理论和方法的系统探索。本文深入研究了云边缘设备协作环境中数据存储和调度的子问题 ...
现代推荐系统旨在通过通常将排名作为一项针对预测CTR的分类任务来提高点击率(CTR)以获得更好的用户体验。但是,这种方法与跨不同领域的企业的实际目标之间存在差距。在视频推荐服务中,视频按需(VOD)的目标扩展到了仅仅鼓励点击的范围,而且还指导用户发现他们的真正兴趣,从而增加了观看时间 ...
视频大型语言模型(视频LLM)通过利用两阶段范式来取得了重大成功:在大规模视频文本数据上进行审计,以进行视觉语言对齐,然后进行监督的微调(SFT),以获得特定于任务的功能。但是,由于数据中的时间对应关系弱,并且在培训期间对下一步的预测范式的依赖,现有方法与时间推理困难。为了解决这些局限性,我们提出了Temple(时间偏好学习),这是一个系统的框架,可通过直接偏好优化(DPO)增强Video LLMS的时间推理功能 ...
现在,大型语言模型(LLMS)支持上下文窗口超过128K Token ,但这带有大量的内存需求和高推理延迟。量化可以减轻这些成本,但可能会降低性能。在这项工作中,我们在具有长输入(> 64K Token )和长形输出的任务上介绍了对量化LLM的第一个系统评估 ...
量化已被广泛研究为减少大语言模型(LLM)的记忆需求的有效技术,从而有可能改善潜伏时间。利用 Transformer 旋转不变性的特征,我们提出了基于旋转的显着性权重量化(Rosaq),该量化标识了投影特征空间中的显着通道,而不是在原始特征空间中,其中投影的“主体”尺寸自然被视为“显着”特征。拟议的ROSAQ由1)基于PCA的投影组成,该预测首先在校准集上执行主要成分分析(PCA),并通过PCA投影进行转换,2)显着通道牙齿牙齿化,选择与k最大特征值相对应的尺寸,并将其作为较高的eigenvalueres和3)用于混合量的forcision and 3)。 方面 ...
本文介绍了为基于多模式信息的语音处理(MISP)2025挑战而开发的扬声器诊断系统。首先,我们利用序列到序列神经读物(S2SND)框架来使用单渠道音频生成初始预测。然后,我们将原始的S2SN框架扩展到创建新版本,即多渠道序列到序列神经诊断(MC-S2SND),该序列使用多渠道音频来完善初始结果 ...
在观察性研究中,记录的治疗分配并非纯粹是随机的,而是受患者特征,报销政策和现有准则等外部因素的影响。因此,只有在考虑混杂因素后才能估算治疗效果。倾向评分(PS)方法是一种广泛用于此目的的方法家族 ...
随机实验是用于估计因果效应的“黄金标准”,但实际上,在治疗组之间的协变量分布中存在机会失衡。如果在单位接触治疗之前就可以使用协变量数据,则可以通过在实验实验之前先检查协变量平衡来减轻这些机会的失衡。只要已提前指定了不平衡的确切定义,可以丢弃不平衡的随机化,然后进行重新授课,并且可以继续进行此过程,直到根据定义实现随机分配的平衡为止 ...
大型语言模型(LLMS)的快速进步加剧了由于模型参数缩放和硬件功能之间的差距的扩大而加剧了内存瓶颈。虽然训练后量化(PTQ)技术有效地减少了内存开销,但现有方法主要依赖于静态量化策略,这些策略难以适应动态工作负载。为了解决这个问题,我们提出了Flexquant,这是一个动态的精确开关框架,可优化推理速度和准确性之间的权衡 ...