大型视觉模型(VLM)的快速发展推动了基于纯的GUI代理的开发,该代理能够感知和操作图形用户界面(GUI)以自主满足用户指令。但是,现有方法通常采用离线学习框架,该框架面临两个核心局限性:(1)对元素接地和动作监督的高质量手动注释的严重依赖,以及(2)对动态和互动环境的适应性有限。为了解决这些限制,我们提出了Zerogui,这是一个可扩展的在线学习框架,用于以零成本自动化GUI代理培训 ...
尽管大型语言模型 (LLM) 取得了许多进步,并且发展速度前所未有,但由于各种原因,它们对我们日常生活各个方面的影响和融入仍然有限。阻碍其广泛采用的一个关键因素是幻觉的出现, LLM 发明的答案听起来很现实,但却偏离了事实真相。在本文中,我们提出了一种在大型语言模型中检测幻觉的新方法,该方法解决了在各种现实场景中采用这些模型的关键问题 ...
自动检测单词和音节级别的突出性对于构建计算机辅助语言学习系统至关重要。已经表明,由当前最新的(SOTA)文本到语音(TTS)系统学到的韵律嵌入系统可以在综合语音中产生单词和音节级别的突出性,就像本地语音一样自然。为了了解在非本地环境下TTS中韵律嵌入以突出检测的有效性,考虑到与突出相关的嵌入:持续时间,能量和俯仰,从天然和非本地语音中提取的嵌入中进行了比较分析:sota tts naty Fastspeech2 ...
韵律包含丰富的信息,超出了单词的字面意义,这对于语音的清晰度至关重要。当前的模型仍然缺乏措辞和语调。当将长句子与复杂的结构合成时,他们不仅会错过或错位中断,而且会产生不自然的语调。我们提出了ProsodyFM,这是一种具有流量匹配(FM)骨架的文本到语音综合(TTS)模型,旨在增强韵律的措辞和语调方面 ...
本文为数据预处理中的连续特征选择(CFS)提供了新的框架,尤其是在可能出现未知类别的开放和动态环境的背景下。 CFS遇到了两个主要挑战:发现未知知识和已知知识的转移。为此,提出的CFS方法将连续学习(CL)的优势与粒状球计算(GBC)相结合,该计算的重点是构建粒状球知识基础,以检测未知类别,并促进先前学习的知识的转移以进行进一步的特征选择 ...
指导微调在NLP任务中至关重要,从而增强了预验证的模型跟踪功能和特定于任务的性能。但是,由于数据收集困难和高生产成本,获得大型模型的高质量微调数据是具有挑战性的。为了解决这个问题,我们提出了一种新的数据增强方法,该方法通过具有不同认知水平的多个代理之间的相互作用来丰富原始数据 ...
作为促进在线用户增长的关键组成部分,Ruplift建模旨在衡量各种用户的响应(例如,是否玩游戏)对各种治疗(例如游戏奖励),从而增强业务成果 ...
对象约束语言(OCL)对于定义基于模型的系统工程(MBSE)中的精确约束至关重要。但是,手动编写OCL规则是复杂且耗时的。这项研究探讨了自动化OCL规则生成的检索功能生成(RAG)的优化,重点是不同检索策略的影响 ...
我们提出了Kimi-vl,这是一种有效的开放源代码混合物(MOE)视觉模型(VLM),它提供了高级的多模式推理,长期理解和强大的代理能力 - 同时仅激活其语言解码器的2.8B参数(Kimi-i-vl-vl-a3b)。 KIMI-VL在具有挑战性的领域表现出强大的性能:作为通用VLM,Kimi-VL在多转变代理任务中脱颖而出(e ...
数据是当今社会中的宝贵资源,并且以前所未有且不断增长的步伐产生。需要在现代软件平台中引入巨大的挑战。这些挑战从根本上改变了所有研究领域,这些研究领域围绕数据管理和处理,并引入了分布式数据密集型系统,这些系统提供了新的编程模型和实施策略,以处理数据特征,例如其数量,生成的速率,其异质性和分布 ...