大型语言模型(LLM)及其多模式扩展(MLLM)的最新进展具有跨不同任务的机器推理。但是,这些模型主要依靠纯文本作为表达和结构推理的媒介,即使存在视觉信息。在这项工作中,我们认为语言可能并不总是是推理的最自然或有效的方式,尤其是在涉及空间和几何信息的任务中 ...
0 0 0 2025/05/20 arXiv:2505.11409v1 KingXHJ
我们考虑学习控制政策的问题,该政策优化了奖励功能,同时由于对安全性,公平性或其他成本的考虑而满足了约束。我们提出了一种新的算法,基于投影的约束策略优化(PCPO)。这是一种在两步过程中优化策略的迭代方法:第一步执行局部奖励改进更新,而第二步则通过将策略返回到约束集中来调和任何约束违规行为 ...
0 0 0 2025/05/20 arXiv:2010.03152v1 zengyanxiang
无线传感最近在包括房屋,办公室和公共场所在内的不同环境中发现了广泛的应用程序。通过分析渠道状态信息(CSI)中的模式,可以推断人类对人识别,手势识别和跌落检测等任务的行为。但是,CSI对环境变化高度敏感,即使很小的变化也会显着扭曲CSI模式 ...
0 0 0 2025/05/20 arXiv:2412.04783v2 15966829631
从开放式域文本提示中生成和编辑图像是迄今为止需要昂贵且经过特殊训练的型号的一项具有挑战性的任务。我们为这两个任务展示了一种新颖的方法,该方法能够通过使用多模式编码器来指导图像世代的文本提示,而无需进行任何训练。我们展示了如何使用Clip [37]指导VQGAN [11]的各种任务,尽管未接受培训的任务培训,但尽管未接受培训,但诸如DALL-E [38],Glide [33]和Open-EdiT [ ...
0 0 0 2025/05/20 arXiv:2204.08583v2 wangteqi
大型语言模型(LLM)已成为人工智能的关键,在推理,理解和生成数据中表现出强大的能力。但是,它们在边缘设备上的部署受到大量大小的阻碍,通常达到数十亿个参数。量化是一种广泛使用的方法来减少记忆使用时间和推理时间,但是由于离群值在激活中的流行,LLM会带来独特的挑战 ...
0 0 0 2025/05/20 arXiv:2504.13989v2 xiximayou
在本文中,我们介绍了Subgraph2Vec,这是一种从大图中学习的潜在子图表的新型方法,灵感来自深度学习和图形内核的最新进步。这些潜在表示在连续矢量空间中编码语义下结构依赖关系,该依赖性空间很容易通过统计模型来利用图形分类,群集,链接预测和社区检测等任务。 Subgraph2Vec利用从节点的社区获得的本地信息,以无监督的方式学习其潜在表示 ...
0 0 0 2025/05/20 arXiv:1606.08928v1 xixiaixixi
最近,由于其最新性能(SOTA)性能,近期正常化的流量已经在文本到语音(TTS)和语音转换(VC)中获得了吸引力。标准化流量是无监督的生成模型。在本文中,我们在不需要并行数据的情况下介绍了对流动归一化的训练过程的监督 ...
0 0 0 2025/05/20 arXiv:2312.16552v1 link.yu
LIDAR 3D检测的最新进展证明了基于 Transformer 的框架从点云空间捕获全球依赖性的有效性,该空间将3D素序列化为迭代自我注意的扁平的1D序列。但是,在序列化过程中,3D体素的空间结构将不可避免地破坏。此外,由于 Transformer 的3D体素数量相当多和二次复杂性,因此在进料到 Transformer 之前将多个序列分组,从而导致有限的接受场 ...
0 0 0 2025/05/20 arXiv:2503.12009v2 ttt

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)