硬件验证在现代 SoC 设计中至关重要,约占开发时间的 70%。 SystemVerilog 断言确保正确的功能。然而,现有的工业实践依赖于手动生成断言,随着硬件系统变得复杂,这种做法变得越来越站不住脚。最近的研究表明,大型语言模型 (LLM) 可以自动化这一过程。然而,像 GPT-4o 这样的专有 SOTA 模型通常会生成不准确的断言,并且需要昂贵的许可证,而较小的开源 LLM 需要进行微调来管理 HDL 代码复杂性。为了解决这些问题,我们引入了 **VERT**,这是一个开源数据集,旨在使用 LLM 增强 SystemVerilog 断言生成。 VERT 使学术界和工业界的研究人员能够微调开源模型,在准确性和效率方面优于较大的专有模型,同时通过本地微调和消除昂贵的许可证来确保数据隐私。该数据集是通过系统地增加开源 HDL 存储库中的变量来生成与相应断言配对的合成代码片段来管理的。实验结果表明,Deepseek Coder 6.7B 和 Llama 3.1 8B 等微调模型的性能优于 GPT-4o,在 OpenTitan、CVA6、OpenPiton 和 Pulpissimo 等平台上,比基本模型提高了 96.88%,比 GPT-4o 提高了 24.14%。 VERT 可通过此 https URL 获得 ...
随着自动停车系统的发展,准确检测停车位变得越来越重要。本研究的重点是使用环视摄像头进行停车位检测,该摄像头提供停车环境的全面鸟瞰图。然而,当前的数据集规模有限,并且它们包含的场景很少受到现实世界噪声(例如光线、遮挡等)的干扰。此外,由于现实条件的复杂性,手动数据标注很容易出现错误和遗漏,大大增加了大规模数据集标注的成本。为了解决这些问题,我们首先构建了一个大规模停车位检测数据集(名为 CRPS-D),其中包括各种照明分布、不同的天气条件和具有挑战性的停车位变体。与现有数据集相比,所提出的数据集拥有最大的数据规模,并且包含更高密度的停车位,特别是更多倾斜的停车位。此外,我们还开发了一个用于停车位检测的半监督基线,称为 SS-PSD,以通过利用未标记的数据进一步提高性能。据我们所知,这是停车位检测中第一个半监督方法,它建立在具有置信引导掩模一致性和自适应特征扰动的师生模型之上。实验结果证明了 SS-PSD 在所提出的数据集和现有数据集上均优于现有最先进 (SoTA) 解决方案。特别是,未标记的数据越多,我们的半监督方案带来的收益就越显着。相关源代码和数据集已在此 https URL 上公开提供 ...
在本文中,我们探索了用于视频理解任务的预训练文本到视频(T2V)扩散模型产生的视觉表示。我们假设从预训练的生成 T2V 模型中学习的潜在表示封装了丰富的语义和连贯的时间对应关系,从而自然地促进视频理解。我们的假设通过经典的参考视频对象分割(R-VOS)任务得到验证。我们引入了一种称为“VD-IT”的新颖框架,该框架采用基于固定预训练 T2V 模型构建的专门设计组件进行定制。具体来说,VD-IT 使用文本信息作为条件输入,确保跨时间的语义一致性,以实现精确的时间实例匹配。它进一步将图像标记作为补充文本输入,丰富了特征集以生成详细而细致的掩模。此外,我们建议使用额外的噪声预测模块来预测视频特定噪声,而不是使用标准高斯噪声,这可以帮助保持特征保真度并提高分割质量。通过大量的实验,我们令人惊讶地观察到,与使用判别性图像/视频预任务进行预训练的常用视频主干网(例如 Video Swin Transformer)不同,固定生成 T2V 扩散模型在保持语义对齐和时间一致性方面表现出更好的潜力。在现有的标准基准上,我们的 VD-IT 取得了极具竞争力的结果,超越了许多现有的最先进的方法。该代码可从此 https URL 获取 ...
众所周知,闲聊模型存在几个问题:它们缺乏特异性,没有表现出一致的个性,而且通常不太有吸引力。在这项工作中,我们提出了通过调节个人资料信息使闲聊更具吸引力的任务。我们收集数据并训练模型,以 (i) 以给定的个人资料信息为条件; (ii) 有关与他们交谈的人的信息,从而改善对话(通过下一个话语预测来衡量)。由于(ii)最初是未知的,我们的模型经过训练,可以让其合作伙伴参与个人主题,并且我们表明生成的对话可用于预测有关对话者的个人资料信息 ...
参考视频对象分割(RVOS)旨在根据文本描述分割视频中的特定对象。我们观察到,最近的 RVOS 方法往往过度强调特征提取和时间建模,而相对忽视了分割头的设计。事实上,分割头设计仍有相当大的改进空间。为了解决这个问题,我们提出了一种时间条件参考视频对象分割模型,该模型创新性地集成了现有的分割方法,以有效增强边界分割能力。此外,我们的模型利用文本到视频的扩散模型进行特征提取。除此之外,我们删除了传统的噪声预测模块,以避免噪声的随机性降低分割精度,从而在提高性能的同时简化模型。最后,为了克服 VAE 有限的特征提取能力,我们设计了一个时间上下文掩模细化(TCMR)模块,该模块在不引入复杂设计的情况下显着提高了分割质量。我们在四个公共 RVOS 基准上评估我们的方法,它始终实现最先进的性能 ...
工具增强语言模型 (TALM) 利用外部 API 来回答各个领域的用户查询。然而,现有的 TALM 研究基准数据集通常具有过于简单化的对话,无法反映现实场景,例如需要模型在缺少重要信息时提出澄清问题或主动调用其他 API。为了解决这些限制,我们构建并发布了 ToolDial,这是一个基于 RapidAPI 的 API,包含 11,111 个多回合对话的数据集,平均每个对话 8.95 个回合。 ToolDial 有两个关键特征。首先,对话包含 16 个用户和系统操作(例如“请求”、“澄清”、“失败通知”),以捕捉现实世界交互的丰富动态。其次,我们模拟对话,系统根据 API 文档向用户请求必要的信息,并在用户未能提供所需信息时寻求其他 API。为了促进这一过程,我们引入了一种生成 API 图的方法,该图表示 API 之间的输入和输出兼容性。使用 ToolDial,我们评估了一套语言模型预测正确操作以及从对话历史记录中提取 API 调用的输入参数值的能力。现代语言模型的准确度分数低于 70%,表明还有很大的改进空间。我们在此 https URL 发布我们的数据集和代码 ...
大型语言模型(LLM)的上下文窗口正在快速增加,导致不同请求之间以及同一请求的不同阶段之间的资源使用情况存在巨大差异。受静态并行策略的限制,现有的LLM服务系统无法高效利用底层资源来服务不同阶段的变长请求。为了解决这个问题,我们提出了一种新的并行范例,即弹性序列并行(ESP),以弹性地适应不同请求和阶段之间的差异。基于 ESP,我们设计并构建了 LoongServe,一个 LLM 服务系统,它(1)通过实时弹性调整并行度来提高计算效率,(2)通过减少键值缓存迁移开销和与计算重叠的部分解码通信来提高通信效率,以及(3)通过减少跨实例的键值缓存碎片来提高 GPU 内存效率。我们在不同的真实数据集下的评估表明,与分块预填充相比,LoongServe 将最大吞吐量提高了 3.85$\times$,与预填充解码分解相比,提高了 5.81$\times$ ...
最近,高效的多模态大型语言模型(MLLM)作为其高计算复杂性的解决方案而受到广泛关注,使其更适合实际应用。在这方面,知识蒸馏(KD)方法已成为一种有前途的替代方案,它将丰富的视觉和语言知识从较大的模型(教师)转移到较小的模型(学生)。然而,我们观察到现有的 KD 方法很难有效地将教师 MLLM 丰富的视觉感知能力提炼给学生,这一挑战在以前的研究中很大程度上被忽视了。通过系统分析,我们发现学生和老师之间的视觉注意力错位是造成这一问题的主要原因。基于这一见解,我们提出了 CompoDistill,这是一种新颖的 KD 框架,可以明确地将学生的视觉注意力与教师的视觉注意力结合起来,以增强学生的视觉感知能力。我们的大量实验表明,CompoDistill 显着提高了需要视觉感知能力的组合推理任务的性能,同时保持了视觉问答任务的强大性能,正如现有研究中所做的那样。此外,CompoDistill 通过更先进的主干展示了有效性,突出了其通用性 ...
基于浏览器的 LLM 代理的最新进展已显示出自动化任务的前景,从简单的表格填写到酒店预订或在线购物。当前的基准测试衡量受控环境中的代理性能,例如容器或稳定网络,在这些环境中网站的行为具有确定性。然而,在现实世界中,用户通过网络和 HTTPS 连接访问网站,这会带来多种来源的不稳定:客户端、服务器端问题或更广泛的系统故障。此外,实时网站很容易受到跨站点脚本等 Web 攻击以及一般站点修改,这可能会导致意外或恶意弹出窗口或不正确的功能。为了弥补这一差距,我们提出了 WAREX:基于现有基准的 Web 代理可靠性评估。我们通过三个流行的基准测试 WAREX 的影响:WebArena、WebVoyager 和 REAL。我们的实验表明,引入 WAREX 会导致任务成功率显着下降,凸显了最先进代理的稳健性有限 ...
推理细分的传统方法依赖于具有分类标签和简单描述的监督微调,从而限制了其不域的概括和缺乏明确的推理过程。为了解决这些局限性,我们提出了SEG-Zero,这是一个新颖的框架,该框架表现出了显着的普遍性,并通过认知强化得出了明确的经过思考的推理。 SEG-Zero引入了由推理模型和分割模型组成的解耦架构 ...