在迅速发展的用户历史行为数据的背景下,准确的点击率(CTR)预测需要对冗长的用户行为序列进行有效的建模。随着此类数据的数量不断膨胀,研究的重点已转向开发有效的长期行为建模方法来捕获潜在的用户兴趣。然而,大规模数据引入的复杂性带来了计算障碍 ...
机器学习(ML)应用程序的迅速增长,再加上其不断增加的模型大小和推理能量足迹,对专门的ML硬件体系结构产生了强烈的需求。已经探索和实施了许多ML加速器,主要是为了增加每个单位区域的任务级吞吐量并减少任务级别的能耗。本文调查了针对这些目标的关键趋势,以实现更有效的ML加速器,并提供了一个统一的框架,以了解计算和内存技术/体系结构如何相互作用以提高系统级别效率和性能 ...
奖励模型对于将LLM与人类偏好保持一致,但训练费用很高,需要大规模的人体标记的偏好数据和强大的预算LLM骨架。同时,高质量合成指令遵循数据集的可用性提高了一个问题:在基于RL的一致性期间,更简单,基于参考的指标可以作为奖励模型的可行替代方案吗?在本文中,我们首先证明了BLEU是一种基本的弦乐指标,令人惊讶地匹配了强大的奖励模型,该模型与人的偏好符合一般指导遵循数据集的偏好。基于这种见解,我们开发了 ...
通过将输入响应分解为原子索赔,然后单独验证每个索赔,诸如Factscore和Veriscore之类的指标可以评估长期事实。这些方法虽然有效且易于解释,但却引起了许多LLM调用,并且可能需要超过100秒的时间来评估单一响应,从而限制了它们在大规模评估和培训方案中的实用性。为了解决这个问题,我们提出了verifastScore,该验证将合成数据利用来调整Llama3 ...
长形的问题回答(LFQA)旨在为复杂问题提供详尽而深入的答案,从而增强理解。但是,这种详细的回应容易出现幻觉和事实矛盾,从而挑战了他们忠实的评估。这项工作介绍了Haluquestqa,这是第一个具有局部错误注释的幻觉数据集,该数据集可用于人体编写和模型生成的LFQA答案 ...
我们介绍了\ texttt {cass},这是第一个用于跨架构GPU代码转移的大型数据集和模型套件,针对源级别(CUDA〜 $ \ leftrightArrow $ 〜HIP)和汇编级别和汇编级别(NVIDIA SASS〜 $ \ leftrightrightarrow $ 〜Amdna3)。该数据集包括跨主机和设备的70K验证的代码对,解决了低级GPU代码可移植性中的关键差距。利用此资源,我们训 ...
尽管已经提出了许多基于深度学习(DL)的漏洞检测方法,并且确实取得了显着的性能,但它们在概括和实际用法中仍然存在局限性。更确切地说,现有的基于DL的方法(1)对词汇相似但具有相反语义的功能之间的预测任务进行负面影响; (2)没有为检测结果提供直观的开发者解释。在本文中,我们提出了一种名为Svuld的新方法,该方法是一种功能级的微妙的语义嵌入,以漏洞检测以及直观的解释,以减轻上述局限性 ...
人类可以通过以高度动态的方式穿越障碍来进行跑酷,需要精确的眼部肌肉协调和运动。让机器人执行相同的任务需要克服类似的挑战。从经典上讲,这是通过独立工程的感知,驱动和控制系统来完成的 ...