我们描述了提示启动,这是一种从神经语言模型(LM)构建文本分类器的查询过程,而无需访问LM的参数,梯度或隐藏表示形式。随着大规模LMS的培训成本和推断,这种“黑盒”分类器培训形式变得越来越重要。但是,现有的黑框LM分类器学习方法本身在计算上效率低下,通常通过使用Zeroth-rorder优化方法在大的(离散或连续)提示的大空间中进行搜索,通常将LMS专用于目标任务 ...
计量经济学和营销中的一个重要问题是推断出设计的市场干预对结果指标随着时间的推移所施加的因果影响。本文提议根据扩散回归状态空间模型来推断因果影响,该模型可以预测如果没有进行干预,则可以在合成控制中发生反事实市场响应。与经典的差异不同方案相反,州空间模型使(i)推断出可归因性影响的时间演变是可能的,(ii)在完全贝叶斯的治疗中纳入了有关参数的经验先验,(iii)灵活地适应了多个变异来源,包括趋势,季节 ...
我们提出了一种新颖的角色驱动数据合成方法,该方法利用大型语言模型(LLM)中的各种视角来创建多样化的合成数据。为了大规模地充分利用这种方法,我们引入了 Persona Hub——一个根据网络数据自动整理的 10 亿个不同角色的集合。这 10 亿个人角色(约占世界总人口的 13%)作为世界知识的分布式载体,可以利用 LLM 中包含的几乎所有视角,从而促进为各种场景大规模创建多样化的合成数据 ...
在最近对多模型模型的研究中,统一的图像理解和产生引起了人们的关注。尽管已经对图像理解的设计选择进行了广泛的研究,但具有图像生成的统一框架的最佳模型架构和培训配方仍未得到充实。由自回旋和扩散模型具有高质量生成和可伸缩性的强大潜力,我们对它们在统一的多模式环境中的使用进行了全面研究,重点是图像表示,建模目标和培训策略 ...
我们引入了一种双曲线神经网络方法,用于用于语义分割的像素级主动学习。数据统计数据的分析导致对双曲线半径的新解释,作为数据稀缺的指标。在Halo(双曲线主动学习优化)中,我们首次提出了认识论不确定性作为数据采集策略,此后选择了最不知道的数据点 ...
通过允许LLM搜索信息并将其答案扎根于实际来源,可以越来越减轻大语言模型(LLM)的幻觉。不幸的是,LLM经常在提出正确的搜索查询方面努力,尤其是在处理复杂或间接的主题时。观察LLM可以通过$ \ textIt {trib} $不同的查询和学习成功产生相关结果的增强查询,我们介绍$ \ usew suespline {le} $ arning to $ \ usevenline {re} $ tr ...
多元时间序列预测(MTSF)努力预测给定历史数据的未来观察,在时间序列数据管理系统中起着至关重要的作用。随着大语言模型(LLM)的进步,最近的研究采用文本及时调整来注入LLM的知识中。但是,LLM的部署通常在推理阶段效率低 ...
成倍增长的短视频平台(SVP)在调节内容不利于用户的心理健康方面面临重大挑战,尤其是对于未成年人而言。在SVP上传播此类内容会导致灾难性的社会后果。尽管已经致力于调节此类内容,但现有的方法受到关键局限性:(1)手动审查容易受人类偏见,并带来了高运营成本 ...