本文介绍了一个新问题,即视频事件(CARVE)的因果关系推理,其中涉及确定视频中事件之间的因果关系,并生成有关因果关系链的假设,这些因果链说明了目标事件的发生。为了促进朝这个方向进行研究,我们创建了两个新的基准数据集,其中包括合成和现实视频,并伴随着通过新型的反事实合成方法生成的触发目标标签。为了探索解决雕刻的挑战,我们提出了一个因果事件关系网络(CERN),该网络研究了时间和语义空间中的视频事件 ...
诸如GPT-4O-Audio之类的端到端口语对话模型最近在语音领域引起了极大的关注。但是,对对话模型的对话性能的评估在很大程度上被忽略了。这主要是由于智能聊天机器人传达了大量非文本信息,这些信息无法使用基于文本的语言模型(例如ChatGpt)轻松测量 ...
检测器效应的展开对于将数据与理论预测进行比较至关重要。虽然传统方法仅限于在较少数量的维度中表示数据,但机器学习使新的展开技术在保留完整的维度的同时。诸如可逆神经网络〜(INN)之类的生成网络实现了概率展开,该网络将单个事件映射到其相应的展开的概率分布 ...
我们引入了RAGA(检索增强生成评估),这是一个用于检索增强生成(RAG)管道的无参考评估的框架。RAG系统由检索和基于LLM的生成模块组成,并为LLM提供来自参考文本数据库的知识,这使他们能够充当用户和文本数据库之间的自然语言层,从而降低产生幻觉的风险。然而,评估RAG架构具有满足性,因为有几个维度需要考虑:检索系统识别相关和重点上下文论文能力、LLM以可靠的方式利用这些段落的能力,或者生成本身 ...
语言模型的快速发展需要开发更具挑战性的基准。当前的静态基准通常难以一致地区分不同模型的功能,并且无法与现实世界的用户偏好保持一致。另一方面,像 Chatbot Arena 这样的实时众包平台会收集广泛的自然提示和用户反馈 ...
社会互动的全球化增强了对社交网络服务(SNS)的机器翻译(MT)的需求,但是传统模型在文化上有细微的内容(例如模因,s语和流行文化参考)挣扎。尽管大型语言模型(LLMS)具有高级通用翻译,但由于专业培训数据和评估基准不足,它们在SNS特定内容上的性能仍然有限。本文介绍了RedTrans,这是一种针对SNS翻译的72B LLM,在通过三项创新开发的小说数据集中培训:(1)使用Dual-LllM背面换 ...
在这项工作中,我们介绍了Omnigen2,这是一种多功能且开源的生成模型,旨在为各种生成任务提供统一的解决方案,包括文本对图像,图像编辑和文本生成。与Omnigen V1不同,Omnigen2采用了两种不同的文本和图像模式解码途径,利用未共享参数和一个解耦的图像 Token 。该设计使Omnigen2能够基于现有的多模式理解模型,而无需重新适应VAE输入,从而保留了原始的文本生成功能 ...
最近的工作表明,GAN培训的局部收敛性,用于绝对连续的数据和发电机分布。在本文中,我们表明对绝对连续性的要求是必要的:我们描述了一个简单而原型的反例,表明在更现实的分布情况下,这些案例不是绝对连续的,未注册的GAN训练并不总是会收敛。此外,我们讨论了最近提出的旨在稳定GAN培训的正规化策略 ...