本文介绍了一个新问题,即视频事件(CARVE)的因果关系推理,其中涉及确定视频中事件之间的因果关系,并生成有关因果关系链的假设,这些因果链说明了目标事件的发生。为了促进朝这个方向进行研究,我们创建了两个新的基准数据集,其中包括合成和现实视频,并伴随着通过新型的反事实合成方法生成的触发目标标签。为了探索解决雕刻的挑战,我们提出了一个因果事件关系网络(CERN),该网络研究了时间和语义空间中的视频事件 ...
0 0 0 2025/06/25 arXiv:2501.09304v1 TJ
诸如GPT-4O-Audio之类的端到端口语对话模型最近在语音领域引起了极大的关注。但是,对对话模型的对话性能的评估在很大程度上被忽略了。这主要是由于智能聊天机器人传达了大量非文本信息,这些信息无法使用基于文本的语言模型(例如ChatGpt)轻松测量 ...
0 0 0 2025/06/25 arXiv:2505.09558v1 zhangqi33
检测器效应的展开对于将数据与理论预测进行比较至关重要。虽然传统方法仅限于在较少数量的维度中表示数据,但机器学习使新的展开技术在保留完整的维度的同时。诸如可逆神经网络〜(INN)之类的生成网络实现了概率展开,该网络将单个事件映射到其相应的展开的概率分布 ...
0 0 0 2025/06/25 arXiv:2212.08674v3 RRdec
我们引入了RAGA(检索增强生成评估),这是一个用于检索增强生成(RAG)管道的无参考评估的框架。RAG系统由检索和基于LLM的生成模块组成,并为LLM提供来自参考文本数据库的知识,这使他们能够充当用户和文本数据库之间的自然语言层,从而降低产生幻觉的风险。然而,评估RAG架构具有满足性,因为有几个维度需要考虑:检索系统识别相关和重点上下文论文能力、LLM以可靠的方式利用这些段落的能力,或者生成本身 ...
0 0 0 2025/06/25 arXiv:2309.15217v2 XiaoGuo_LU
语言模型的快速发展需要开发更具挑战性的基准。当前的静态基准通常难以一致地区分不同模型的功能,并且无法与现实世界的用户偏好保持一致。另一方面,像 Chatbot Arena 这样的实时众包平台会收集广泛的自然提示和用户反馈 ...
0 0 0 2025/06/25 arXiv:2406.11939v2 XiaoGuo_LU
社会互动的全球化增强了对社交网络服务(SNS)的机器翻译(MT)的需求,但是传统模型在文化上有细微的内容(例如模因,s语和流行文化参考)挣扎。尽管大型语言模型(LLMS)具有高级通用翻译,但由于专业培训数据和评估基准不足,它们在SNS特定内容上的性能仍然有限。本文介绍了RedTrans,这是一种针对SNS翻译的72B LLM,在通过三项创新开发的小说数据集中培训:(1)使用Dual-LllM背面换 ...
0 0 0 2025/06/25 arXiv:2504.07901v1 Eveneko
在这项工作中,我们介绍了Omnigen2,这是一种多功能且开源的生成模型,旨在为各种生成任务提供统一的解决方案,包括文本对图像,图像编辑和文本生成。与Omnigen V1不同,Omnigen2采用了两种不同的文本和图像模式解码途径,利用未共享参数和一个解耦的图像 Token 。该设计使Omnigen2能够基于现有的多模式理解模型,而无需重新适应VAE输入,从而保留了原始的文本生成功能 ...
0 0 0 2025/06/25 arXiv:2506.18871v1 suxuefeng
最近的工作表明,GAN培训的局部收敛性,用于绝对连续的数据和发电机分布。在本文中,我们表明对绝对连续性的要求是必要的:我们描述了一个简单而原型的反例,表明在更现实的分布情况下,这些案例不是绝对连续的,未注册的GAN训练并不总是会收敛。此外,我们讨论了最近提出的旨在稳定GAN培训的正规化策略 ...
0 0 0 2025/06/25 arXiv:1801.04406v4 打笨蛋

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)