随着多模式大语言模型(MLLM)的快速发展,基于MLLM的图像质量评估(IQA)方法在语言质量描述中表现出了有希望的表现。但是,当前方法仍然无法准确评分图像质量。在这项工作中,我们旨在利用MLLM来回归准确的质量分数 ...
全参考图像质量评估(FR-IQA)通常假设参考图像具有完美的质量。然而,由于现代成像系统的传感器和光学限制,这种假设是有缺陷的。此外,最近的生成增强方法能够产生比原始图像质量更高的图像。所有这些都对当前 FR-IQA 模型的有效性和适用性提出了挑战。为了放宽完美参考图像质量的假设,我们建立了一个大型 IQA 数据库,即 DiffIQA,其中包含由具有可调节超参数的基于扩散的图像增强器生成的约 180,000 张图像。每个图像都被人类受试者注释为与其参考图像相比质量更差、相似或更好。在此基础上,我们提出了一种通用的 FR-IQA 模型,即自适应保真度自然度评估器(A-FINE),以准确评估并自适应地结合测试图像的保真度和自然度。当参考图像比测试图像自然得多时,A-FINE 与标准 FR-IQA 非常吻合。我们通过大量实验证明,A-FINE 在成熟的 IQA 数据集和我们新创建的 DiffIQA 上超越了标准 FR-IQA 模型。为了进一步验证 A-FINE,我们还构建了一个超分辨率 IQA 基准 (SRIQA-Bench),其中包含来自十种最先进的 SR 方法的测试图像,并具有可靠的人类质量注释。 SRIQA-Bench 上的测试再次证实了 A-FINE 的优势。代码和数据集可从此 https URL 获取 ...
无参考点云质量评估(NR-PCQA)仍然难以泛化,这主要是由于带注释的点云数据集的稀缺。由于人类视觉系统 (HVS) 独立于媒体类型驱动感知质量评估,因此从图像中学习到的有关质量的先验知识可以重新用于点云。这种见解促使采用无监督域适应(UDA)将质量相关的先验从标记图像转移到未标记点云。然而,现有的基于 UDA 的 PCQA 方法经常忽视感知质量的关键特征,例如对质量排名的敏感性和质量感知特征对齐,从而限制了其有效性。为了解决这些问题,我们提出了一种新颖的 PCQA 质量感知域适应框架,称为 QD-PCQA。该框架包括两个主要组成部分:i)排名加权条件对齐(RCA)策略,该策略在一致的质量水平下对齐特征,并自适应地强调错误排名的样本,以加强感知质量排名意识; ii)质量引导的特征增强(QFA)策略,其中包括质量引导的风格混合、多层扩展和双域增强模块,以增强感知特征对齐。广泛的跨域实验表明,QD-PCQA 显着提高了 NR-PCQA 任务的泛化能力 ...
图像美学评估(IAA)在内容创作、相册管理和推荐系统等方面有着广泛的应用。在这些应用中,通常需要从一系列具有微妙美学变化的图像中挑选出最美观的图像,我们将这个话题称为细粒度IAA。不幸的是,最先进的 IAA 模型通常是为粗粒度评估而设计的,其中具有显着审美差异的图像是在绝对规模上独立评估的。这些模型本质上在区分细粒度的审美差异方面受到限制。为了解决这个困境,我们贡献了 FGAesthetics,这是一个细粒度的 IAA 数据库,其中包含 32,217 张图像,组织成 10,028 个系列,这些图像来自不同的类别,包括自然、AIGC 和裁剪。通过每个系列内的成对比较来收集注释。我们还设计了系列细化和等级校准来确保数据和标签的可靠性。基于 FGAesthetics,我们进一步提出了 FGAesQ,这是一种新颖的 IAA 框架,它通过保留差异的标记化(DiffToken)、比较文本辅助对齐(CTAlign)和排名感知回归(RankReg)从相对排名中学习有区别的审美分数。 FGAesQ 能够在细粒度场景中实现准确的美学评估,同时在粗粒度评估中仍保持有竞争力的性能。大量的实验和比较证明了该方法的优越性 ...
大型语言模型(LLM)很难遵循格式、长度等方面具有复杂约束的指令。按照传统的指令调优实践,以前的工作对通过向高级 LLM 提供复杂指令而生成的复杂指令-响应对进行后训练。然而,即使是高级 LLM 也无法很好地遵循复杂的指令,从而限制了生成数据的质量。在这项工作中,我们发现现有数据集本质上包含隐式复杂约束,并提出了一种新颖的数据生成技术,即约束反向翻译。具体来说,我们采用现有数据集中的高质量指令-响应对,并且仅采用高级 LLM 来添加指令响应已满足的复杂约束,这自然会降低成本和数据噪声。在实验中,我们采用 Llama3-70B-Instruct 来反向翻译约束并创建一个高质量的复杂指令响应数据集,命名为 CRAB。我们提出,CRAB 的后培训提高了多个骨干 LLM 的复杂指令跟踪能力,并在广泛的指令跟踪基准上进行了评估。我们进一步发现约束反向翻译也可以作为后训练中有用的辅助训练目标。我们的代码、数据和模型将被发布,以方便未来的研究 ...
规模是构建强大的基础模型的主要因素,该模型可以很好地推广到各种下游任务。然而,训练具有数十亿参数的视频基础模型仍然具有挑战性。本文表明,视频掩码自动编码器(VideoMAE)是一种可扩展的通用自监督预训练器,用于构建视频基础模型。我们通过核心设计在模型和数据方面扩展了 VideoMAE。具体来说,我们提出了一种用于高效预训练的双重掩码策略,其中编码器对视频 Token 的子集进行操作,解码器对视频 Token 的另一个子集进行处理。尽管VideoMAE由于编码器中的高掩蔽比而非常高效,但掩蔽解码器仍然可以进一步降低总体计算成本。这使得视频中十亿级模型的高效预训练成为可能。我们还使用渐进式训练范例,其中涉及对不同的多源未标记数据集进行初始预训练,然后对混合标记数据集进行后预训练。最后,我们成功训练了具有十亿个参数的视频 ViT 模型,该模型在 Kinetics(K400 上为 90.0%,K600 上为 89.9%)和 Something-Something(V1 上为 68.7%,V2 上为 77.0%)数据集上实现了新的最先进性能。此外,我们在各种下游任务上广泛验证了预训练的视频 ViT 模型,证明了其作为通用视频表示学习器的有效性。代码和模型可在 \url{此 https URL} 中找到 ...
文本到图像 (T2I) 模型的快速发展迎来了人工智能生成内容的新阶段,其标志是解释和遵循用户指令的能力不断增强。然而,现有的T2I模型评估基准在提示多样性和复杂性有限以及评估指标粗略方面存在不足,使得难以评估文本指令和生成图像之间的细粒度对齐性能。在本文中,我们提出了 TIIF-Bench(文本到图像指令遵循基准),旨在系统地评估 T2I 模型解释和遵循复杂文本指令的能力。 TIIF-Bench 包含一组按多个维度组织的 5000 个提示,分为三个难度和复杂性级别。为了严格评估模型对不同提示长度的鲁棒性,我们为每个提示提供了具有相同核心语义的短版本和长版本。引入文本渲染和风格控制这两个关键属性来评估文本合成的精度和 T2I 模型的美学连贯性。此外,我们还收集了100条高质量的设计师级提示,涵盖各种场景,以全面评估模型性能。利用大型视觉语言模型中编码的世界知识,我们提出了一种新颖的可计算框架来识别 T2I 模型输出中的细微变化。通过在 TIIF-Bench 上对主流 T2I 模型进行细致的基准测试,我们分析了当前 T2I 模型的优缺点,并揭示了当前 T2I 基准测试的局限性。项目页面:此 https URL ...
基于大语言模型(LLM)的人工智能法律助理可以提供无障碍的法律咨询服务,但幻觉问题带来潜在的法律风险。本文介绍了 Chatlaw,这是一种创新的法律助理,利用专家混合 (MoE) 模型和多代理系统来提高人工智能驱动的法律服务的可靠性和准确性。通过将知识图谱与人工筛选相结合,我们构建了高质量的法律数据集来训练 MoE 模型。该模式利用不同的专家来解决各种法律问题,从而优化了法律答复的准确性。此外,模仿真实律师事务所工作流程的标准化操作程序(SOP)可显着减少法律服务中的错误和幻觉。我们的MoE模型在Lawbench和法律职业资格统一考试中分别比GPT-4高7.73%和11分,在实案咨询中也多维度超越其他模型,展现了我们强大的法律咨询能力 ...
人们对将机器学习应用于医疗保健、经济和教育等领域的因果推理问题产生了浓厚的兴趣。特别是个体层面的因果推理具有重要的应用,例如精准医疗。我们给出了一种新的理论分析和算法系列,用于在强可忽略性的假设下根据观察数据预测个体治疗效果(ITE)。该算法学习“平衡”表示,使得诱导的处理分布和控制分布看起来相似。我们给出了一种新颖、简单且直观的泛化误差界,表明表示的预期 ITE 估计误差受到该表示的标准泛化误差与该表示引起的处理分布和控制分布之间的距离之和的限制。我们使用积分概率度量来测量分布之间的距离,得出 Wasserstein 和最大平均差异 (MMD) 距离的明确界限。对真实数据和模拟数据的实验表明,新算法可以匹配或优于最先进的算法 ...
网格作为 3D 资源的主要表示形式。自回归网格生成器将面序列化为序列,并通过滑动窗口推理对截断的片段进行训练,以应对内存限制。然而,这种不匹配破坏了远程几何依赖性,产生孔洞和碎片组件。为了解决这个关键限制,我们引入了 MeshRipple,它将网格从活跃的生成边界向外扩展,类似于表面上的波纹。 MeshRipple 依赖于三个关键创新:前沿感知的 BFS 标记化,使生成顺序与表面拓扑保持一致;保持连贯、连接的表面生长的扩展预测策略;稀疏注意力全局记忆提供了有效的无界感受野来解决远程拓扑依赖性。这种集成设计使 MeshRipple 能够生成具有高表面保真度和拓扑完整性的网格,其性能优于近期的强大基线 ...