视觉模型(VLM)的快速进步在解决涉及视觉上下文的数学推理任务方面表现出了巨大的潜力。与可以可靠地将解决方案步骤应用于与次要修改的类似问题的人不同,我们发现像GPT-4O这样的SOTA VLM在这些情况下会始终如一地失败,从而揭示了其数学推理能力的局限性。在本文中,我们研究了VLM中的数学推理鲁棒性,并评估了这些模型在同一问题的不同变体下的表现,例如视觉数值或函数图的变化 ...
随着大语模型(LLM)的加速发展,中国K-12教育领域正在使用许多LLM。 LLM和教育的整合越来越近,但是目前尚无评估专注于中国K-12教育领域的LLM的基准。因此,迫切需要进行全面的自然语言处理基准,以准确评估中国K-12教育领域中各种LLM的功能 ...
通过利用大规模图像数据集,计算机视觉取得了重大进展。但是,对于超出分类的复杂计算机视觉任务的大规模数据集仍然有限。本文提出了一个名为AIC(AI Challenger)的大规模数据集,该数据集具有三个子数据集,人关键点检测(HKD),大规模属性数据集(LAD)和图像中文字幕(ICC) ...
ChatGPT 等大型语言模型 (LLM) 极大地简化了文本生成任务。然而,他们也对数据泄露和未经授权的数据收集等隐私风险表示担忧。现有的隐私保护推理解决方案面临着与计算时间和通信成本相关的实际挑战 ...
搜索和建议(S&R)是电子商务中最重要的两个情况。大多数用户通常在S&R方案中与产品进行交互,表明进行联合建模的可能性和潜力。传统的多Scenario模型使用共享参数来学习多个任务的相似性以及特定于任务的参数以了解单个任务的差异 ...
尽管MLLM表现出足够的图像理解能力,但他们仍然在像素级的理解力上挣扎,从而限制了其实际应用。当前的评估任务(例如VQA和视觉接地)仍然太粗糙,无法准确评估细粒的像素理解。尽管分割是用于像素级理解的基础,但现有方法通常需要MLLM来生成隐式 Token ,该 Token 通过外部像素解码器解码 ...
修剪模型是压缩大语言模型的有效方法。但是,此过程通常会导致模型能力的重大降解。虽然通常采用培训后技术(例如教学调音)来恢复模型性能,但现有方法通常忽略模型能力的不均匀恶化和造成高计算成本 ...
随着临界领域的机器学习模型越来越多地应对多模式数据,他们面临着处理各种方式的双重挑战,通常由于缺失的元素以及收集的样本的时间不规则性和稀疏性而经常不完整。在克服高质量培训样本的稀缺时,成功利用这些复杂数据是改善这些模型的预测性能的关键。我们介绍了``fusemoe'',这是一种与创新的门控函数合并的专家框架 ...