我们提出了一种基于深神网络(DNN)的人类姿势估计方法。姿势估计是针对身体关节的基于DNN的回归问题。我们提出了一系列此类DNN回归变量,从而导致高精度姿势估计 ...
大型语言模型(LLMS)有可能产生构成滥用风险的文本,例如窃,在电子商务平台上种植虚假评论或创建炎症性虚假推文。因此,检测LLM产生的文本是否变得越来越重要。现有的高质量检测方法通常需要访问模型内部以提取内在特征 ...
近年来,场景文本发现吸引了相对研究人员的热情。大多数现有场景的文本检测器都遵循检测 - 然后识别范式,其中香草检测模块几乎不能决定阅读顺序并导致失败识别。在重新考虑自动回归场景文本识别方法之后,我们发现训练有素的识别器可以隐式地感知完整单词中所有字符的局部语义或没有字符级检测模块的句子 ...
我们已经在基本的感知任务(例如对象识别和检测)中看到了很大的进步。但是,由于缺乏更深层次的推理能力,AI模型仍然无法在高级视觉任务中与人类相匹配。最近,已经提出了视觉问题回答(QA)的新任务,以评估模型的深刻图像理解能力 ...
算法以自动回答视觉问题的算法是由人工VQA设置中构建的视觉问题回答(VQA)数据集的动机。我们提出了Vizwiz,这是第一个面向目标的VQA数据集,该数据集是由自然VQA设置产生的。 Vizwiz由31,000多个视觉问题组成,这些问题来自盲人,他们每个人都使用手机拍照,并记录了有关此问题的口语问题,每个视觉问题也有10个众包答案 ...
随着城市运输的迅速增长和自动驾驶的持续进展,出现了强大的基准测试的需求,以自动驾驶算法的强大基准,呼吁准确地建模大规模的城市交通情况,并具有不同的车辆驾驶方式。传统的交通模拟器,例如相扑器,通常取决于手工制作的场景和基于规则的模型,在这种情况下,车辆的操作仅限于速度调整和车道更改,因此很难创建现实的交通环境。近年来,与自动驾驶方面的进步一起开发了现实世界的流量方案数据集,从而促进了数据驱动的模拟器 ...
典型的动态ST数据包括轨迹数据(代表个人级别的移动性)和交通状态数据(代表人口级的移动性)。传统研究通常将轨迹和交通状态数据视为独立的独立方式,每个模式都针对单个模式中的特定任务量身定制。但是,实际应用程序(例如导航应用程序)需要对轨迹和交通状态数据进行联合分析 ...
基础模型彻底改变了人工智能,为性能树立了新的基准,并在各种视野和语言任务中启用了变革能力。然而,尽管关键领域(例如运输,公共卫生和环境监测)中时空数据的普遍性,但时空基础模型(STFM)尚未取得可比的成功。在本文中,我们阐明了对STFM的未来的愿景,概述了它们的基本特征和广泛适用性所需的概括能力 ...