机器学习 (ML) 越来越多地用于影响社会的高风险应用。因此,机器学习模型不传播歧视至关重要。在社会应用中收集准确的标记数据具有挑战性且成本高昂 ...

0 0 0 0 2024/09/11 arXiv:2001.01796v5 ifzz

在信息流行时代,拥有有效监控快速传播的猖獗谣言的工具,以及识别可能更容易传播此类错误信息的弱势用户至关重要。这种积极主动的做法可以及时采取预防措施,减轻虚假信息对社会的负面影响。我们提出了一种使用统一图神经网络模型来预测病毒式谣言和易受攻击用户的新颖方法 ...

0 0 0 0 2024/08/24 arXiv:2401.09724v1 ifzz

我们引入新的数据集“CORD-19-Vaccination”,以满足专门研究 COVID-19 疫苗相关研究的科学家的需求。该数据集是从 CORD-19 数据集 [Wang 等人,2020] 中提取的,并增加了语言详细信息、作者人口统计、关键词和每篇论文主题的新列 ...

0 0 0 0 2024/08/01 arXiv:2407.18471v1 ifzz

本研究对复杂的 SQL 基准测试 TPC-DS 与两个现有的文本到 SQL 基准测试 BIRD 和 Spider 进行了比较分析。我们的研究结果表明,与其他两个基准测试相比,TPC-DS 查询表现出明显更高水平的结构复杂性。这强调需要更复杂的基准来有效地模拟现实场景 ...

0 0 0 0 2024/08/01 arXiv:2407.19517v1 ifzz

离线强化学习通常需要高质量的数据集来训练策略。然而,在许多情况下,不可能获得这样的数据集,也不容易在给定离线数据的情况下训练策略在实际环境中表现良好。我们建议使用数据蒸馏来训练和蒸馏更好的数据集,然后将其用于训练更好的政策模型 ...

0 0 0 0 2024/08/01 arXiv:2407.20299v1 ifzz

深度学习模型在准确描绘前列腺以诊断和治疗前列腺疾病方面表现出了显着的功效,但在不同医疗中心实现稳健的泛化仍然存在挑战。无源域适应(SFDA)是一种很有前途的技术,它可以调整深度分割模型来解决隐私和安全问题,同时减少源域和目标域之间的域转移。然而,最近的文献表明,由于不可预测的领域差距,国家食品药品监督管理局的表现仍远未令人满意 ...

0 0 0 0 2024/07/26 arXiv:2407.02893v2 ifzz

主动学习被认为是缓解基于深度学习的分割方法对标注数据的高度依赖与医学图像昂贵的像素级标注成本之间矛盾的可行解决方案。然而,大多数现有方法都存在不可靠的不确定性评估以及难以平衡多样性和信息量的问题,导致分割任务的性能不佳。为此,我们提出了一种有效的基于预测精度的主动学习(PAAL)方法用于医学图像分割,首先引入预测精度来定义不确定性 ...

0 0 0 0 2024/07/26 arXiv:2405.00452v2 ifzz

高性能科学模拟对于理解复杂系统很重要,但它会遇到计算挑战,尤其是在探索广泛的参数空间时。人们对开发深度神经网络(DNN)作为能够加速模拟的替代模型越来越感兴趣。然而,训练这些 DNN 代理的现有方法依赖于大量的模拟数据,这些数据是通过昂贵的计算启发式选择和生成的——这是文献中尚未探索的挑战 ...

0 0 0 0 2024/07/26 arXiv:2407.07674v2 ifzz

主动学习(AL)旨在通过迭代选择信息最丰富的样本来构建高质量的标记数据集。这种采样很大程度上依赖于数据表示,而最近预训练在鲁棒特征学习中很流行。然而,由于预训练利用缺乏注释的低级借口任务,直接使用 AL 中的预训练表示不足以确定采样分数 ...

0 0 0 0 2024/07/26 arXiv:2407.14720v1 ifzz

卷积神经网络 (CNN) 已使用通用方法成功应用于许多识别和学习任务;在非常大的监督示例数据集上训练深度模型。然而,这种方法在实践中相当有限制,因为收集大量标记图像非常昂贵。缓解这个问题的一种方法是提出智能方法,从一个非常大的集合中选择要标记的图像(即 ...

0 0 0 0 2024/07/26 arXiv:1708.00489v4 ifzz

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)