面对不确定性,寻求信息的能力至关重要。在许多实际应用中,例如医疗诊断和故障排除,解决任务所需的信息最初并不是给出的,而是必须通过提出后续问题来主动寻求(例如,医生向患者询问有关其病情的更多详细信息)症状)。在这项工作中,我们介绍了思想的不确定性(UoT),这是一种增强大型语言模型的算法,使其能够通过提出有效的问题来主动寻找信息 ...
0 0 0 2024/04/23 arXiv:2402.03271v1 xodara
基于大型语言模型构建的角色扮演聊天机器人引起了人们的兴趣,但需要更好的技术来模仿特定的虚构角色。我们提出了一种算法,通过改进的提示和从脚本中提取的字符的记忆来控制语言模型。我们构建了 ChatHaruhi,一个涵盖 32 个中文/英文电视/动漫角色和超过 54k 模拟对话的数据集 ...
0 0 0 2024/04/23 arXiv:2308.09597v1 tgc
我们发布了 Code Llama,这是一个基于 Llama 2 的大型代码语言模型系列,在开放模型、填充功能、对大输入上下文的支持以及编程任务的零样本指令跟踪能力中提供了最先进的性能。我们提供多种风格来覆盖广泛的应用程序:基础模型 (Code Llama)、Python 专业化 (Code Llama - Python) 和指令跟随模型 (Code Llama - Instruct),每个模型都有 ...
0 0 0 2024/04/23 arXiv:2308.12950v3 zhufeizzz
在本文中,我们提出了CharacterGLM,这是一系列基于ChatGLM 构建的模型,模型大小范围从6B 到66B 参数。我们的CharacterGLM旨在生成基于角色的对话(CharacterDial),旨在为对话式AI系统配备角色定制功能,以满足人们固有的社交欲望和情感需求。在CharacterGLM之上,我们可以通过配置各种AI角色或社交代理的属性(身份、兴趣、观点、经验、成就、社交关系等 ...
0 0 0 2024/04/23 arXiv:2311.16832v1 tgc
大多数关于传感系统中机器学习的研究都集中在低级感知任务上,这些任务在短时间内处理原始传感数据。然而,许多实际应用,例如人体例行建模和占用跟踪,需要高级推理能力来理解概念并根据长期传感器轨迹做出推断。由于训练样本有限和传感器轨迹的高维性,现有的基于机器学习的处理此类复杂任务的方法很难泛化,因此需要整合人类知识来设计第一原理模型或逻辑推理方法 ...
0 0 0 2024/04/23 arXiv:2403.19857v1 HaoLiu0209
我们推出了 phi-3-mini,这是一个在 3.3 万亿个 Token 上训练的 38 亿参数语言模型,根据学术基准和内部测试衡量,其整体性能可与 Mixtral 8x7B 和 GPT-3 等模型相媲美 ...
0 0 0 2024/04/23 arXiv:2404.14219v1 huwenxing
尽管我们在事实核查方面付出了巨大的努力,但社交媒体上假新闻的盛行仍然是一个严重的问题,这对正义、公众信任和我们的社会产生了深远的影响。在这项工作中,我们专注于基于传播的假新闻检测,因为最近的研究表明假新闻和真实新闻在网上的传播方式不同。具体来说,考虑到图神经网络(GNN)处理非欧几里得数据的能力,我们使用 GNN 来区分社交媒体上假新闻和真实新闻的传播模式 ...
0 0 0 2024/04/23 arXiv:2007.03316v2 zl841825577
人工智能(AI)领域被认为是最神秘的科学领域之一,在过去十年中呈指数级增长,其应用范围非常广泛,已经影响到我们的日常生活。计算能力的进步和复杂的人工智能算法的设计使计算机能够在各种任务中超越人类,特别是在计算机视觉和语音识别领域。然而,人工智能的道路从来都不是一帆风顺的,它在其生命周期中基本上经历了两次崩溃(人工智能的“冬天”),两次都是在大众成功时期(人工智能的“夏天”)之后 ...
0 0 2 2024/04/23 arXiv:2109.01517v3 Luca

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)