具有动态潜在图的神经时间点过程的变分自动编码器

Sikun Yang^{1, 2, 3}, Hongyuan Zha^{4, 5}

摘要

连续观察的事件发生通常表现出自激励和互激励效应，可以使用时间点过程很好地对其进行建模。除此之外，这些事件动态也可能随着时间的推移而变化，并具有某些周期性趋势。我们提出了一种新颖的变分自动编码器来捕获这种时间动态的混合。更具体地，输入序列的整个时间间隔被划分为一组子间隔。假设事件动态在每个子区间内是固定的，但可能在这些子区间内发生变化。特别是，我们使用顺序潜变量模型来学习每个子区间的观察维度之间的依赖图。该模型通过使用学习到的依赖图来消除过去事件的无贡献影响，从而预测未来的事件时间。通过这样做，与现有的最先进的神经点过程相比，所提出的模型在预测几个现实世界事件序列的事件间时间和事件类型方面表现出更高的准确性。

介绍

人们对建模和理解事件发生的时间动态越来越感兴趣。例如，对客户行为和交互进行建模对于推荐系统和在线社交媒体至关重要，可以改善资源分配和客户体验（Farajtabar 等人 2014, 2016）。这些事件的发生通常表现出异质动态。一方面，个体在彼此的互动中通常会互惠互利(互惠性)。例如，如果 Alice 向 Bob 发送电子邮件，则 Bob 更有可能向 Alice 发送电子邮件不久之后。另一方面，长事件序列通常表现出一定量的周期性趋势。例如，在工作时间，个人更有可能在与同事的电子邮件互动中进行回报，但这种相互刺激的效果在非工作时间会减弱，如图1所示。

Refer to caption — 图1：一个示例说明了三个人之间的电子邮件交互：*Alice* (A)、*Bob* (B)、*Jane* (J)。在工作时间，*Alice* 经常与 *Bob* 发送电子邮件（黑色长条），而在非工作时间，他们的互动频率较低。我们将从一个人到另一个人的电子邮件序列视为一个观察维度，对应于依赖图的一个顶点。四个维度之间的动态图与三个子区间对齐，显示在顶部。

时间点过程 (TPP)，例如霍克斯过程 (HP)（Hawkes 1971），特别适合捕获倒数和聚类事件动态的影响。尽管如此，传统的 HP 无法充分捕捉潜在的状态转换动态。最近，神经时间点过程（神经 TPP）展示了使用神经网络捕获事件序列中的远程依赖性的强大能力（Du 等人 2016；Xiao 等人 2017、2019；Omi、Ueda 和 Aihara 2019）、注意力机制（Zhang 等人 2020；Zuo 等人 2020）和神经密度估计（Shchur、Bilos 和 Günnemann 2019）。这些神经 TPP 通常使用所有过去的事件来预测未来事件的发生时间，因此无法消除无贡献事件的干扰。为了减轻这一缺陷，最近的一些工作（Zhang，Lipani和Yilmaz 2021；Lin等人2021）通过学习静态图来明确捕获来制定神经时间点过程事件类型之间的依赖关系。因此，他们可以通过学习的图表消除过去事件的无贡献影响，从而提高预测未来事件时间的准确性。尽管如此，事件类型之间的依赖性也可能随着时间而改变。使用静态图，神经TPP将检索随时间平均的依赖图。为了填补这一空白，本文做出了一些主要贡献：（i）我们建议从新颖的变分自动编码器（VAE）角度学习输入序列的事件类型之间的动态图（Kingma和Welling 2014；Rezende、Mohamed 和 Wierstra 2014）。更具体地说，我们使用规则间隔的间隔来捕获不同的状态，并假设每个子间隔内的平稳动态。特别是，两种事件类型之间的依赖关系是使用潜在变量捕获的，该变量允许在子区间内演变。我们通过从观察到的序列编码事件类型之间的潜在动态图来制定变分自动编码器框架。使用对数正态混合分布来解码事件间等待时间。通过学习的图，可以有效地消除过去事件的无贡献影响。（ii）最终实验表明，与现有的密切相关的方法相比，所提出的方法在预测事件时间和类型方面的准确性有所提高。通过纽约机动车辆碰撞数据证明了所提出的方法估计的动态图的可解释性。

背景

多元点过程。时间点过程（TPP）涉及连续时域中的随机事件序列建模。让 $\mathcal{S}\equiv\{(t_{i},v_{i})\}_{i=1}^{L}$ 表示事件序列， $t_{i}\geq 0$ 是时间戳， $v_{i}\in[1,\ldots,U]$ 是第 $i$ 事件的类型。此外， $\mathcal{H}_{t}=\{(t_{i},v_{i})\mid t_{i}<t,(t_{i},v_{i})\in\mathcal{S}\}$ 表示截至时间 $t$ 发生的历史事件的顺序。多元霍克斯过程 (MHP) 使用由下式指定的条件强度函数捕获事件类型之间的互激励

\displaystyle\lambda^{*}_{v}(t)=\mu_{v}+\sum_{u=1}^{U}\sum_{\{j:t_{j}^{u}<t\}}% \alpha_{(v,u)}\exp\left[-\frac{(t-t_{j}^{u})}{\eta_{(v,u)}}\right],

(1)

其中 $\mu_{v}$ 是第 $v$ 事件类型的基本速率， $\alpha_{(v,u)}>0$ 捕获由于事件 $t_{j}^{u}$ ' 导致的强度瞬时提升' s 到达， $\eta_{(v,u)}>0$ 确定该事件随时间的影响衰减。 MHP 的静止条件需要 $\alpha_{(v,u)}\eta_{(v,u)}<1$ 。与 MHP 不同，互回归点过程 (MRPP)(Apostolopoulou 等人 2019) 旨在捕获事件之间的兴奋和抑制效应类型。这些参数点过程通过相应地设计条件强度函数来捕获对历史事件的某种形式的依赖性。尽管简单有用，这些参数点过程要么在实践中遭受模型错误指定导致的某些近似误差，要么缺乏捕获远程依赖关系的能力。为了解决这些限制，最近的一些进展（Du等人2016；Omi、Ueda 和 Aihara 2019；Shchur、Bilos 和 Günnemann 2020；Zuo 等人 2020) 将时间点过程和深度学习方法结合起来，对事件序列背后的复杂依赖结构进行建模。在高层次上，这些神经时间点过程将每个事件视为一个特征，并使用各种深度学习方法（包括循环神经网络（RNN）、门控循环单元（GRU）或长链）将事件序列编码到历史嵌入中。短期记忆（LSTM）网络。 Du 等人 (2016) 使用循环神经网络从观察到的过去事件中提取历史嵌入，然后使用历史嵌入来参数化其条件强度函数。该强度的指数形式允许闭式积分 $\Lambda^{*}(t)=\int_{0}^{t}\lambda^{*}(s)\mathrm{d}s$ ，因此导致易于处理的对数似然。 Mei 和 Eisner (2017) 研究了更复杂的条件强度函数，同时计算对数似然涉及使用蒙特卡罗方法逼近积分 $\Lambda^{*}(t)$ 。 Omi、Ueda 和 Aihara (2019) 提出使用神经网络对累积条件强度函数进行建模，从而可以准确有效地计算对数似然。然而，使用这种方法进行采样的成本很高，并且导出的概率密度函数不能积分为 1。为了解决这些问题，Shchur、Bilos 和 Günnemann（2019）建议使用归一化流直接对事件间时间进行建模。神经密度估计方法（Shchur、Bilos 和 Günnemann 2019）不仅允许以分析方式执行采样和似然计算，而且与其他神经 TPP 相比，在各种应用中也显示出有竞争力的性能。变分自动编码器。我们简要介绍了变分自动编码器（VAE）的定义，并请读者参考（Kingma and Welling 2014；Rezende、Mohamed 和 Wierstra 2014）了解更多属性。 VAE 是最成功的生成模型之一，它允许直接从数据分布 $p(\mathcal{S})$ 中进行采样。它对于高维数据分布建模特别有用，因为使用马尔可夫链蒙特卡罗进行采样的速度非常慢。更具体地说，我们的目标是在 $p(\mathcal{S})=\int p(\mathcal{S}\mid\mathbf{z},\bm{\theta})p(\mathbf{z})d% \mathbf{z},$ 指定的生成过程下最大化数据对数似然 $p(\mathcal{S})$ ，其中 $\mathbf{z}$ 是潜在变量， $p(\mathbf{z})$ 表示先验分布，观察分量 $p(\mathcal{S}\mid\mathbf{z},\bm{\theta})$ 由 $\bm{\theta}$ 参数化。在VAE框架下，后验分布 $q_{\phi}(\mathbf{z}\mid\mathbf{\mathcal{S}})$ 可以定义为 $q_{\phi}(\mathbf{z}\mid\mathbf{\mathcal{S}})\equiv\mathcal{N}(\mathbf{z};f^{% \mu}(\mathcal{S};\phi),f^{\Sigma}(\mathcal{S};\phi))$ ，其中 $\mathcal{N}(\cdot)$ 指正态分布，均值 $f^{\mu}(\mathcal{S};\phi)$ 和协方差 $f^{\Sigma}(\mathcal{S};\phi))$ 由具有参数 $\phi$ 的神经网络参数化。为了学习模型参数，我们最大化由

$\mathcal{L}(\phi,\theta)=\mathsf{E}_{q_{\phi}(\mathbf{z}\mid\mathbf{\mathcal{S% }})}\Big{[}\log p(\mathcal{S}\mid\bm{\theta})\Big{]}-\mathcal{D}_{\text{KL}}% \Big{[}q_{\phi}(\mathbf{z}\mid\mathbf{\mathcal{S}})||p(\mathbf{z})\Big{]},$ 给出的证据下界 (ELBO)，其中 $\mathcal{D}_{\text{KL}}$ 表示 Kullback-Leibler (KL) 散度。第一项是进行近似后验以产生可以尽可能重建数据 $\mathcal{S}$ 的潜在变量 $\mathbf{z}$ 。第二项是将潜在变量的近似后验与潜在变量的先验分布相匹配。使用重新参数化技巧（Kingma and Welling 2014），我们通过使用自动微分辅助的随机梯度下降最大化 ELBO 来学习 $\phi$ 和 $\theta$ 。

模型

给定一系列事件 $\mathcal{S}\equiv\{(t_{i},v_{i})\}_{i=1}^{L}$ ，我们的目标是使用动态图结构神经点过程来捕获事件类型之间的复杂依赖关系。序列的整个时间间隔被划分为 $K$ 规则间隔的子间隔， $K$ 指定了先验，以近似表示不同的状态。我们假设事件类型之间的潜在图正在改变状态，但在每个子区间内静止，如图2(a)所示。具体来说，让 $[t_{k}^{L},t_{k}^{R})$ 代表第 $k$ 个子区间，以 $t_{k}^{L}$ 为起点， $t_{k}^{R}$ 为终点。让潜在变量 $z_{(v,u)}^{k}$ 捕获 $k$ 子内第 $v$ 事件类型对第 $u$ 事件类型的依赖性间隔。为了便于说明，我们用

$\mathbf{s}^{k}\equiv\{(t_{i},v_{i})\mid t_{i}\in[t_{k}^{L},t_{k}^{R})\}$ 表示第 $k$ 个子间隔内发生的事件集。请注意，我们使用对数正态混合对每种事件类型的事件间时间进行建模。因此，我们用 $\mathcal{S}_{u}=\{(t^{u}_{i},\tau_{i}^{u})\}_{i=1}^{n^{u}}$ 表示第 $u$ 类型的事件序列，其中 $t_{i}^{u}$ 是序列中观察到的第 $i$ 事件第 $u$ 个事件类型， $\tau_{i}^{u}=t^{u}_{i}-t^{u}_{i-1}$ 表示对应的事件间时间， $L=\sum_{u=1}^{U}n^{u}$ 表示事件总数。接下来，我们将在以下小节中解释变分自动编码器的每个组件。

先验。我们假设事件类型之间的依赖关系图在子区间内演变。因此，我们使用自回归模型来捕获潜在变量 $\{\mathbf{z}_{(v,u)}^{k}\}_{v,u,k}$ 的先验概率。更具体地说， $\mathbf{z}_{(v,u)}^{k}$ 的先验分布取决于其先前的状态 $\mathbf{z}_{(v,u)}^{k-1}$ 以及截至时间 $t_{k}^{L}$ 的事件序列（第一个 $k-1$ 子区间）：

\displaystyle p_{\phi}(\mathbf{z}\mid\mathcal{S})\equiv\prod_{k=1}^{K}p_{\phi}% (\mathbf{z}^{k}\mid\mathbf{z}^{1:k-1},\mathbf{s}^{1:k}).

先验组件指定如下：对于每个 $v$ 类型 $(t_{i}^{v},m_{i}^{v})$ 的事件，其中 $m_{i}^{v}$ 表示辅助事件标记（如果可用），我们嵌入 $t_{i}^{v}$ 和 $m_{i}^{v}$ 转化为固定维度向量 $\mathbf{y}_{v}^{t_{i}}\in\mathbb{R}^{D}$ 。然后，我们将事件嵌入 $\mathbf{y}_{v}^{t_{i}}$ 通过全连接图神经网络 (GNN)，得到事件类型 $v$ 和 $u$ 之间的关系嵌入 $\mathbf{h}^{t_{i}}_{(v,u),\text{emb}}$ ：

	$\displaystyle\mathbf{h}_{v,1}^{t_{i}}$	$\displaystyle=f^{1}_{\text{emb}}(\mathbf{y}_{v}^{t_{i}}),$
$\displaystyle v\rightarrow e:$	$\displaystyle\mathbf{h}_{(v,u),1}^{t_{i}}$	$\displaystyle=f_{\text{e}}^{1}([\mathbf{h}_{v,1}^{t_{i}},\mathbf{h}_{u,1}^{t_{% i}}]),$
$\displaystyle e\rightarrow v:$	$\displaystyle\mathbf{h}_{v,2}^{t_{i}}$	$\displaystyle=f_{v}^{1}\Big{(}\sum_{u\neq v}\mathbf{h}_{(v,u),1}^{t_{i}}\Big{)},$
$\displaystyle v\rightarrow e:$	$\displaystyle\mathbf{h}_{(v,u),\text{emb}}^{t_{i}}$	$\displaystyle=f_{\text{e}}^{2}([\mathbf{h}_{v,2}^{t_{i}},\mathbf{h}_{u,2}^{t_{% i}}]),$

其中 $f(\cdot)$ 表示 GNN 每层的多层感知器（MLP）， $\mathbf{h}_{v,\ell}^{t_{i}}$ 和 $\mathbf{h}_{(v,u),\ell}^{t_{i}}$ 表示 GNN 的节点级和边缘级隐藏状态分别为 $\ell$ 第中间层。 GNN $\mathbf{h}_{(v,u),\text{emb}}^{t_{i}}$ 的最终输出对时间 $t_{i}$ 的关系进行建模。 GNN 架构如图3(a)所示。

我们需要使用 MLP 连接所有关系变量 $\{\mathbf{h}_{(v,u),\text{emb}}^{t_{i}}\}\ \text{for}\ t_{i}\in[t^{L}_{k},t^{R% }_{k})$ ，并将它们转换为第 $k$ 个子区间的关系状态 $\mathbf{h}_{(v,u),\text{emb}}^{k}$ ：

\displaystyle\mathbf{h}_{(v,u),\text{emb}}^{k}

\displaystyle=f^{2}_{\text{emb}}([\mathbf{h}_{(v,u),\text{emb}}^{t_{i}}])\quad% \ \text{for}\ t_{i}\in[t^{L}_{k},t^{R}_{k}).

前向递归神经网络 (RNN) 用于捕获关系状态 $\mathbf{h}_{(v,u),\text{fwd}}^{k}$ 对其当前嵌入 $\mathbf{h}_{(v,u),\text{emb}}^{k}$ 及其先前状态 $\mathbf{h}_{(v,u),\text{fwd}}^{k-1}$ 的依赖性：

\displaystyle\mathbf{h}_{(v,u),\text{fwd}}^{k}

\displaystyle=\text{RNN}_{\text{fwd}}(\mathbf{h}_{(v,u),\text{emb}}^{k},% \mathbf{h}_{(v,u),\text{fwd}}^{k-1}).

最后，我们使用 MLP 将 $\mathbf{h}_{(v,u),\text{fwd}}^{k}$ 编码为 $\mathbf{z}_{(v,u)}^{k}$ 先验分布的 logits：

\displaystyle p_{\phi}(\mathbf{z}_{(v,u)}^{k}\mid\mathbf{z}^{1:k-1},\mathbf{s}% ^{1:k})

\displaystyle=\text{softmax}(f_{\text{prior}}(\mathbf{h}_{(v,u),\text{fwd}}^{k% })).

图4显示了基于前向RNN的先验分布。

编码器。潜在变量 $q_{\phi}(\mathbf{z\mid\mathcal{S}})$ 的后验分布取决于过去和未来的事件：

\displaystyle q_{\phi}(\mathbf{z}\mid\mathcal{S})\equiv\prod_{k=1}^{K}q_{\phi}% (\mathbf{z}^{k}\mid\mathcal{S}).

因此，编码器被设计为使用整个事件序列来近似关系变量的分布。为此，使用后向 GNN 反向传播隐藏状态 $\mathbf{h}_{(v,u),\text{bwd}}^{k}$ ：

\displaystyle\mathbf{h}_{(v,u),\text{bwd}}^{k}

\displaystyle=\text{RNN}_{\text{bwd}}(\mathbf{h}_{(v,u),\text{emb}}^{k},% \mathbf{h}_{(v,u),\text{bwd}}^{k+1}).

最后，我们连接前向状态 $\mathbf{h}_{(v,u),\text{fwd}}^{k}$ 和后向状态 $\mathbf{h}_{(v,u),\text{bwd}}^{k}$ ，并使用 MLP 将它们转换为近似后验的 logits：

\displaystyle q_{\phi}(\mathbf{z}_{(v,u)}^{k}\mid\mathcal{S})

\displaystyle=\text{softmax}(f_{\text{enc}}([\mathbf{h}_{(v,u),\text{bwd}}^{k}% ,\mathbf{h}_{(v,u),\text{fwd}}^{k}])).

请注意，先验和编码器共享参数，因此这两个组件的参数用 $\phi$ 表示。

解码器。解码器的作用是预测每个事件类型 $u$ 的事件间时间 $\{\tau_{i}^{u}\}_{i=1}^{n_{u}}$ 。特别是，我们使用由下式指定的图递归神经网络（GRNN）捕获这些事件间时间背后的潜在动态 $\{\mathbf{\hat{h}}_{v}^{t_{i}}\}$

$\displaystyle v\rightarrow e:$	$\displaystyle\mathbf{\hat{h}}_{(v,u)}^{t_{i}}$	$\displaystyle=z_{(v,u)}^{k}f_{\text{e}}^{1}([\mathbf{\hat{h}}_{v}^{t_{i}},% \mathbf{\hat{h}}_{u}^{t_{i}}]),\quad\ \text{for}\ t_{i}\in[t^{L}_{k},t^{R}_{k}),$
$\displaystyle e\rightarrow v:$	$\displaystyle{\mathbf{\tilde{h}}}_{v}^{t_{i}}$	$\displaystyle=\sum_{u\neq v}\mathbf{\hat{h}}_{(v,u)}^{t_{i}},$
	$\displaystyle\mathbf{\hat{h}}_{v}^{t_{i+1}}$	$\displaystyle=\text{GRU}({\mathbf{\tilde{h}}}_{v}^{t_{i}},{\mathbf{\hat{h}}}_{% v}^{t_{i}}),$

其中 $z_{(v,u)}^{k}$ 确定第 $u$ 事件类型 $\mathbf{\hat{h}}_{u}^{t_{i}}$ 如何影响第 $v$ 事件类型 $\mathbf{\hat{h}}_{v}^{t_{i+1}}$ 通过时间 $t_{i+1}$ 的关系 $z_{(v,u)}^{k}$ 。潜在嵌入 $\mathbf{\hat{h}}_{v}^{t_{i}}$ 本身使用门控循环单元 (GRU) 随着时间的推移而演变。

给定动态嵌入 $\{\mathbf{\hat{h}}_{v}^{t_{i}}\}$ ，我们使用对数正态混合模型对事件间时间 $p(\tau_{i}^{u})$ 进行建模（Shchur、Bilos 和 Günnemann 2019），

\displaystyle p(\tau\mid\bm{\omega},\bm{\mu},\bm{\sigma})=\sum_{c=1}^{C}{% \omega}_{c}\frac{1}{\tau{\sigma}_{c}\sqrt{2\pi}}\exp\Big{(}-\frac{(\log\tau-{% \mu}_{c})^{2}}{2{\sigma}_{c}^{2}}\Big{)},

其中 $\omega_{c},\mu_{c},\sigma_{c}$ 分别表示第 $c$ 个混合物成分的混合物权重、平均值和标准差。特别地，每个事件间时间 $\tau_{i}^{u}$ 的分布参数构造为

	$\displaystyle\bm{\omega}_{i}^{u}$	$\displaystyle=\text{softmax}(V_{\bm{\omega}}\mathbf{\hat{h}}_{u}^{t_{i}}+\bm{% \beta_{\omega}}),\quad\ \bm{\sigma}_{i}^{u}=\text{exp}(V_{\bm{\sigma}}\mathbf{% \hat{h}}_{u}^{t_{i}}+\bm{\beta_{\sigma}}),$
	$\displaystyle\bm{\mu}_{i}^{u}$	$\displaystyle=V_{\bm{\mu}}\mathbf{\hat{h}}_{u}^{t_{i}}+\bm{\beta_{\mu}},$

其中 $\{V_{\bm{\omega}},V_{\bm{\sigma}},V_{\bm{\mu}},\bm{\beta_{\omega}},\bm{\beta_{% \sigma}},\bm{\beta_{\mu}}\}$ 指的是可学习的参数。我们使用 softmax 和 exp 变换对分布参数相应地施加和对一和正约束。图3(b)展示了用于构造解码器部分中对数正态混合的参数的GNN架构。给定模型参数，我们假设事件间时间 $\tau_{i}^{u}$ 有条件地独立于过去的事件。因此，解码器下事件间时间的分布可分解为

\displaystyle p_{\theta}(\bm{\tau}\mid\mathbf{z})=\prod_{u=1}^{U}\prod_{i=1}^{% n^{u}}p(\tau_{i}^{u}\mid\bm{\theta}_{i}^{u}).

VAE框架的解码器部分如图2（b）所示。因此，我们自然可以使用以下方法来预测下一个事件时间

\displaystyle\hat{t}^{u}_{i+1}

\displaystyle=t^{u}_{i}+\int_{0}^{\infty}\tau p(\tau_{i+1}^{u}\mid\bm{\theta}_% {i+1}^{u})\mathrm{d}\tau.

训练。接下来我们解释如何学习动态图结构神经点过程的 VAE 框架的参数。事件序列 $\mathcal{S}$ 通过编码器中的 GNN，得到所有时间戳 $\{t_{i}\}_{i=1}^{L}$ 和每对两个事件类型 $(v,u)$ 的关系嵌入 $\mathbf{h}^{t_{i}}_{(v,u),\text{emb}}$ 。然后，我们连接所有关系嵌入，并将它们转换为每个子区间 $k$ 的关系状态 $\mathbf{h}^{k}_{(v,u),\text{emb}}$ 。关系状态 $\{\mathbf{h}^{k}_{(v,u),\text{emb}}\}$ 被馈送到前向和后向RNN中以计算先验分布 $p_{\phi}(\mathbf{z}\mid\mathcal{S})$ 和后验分布 $q_{\phi}(\mathbf{z}\mid\mathcal{S})$ 。然后，我们从后验分布的具体可重新参数化近似中采样 $\{\mathbf{z}_{(v,u)}^{k}\}$ 。隐藏状态 $\{\mathbf{\hat{h}}_{v}^{t_{i}}\}$ 通过GRNN演化，其中消息只能通过 $\{\mathbf{z}_{(v,u)}^{k}\}$ 暗示的非零边缘。这些隐藏状态 $\{\mathbf{\hat{h}}_{v}^{t_{i}}\}$ 用于参数化事件间时间的对数正态混合分布。为了学习模型参数，我们将证据下界 (ELBO) 计算为

	$\displaystyle\mathcal{L}^{\mathrm{ELBO}}(\phi,\theta)=\ \mathsf{E}_{q_{\phi}(% \mathbf{z}^{k}\mid\mathbf{\mathcal{S}})}\Big{[}\sum_{u=1}^{U}\sum_{i=1}^{n^{u}% }\log p(\tau_{i}^{u}\mid\bm{\theta}_{i}^{u})\Big{]}$		(2)
	$\displaystyle-\sum_{k=1}^{K}\mathcal{D}_{\text{KL}}\Big{[}q_{\phi}(\mathbf{z}^% {k}\mid\mathbf{\mathcal{S}})\|\|p_{\phi}(\mathbf{z}^{k}\mid\mathbf{z}^{1:k-1},% \mathbf{s}^{1:k})\Big{]}.$

当我们使用可重新参数化的近似值绘制样本 $\{\mathbf{z}_{(v,u)}^{k}\}$ 时，我们可以使用反向传播计算梯度并优化 ELBO。此后，我们将所提出的模型表示为变分自动编码器时间点过程（VAETPP）。

实验

所提出的变分自动编码器时间点过程在事件时间和类型预测的任务上进行评估。我们使用四个真实世界的数据来演示所提出的方法，并与现有的相关方法进行比较。纽约机动车碰撞事故(NYMVC)：该数据包含自 2014 年 4 月以来纽约市发生的车辆碰撞事件的集合。每个碰撞事件 $(t_{i},v_{i})$ 记录在 $v_{i}$ 区、 $t_{i}$ 时间发生的机动车碰撞。具体而言，在高峰时段，一次车辆碰撞可能会在短时间内引发同一地区或附近地区的一系列碰撞事故。因此，它非常适合使用多元点过程来建模和预测这些事件的发生。此外，由于上述触发效应在夜间比白天更弱，因此各地区之间的影响关系可能会随着时间而变化。我们使用 8:00 至 23:00 之间的机动车碰撞记录创建每个事件序列，并将每三个小时视为一个子间隔。我们考虑了五个地区：曼哈顿、布鲁克林、布朗克斯、皇后区和斯塔顿岛 作为事件类型。

Methods	MathOF	AskUbuntu	SuperUser	NYMVC
Exponential	$2.549\pm 0.074$	$2.584\pm 0.029$	$2.517\pm 0.018$	$2.474\pm 0.043$
RMTPP	$1.912\pm 0.087$	$1.981\pm 0.014$	$2.025\pm 0.054$	$1.944\pm 0.012$
FullyNN	$1.652\pm 0.062$	$1.884\pm 0.073$	$1.777\pm 0.023$	$1.473\pm 0.024$
LogNormMix	${-0.859\pm 0.121}$	$0.303\pm 0.037$	$-0.868\pm 0.018$	${-2.578\pm 0.032}$
THP	${-2.531\pm 0.024}$	$-2.235\pm 0.028$	$-2.349\pm 0.051$	${-1.889\pm 0.037}$
VAETPP (static)	${-2.632\pm 0.028}$	${-2.312\pm 0.026}$	${-2.466\pm 0.021}$	${-2.016\pm 0.032}$
VAETPP	$\mathbf{-3.501\pm 0.068}$	$\mathbf{-2.867\pm 0.032}$	$\mathbf{-3.812\pm 0.057}$	$\mathbf{-5.952\pm 0.046}$

表格1：真实世界数据的事件间时间预测的负对数似然。

Datasets	$\#$ sequences	$\#$ events	$\#$ types
MathOF	$1453$	$590836$	$15$
AskUbuntu	$1561$	$65960$	$11$
SuperUser	$1240$	$84627$	$10$
NYMVC	$2000$	$863624$	$5$

表2：数据集的统计。

堆栈交换数据：实验中包含来自不同来源的三个堆栈交换数据：MathOF、AskUbuntu 和SuperUser。堆栈交换数据由参与者之间的各种交互组成。每个事件 $(v_{i},u_{i},t_{i})$ 意味着在时间戳 $t_{i}$ ，用户 $v_{i}$ 可以发布对 $u_{i}$ 的问题或评论的回答或评论。用户之间的这些交互事件通常表现出一定的聚类效应和周期性趋势。例如，有关流行技术的一些问题可能很快会引起具有相似兴趣的其他人的大量答案或评论。此外，这些触发效应表现出周期性趋势：用户更倾向于在工作日而不是周末/节假日响应技术主题。我们将向对方做出操作的用户视为事件类型。因此，我们从一周内发生的事件中得出每个序列，并将每一天视为一个子间隔。这些数据集详见表2。

Methods	MathOF	AskUbuntu	SuperUser	NYMVC
RMTPP	$0.952\pm 0.008$	$0.983\pm 0.025$	$1.103\pm 0.068$	$1.135\pm 0.095$
LogNormMix	${0.673\pm 0.082}$	$0.969\pm 0.043$	$0.708\pm 0.098$	${0.798\pm 0.038}$
THP	${0.693\pm 0.024}$	$0.791\pm 0.057$	$0.779\pm 0.032$	${0.859\pm 0.027}$
VAETPP(static)	${0.632\pm 0.020}$	${0.812\pm 0.032}$	${0.788\pm 0.038}$	${0.864\pm 0.046}$
VAETPP	$\mathbf{0.569\pm 0.018}$	$\mathbf{0.642\pm 0.012}$	$\mathbf{0.674\pm 0.046}$	$\mathbf{0.775\pm 0.064}$

表3：事件时间预测的均方根误差 (RMSE) 比较。

Methods	MathOF	AskUbuntu	SuperUser	NYMVC
RMTPP	$0.154\pm 0.022$	$0.189\pm 0.021$	$0.208\pm 0.008$	$0.251\pm 0.025$
LogNormMix	${0.206\pm 0.027}$	$0.225\pm 0.011$	$0.235\pm 0.013$	${0.276\pm 0.038}$
THP	${0.242\pm 0.019}$	$0.261\pm 0.016$	$0.248\pm 0.006$	${0.294\pm 0.028}$
VAETPP(static)	${0.286\pm 0.031}$	${0.286\pm 0.022}$	${0.256\pm 0.018}$	${0.278\pm 0.026}$
VAETPP	$\mathbf{0.321\pm 0.016}$	$\mathbf{0.318\pm 0.012}$	$\mathbf{0.288\pm 0.018}$	$\mathbf{0.301\pm 0.022}$

表 4：事件类型预测精度比较。

实验装置。对于每种事件类型 $u\in[1,\ldots,U]$ ，我们比较了模型使用历史事件 $\mathcal{H}_{t_{i}^{u}}$ 预测事件间时间 $\tau_{i}^{u}$ 的能力，如图 1 所示。 2(b)。每个现实世界的数据被分成多个事件序列。对于每个真实世界的数据，我们选择序列的 $60\%$ 用于训练， $20\%$ 用于验证， $20\%$ 用于测试。对于训练，我们最大化方程式中的 ELBO。 2 表示所提出的模型，以及其他模型的预期对数似然。通过学习到的参数，我们使用验证集上获得的负对数似然（NLL）来衡量每个模型的预测性能。因此，可以使用验证集来选择实现最佳预测性能的模型配置。最后，测试集上的 NLL 损失用于比较模型预测事件间时间的能力。我们报告十次随机训练/验证/测试分组的平均结果。对于开发的 VAETPP，输入嵌入 $\mathbf{y}_{t_{i}}^{u}$ 的维度为 $64$ 。对于编码器的全连接 GNN， $f^{1}_{emb},f_{e}^{1},f_{v}^{1}$ 和 $f_{e}^{1}$ 是两层 MLP，每层有 64 个单元和指数线性单元 (ELU) 激活。我们使用 $f_{emb}^{2}$ 将每个子区间内的串联隐藏状态转换为一个隐藏状态，从而使用具有 64 个隐藏单元和 ReLU 激活的单层 MLP 参数化 $f_{emb}^{2}$ 。前向 RNN 和后向 RNN 都有 64 个隐藏单元。我们通过具有 64 个隐藏单元和修正线性单元 (ReLU) 激活的单层 MLP 参数化 $f_{\text{prior}}$ 和 $f_{\text{enc}}$ 。我们将事件类型中的动态图的边类型的数量设置为两个，并指定第一个边类型以指示不依赖。对于解码器部分，我们针对两种边缘类型中的每一种，使用具有 64 个隐藏/输出单元的单独两层 MLP 来参数化 $f_{e}^{1}$ 。 GRU 有 64 个隐藏单元。我们使用验证数据选择了 VAETPP 对数正态混合分布中使用的混合组件的数量。在实验中，我们在实验中使用了 $16$ 混合组件。我们还考虑用静态潜在图来限制 VAETPP，并将其表示为 VAETPP（静态），以验证学习动态图在捕获事件序列中的周期趋势方面的重要性。我们将所提出的方法与以下基线进行了比较：指数。恒定强度模型（Upadhyay, De, and Gomez-Rodrizuez 2018）的条件强度函数定义为 $\lambda^{*}(t_{i})=\exp{(\mathbf{v}^{\mathrm{T}}\mathbf{h}_{i}+\mathbf{b})}$ ，其中 $\mathbf{h}_{i}$ 表示事件RNN 学习的历史嵌入， $\mathbf{v}$ 和 $\mathbf{b}$ 指的是模型参数。恒定强度模型的概率密度函数 (PDF) 是指数分布，如 $p^{*}(\tau)=\gamma\exp{(-\gamma)}$ 所示，其中 $\gamma=\exp{(\mathbf{v}^{\mathrm{T}}\mathbf{h}_{i}+\mathbf{b})}$ 。循环标记时间点过程（RMTPP）（杜等人 2016）。该方法使用 RNN 将过去的事件编码为历史嵌入，并对指数分布的条件强度进行建模。完全神经网络 (FullyNN) （Omi、Ueda 和 Aihara 2019）。它使用神经网络捕获事件间时间的累积分布。对数正态混合 (LogNormMix) （Shchur、Bilos 和 Günnemann 2019）。该方法使用 RNN 将事件历史编码为嵌入向量，并使用对数正态混合分布解码等待时间。 Transformer 霍克斯过程（THP）（Zuo 等人 2020）。它利用自注意力机制来捕获观察到的事件序列中的长期依赖性。

负对数似然比较。表1比较了事件间时间建模中所有方法的负对数似然损失。正如预期的那样，与使用单峰分布（Gompertz/RMTPP、指数）的简单模型相比，LogNormMix 具有更大的灵活性，因此表现出大幅提高的性能。 Transformer Hawkes process（THP）可以有效地学习事件之间的远程依赖关系，从而实现较低的 NLL 损失。所提出的 VAETPP 不仅可以使用对数正态混合解码器捕获复杂的事件间时间分布。它还可以通过动态依赖图有效地消除不相关的过去事件的无贡献影响，进一步改进事件间时间预测。因此，所提出的 VAETPP 在所有数据集上一致地实现了最佳 NLL 损失值。

事件预测比较。我们还在实验中考虑了事件时间和类型预测的任务。特别是，在（Zuo等人2020）之后，我们使用线性预测器进行下一个事件时间预测，如 $\hat{t}_{i+1}^{u}=\mathbf{W}^{\text{time}}\bm{\theta}_{i}^{u},$ ，其中 $\bm{\theta}_{i}^{u}$ 是更新的历史嵌入由 VAETPP 在观察到第 $u$ 类型的第 $i$ 个事件后计算， $\mathbf{W}^{\text{time}}\in\mathbb{R}^{1\times D}$ 表示事件时间预测器的参数。下一个事件类型预测是

\displaystyle\hat{\mathbf{p}}_{i+1}=\texttt{softmax}(\mathbf{W}^{\text{type}}% \bm{\theta}_{i}^{u}),\ \ \hat{m}_{i+1}^{u}=\arg\max_{j}\hat{\mathbf{p}}_{i+1}(% j),

其中 $\mathbf{W}^{\text{type}}\in\mathbb{R}^{J\times D}$ 表示事件类型预测器的参数， $\hat{\mathbf{p}}_{i+1}(j)$ 指 $\hat{\mathbf{p}}_{i+1}\in\mathbb{R}^{\scriptscriptstyle J}$ 的第 $j$ 条目。事件时间和类型预测的损失函数定义为

\displaystyle\mathcal{\widetilde{L}}(\mathcal{S};\theta)=\sum_{u}\sum_{i=1}^{n% _{u}}(t_{i}^{u}-\hat{t}_{i}^{u})^{2},\mathcal{\widehat{L}}(\mathcal{S};\theta)% =-\sum_{j=2}^{L}\mathbf{m}_{j}^{\mathrm{T}}\log(\mathbf{\hat{p}}_{j}),

分别，其中 $\mathbf{m}_{j}$ 是第 $j$ 事件类型的 one-hot 编码。为了了解事件时间和类型预测器的参数，我们考虑将复合损失函数最小化为

$\min_{\phi,\theta}-\mathcal{L}^{\mathrm{ELBO}}(\mathcal{S};\phi,\theta)+% \mathcal{\widetilde{L}}(\mathcal{S};\theta)+\mathcal{\widehat{L}}(\mathcal{S};% \theta),$ ，其中 $\mathcal{L}^{\mathrm{ELBO}}(\mathcal{S};\phi,\theta)$ 是等式2。我们使用训练数据来学习模型参数，并根据验证集上的预测性能选择最佳配置。最后，我们评估了测试集上的模型性能。具体来说，我们根据历史记录预测了每个保留事件 $(t_{j},m_{j})$ 。我们通过准确性评估事件类型预测，通过均方根误差 (RMSE) 评估事件时间预测。标签。 3 和 4 分别显示事件时间和类型预测的结果。我们的 VAETPP 在预测所有数据的事件时间和类型方面优于基线。

模型可解释性。图5(a)显示了纽约市五个行政区的相对位置：曼哈顿、布鲁克林、布朗克斯、皇后区、斯塔滕岛。五个时间间隔的潜在动态图如图5（b-f）所示。从结果来看，我们发现曼哈顿、布鲁克林、布朗克斯和皇后区之间的影响比这四个地区和史坦顿岛之间的影响要强得多。与白天相比，这些区域之间的影响在夜间逐渐减弱。结果不仅显示了模型的高可解释性，而且还解释了为什么 VAETPP 通过其估计图有效消除无贡献的历史事件的影响而获得更好的预测精度。

结论

我们提出了一种新颖的变分自动编码器，用于对异步事件序列进行建模。为了捕捉长序列背后的周期性趋势，我们使用规则间隔来捕捉序列背后的不同状态，并假设每个子区间内的平稳动态。事件类型之间的依赖结构是使用潜在变量捕获的，该变量允许随着时间的推移而演变，以捕获随时间变化的图表。因此，与其他神经点过程相比，所提出的模型可以有效地消除不相关的过去事件类型的影响，并在预测事件间时间和类型方面取得更好的准确性。我们计划在未来的研究中推广捕获非平稳网络动态的工作（Yang and Koeppl 2018b, a, 2020；Yang and Zha 2023）。

致谢

该工作得到深圳市科技计划项目（JCYJ20210324120011032）和深圳市人工智能与社会机器人研究院的部分资助。

参考

Apostolopoulou et al. (2019) Apostolopoulou, I.; Linderman, S.; Miller, K.; and Dubrawski, A. 2019. Mutually Regressive Point Processes. In Advances in Neural Information Processing Systems (NeurIPS), 1–12.
Bhattacharjya, Subramanian, and Gao (2018) Bhattacharjya, D.; Subramanian, D.; and Gao, T. 2018. Proximal Graphical Event Models. In Advances in Neural Information Processing Systems (NeurIPS), 1–10.
Du et al. (2016) Du, N.; Dai, H.; Trivedi, R. S.; Upadhyay, U.; Gomez-Rodriguez, M.; and Song, L. 2016. Recurrent Marked Temporal Point Processes: Embedding Event History to Vector. In SIGKDD, 1555–1564. New York, NY, USA.
Farajtabar et al. (2014) Farajtabar, M.; Du, N.; Gomez-Rodriguez, M.; Valera, I.; Zha, H.; and Song, L. 2014. Shaping Social Activity by Incentivizing Users. In Advances in Neural Information Processing Systems (NeurIPS), 2474–2482.
Farajtabar et al. (2016) Farajtabar, M.; Ye, X.; Harati, S.; Song, L.; and Zha, H. 2016. Multistage Campaigning in Social Networks. In Advances in Neural Information Processing Systems (NeurIPS), 2–9.
Graber and Schwing (2020) Graber, C.; and Schwing, A. G. 2020. Dynamic Neural Relational Inference. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 8513–8522.
Hawkes (1971) Hawkes, A. G. 1971. Spectra of some self-exciting and mutually exciting point processes. Biometrika, 58(1): 83–90.
Huisman and Snijders (2003) Huisman, M.; and Snijders, T. 2003. Statistical analysis of longitudinal network data with changing composition. Sociological Methods & Research, 32(2): 253–287.
Kingma and Welling (2014) Kingma, D. P.; and Welling, M. 2014. Auto-Encoding Variational Bayes. In Proceedings of the International Conference on Learning Representations (ICLR), 1–14.
Kipf et al. (2018) Kipf, T.; Fetaya, E.; Wang, K.-C.; Welling, M.; and Zemel, R. 2018. Neural Relational Inference for Interacting Systems. In Proceedings of the International Conference on Machine Learning (ICML), 2688–2697.
Lin et al. (2021) Lin, H.; Tan, C.; Wu, L.; Gao, Z.; and Li, S. Z. 2021. An Empirical Study: Extensive Deep Temporal Point Process. CoRR.
Linderman and Adams (2014) Linderman, S. W.; and Adams, R. P. 2014. Discovering Latent Network Structure in Point Process Data. In Proceedings of the International Conference on Machine Learning (ICML), 1413–1421. Bejing, China.
Mei and Eisner (2017) Mei, H.; and Eisner, J. 2017. The Neural Hawkes Process: A Neurally Self-Modulating Multivariate Point Process. In Advances in Neural Information Processing Systems (NeurIPS), 6757–6767.
Omi, Ueda, and Aihara (2019) Omi, T.; Ueda, N.; and Aihara, K. 2019. Fully Neural Network based Model for General Temporal Point Processes. In Advances in Neural Information Processing Systems (NeurIPS), 1–11.
Pan et al. (2020) Pan, Z.; Huang, Z.; Lian, D.; and Chen, E. 2020. A Variational Point Process Model for Social Event Sequences. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 173–180.
Rezende, Mohamed, and Wierstra (2014) Rezende, D. J.; Mohamed, S.; and Wierstra, D. 2014. Stochastic Backpropagation and Approximate Inference in Deep Generative Models. In Proceedings of the International Conference on Machine Learning (ICML), 1278–1286. Bejing, China.
Shang and Sun (2019) Shang, J.; and Sun, M. 2019. Geometric Hawkes Processes with Graph Convolutional Recurrent Neural Networks. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 4878–4885.
Shchur, Bilos, and Günnemann (2019) Shchur, O.; Bilos, M.; and Günnemann, S. 2019. Intensity-Free Learning of Temporal Point Processes. In Proceedings of the International Conference on Learning Representations (ICLR), 1–21.
Upadhyay, De, and Gomez-Rodrizuez (2018) Upadhyay, U.; De, A.; and Gomez-Rodrizuez, M. 2018. Deep Reinforcement Learning of Marked Temporal Point Processes. In Advances in Neural Information Processing Systems (NeurIPS), 3172–3182.
Wasserman (1980) Wasserman, S. 1980. Analyzing Social Networks as Stochastic Processes. Journal of the American Statistical Association, 75(370): 280–294.
Wu et al. (2020) Wu, W.; Liu, H.; Zhang, X.; Liu, Y.; and Zha, H. 2020. Modeling Event Propagation via Graph Biased Temporal Point Process. IEEE Transactions on Neural Networks and Learning Systems, 1–11.
Xiao et al. (2017) Xiao, S.; Farajtabar, M.; Ye, X.; Yan, J.; Yang, X.; Song, L.; and Zha, H. 2017. Wasserstein Learning of Deep Generative Point Process Models. In Advances in Neural Information Processing Systems (NeurIPS).
Xiao et al. (2019) Xiao, S.; Yan, J.; Farajtabar, M.; Song, L.; Yang, X.; and Zha, H. 2019. Learning Time Series Associated Event Sequences With Recurrent Point Process Networks. IEEE Transactions on Neural Networks and Learning Systems, 30(10): 3124–3136.
Yang and Koeppl (2018a) Yang, S.; and Koeppl, H. 2018a. Dependent Relational Gamma Process Models for Longitudinal Networks. In Proceedings of the International Conference on Machine Learning (ICML), 5551–5560.
Yang and Koeppl (2018b) Yang, S.; and Koeppl, H. 2018b. A Poisson Gamma Probabilistic Model for Latent Node-Group Memberships in Dynamic Networks. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 4366–4373.
Yang and Koeppl (2020) Yang, S.; and Koeppl, H. 2020. The Hawkes Edge Partition Model for Continuous-time Event-based Temporal Networks. In Proceedings of the 36th Conference on Uncertainty in Artificial Intelligence (UAI), 460–469.
Yang and Zha (2023) Yang, S.; and Zha, H. 2023. Estimating Latent Population Flows from Aggregated Data via Inversing Multi-Marginal Optimal Transport. In Proceedings of the 2023 SIAM International Conference on Data Mining (SDM), 181–189.
Zhang et al. (2020) Zhang, Q.; Lipani, A.; Kirnap, O.; and Yilmaz, E. 2020. Self-Attentive Hawkes Process. In Proceedings of the International Conference on Machine Learning (ICML), 11183–11193.
Zhang, Lipani, and Yilmaz (2021) Zhang, Q.; Lipani, A.; and Yilmaz, E. 2021. Learning Neural Point Processes with Latent Graphs. In Proceedings of the international conference on World Wide Web (WWW), 1495–1505. New York, NY, USA.
Zhang and Yan (2021) Zhang, Y.; and Yan, J. 2021. Neural Relation Inference for Multi-dimensional Temporal Point Processes via Message Passing Graph. In Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI), 3406–3412.
Zuo et al. (2020) Zuo, S.; Jiang, H.; Li, Z.; Zhao, T.; and Zha, H. 2020. Transformer Hawkes Process. In Proceedings of the International Conference on Machine Learning (ICML), 11692–11702.

具有动态潜在图的神经时间点过程的变分自动编码器

摘要

介绍

背景

模型

相关工作

实验

结论

致谢

参考