用于长期预测的自监督对比学习

Junwoo Park, Daehoon Gwak, Jaegul Choo, Edward Choi
Kim Jaechul Graduate School of AI, KAIST, Daejeon, Republic of Korea
{junwoo.park,daehoon.gwak,jchoo,edwardchoi}@kaist.ac.kr

摘要

由于处理长序列的时间和内存复杂性，长期预测提出了独特的挑战。现有的方法依靠滑动窗口来处理长序列，很难有效地捕获部分捕获在短窗口内的长期变化(即外部窗口变化）。在本文中，我们介绍了一种新颖的方法，通过采用对比学习和增强的分解架构来克服这一限制，该方法专门针对长期变化而设计。为此，我们的对比损失结合了整个时间序列中的全局自相关性，这有助于以自我监督的方式构建正负对。当与我们的分解网络相结合时，我们的对比学习显着提高了长期预测性能。大量实验表明，我们的方法在超过 9 个长期基准的多个实验中优于 14 个基线模型，特别是在需要相当长的输出进行预测的具有挑战性的场景中。源代码位于 https://github.com/junwoopark92/Self-Supervised-Contrastive-Forecsating。

1简介

时间序列数据面临着独特的挑战，因为它可能会随着时间的推移而累积无限长度，使得一次性处理所有数据变得不可行(Ding 等人, 2015; Hyndman 等人, 2015; Rakthanmanon 等人, 2013). 与其他序列数据（例如自然语言句子）相比，这需要不同的策略。为了解决这个问题，滑动窗口方法（Kohzadi等人，1996）通常用于将单个时间序列数据划分为较短的子序列(即窗口）通常，在时间序列预测中，滑动窗口方法使模型不仅能够处理长期序列，还能捕获窗口内过去和未来序列之间的局部依赖关系，从而产生准确的短期预测。

Refer to caption — 图1：长期变化超出了传统的窗口范围。存在具有较长滞后的非零相关性（左 Y 轴），以及具有比窗口大小更长的周期的傅里叶分量（右 Y 轴）。

近年来，随着业界预测更遥远未来的需求增加（Ahmad等人，2014；Vlahogianni等人，2014；周等人，2021），各种研究逐渐增加了窗口长度。基于 Transformer 的模型通过改进注意力机制，降低了使用长窗口的计算成本（Zhou 等人，2021；Wu 等人，2021；Liu 等人，2022a）。此外，基于 CNN 的模型（Bai 等人，2018；Yue 等人，2022）在卷积运算中应用了扩张，以学习更远的依赖关系，同时受益于其高效的计算成本。尽管这些模型取得了显着进展，但它们在长期预测方面的有效性仍然不确定。由于扩展窗口仍然比总时间序列长度短，因此这些模型可能无法学习比窗口长度更长的时间模式。

在本文中，我们首先分析了使用子序列(即基于滑动窗口的)训练的现有模型对于长期预测任务的局限性。我们观察到，大多数时间序列通常包含长期变化，其周期长于传统窗口长度，如图 1 和图 5 所示。如果模型成功捕获这些长期变化，我们预计两个遥远但相关的窗口的表示比不相关的窗口更相似。然而，由于之前的研究在训练过程中都是独立处理每个窗口的，因此模型很难捕获不同窗口之间的长期变化。明确地，图2表明现有模型的表示无法反映两个遥远窗口之间的长期相关性。尽管如此，最近的方法往往通过更多地关注学习窗口内的短期变化而忽视长期变化。例如，基于分解方法的现有模型（Zeng等人，2023；Wang等人，2023）通常将部分捕获在窗口中的长期变化视为简单的非周期性趋势，并采用线性模型将过去的趋势延伸到预测中。此外，窗口单元归一化方法（Kim等人，2021；Zeng等人，2023）可以通过归一化数值显着值(例如最大值，过去特定领域的最小值）可能对时间序列产生长期影响。由于这些归一化方法对于缓解由非平稳性（Liu等人，2022b）引起的分布偏移问题（Kim等人，2021）至关重要，因此需要一种新的方法来学习长期变化，同时仍保持标准化方法。

因此，我们提出了一种新颖的对比学习来帮助模型捕获不同窗口之间存在的长期依赖性。我们的方法建立在这样一个事实之上：小批量可以由时间上相距很远的窗口组成。它允许窗口之间的间隔跨越整个系列长度，这比窗口长度长得多。 3.1节描述了我们对比损失的细节。此外，我们将对比损失与基于分解的模型架构结合使用，该模型架构由两个分支组成，即短期分支和长期分支。当然，我们的损失适用于长期分支。然而，如前所述，现有分解架构中的长期分支由单个线性层组成，这不适合学习长期表示。因此，正如 3.2 节中所解释的，我们重新设计了分解架构，其中长期分支有足够的能力从我们的损失中学习长期表示。总的来说，我们工作的主要贡献如下：

•

我们的研究结果表明，现有模型的长期性能很差，因为这些模型忽略了窗口之外的长期变化。
•

我们提出了 AutoCon，一种新颖的对比损失函数，通过以自我监督的方式跨远距离窗口构建正负对来学习长期表示。
•

对 9 个数据集的大量实验表明，与包含三种表示方法的总共 14 个并发模型相比，使用 AutoCon 训练的所提出的分解架构实现了高达 34% 的性能提升。

2相关工作

时间序列预测的对比学习对比学习(Chen 等人, 2020; Khosla 等人, 2020; Zha 等人, 2022)是一种自监督学习帮助模型学习有用的数据表示而无需显式数据标记的技术。受计算机视觉领域对比学习近期成功的推动，在时间序列分析中提出了多种方法（Tonekaboni 等人，2021；Yue 等人，2022；Woo 等人，2022a）。在对比学习中，由于如何构建正对对性能影响很大，因此他们主要提出了时间一致性（Tonekaboni等人，2021）、子系列一致性（Franceschi 等人，2019），以及上下文一致性（Yue 等人，2022）。然而，这些策略有一个局限性，即仅选择时间上接近的样本作为正样本，而忽略了时间序列中的周期性。由于周期性，相似的负样本可能比正选样本更多。最近，CoST (Woo 等人, 2022a) 尝试通过频域对比损失学习考虑周期性的表示，但它无法考虑超出窗口长度的周期性，因为它仍然对窗口使用增强。在时间序列学习框架中，我们关注的是批次中随机采样的序列在时间上可能彼此相差很远的事实。因此，我们提出了一种新颖的选择策略，不仅选择局部正对，还选择批次中窗口之间的全局正对。

基于分解的长期预测模型时间序列分解（Cleveland等人，1990）是一种行之有效的技术，涉及将时间序列分解为单独的时间序列成分，例如趋势成分、季节性成分和剩余成分。通过将时间序列分解为这些组件，可以更轻松地分析每个组件的行为并做出更可解释的预测。因此，基于分解的模型（Wu等人，2021；Zhou等人，2022b；Wang等人，2023）在时间序列预测中受到欢迎，因为它们提供了稳健且可解释的预测，甚至当接受复杂时间序列训练时。最近，DLinear（Zeng 等人，2023）通过对每个趋势和季节性分量使用分解块和单个线性层，展示了卓越的性能。然而，我们的分析表明，这些线性模型可以有效地捕获影响短期预测的高频成分，但它们经常会错过显着影响长期预测的低频成分。因此，单一线性模型可能足以进行短期预测，但不足以进行长期预测。鉴于这一限制，我们提出了一种模型架构，其中包括具有不同容量的层，以考虑两个组件的独特属性。

3方法

符号我们首先使用滑动窗口方法描述预测任务(Zhou 等人, 2021; Wu 等人, 2021; Park 等人, 2023)，它涵盖了所有可能的整个时间序列的输入输出序列对 $\mathcal{S}=\{\mathbf{s}_{1},\dots,\mathbf{s}_{T}\}$ ，其中 $T$ 表示观察到的时间序列的长度， $\mathbf{s}_{t}\in\mathbb{R}^{c}$ 是使用 $c$ 进行观察> 维度。为了简单地解释我们的方法，我们在本文中将维度 $c$ 设置为 1。通过在 $\mathcal{S}$ 上滑动固定长度 $W$ 的窗口，得到窗口 $\mathcal{D}=\{\mathcal{W}_{t}\}_{t=1}^{M}$ ，其中 $\mathcal{W}_{t}=(\mathcal{X}_{t},\mathcal{Y}_{t})$ 分为两部分：输入长度为 $I$ 的序列 $\mathcal{X}_{t}=\left\{\mathbf{s}_{t},\ldots,\mathbf{s}_{t+I-1}\right\}$ 和输出长度为 $O$ 的输出序列 $\mathcal{Y}_{t}=\left\{\mathbf{s}_{t+I},\ldots,\mathbf{s}_{t+I+O-1}\right\}$ 进行预测。另外，我们将 $\mathcal{W}_{t}$ 的全局索引序列表示为 $\mathcal{T}_{t}=\{t+i\}_{i=0}^{W-1}$ 。

3.1 基于自相关的长期预测对比损失

窗口中缺少长期依赖许多现实世界的时间序列表现出不同的长期和短期变化(Wu 等人, 2021; 2023; Wang 等人, 2023). 在这种情况下，预测模型可能难以预测长期变化，因为这些变化未在窗口内捕获。受随机过程理论的启发，我们首先使用自相关来识别这些长期变化（Chatfield & Xing，2019；Papoulis & Unnikrishna Pillai，2002）。对于真实的离散时间过程 $\{{\mathcal{S}_{t}}\}$ ，我们可以使用以下方程获得自相关函数 $\mathcal{R}_{\mathcal{S}\mathcal{S}}(h)$ ：

\mathcal{R}_{\mathcal{S}\mathcal{S}}(h)=\lim_{T\rightarrow\infty}\frac{1}{T}% \sum_{t=1}^{T}\mathcal{S}_{t}\mathcal{S}_{t-h}\vspace{-1mm}

(1)

自相关衡量不同时间观测值之间的相关性(即时间滞后 $h$ )。接近 1 或 -1 的强相关性表示 $\mathcal{S}$ 系列中由 $h$ 分隔的所有点都是线性相关的，分别以相同或相反的方向移动正号或负号。换句话说，自相关可用于预测基于当前变化 $h$ 间隔的未来变化。尽管最近的方法利用自相关来发现基于周期的依赖性（Wu等人，2021；Wang等人，2022），但它们仅将其应用于捕获窗口内的变化，而忽略了长期变化跨过窗户。但如图1所示，在常规窗口长度之外存在非零相关性。我们第一次提出了一种通过对比学习来捕获这些由全局自相关量化的长期变化的表示学习方法。请注意，为了将我们的方法与在给定窗口内使用局部自相关的方法区分开来，我们将整个时间序列计算的自相关称为全局自相关。

基于自相关的对比损失 (AutoCon) 我们注意到，小批量可以由时间上相距很远的窗口组成。这个时间距离可以和整个序列长度 $T$ 一样长，比窗口长度 $W$ 长得多。基于这一事实，我们通过建立窗口之间的关系来解决整个系列中存在的长期依赖关系。具体来说，我们根据全局自相关定义两个窗口之间的关系。在两个不同时间 $t_{1}$ 和 $t_{2}$ 获得的任意两个窗口 $\mathcal{W}_{t_{1}}$ 和 $\mathcal{W}_{t_{2}}$ 均具有全局的 $W$ 观测值索引时间序列 $\mathcal{T}_{t_{1}}=\{t_{1}+i\}_{i=0}^{W-1}$ 和 $\mathcal{T}_{t_{2}}=\{t_{2}+j\}_{j=0}^{W-1}$ 。然后，我们将每个窗口中所有两个观测值对之间的时间距离表示为矩阵 $\bm{D}\in\mathbb{R}^{W\times W}$ 。该矩阵 $\bm{D}$ 包含时间距离作为元素 $\bm{D}_{i,j}=|(t_{2}+j)-(t_{1}+i)|$ 。在两个窗口中，同一相位之间的时间距离(即 $i=j$ )都具有相同的值 $|t_{1}-t_{2}|$ ，并用对角线表示矩阵的项 $\{\bm{D}_{i,i}\}_{i=1}^{W-1}$ 。因此，基于这种代表性，我们利用全局自相关 $\mathcal{R}_{\mathcal{S}\mathcal{S}}(|t_{1}-t_{2}|)$ 来定义两个窗口之间的关系如下：

r(\mathcal{T}_{t_{1}},\mathcal{T}_{t_{2}})=|\mathcal{R}_{\mathcal{S}\mathcal{S% }}(|t_{1}-t_{2}|)|

(2)

其中 $\mathcal{R}_{\mathcal{S}\mathcal{S}}$ 表示根据训练系列 $\mathcal{S}$ 计算的全局自相关。

现在，我们设计一个损失来确保所有窗口表示对之间的相似性遵循数据空间中测量的全局自相关性。为了实现这一目标，我们受 SupCR (Zha 等人, 2022) 图像域回归任务的启发，以相对方式定义正样本和负样本。然而，与 SupCR 使用带注释的标签来确定图像之间的关系不同，我们使用全局自相关 $\mathcal{R}_{\mathcal{S}\mathcal{S}}$ 来确定窗口之间的关系，使我们的方法成为一种无监督方法。我们将由 $N$ 窗口组成的小批量 $\mathcal{X}\in\mathbb{R}^{N\times I}$ 提供给编码器，以获得表示 $\bm{v}\in\mathbb{R}^{N\times I\times d}$ ，其中 $\bm{v}=Enc\left(\mathcal{X},\mathcal{T}\right)$ 。由窗口 $i$ 索引，我们基于自相关的对比损失（称为 AutoCon）然后在具有相应时间序列 $\{\mathcal{T}^{(i)}\}_{i=1}^{N}$ 的表示 $\{{\bm{v}^{(i)}}\}_{i=1}^{N}$ 上计算，如下所示：

\mathcal{L}_{\text{AutoCon}}=-\frac{1}{N}\sum_{i=1}^{N}\frac{1}{N-1}\sum_{j=1,% j\neq i}^{N}{r}^{(i,j)}\log\frac{\exp\left(Sim\left(\bm{v}^{(i)},\bm{v}^{(j)}% \right)/\tau\right)}{\sum_{k=1}^{N}\mathbbm{1}_{\left[k\neq i,{r}^{(i,k)}\leq{% r}^{(i,j)}\right]}\exp\left(Sim\left(\bm{v}^{(i)},\bm{v}^{(k)}\right)/\tau% \right)}

(3)

其中 $Sim\left(\cdot,\cdot\right)$ 测量两个表示之间的相似度(例如，最大池化 $\bm{v}^{(i)}$ 与时间轴之间的余弦相似度（Yue 等人，2022 ))， ${r}^{(i,j)}=r(\mathcal{T}^{(i)},\mathcal{T}^{(j)})$ 表示两个窗口之间的全局相关性。在训练过程中，总共有 $N\times(N-1)$ 个可能的对，由 $(i,j)$ 索引。通过考虑表现出低于 ${r}^{(i,j)}$ 的全局自相关 ${r}^{(i,k)}$ 的任何对，每对(即，作为锚对）将自己指定为相对正的对。锚对作为负对。图3描述了给定批次中我们的选择策略的示例案例。由于每次迭代中都有一组不同的窗口形成批次，因此我们期望这些表示反映所有可能距离的全局自相关。相对选择策略并不能保证正窗口具有接近1的高相关性；它只需要比同一批中的其他负窗口具有更高的相关性。因此，我们引入 $\bm{r}^{(i,j)}$ 作为权重来区分具有不同相关程度的正对，类似于焦点损失（Lin等人，2017）。为了最小化 $\mathcal{L}_{\text{AutoCon}}$ ，编码器学习表示，以便具有高相关性的对比具有低相关性的对更接近。

与传统的基于对比的方法相比，我们的 AutoCon 具有几个显着的优势。首先，虽然 AutoCon 是一种无监督表示方法，但它不依赖于数据增强，这在大多数基于对比的方法中很常见 (Tonekaboni 等人, 2021; Yue 等人, 2022; Woo 等人, 2022a). 基于增强的方法需要由增强过程引起的额外计算成本，并且增加了增强数据的前向-后向过程。此外，现有的对比学习方法仅将时间上接近的样本视为窗口内的正对。这最终无法正确学习彼此远离但由于长期周期性而相似的窗口的表示。因此，我们的方法计算效率高，能够学习长期表示，从而增强有效预测长期变化的能力。

3.2 长期表示的分解架构

现有模型通常采用具有季节分支和趋势分支的分解架构来实现季节和趋势预测的分离。为了强调趋势是部分捕获在窗口中的长期变化，我们将趋势分支视为长期分支，将季节性分支视为短期分支。我们的 AutoCon 方法旨在学习长期表示，因此很自然地不会在短期分支中使用它来强制执行长期依赖性。然而，将 AutoCon 与当前的分解架构集成提出了挑战，因为两个分支共享相同的表示 (Wu 等人, 2021; Zhou 等人, 2022b; Liu 等人, 2022b)，或者长期分支由不适合学习表示的线性层组成（Zeng等人，2023；Wang等人，2023）。此外，我们观察到最近的基于线性的模型（Zeng等人，2023）在短期预测方面优于复杂的深度模型，这让人怀疑深度模型是否有必要学习高频变化。基于这些考虑，我们重新设计了一个具有明确定义的现有模块的模型架构，以尊重短期预测的时间局部性和长期预测的全局性，如图4所示。我们的分解架构具有三个主要特征。

非平稳性的归一化和反归一化首先，我们使用窗口单位归一化和反归一化方法（方程4)(Kim 等人, 2021; Zeng 等人, 2023) 如下：

\mathcal{X}_{norm}=\mathcal{X}-\bar{\mathcal{X}},\quad\quad\mathcal{Y}_{pred}=% (\mathcal{Y}_{short}+\mathcal{Y}_{long})+\bar{\mathcal{X}}

(4)

其中 $\bar{\mathcal{X}}$ 是输入序列的平均值。这些简单的方法有助于有效缓解现实世界时间序列的非平稳性造成的分布偏移问题（Kim等人，2021）。

时间局部性的短期分支接下来，我们观察到短期变化通常在输入序列中重复多次，并且与时间上接近的序列表现出相似的模式。这种短期变化的局部性支持了基于线性的模型（Zeng等人，2023）最近的成功，该模型仅使用相邻序列的顺序信息。因此，我们采用线性层进行短期预测，如下所示：

\mathcal{Y}_{short}=Linear(\mathcal{X}_{norm}).

(5)

用于时间全局性的长期分支长期分支旨在应用 AutoCon 方法，采用编码器-解码器架构。有足够能力学习长期呈现的编码器会同时利用顺序信息和全局信息（即从 $\mathcal{T}$ 中提取的基于时间戳的特征），具体如下：

\bm{v}=Enc(\mathcal{X}_{norm},\mathcal{T}).

(6)

只要处理长序列没有问题，编码器网络的选择是灵活的。我们选择了时空卷积网络（Bai 等人，2018）（TCNs），它因其计算效率高而被广泛用于学习时间序列表示（Yue 等人，2022）。解码器采用多尺度移动平均（MA）块（Wang等人，2023），具有不同的内核大小 $\{k_{i}\}_{i=1}^{n}$ 来基于表示 $\bm{v}$ 如下：

\hat{\mathcal{Y}}_{long}=\frac{1}{n}\sum_{i=1}^{n}AvgPool(Padding(MLP(\bm{v}))% )_{k_{i}}.

(7)

长期分支头部的 MA 块可以平滑短期波动，自然地鼓励分支关注长期信息。我们重新设计的架构通过目标函数 $\mathcal{L}$ 进行优化，如下所示：

\mathcal{L}=\mathcal{L}_{\text{MSE}}+\lambda\cdot\mathcal{L}_{\text{AutoCon}}.

(8)

其中均方误差 (MSE) 和 AutoCon 损失与权重 $\lambda$ 组合作为超参数。超参数敏感性分析可参见附录A.6。每个操作的详细描述(例如、 $L i n e a r, P a d d i n g,$ 和 $M L P$ )可以在附录A.1中找到。

4实验

为了验证我们提出的方法，我们对来自六个领域的九个真实世界数据集进行了广泛的实验：机械系统（ETT）、能源（电力）、交通（Traffic）、天气（Weather）、经济（Exchange）和疾病（ILI））。我们遵循标准协议(Wu 等人, 2021)，将所有数据集按时间顺序按 6:2:2 的比例分为训练集、验证集和测试集。我们选择具有不同架构的最新基线模型，分为基于线性的（Zhou等人，2022a；Zeng等人，2023）、基于CNN的（Wu等人，2023；Wang等）人，2023），以及基于 Transformer 的（Zhou 等人，2022b；Liu 等人，2022b；Nie 等人，2023）。此外，我们将我们的模型与两个模型（Challu 等人，2023；Zhang & Yan，2023）进行了比较，这两个模型专注于学习多变量预测的渠道间依赖性。附录A提供了有关数据集和基线实现的更多详细信息。

4.1 主要结果

表格1：每个模型的各种预测长度

O

和最佳输入长度

I\in\{48,96,168,336\}

的扩展长期预测结果（疾病数据集

I=14

除外）。红色和蓝色数字分别表示最好和第二好的结果。 ETTh1 和 ETTm 的完整基准可在附录 D 中找到。

Models		Ours		TimesNet		MICN		PatchTST		DLinear		FiLM		Nonstationary		FEDformer
Models		Ours		(2023)		(2023)		(2023)		(2023)		(2022a)		(2022b)		(2022b)
	$O$	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE
ETTh2	96	0.124	0.269	0.139	0.290	0.122	0.264	0.136	0.292	0.128	0.271	0.129	0.275	0.192	0.343	0.129	0.277
	720	0.177	0.344	0.207	0.370	0.313	0.457	0.233	0.392	0.319	0.461	0.256	0.407	0.231	0.394	0.273	0.419
	1440	0.176	0.340	0.192	0.358	0.520	0.599	0.351	0.481	0.514	0.597	0.389	0.506	0.211	0.379	0.384	0.487
	2160	0.198	0.358	0.263	0.413	0.759	0.734	0.610	0.659	0.740	0.728	0.610	0.645	0.240	0.399	0.919	0.737
Electricity	96	0.196	0.313	0.286	0.386	0.241	0.367	0.227	0.336	0.207	0.322	0.394	0.451	0.332	0.426	0.279	0.393
	720	0.275	0.386	0.417	0.471	0.336	0.446	0.332	0.426	0.304	0.412	0.467	0.504	0.505	0.533	0.417	0.486
	1440	0.338	0.441	0.491	0.523	0.419	0.504	0.482	0.537	0.395	0.484	0.625	0.610	0.577	0.574	0.651	0.609
	2160	0.380	0.481	0.536	0.547	0.421	0.501	0.768	0.644	0.415	0.496	0.938	0.758	0.642	0.610	0.896	0.714
Traffic	96	0.132	0.206	0.145	0.219	0.168	0.256	0.192	0.296	0.219	0.327	0.264	0.334	0.247	0.326	0.220	0.312
	720	0.144	0.225	0.163	0.269	0.304	0.394	0.213	0.318	0.309	0.419	0.247	0.329	0.277	0.360	0.255	0.344
	1440	0.174	0.251	0.188	0.292	0.375	0.443	0.246	0.341	0.353	0.409	0.311	0.390	0.303	0.361	0.297	0.376
	2160	0.175	0.252	0.190	0.304	0.360	0.426	0.261	0.353	0.324	0.386	0.988	0.745	0.222	0.317	0.317	0.394
Weather	96	0.521	0.522	0.584	0.536	0.569	0.525	0.545	0.539	0.579	0.529	0.589	0.533	0.636	0.567	0.703	0.625
	720	0.963	0.715	1.090	0.753	1.080	0.754	0.987	0.752	1.007	0.706	1.003	0.728	1.007	0.725	1.114	0.822
	1440	1.280	0.835	1.547	0.926	1.351	0.863	1.342	0.860	1.299	0.823	1.472	0.900	1.394	0.867	1.435	0.919
	2160	1.415	0.887	1.744	0.994	1.544	0.937	1.506	0.924	1.454	0.887	1.712	0.988	1.598	0.944	1.786	1.054
Exchange	48	0.051	0.172	0.054	0.178	0.054	0.181	0.068	0.197	0.049	0.170	0.052	0.173	0.054	0.178	0.059	0.184
	360	0.448	0.527	0.479	0.532	0.459	0.536	0.548	0.573	0.485	0.531	0.492	0.534	0.493	0.541	0.528	0.556
	720	1.067	0.794	1.239	0.856	1.383	0.927	1.264	0.859	1.718	1.024	1.291	0.864	1.358	0.894	1.381	0.903
	1080	1.004	0.792	1.327	0.900	4.874	1.972	1.255	0.873	4.982	1.973	1.670	1.010	1.774	1.058	1.600	0.980
ILI	14	0.725	0.574	1.414	0.735	0.815	0.701	1.558	0.965	1.397	0.901	1.079	0.739	1.107	0.698	0.773	0.619
	28	0.887	0.683	1.604	0.854	1.670	1.062	1.878	1.110	2.008	1.134	1.315	0.887	1.515	0.767	0.989	0.770
	56	0.807	0.725	1.021	0.787	1.757	1.210	1.451	1.028	1.584	1.075	1.080	0.891	0.895	0.742	0.856	0.741
	112	1.499	1.038	1.669	1.072	3.593	1.759	2.846	1.438	3.332	1.572	2.608	1.387	1.724	1.108	1.660	1.097
1 ${}^{st}$ Count		42		0		2		0		4		0		0		0

扩展长期预测为了更好地评估我们的模型在预测长期变化方面的性能（随着预测长度的延长，长期变化的重要性往往会越来越大），我们设计了实验来延长预测长度 $O$ 对于每个数据集。这种与传统基准实验（通常预测最多 720 个步骤）的转变使我们能够在更具挑战性的预测场景中探索模型的能力。对于总长度较长的数据集，例如 ETTh、电力、交通和天气，我们将预测长度从 720 增加到 2160，增加了两倍。此外，对于总长度较短的 Exchange 和 ILI 数据集，我们将输出长度分别扩展到 1080 和 112。总体而言，表 1 显示，我们使用 AutoCon 的模型在单变量设置中 42 次获得第一，优于最先进的基线。当根据长度检查性能变化时，在进一步预测未来时，我们的模型与其他最佳模型相比显示出显着的改进(例如，平均而言，错误在 96 和 720 时减少了 5%，并且在1440 和 2160 时为 12%）。这些结果从经验上证明了我们的 AutoCon 在有效捕获窗口之外存在的长期变化方面的贡献。

数据集分析

由于我们的目标是学习长期变化，因此我们模型的性能改进可能会受到长期变化的幅度和数量的影响。图5显示了每个数据集特有的各种全年经济周期和自然周期。例如，ETTh2 和电力数据集与多次重复的多个滞后峰值具有很强的长期相关性。因此，我们在 ETTh2 和 Electricity 数据集上的方法表现出了显着的性能提升，与第二佳模型相比，误差分别减少了 34% 和 11%。相比之下，天气数据集在窗外的相关性比上述两个数据集相对较低。这导致我们的模型在天气数据集上显示出最小的改进，误差减少了 3%。因此，对于具有较强长期相关性的数据集，我们的方法的优越性表现得更加明显，从而从经验上验证了我们的贡献。

多元预测的扩展如表2所示，我们的方法适用于多元预测，方法是计算每个通道的自相关性，然后遵循通道独立方法（聂等人，2023）。附录A.2描述了多变量设置的详细信息。

4.2模型分析

时间局部性和全局性正如3.2节中提到的，我们提出了一种模型架构，结合了局部性线性模型和全局性深度模型的优点。图6(a)表明，对于最多96个单元的短期预测，线性模型(DLinear)比TimesNet、Nonstationary和FEDformer等深度模型实现了更低的错误率。然而，随着预测长度的延长，DLinear 的误差开始发散。相反，即使预测长度增加，TimesNet 和 Nonstationary 仍保持一致的错误率，但在短期预测方面的表现不如线性模型。这些观察结果成为我们精通短期和长期预测的分解架构的动机（图6(a)中的蓝线）。

表2：具有不同预测长度

O\in\{96,192,336,720\}

和输入长度

I=96

的ETT数据集的多变量预测结果。由于空间不足，我们报告四种长度设置的平均性能。完整的基准测试可在附录D中找到。

Models	Ours		TimesNet*		MICN		Crossformer		N-HiTS		DLinear*		ETSformer*		LightTS*
Models	Ours		(2023)		(2023)		(2023)		(2023)		(2023)		(2022b)		(2022)
Dataset	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE
ETTh1	0.442	0.431	0.458	0.450	0.559	0.535	0.591	0.550	0.502	0.490	0.456	0.452	0.542	0.510	0.491	0.479
ETTh2	0.372	0.401	0.414	0.427	0.588	0.525	0.885	0.673	0.545	0.491	0.559	0.515	0.439	0.452	0.602	0.543
ETTm1	0.390	0.400	0.400	0.406	0.392	0.414	0.503	0.489	0.428	0.436	0.403	0.407	0.429	0.425	0.435	0.437
ETTm2	0.281	0.325	0.291	0.333	0.328	0.382	0.593	0.535	0.346	0.383	0.350	0.401	0.293	0.342	0.409	0.436

$*$ denotes the results, which are taken from TimesNet (Wu et al., 2023).

消融研究在这里，我们进行了消融研究来验证我们方法的每个组成部分。图6(b)显示了在完整模型上进行消融研究的结果，当去除短期分支时，短期预测出现了显着的误差。当长期分支被删除时，长期预测显示出显着的错误。此外，如果不集成我们的 AutoCon，长期性能就会下降。如表 3 所示，这些趋势在各种数据集中都是一致的。

表3：我们的短期、长期分支和 AutoCon 的消融。

Datasets		ETTh1				ETTh2				ETTm2
Prediction length		96	720	1440	2160	96	720	1440	2160	192	1440	2880	4320
Ours	MSE	0.055	0.078	0.078	0.074	0.125	0.177	0.176	0.198	0.093	0.214	0.211	0.214
w/o Short-term	MSE	0.071	0.093	0.126	0.094	0.204	0.271	0.263	0.302	0.186	0.313	0.300	0.288
w/o Long-term	MSE	0.055	0.084	0.093	0.108	0.126	0.242	0.353	0.592	0.093	0.235	0.258	0.326
w/o AutoCon	MSE	0.061	0.082	0.096	0.130	0.147	0.214	0.212	0.236	0.118	0.302	0.254	0.237

4.3与表示学习方法的比较

与现有的时间序列表示学习方法相比，我们还证明了我们的方法在捕获窗口之外的长期表示方面的有效性。 TS2Vec (Yue 等人, 2022) 和 CoST (Woo 等人, 2022a) 都是无监督对比学习方法，TS2Vec 只考虑相同时间索引的增强数据作为正对，CoST 使用考虑周期性的损失，但两者都具有仅在窗口内有效的限制。因此，虽然它们在相对较短的时间内表现出有竞争力的表现，但它们无法准确预测长期情况。 LaST (Wang 等人, 2022) 是一种基于分解的表示学习方法，在短期预测中也显示出有竞争力的性能，但无法准确预测长期。图7显示了AutoCon与其他三种方法学习到的表示。附录C.2提供了实验方案和进一步的对比实验。

表 4：与表征学习方法的比较。

Datasets		ETTm1				Exchange				ILI
Prediction length		192	1440	2880	4320	48	360	720	1080	14	28	56	112
AutoCon	MSE	0.041	0.090	0.089	0.082	0.051	0.448	1.067	1.003	0.724	0.886	0.810	1.499
LaST (2022)	MSE	0.053	0.120	0.204	0.274	0.051	0.418	2.022	5.529	1.730	2.712	1.694	3.206
CoST (2022)	MSE	0.059	0.130	0.199	0.192	0.054	0.451	1.703	4.470	0.746	1.114	1.490	3.155
TS2Vec (2022)	MSE	0.064	0.150	0.171	0.161	0.059	0.516	1.387	5.337	2.161	2.262	3.043	4.098

4.4计算效率对比

我们提出的模型显示出与其他深度模型相比具有竞争力的计算效率。具体来说，在 ETT 数据集上，我们的没有 AutoCon 的模型的计算时间为 31.1 ms/iter，仅次于线性模型。即使在训练期间集成 AutoCon，计算成本也不会显着增加（33.2 ms/iter），因为没有增强过程，并且自相关计算在整个训练期间仅发生一次。因此，我们模型的计算效率超过了现有的基于 Transformer 的模型（非平稳 365.7 ms/iter）和最近最先进的基于 CNN 的模型（TimesNet 466.1 ms/iter）。详细比较参见附录B.4。

5 讨论和限制

我们提出的方法通过学习窗口之外的长期变化来减轻滑动窗口方法的约束。尽管如此，我们还是检查了我们所指出的滑动窗口的局限性是否可以通过简单地增加窗口长度而无需我们的方法来解决，并且还阐明了我们的方法的局限性。

我们可以使用很长的窗口来捕获长期变化吗？给定长度为 $T$ 的时间序列 $\mathcal{S}$ ，窗口 $M$ 的数量为 $T-(I+O)+1$ 。这意味着随着输入长度 $I$ （即数据复杂性）的增加，在输出长度 $O$ 保持不变的情况下，可用于学习的数据实例（即窗口）数量会减少，从而可能使模型更容易出现（Park 等人，2023 年），如图 8所示。

因此，输入序列足够长以涵盖数据中存在的所有长期变化具有挑战性，并且模型通常难以捕获窗口外的变化。因此，我们指出的关于滑动窗口方法的局限性在大多数情况下都是有效的并且值得解决。附录B.1介绍了在增加窗口长度时获得的综合实验和经验结果。

自相关可以捕获所有长期变化吗？虽然自相关是捕获某些长期变化的宝贵工具，但其线性假设限制了其处理现实世界时间序列数据中普遍存在的非线性模式和关系的有效性。通过考虑高阶相关性、非线性依赖性和外部因素，我们有可能实现更加准确和全面的长期预测。

致谢

这项工作得到了韩国政府 (MSIT) 资助的韩国国家研究基金会 (NRF) 赠款 (No.NRF-2020H1D3A2A03100945、No.NRF-2022R1A2B5B02001913) 和信息与通信技术规划与评估研究所 (IITP) 的支持由韩国政府 (MSIT) 资助的赠款（No.2019-0-00075、No.2022-0-00984）。

参考

Ahmad et al. (2014) Ahmad S Ahmad, Mohammad Y Hassan, Md Pauzi Abdullah, Hasimah A Rahman, F Hussin, Hayati Abdullah, and Rahman Saidur. A review on applications of ann and svm for building electrical energy consumption forecasting. Renewable and Sustainable Energy Reviews, 33:102–109, 2014.
Bai et al. (2018) Shaojie Bai, J Zico Kolter, and Vladlen Koltun. An empirical evaluation of generic convolutional and recurrent networks for sequence modeling. arXiv preprint arXiv:1803.01271, 2018.
Challu et al. (2023) Cristian Challu, Kin G Olivares, Boris N Oreshkin, Federico Garza Ramirez, Max Mergenthaler Canseco, and Artur Dubrawski. Nhits: Neural hierarchical interpolation for time series forecasting. In Proc. the AAAI Conference on Artificial Intelligence (AAAI), 2023.
Chatfield & Xing (2019) Chris Chatfield and Haipeng Xing. The analysis of time series: an introduction with R. CRC press, 2019.
Chen et al. (2020) Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for contrastive learning of visual representations. In Proc. the International Conference on Machine Learning (ICML), pp. 1597–1607. PMLR, 2020.
Cleveland et al. (1990) Robert B Cleveland, William S Cleveland, Jean E McRae, and Irma Terpenning. Stl: A seasonal-trend decomposition. J. Off. Stat, 6(1):3–73, 1990.
Dannecker (2015) Lars Dannecker. Energy time series forecasting: efficient and accurate forecasting of evolving time series from the energy domain. Springer, 2015.
Ding et al. (2015) Rui Ding, Qiang Wang, Yingnong Dang, Qiang Fu, Haidong Zhang, and Dongmei Zhang. Yading: Fast clustering of large-scale time series data. Proceedings of the VLDB Endowment, 8(5):473–484, 2015.
Franceschi et al. (2019) Jean-Yves Franceschi, Aymeric Dieuleveut, and Martin Jaggi. Unsupervised scalable representation learning for multivariate time series. 32, 2019.
Hyndman et al. (2015) Rob J Hyndman, Earo Wang, and Nikolay Laptev. Large-scale unusual time series detection. In 2015 IEEE international conference on data mining workshop (ICDMW), pp. 1616–1619. IEEE, 2015.
Iqbal et al. (2019) Muhammad Faisal Iqbal, Muhammad Zahid, Durdana Habib, and Lizy Kurian John. Efficient prediction of network traffic for real-time applications. Journal of Computer Networks and Communications, 2019, 2019.
Khosla et al. (2020) Prannay Khosla, Piotr Teterwak, Chen Wang, Aaron Sarna, Yonglong Tian, Phillip Isola, Aaron Maschinot, Ce Liu, and Dilip Krishnan. Supervised contrastive learning. 33:18661–18673, 2020.
Kim et al. (2021) Taesung Kim, Jinhee Kim, Yunwon Tae, Cheonbok Park, Jang-Ho Choi, and Jaegul Choo. Reversible instance normalization for accurate time-series forecasting against distribution shift. In Proc. the International Conference on Learning Representations (ICLR), 2021.
Kohzadi et al. (1996) Nowrouz Kohzadi, Milton S. Boyd, Bahman Kermanshahi, and Iebeling Kaastra. A comparison of artificial neural network and time series models for forecasting commodity prices. Neurocomputing, 10(2):169–181, 1996. ISSN 0925-2312. doi: https://doi.org/10.1016/0925-2312(95)00020-8. URL https://www.sciencedirect.com/science/article/pii/0925231295000208. Financial Applications, Part I.
Le Guen & Thome (2019) Vincent Le Guen and Nicolas Thome. Shape and time distortion loss for training deep time series forecasting models. In Proc. the Advances in Neural Information Processing Systems (NeurIPS), pp. 4191–4203, 2019.
Lin et al. (2017) Tsung-Yi Lin, Priya Goyal, Ross B. Girshick, Kaiming He, and Piotr Dollár. Focal loss for dense object detection. 2017 IEEE International Conference on Computer Vision (ICCV), pp. 2999–3007, 2017. URL http://openaccess.thecvf.com/content_ICCV_2017/papers/Lin_Focal_Loss_for_ICCV_2017_paper.pdf.
Liu et al. (2022a) Shizhan Liu, Hang Yu, Cong Liao, Jianguo Li, Weiyao Lin, Alex X Liu, and Schahram Dustdar. Pyraformer: Low-complexity pyramidal attention for long-range time series modeling and forecasting. In Proc. the International Conference on Learning Representations (ICLR), 2022a.
Liu et al. (2022b) Yong Liu, Haixu Wu, Jianmin Wang, and Mingsheng Long. Non-stationary transformers: Rethinking the stationarity in time series forecasting. In Proc. the Advances in Neural Information Processing Systems (NeurIPS), 2022b.
McInnes et al. (2018) Leland McInnes, John Healy, and James Melville. Umap: Uniform manifold approximation and projection for dimension reduction. arXiv preprint arXiv:1802.03426, 2018.
Nie et al. (2023) Yuqi Nie, Nam H Nguyen, Phanwadee Sinthong, and Jayant Kalagnanam. A time series is worth 64 words: Long-term forecasting with transformers. In Proc. the International Conference on Learning Representations (ICLR), 2023.
Papoulis & Unnikrishna Pillai (2002) Athanasios Papoulis and S Unnikrishna Pillai. Probability, random variables and stochastic processes. 2002.
Park et al. (2023) Junwoo Park, Jungsoo Lee, Youngin Cho, Woncheol Shin, Dongmin Kim, Jaegul Choo, and Edward Choi. Deep imbalanced time-series forecasting via local discrepancy density. In Proc. of Machine Learning and Knowledge Discovery in Databases: Research Track (ECML/PKDD), pp. 139–155. Springer Nature Switzerland, 2023. doi: 10.1007/978-3-031-43424-2˙9. URL https://link.springer.com/content/pdf/10.1007/978-3-031-43424-2_9.
Rakthanmanon et al. (2013) Thanawin Rakthanmanon, Bilson Campana, Abdullah Mueen, Gustavo Batista, Brandon Westover, Qiang Zhu, Jesin Zakaria, and Eamonn Keogh. Addressing big data time series: Mining trillions of time series subsequences under dynamic time warping. ACM Transactions on Knowledge Discovery from Data (TKDD), 7(3):1–31, 2013.
Sakoe & Chiba (1978) Hiroaki Sakoe and Seibi Chiba. Dynamic programming algorithm optimization for spoken word recognition. IEEE transactions on acoustics, speech, and signal processing, 26(1):43–49, 1978.
Tonekaboni et al. (2021) Sana Tonekaboni, Danny Eytan, and Anna Goldenberg. Unsupervised representation learning for time series with temporal neighborhood coding. arXiv preprint arXiv:2106.00750, 2021.
Torres et al. (2021) José F Torres, Dalil Hadjout, Abderrazak Sebaa, Francisco Martínez-Álvarez, and Alicia Troncoso. Deep learning for time series forecasting: a survey. Big Data, 9(1):3–21, 2021.
Vlahogianni et al. (2014) Eleni I Vlahogianni, Matthew G Karlaftis, and John C Golias. Short-term traffic forecasting: Where we are and where we’re going. Transportation Research Part C: Emerging Technologies, 43:3–19, 2014.
Wang et al. (2023) Huiqiang Wang, Jian Peng, Feihu Huang, Jince Wang, Junhui Chen, and Yifei Xiao. Micn: Multi-scale local and global context modeling for long-term series forecasting. In Proc. the International Conference on Learning Representations (ICLR), 2023.
Wang et al. (2022) Zhiyuan Wang, Xovee Xu, Weifeng Zhang, Goce Trajcevski, Ting Zhong, and Fan Zhou. Learning latent seasonal-trend representations for time series forecasting. In Proc. the Advances in Neural Information Processing Systems (NeurIPS), 2022.
Woo et al. (2022a) Gerald Woo, Chenghao Liu, Doyen Sahoo, Akshat Kumar, and Steven Hoi. Cost: Contrastive learning of disentangled seasonal-trend representations for time series forecasting. 2022a.
Woo et al. (2022b) Gerald Woo, Chenghao Liu, Doyen Sahoo, Akshat Kumar, and Steven Hoi. Etsformer: Exponential smoothing transformers for time-series forecasting. arXiv preprint arXiv:2202.01381, 2022b.
Wu et al. (2021) Haixu Wu, Jiehui Xu, Jianmin Wang, and Mingsheng Long. Autoformer: Decomposition transformers with auto-correlation for long-term series forecasting. In Proc. the Advances in Neural Information Processing Systems (NeurIPS), 2021.
Wu et al. (2023) Haixu Wu, Tengge Hu, Yong Liu, Hang Zhou, Jianmin Wang, and Mingsheng Long. Timesnet: Temporal 2d-variation modeling for general time series analysis. In Proc. the International Conference on Learning Representations (ICLR), 2023.
Yue et al. (2022) Zhihan Yue, Yujing Wang, Juanyong Duan, Tianmeng Yang, Congrui Huang, Yunhai Tong, and Bixiong Xu. Ts2vec: Towards universal representation of time series. In Proc. the AAAI Conference on Artificial Intelligence (AAAI), volume 36, pp. 8980–8987, 2022.
Zeng et al. (2023) Ailing Zeng, Muxi Chen, Lei Zhang, and Qiang Xu. Are transformers effective for time series forecasting? In Proc. the AAAI Conference on Artificial Intelligence (AAAI), 2023.
Zha et al. (2022) Kaiwen Zha, Peng Cao, Yuzhe Yang, and Dina Katabi. Supervised contrastive regression. arXiv preprint arXiv:2210.01189, 2022.
Zhang et al. (2022) Tianping Zhang, Yizhuo Zhang, Wei Cao, Jiang Bian, Xiaohan Yi, Shun Zheng, and Jian Li. Less is more: Fast multivariate time series forecasting with light sampling-oriented mlp structures. arXiv preprint arXiv:2207.01186, 2022.
Zhang & Yan (2023) Yunhao Zhang and Junchi Yan. Crossformer: Transformer utilizing cross-dimension dependency for multivariate time series forecasting. In Proc. the International Conference on Learning Representations (ICLR), 2023.
Zhou et al. (2021) Haoyi Zhou, Shanghang Zhang, Jieqi Peng, Shuai Zhang, Jianxin Li, Hui Xiong, and Wancai Zhang. Informer: Beyond efficient transformer for long sequence time-series forecasting. In Proc. the AAAI Conference on Artificial Intelligence (AAAI), 2021.
Zhou et al. (2022a) Tian Zhou, Ziqing Ma, Qingsong Wen, Liang Sun, Tao Yao, Wotao Yin, Rong Jin, et al. Film: Frequency improved legendre memory model for long-term time series forecasting. In Proc. the Advances in Neural Information Processing Systems (NeurIPS), 2022a.
Zhou et al. (2022b) Tian Zhou, Ziqing Ma, Qingsong Wen, Xue Wang, Liang Sun, and Rong Jin. Fedformer: Frequency enhanced decomposed transformer for long-term series forecasting. In Proc. the International Conference on Machine Learning (ICML), 2022b.

附录 A再现性

A.1 我们方法实现的细节

在本小节中，我们详细解释了 3.2 节中使用的操作。首先， $L i n e a r$ 表示沿时间维度的线性层。当提供输入序列 $\mathcal{X}$ 时，输出 $\hat{\mathcal{Y}}$ 计算如下：

\hat{\mathcal{Y}}=\mathrm{W}_{time}\cdot\mathcal{X}

(9)

其中 $\mathcal{X}\in\mathbb{R}^{I\times c}$ 、 $\hat{\mathcal{Y}}\in\mathbb{R}^{O\times c}$ 和 $\mathrm{W}_{time}\in\mathbb{R}^{O\times I}$ 。

接下来，我们将 $Padding(\cdot)$ 和 $Avgpool(\cdot)$ 连同时间轴一起描述如下：

$\displaystyle\mathcal{X}_{pad}$	$\displaystyle=Padding(\mathcal{X})$	(10)
$\displaystyle\mathcal{X}_{avg}$	$\displaystyle=Avgpool(\mathcal{X}_{pad})_{k}$	(11)
$\displaystyle\mathcal{X}_{avg}[t,c]$	$\displaystyle=\frac{1}{k}\sum_{i=0}^{k-1}\mathcal{X}_{pad}[t+i,c]$	(12)

其中 $\mathcal{X}_{pad}\in\mathbb{R}^{(I+2(k-1))\times c}$ 是两侧用相邻值填充的序列，以在应用 $Avgpool(\cdot)$ 后保留输入长度。选择 $Avgpool(\cdot)$ 的各种内核大小来处理在现实世界时间序列数据中观察到的多周期性。

$M L P$ 表示使用两个具有激活函数 $g$ 的线性层，特别是 GELU。给定输入序列 $\mathcal{X}$ ，输出 $\mathcal{Y}$ 计算如下：

\hat{\mathcal{Y}}=g(\mathrm{W}_{time}\cdot\mathcal{X}+\mathrm{b}_{time})\cdot% \mathrm{W}_{channel}+\mathrm{b}_{channel}

(13)

其中 $\mathrm{b}_{time}\in\mathbb{R}^{d}$ 、 $\mathrm{b}_{channel}\in\mathbb{R}^{c}$ 、 $\mathrm{W}_{time}\in\mathbb{R}^{O\times I}$ 和 $\mathrm{W}_{channel}\in\mathbb{R}^{d\times c}$ 。

要计算 AutoCon，必须首先确定全局自相关。作为预处理过程的一部分，我们计算整个训练系列的自相关性，不包括验证和测试系列。这种自相关包括长期和短期变化。然而，在我们追求解开的长期表示的过程中，我们希望长期分支仅解决长周期的低频变化。因此，在计算自相关之前，我们需要平滑序列中的短期波动。

我们的训练协议与传统的训练方法相同，除了预测损失之外还包含 AutoCon 作为额外损失。为了进一步阐明这一点，我们还介绍了该算法。

算法1 AutoCon:Auto基于相关性的Con预测学习框架

Entire time series

\mathcal{S}=\{\mathbf{s}_{1},\dots,\mathbf{s}_{T}\}

, Training set

\mathcal{D}=\left\{\left(\mathcal{X}_{t},\mathcal{Y}_{t}\right),\mathcal{T}_{t% }\right\}_{t=1}^{M}

AutoCon weight

\lambda

where

T

denotes a total length and

M

denotes the number of windows.

Compute the global autocorrelation

\mathcal{R}_{\mathcal{S}\mathcal{S}}(l)

for all possible lags

l\in\left[0:M\right]

for all number of training iterations do

Sample a mini-batch

\left\{\left(\left(\mathcal{X}_{n},\mathcal{Y}_{n}\right),\mathcal{T}_{n}% \right)\right\}_{n=1}^{N}

from

\mathcal{D}

Forward

\left\{\mathcal{X}_{n},\mathcal{T}_{n}\right\}_{n=1}^{N}

and get corresponding representation

\{\bm{v}\}_{n=1}^{N}

and predictions

\{\hat{\mathcal{Y}}_{n}\}_{n=1}^{N}

Compute window relationship matrix

r\in\mathbb{R}^{N\times N}

{r}^{(i,j)}=\mathcal{R}_{\mathcal{S}\mathcal{S}}(|\mathcal{T}_{i}^{(0)}-% \mathcal{T}_{j}^{(0)}|)

Compute AutoCon loss

\mathcal{L}_{\text{AutoCon}}

following Equation 3 as inputs

\{\bm{v}^{(n)}\}_{n=1}^{N}

and

r

Compute forecasting loss

\mathcal{L}_{mse}=\frac{1}{N}\sum_{n=1}^{N}(\hat{\mathcal{Y}}_{n}-\mathcal{Y}_% {n})^{2}

Do one training step using the full loss

\mathcal{L}=\mathcal{L}_{mse}+\lambda\cdot\mathcal{L}_{\text{AutoCon}}

end for

我们重新设计的模型和AutoCon是基于TSlib代码库实现的¹¹1https://github.com/thuml/Time-Series-Library。我们的源代码可以通过补充材料中的 zip 文件访问。

A.2 多元预测的详细信息

多元预测有两种代表性方法：渠道混合和渠道独立方法。通道混合方法涉及将同一步骤中的多个通道的值映射到嵌入空间中，并从该嵌入序列中提取时间依赖性。这种方法已被多篇论文采用（Zhou 等人，2022b；Wu 等人，2023；Zhang & Yan，2023）。另一方面，通道独立方法保留每个通道的信息而不混合它们，并独立地学习每个通道内的时间模式。最近，该方法已在PatchTST（Challu等人，2023）和线性模型（Zeng等人，2023）等高性能模型中得到采用，表现出优越的性能在当前的基准数据集上。在实现上，每个通道被视为一个批处理轴来进行计算。这有效地通过通道数量增加了训练数据量，并且模型参数在多个通道之间共享。按照通道独立方法，我们首先分别计算每个通道的自相关性，以计算 AutoCon。然后，我们根据这些自相关性训练针对每个通道定制的表示。

A.3 数据集详细信息

在本文中，我们利用了来自不同领域的六个现实世界数据集：机械系统（ETT）、能源（电力）、交通（Traffic）、天气（Weather）、经济（Exchange）和疾病（ILI）。表5总结了每个数据集的统计数据。作为主流基准，ETT 数据集被广泛用于评估长期预测方法Zhou 等人 (2021)；吴等人 (2021);周等人 (2022b);曾等人 (2023);吴等人(2023)。 ETT 由在两年内从电力 Transformer 收集的关键指标（例如油温、负载等）组成。这些数据集根据位置（ETT1 和 ETT2）和时间间隔（15 分钟和 1 小时）分为四个不同的集合。电力数据集记录了 2012 年至 2014 年 321 个客户每小时的用电量。另一方面，交通数据集汇集了加州交通部每小时的数据，详细介绍了旧金山湾区高速公路上不同传感器测量的道路占用率。天气数据集由 21 个气象指标组成，包括气温、湿度等，在一年中每隔 10 分钟记录一次。 Exchange 数据集记录了 1990 年至 2016 年八个不同国家的每日汇率。最后，ILI 数据集包括美国疾病控制与预防中心 2002 年至 2021 年每周记录的流感样疾病 (ILI) 患者数据。该数据集说明了诊断为 ILI 的患者相对于患者总数的比例。

表 5：九个数据集的统计。

Dataset	Domain	Time series length	The number of variables	Sampling frequency
ETTh1	System Monitoring	17420	7	1 Hour
ETTh2	System Monitoring	17420	7	1 Hour
ETTm1	System Monitoring	69680	7	15 minutes
ETTm2	System Monitoring	69680	7	15 minutes
Electricity	Energy Consumption	26304	321	1 Hour
Traffic	Traffic	17544	862	1 Hour
Weather	Weather	52695	21	10 Minutes
Exchange	Economic	7588	8	1 Day
ILI	Medical	966	7	1 Week

A.4基线模型

在长期预测领域，自从 Informer 出现以来，已经提出了许多模型。这些模型表现出了值得称赞的性能和独特的新颖性。然而，它们与表现不佳的模型（例如基于 RNN 的模型和基于 Transformer 的模型）进行了比较，这些模型容易出现过度拟合。因此，我们的主要关注点是最新提案中的高性能和最先进的模型。我们根据七个预测基线和三种表示方法验证了我们的方法。所有模型均使用 PyTorch 实现。关于最新的预测模型，即 TimesNet²²2https://github.com/thuml/Time-Series-Library、DLinear 和 NLinear³³3https://github.com/cure-lab/LTSF-Linear, MICN⁴⁴4https://github.com/wanghq21/MICN, FiLM⁵⁵5https://github.com/DAMO-DI-ML/NeurIPS2022-FiLM, Nonstationary Transformer⁶⁶6https://github.com/thuml/Nonstationary_Transformers, and FEDformer⁷⁷7https://github.com/MAZiqing/FEDformer，我们使用了原作者发布的官方代码，而不是从头开始实施。

同样，对于最近的表示方法，例如 LaST⁸⁸8https://github.com/zhycs/LaST、CoST⁹⁹9https://github.com/salesforce/CoST 和 TS2Vec^{103>¹⁰10https://github.com/yuezhihan/ts2vec} 我们坚持每个模型独特的超参数，在参数搜索范围内进行调整，以获得最佳性能。然而，为了便于比较，某些配置，例如输入长度和输出长度，被统一设置。更具体的评估协议将在下一节中介绍。

A.5评估详情

在我们的实验中，我们的目标是评估模型捕获长期变化的能力，以便输出长度应该足够长以受到这些变化的影响。然而，将输出长度增加到比之前实验中使用的长度更长需要考虑几个因素。因此，我们将标准评估协议的修改描述如下：

1.

输入长度 $I$ 设置为 14（对于 ILI 数据集）、48（对于 Exchange 数据集）、192（对于 ETTm 数据集）和 96（对于其他数据集）。这些输入长度允许我们根据每个数据集的总长度在有限的窗口长度内增加输出长度。
2.

标准协议将所有数据集按时间顺序分为训练集、验证集和测试集，ETT 数据集的比例为 6:2:2，其余数据集的比例为 7:1:2。然而，由于其他数据集中的窗口长度增加，验证集填充不足。因此，我们对所有数据集采用6:2:2的比例。
3.

天气数据集包含逻辑上应为非负的指标的负值。这些错误的标签如果不加以纠正，可能会因缩放问题而妨碍准确的评估。我们通过用相邻值填充它们来纠正这些错误。

除上述例外情况外，我们遵守所有实验的标准方案。

A.6 超参数灵敏度

附录 B其他实验

B.1 窗口长度实验

正如5节中提到的，我们考虑简单地增加窗口的长度以尽可能多地捕获长期变化。此外，随着窗口长度的增加，用于学习的数据窗口的数量减少。毕竟，我们假设增加窗口长度会增加模型的输入复杂性，同时减少数据点的数量，使模型容易出现过度拟合。

图10和11描述了当输入长度从192增加到920时的训练和测试损失，分别用于预测ETTh1和ETTh2中的720步。我们观察到，在具有不同容量和属性的五个模型中，当输入大小增加时，整体测试损失往往会飙升或收敛，而训练损失则持续下降。

此外，在图 11 中的 DLinear 情况下，由于容量有限，测试和训练损失同步下降。然而，我们认为这是一个欠拟合问题，因为测试误差高于我们的方法（见红线）。因此，我们凭经验证明，仅仅增加输入长度并不一定会提高长期预测的性能。此外，值得注意的是，线性模型以外的复杂模型的计算成本随着序列长度的增加而显着增加。

B.2 附加图6其他数据集的结果

此外，我们还提供了 ETTh1（图12)和电力（图13)的结果，显示了长期变化。尽管在幅度上存在一些差异，但三个数据集的总体趋势相似。

B.3 长期分支的额外消融结果

增加长期分支的复杂性对于学习长期表示至关重要，但这并不是我们方法优越的唯一原因。换句话说，即使复杂性增加，在仅使用预测损失的当前框架中捕获长期变化也并不容易。作为主要贡献，使用 AutoCon 对于学习长期变化和提高性能至关重要。为了验证这一点，我们另外提供了两个消融结果：DLinear 和我们的模型的复杂性不断增加。

首先，DLinear 对长期和短期分支仅使用单个线性层。我们通过在长期分支中堆叠具有激活函数的线性层来增加长期分支的复杂性。然而，如下表6所示，即使长期堆叠各层，性能也会趋于下降或保持相似。这表明增加长期复杂性在现有的分解架构中并不有效。

其次，下表7展示了基于我们的分解架构中长期分支的复杂性的性能变化。如果没有 Autocon，我们的模型可能会稍微好一些或与第二好的模型相当。仅当采用 AutoCon 时才能实现最高性能。这进一步强调了我们提出的 AutoCon 准确预测长期变化的必要性。

表 6： DLinear 中长期分支的复杂性不断增加。

Model	# of layers	ETTh1		ETTh2		Electricity
Model	# of layers	MSE	MAE	MSE	MAE	MSE	MAE
DLinear	1	0.1780±0.0054	0.3466±0.0063	0.2929±0.0140	0.4362±0.0087	0.3067±0.01544	0.4125±0.0109
	2	0.1993±0.1964	0.3638±0.2191	0.3170±0.0488	0.4581±0.0404	0.3775±0.01574	0.4618±0.0081
	3	0.2793±0.0678	0.4594±0.0682	0.3008±0.0046	0.4451±0.0035	0.3057±0.00902	0.4097±0.0065
	4	0.2760±0.0663	0.4564±0.0683	0.3015±0.0031	0.4455±0.0024	0.3165±0.03838	0.4183±0.0279

表 7：我们模型中长期分支的复杂性不断增加。

Model	# of layers	AutoCon	ETTh1
Model	# of layers	AutoCon	MSE	MAE
TimesNet (baseline best)	2	-	0.0834±0.0024	0.2310±0.0023
Ours	1	X	0.0837±0.0185	0.2372±0.0294
Ours	2	X	0.0910±0.0188	0.2360±0.0257
Ours	3	X	0.0876±0.0240	0.2351±0.0303
Ours	4	X	0.0918±0.0194	0.2381±0.0241
Ours (best)	1	O	0.0787±0.002	0.2226 ±0.0023

Model	# of layers	AutoCon	ETTh2
Model	# of layers	AutoCon	MSE	MAE
TimesNet (baseline best)	2	-	0.2074±0.0113	0.3703±0.0155
Ours	1	X	0.2023±0.0230	0.3594±0.0261
Ours	2	X	0.2020±0.0098	0.3525±0.0078
Ours	3	X	0.2036±0.0265	0.3573±0.0224
Ours	4	X	0.2087±0.0167	0.3605±0.0130
Ours (best)	3	O	0.1771 ±0.0393	0.3441±0.0366

Model	# of layers	AutoCon	Electricity
Model	# of layers	AutoCon	MSE	MAE
DLinear (baseline best)	1	-	0.3067±0.0154	0.4125±0.0109
Ours	1	X	0.2928±0.1369	0.3978±0.1009
Ours	2	X	0.2889±0.0330	0.3927±0.0209
Ours	3	X	0.2975±0.0458	0.4049±0.0481
Ours	4	X	0.3089±0.4737	0.4115±0.0587
Ours (best)	2	O	0.2753±0.0224	0.3861±0.0166

B.4计算成本分析

考虑到大多数时间序列应用的实时性，计算效率是时间序列预测的关键因素（Dannecker，2015；Iqbal 等人，2019；Torres 等人，2021）。随着预测范围的增加，窗口长度扩大，导致计算成本增加。因此，评估模型的计算效率势在必行。图14说明了我们的模型与基线模型相比单批次更新参数所需的时间。每个模型的计算成本是针对四种不同的输出长度（范围从 96 到 2160）进行测量的。使用的批量大小为 32，所有测量都是在相同的 GPU 和服务器环境中独立进行的。首先，由于参数数量最少且矩阵乘法运算简单，线性模型花费的时间最少。另一方面，TimesNet 需要最多的时间，因为它提取多个周期并为每个周期计算一个循环。基于 Transformer 的非平稳模型的计算复杂度与长度相关，为 $\mathcal{O}(W^{2})$ ，这解释了计算时间随长度急剧增加的原因。总体而言，我们的模型是继线性模型之后第二快的模型，即使训练包含 AutoCon，其计算成本也没有显着增加（从 31.1 ms/iter 到 33.2 ms/iter）。因此，与线性模型相比，我们的方法能够实现卓越的长期预测性能，同时比其他更复杂的模型需要更少的计算资源。主论文的 4.4 节简要介绍了成本分析。

B.5 预测结果可视化

图15通过可视化 ETTh2 数据集中 1440 个步骤的预测结果，提供了五种不同模型的定性结果。在线性模型的情况下，误差随着预测距离的增加而增加，无法考虑长期变化。非平稳模型和 TimesNet 模型虽然比线性模型更擅长跟踪长期变化，但难以有效捕获高频模式。另一方面，我们的模型成功地捕获了长期变化和高频模式。这可以归因于我们模型的结构，该结构旨在从短期和长期预测中受益。

B.6 使用其他指标的评估结果

虽然现有指标（即 MSE 和 MAE）是长期预测评估的标准指标，但它们也有局限性。具体来说，它们可能无法充分捕获时间序列的形状和时间对齐等方面，而这对于全面评估预测模型的性能至关重要。

为了解决这些限制，我们引入了两个基于动态时间扭曲 (DTW) 的附加指标（Sakoe & Chiba，1978）：形状 DTW 和时间 DTW （Le Guen & Thome，2019）. 形状 DTW 重点关注预测序列的模式或形状与实际序列的相似性，从而深入了解模型捕获时间序列的基本模式的能力。时间 DTW 评估预测序列与实际序列的对齐情况，突出模型在预测事件时间方面的准确性。

这些附加指标可以对我们的模型性能进行更细致的评估，特别是在 MSE 和 MAE 可能不足的领域。形状 DTW 和时间 DTW 中的值越低表示性能越好，意味着预测序列和实际序列之间的失真较小。如表 8 所示，我们的方法不仅在 MSE 和 MAE 方面表现出卓越的性能，而且在这些以形状和时间对齐为中心的指标方面也表现出卓越的性能。

表8：单变量预测结果，在三个数据集的 720 个输出设置中使用形状和时间 DTW 进行评估

Dataset	ETTh1		ETTh2		Electricity
Model \Metric	Shape DTW	Temporal DTW	Shape DTW	Temporal DTW	Shape DTW	Temporal DTW
Ours	17.14±1.653	59.66±1.739	42.38±0.630	13.47±1.793	80.73±7.798	0.09±0.014
TimesNet	25.80±4.349	86.86±15.509	62.58±5.390	51.19±21.834	139.83±16.516	0.49±0.826
PatchTST	22.21±1.226	72.23±4.411	65.45±2.976	15.23±0.882	116.50±29.878	0.75±1.674
MICN	37.08±12.393	65.70±3.588	67.69±8.796	22.67±3.168	123.93±17.543	1.90±1.176
DLinear	58.32±1.955	155.21±8.587	82.53±3.627	24.88±2.403	88.70±3.550	0.18±0.145

附录C表示分析

C.1 表示相似性的详细信息

在图2中，我们在模型中使用了三个基线，并在最终投影层（TimesNet）之前或编码器层（PatchTST、FEDformer 和 Ours）之后提取每个基线的表示。我们可视化表示的主要目的是展示长期相关性的学习。为了显示得更清楚，我们应用了过滤方法来平滑给定窗口内的短期波动。我们还提供了原始表示结果，该结果针对每个基线进行了放大，没有平滑短期波动，如图16所示。图16显示三个基线模型学习了窗口内的短期相关性，尽管它们没有学习长期相关性。

这一发现中一个有趣的点是，现有模型试图通过利用时间戳信息来解决窗口长度的限制。实际上，TimesNet、FEDformer 和我们的模型使用时间戳获取表示，并将它们合并到输入序列中，而 PatchTST 不使用时间戳。然而，尽管使用与我们的模型相同的时间戳，但不仅 PatchTST，TimesNet 和 FEDformer 都无法有效捕获年度循环模式。这些失败值得注意，特别是考虑到电力时间序列，它显示出长达一年的周期性。这些结果表明，即使给定输入序列和时间戳，仅依靠现有的预测损失，模型学习年度模式也具有挑战性。因此，这个结果证明了我们AutoCon损失的必要性。此外，为了证明长期表示的出现（无论模型的结构方面如何）是合理的，我们提供了模型中未使用 AutoCon 的消融模型的表示的附加结果。如图17所示，没有 AutoCon 的模型也表现出弱周期性，但与其他基线类似，表示相似性与我们的完整模型相比仍然相对平坦。

C.2 表示的可视化

我们将 AutoCon 方法与三种旨在提高预测性能的表示学习方法进行了基准测试。 TS2Vec 和 CoST 有一个两阶段学习框架，其中它们利用岭回归模型进行时间序列预测，并利用基于深度学习的模型进行表示学习。另一方面，LaST 和我们的方法采用端到端学习框架，其中表示学习和时间序列预测学习同时发生。

图7展示了四种方法在ETTh2数据集上的表示结果。为了研究每种方法是否已经学习了与长期变化相关的表示结构，我们提取了与所有训练时间步骤相对应的表示，并通过 UMAP 将它们可视化，并使用从时间戳导出的月份标签。我们的模型清楚地显示了相邻月份之间的连续性，并展示了明确定义的聚类，这是其他模型中未见的属性。似乎其他模型没有学习识别窗口之外的一年长期变化所需的结构，因为它们的表示学习被限制在窗口内。

C.3 与两个自监督损失的额外比较

我们基于 HierCon (Yue 等人, 2022) 和 SupCon (Khosla 等人, 2020) 设计并提供了两个可能的自我监督目标的结果，可以将其纳入我们的双流模型结构。 HierCon 促使两个部分重叠的窗口的表示彼此接近，而 SupCon 鼓励编码器学习具有相同月份标签的窗口的接近表示。

使用我们的模型架构测试了两个 SSL 目标，仅替换了 AutoCon 损失。如表9所示，与没有任何 SSL 损失的情况相比，HierCon 在 ETTh1 和 ETTh2 上对于长度为 96 的短期预测表现略有改善，但在长期预测，因为它只强调时间上的接近性。 SupCon 利用超出窗口长度的每月信息，即使在长期预测中也能提高性能。然而，与 AutoCon 不同，SupCon 只能学习单个预定义周期。因此，在通过自相关学习时间序列中存在的周期性方面，SupCon 的性能低于 AutoCon。

表 9：与我们重新设计的架构中的不同自监督目标进行比较。

Datasets		ETTh1				ETTh2				Electricity
Prediction length		96	720	1440	2160	96	720	1440	2160	96	720	1440	2160
Ours w/o SSL	MSE	0.061	0.082	0.096	0.130	0.147	0.214	0.213	0.236	0.206	0.289	0.363	0.419
Ours w/o SSL	MAE	0.190	0.226	0.245	0.286	0.285	0.375	0.365	0.372	0.322	0.393	0.460	0.503
Ours w/ HierCon	MSE	0.059	0.090	0.121	0.145	0.132	0.221	0.221	0.263	0.223	0.313	0.380	0.500
Ours w/ HierCon	MAE	0.187	0.240	0.276	0.306	0.279	0.379	0.378	0.407	0.339	0.407	0.474	0.544
Ours w/ SupCon	MSE	0.056	0.082	0.092	0.091	0.125	0.185	0.199	0.215	0.209	0.279	0.351	0.408
Ours w/ SupCon	MAE	0.184	0.229	0.242	0.237	0.270	0.349	0.360	0.371	0.326	0.388	0.451	0.489
Ours w/ AutoCon	MSE	0.056	0.079	0.079	0.074	0.124	0.177	0.176	0.198	0.196	0.275	0.338	0.380
Ours w/ AutoCon	MAE	0.182	0.223	0.225	0.215	0.269	0.344	0.340	0.358	0.313	0.386	0.441	0.481

附录 D 完整基准测试

表 10 和表 11 显示了完整的基准测试结果，包括置信区间。

表 10：具有不同预测长度

O\in\{96,192,336,720\}

和输入长度

I=96

的ETT数据集的多变量预测结果。完整的基准测试可在附录D中找到

Models		Ours		TimesNet*		MICN		Crossformer		N-HiTS		DLinear*		ETSformer*		LightTS*
Models		Ours		(2023)		(2023)		(2023)		(2023)		(2023)		(2022)		(2022)
	$O$	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE	MSE	MAE
ETTh1	96	0.387	0.396	0.384	0.402	0.421	0.431	0.407	0.429	0.404	0.424	0.386	0.400	0.494	0.479	0.424	0.432
	192	0.437	0.424	0.436	0.429	0.474	0.487	0.505	0.496	0.465	0.466	0.437	0.432	0.538	0.504	0.475	0.462
	336	0.476	0.442	0.491	0.469	0.569	0.551	0.620	0.574	0.519	0.501	0.481	0.459	0.574	0.521	0.518	0.488
	720	0.468	0.461	0.521	0.500	0.770	0.672	0.830	0.701	0.621	0.569	0.519	0.516	0.562	0.535	0.547	0.533
Average		0.442	0.431	0.458	0.450	0.559	0.535	0.591	0.550	0.502	0.490	0.456	0.452	0.542	0.510	0.491	0.479
ETTh2	96	0.290	0.341	0.340	0.374	0.299	0.364	0.645	0.562	0.346	0.381	0.333	0.387	0.340	0.391	0.397	0.437
	192	0.373	0.398	0.402	0.414	0.441	0.454	0.788	0.636	0.427	0.440	0.477	0.476	0.430	0.439	0.520	0.504
	336	0.408	0.423	0.452	0.452	0.654	0.567	0.959	0.709	0.518	0.500	0.594	0.541	0.485	0.479	0.626	0.559
	720	0.419	0.442	0.462	0.468	0.956	0.716	1.146	0.784	0.888	0.645	0.831	0.657	0.500	0.497	0.863	0.672
Average		0.372	0.401	0.414	0.427	0.588	0.525	0.885	0.673	0.545	0.491	0.559	0.515	0.439	0.452	0.602	0.543
ETTm1	96	0.330	0.365	0.338	0.375	0.316	0.362	0.364	0.399	0.355	0.389	0.345	0.372	0.375	0.398	0.374	0.400
	192	0.371	0.384	0.374	0.387	0.363	0.390	0.431	0.441	0.404	0.414	0.380	0.389	0.408	0.410	0.400	0.407
	336	0.399	0.408	0.410	0.411	0.408	0.426	0.517	0.488	0.452	0.456	0.413	0.413	0.435	0.428	0.438	0.438
	720	0.460	0.444	0.478	0.450	0.481	0.476	0.698	0.627	0.500	0.485	0.474	0.453	0.499	0.462	0.527	0.502
Average		0.390	0.400	0.400	0.406	0.392	0.414	0.503	0.489	0.428	0.436	0.403	0.407	0.429	0.425	0.435	0.437
ETTm2	96	0.178	0.260	0.187	0.267	0.179	0.275	0.272	0.357	0.201	0.287	0.193	0.292	0.189	0.280	0.209	0.308
	192	0.244	0.303	0.249	0.309	0.307	0.376	0.335	0.414	0.295	0.354	0.284	0.362	0.253	0.319	0.311	0.382
	336	0.305	0.341	0.321	0.351	0.325	0.388	0.564	0.590	0.359	0.391	0.369	0.427	0.314	0.357	0.442	0.466
	720	0.398	0.396	0.408	0.403	0.502	0.490	1.203	0.779	0.530	0.498	0.554	0.522	0.414	0.413	0.675	0.587
Average		0.281	0.325	0.291	0.333	0.328	0.382	0.593	0.535	0.346	0.383	0.350	0.401	0.293	0.342	0.409	0.436

$*$ denotes the results are taken from TimesNet.

表 11：扩展长期预测完整基准与置信区间。 “S”hort 和“L”ong 分别表示常规实验和新扩展实验设置的长度。非平稳在 ETTm1 和 ETTm2 数据集的输出 4320 设置处存在内存不足 (OOM) 问题。

Models

Ours

TimesNet (2023)

MICN (2023)

PatchTST (2023)

DLinear (2023)

FiLM (2023)

Nonstationary (2022)

FEDformer (2022)

\rightarrow

MSE

MAE

MSE

MAE

MSE

MAE

MSE

MAE

MSE

MAE

MSE

MAE

MSE

MAE

MSE

MAE

0.056

\pm

0.0015

0.182

\pm

0.0020

0.058

\pm

0.0014

0.185

\pm

0.0028

0.062

\pm

0.0020

0.185

\pm

0.0028

0.057

\pm

0.0017

0.184

\pm

0.0038

0.063

\pm

0.0038

0.185

\pm

0.0052

0.057

\pm

0.0006

0.180

\pm

0.0010

0.069

\pm

0.0068

0.197

\pm

0.0099

0.080

\pm

0.0037

0.218

\pm

0.0039

ETTh1

720

0.079

\pm

0.0085

0.223

\pm

0.0072

0.083

\pm

0.0024

0.230

\pm

0.0023

0.175

\pm

0.0122

0.342

\pm

0.0140

0.089

\pm

0.0006

0.236

\pm

0.0007

0.180

\pm

0.0362

0.348

\pm

0.0394

0.097

\pm

0.0018

0.245

\pm

0.0021

0.117

\pm

0.0241

0.272

\pm

0.0310

0.130

\pm

0.0073

0.285

\pm

0.0076

1440

0.079

\pm

0.0120

0.225

\pm

0.0158

0.098

\pm

0.0051

0.250

\pm

0.0066

0.320

\pm

0.0476

0.476

\pm

0.0436

0.118

\pm

0.0041

0.275

\pm

0.0045

0.433

\pm

0.2573

0.567

\pm

0.2044

0.123

\pm

0.0019

0.280

\pm

0.0019

0.184

\pm

0.0119

0.349

\pm

0.0139

0.199

\pm

0.0174

0.356

\pm

0.0193

2160

0.074

\pm

0.0108

0.215

\pm

0.0166

0.143

\pm

0.0310

0.303

\pm

0.0373

0.539

\pm

0.0157

0.637

\pm

0.0107

0.183

\pm

0.0102

0.355

\pm

0.0116

0.629

\pm

0.1734

0.698

\pm

0.1050

0.187

\pm

0.0032

0.359

\pm

0.0039

0.334

\pm

0.0996

0.504

\pm

0.0985

0.356

\pm

0.0439

0.486

\pm

0.0235

0.124

\pm

0.0043

0.269

\pm

0.0056

0.139

\pm

0.0030

0.290

\pm

0.0036

0.122

\pm

0.0013

0.264

\pm

0.0010

0.136

\pm

0.0019

0.292

\pm

0.0018

0.128

\pm

0.0008

0.271

\pm

0.0007

0.129

\pm

0.0014

0.275

\pm

0.0021

0.192

\pm

0.0198

0.343

\pm

0.0177

0.129

\pm

0.0046

0.277

\pm

0.0066

ETTh2

720

0.177

\pm

0.0393

0.344

\pm

0.0366

0.207

\pm

0.0113

0.370

\pm

0.0155

0.313

\pm

0.0048

0.457

\pm

0.0039

0.233

\pm

0.0046

0.392

\pm

0.0042

0.319

\pm

0.0215

0.461

\pm

0.0170

0.256

\pm

0.0041

0.407

\pm

0.0036

0.231

\pm

0.0155

0.394

\pm

0.0121

0.273

\pm

0.0132

0.419

\pm

0.0101

1440

0.176

\pm

0.0042

0.340

\pm

0.0046

0.192

\pm

0.0574

0.358

\pm

0.0621

0.520

\pm

0.1879

0.599

\pm

0.1216

0.351

\pm

0.0172

0.481

\pm

0.0130

0.514

\pm

0.0591

0.597

\pm

0.0413

0.389

\pm

0.0081

0.506

\pm

0.0052

0.211

\pm

0.0165

0.379

\pm

0.0155

0.384

\pm

0.0327

0.487

\pm

0.0225

2160

0.198

\pm

0.0367

0.358

\pm

0.0307

0.263

\pm

0.1384

0.413

\pm

0.1105

0.759

\pm

0.0469

0.734

\pm

0.0255

0.610

\pm

0.0552

0.659

\pm

0.0355

0.740

\pm

0.0932

0.728

\pm

0.0515

0.610

\pm

0.0120

0.645

\pm

0.0063

0.240

\pm

0.0284

0.399

\pm

0.0237

0.919

\pm

0.1815

0.737

\pm

0.0698

192

0.042

\pm

0.0017

0.157

\pm

0.0061

0.044

\pm

0.0011

0.161

\pm

0.0014

0.045

\pm

0.0032

0.160

\pm

0.0060

0.039

\pm

0.0003

0.150

\pm

0.0005

0.045

\pm

0.0040

0.156

\pm

0.0062

0.041

\pm

0.0001

0.154

\pm

0.0003