PINNsFormer:基于 Transformer 的物理信息神经网络框架

Zhiyuan Zhao
Georgia Institute of Technology
Atlanta, GA 30332
leozhao1997@gatech.edu
&Xueying Ding
Carnegie Mellon University
Pittsburgh, PA 15213
xding2@andrew.cmu.edu
B. Aditya Prakash
Georgia Institute of Technology
Atlanta, GA 30332
badityap@cc.gatech.edu

摘要

物理信息神经网络 (PINN) 已成为一种有前途的深度学习框架,用于近似偏微分方程 (PDE) 的数值解。 然而,传统的 PINN 依赖于多层感知器(MLP),忽略了实际物理系统中固有的关键时间依赖性,因此无法在全局范围内传播初始条件约束并准确捕获各种场景下的真实解。 在本文中,我们介绍了一种新颖的基于 Transformer 的框架,称为 PINNsFormer,旨在解决这一限制。 PINNsFormer 通过利用多头注意力机制来捕获时间依赖性,可以准确地近似 PDE 解决方案。 PINNsFormer 将逐点输入转换为伪序列,并用顺序损失替换逐点 PINNs 损失。 此外,它还结合了一种新颖的激活函数 Wavelet,它可以通过深度神经网络预测傅立叶分解。 实证结果表明,PINNsFormer 在各种场景(包括 PINN 故障模式和高维偏微分方程)中实现了卓越的泛化能力和准确性。 此外,PINNsFormer 可以灵活地集成 PINN 的现有学习方案,进一步提高其性能。

1简介

数值求解偏微分方程 (PDE) 已在科学和工程领域得到广泛研究。 传统的方法,例如有限元方法(Bathe,2007)或伪谱方法(Fornberg,1998),在构建高通量网格时计算成本很高。维偏微分方程。 随着科学机器学习的发展,物理信息神经网络(PINN)(Lagaris 等人,1998;Raissi 等人,2019)已成为一种有前途的新颖方法。 传统的 PINN 和大多数变体采用多层感知器(MLP)作为逐点预测的端到端框架,在各种场景中取得了显着的成功。

然而,最近的研究表明,当解决方案表现出高频或多尺度特征时,PINN 会失败(Raissi, 2018; Fuks & Tchelepi, 2020; Krishnapriyan 等人, 2021; Wang 等人, 2022a) ,尽管相应的解析解很简单。 在这种情况下,PINN 往往会提供过于平滑或幼稚的近似值,偏离真实的解决方案。

减轻这些故障的现有方法通常涉及两种通用策略。 第一种策略称为数据插值(Raissi 等人,2017;Zhu 等人,2019;Chen 等人,2021),采用从模拟或现实场景中观察到的数据正则化。 这些方法在获取地面实况数据方面面临挑战。 第二种策略采用不同的训练方案(Mao 等人, 2020; Krishnapriyan 等人, 2021; Wang 等人, 2021; 2022a),这在实践中可能会带来很高的计算成本。 例如,Krishnapriyan 等人 (2021)Seq2Seq 需要顺序训练多个神经网络,而其他网络由于误差累积而存在收敛问题。 另一种方法,神经正切核(NTK) (Wang 等人,2022a),涉及构建核KD×P,其中D是样本量,P是模型参数,随着样本量或模型参数的增加,会遇到可扩展性问题。

虽然大多数提高 PINN 泛化能力和解决故障模式的努力都集中在上述方面,但现实世界物理系统中关键的时间依赖性在很大程度上被忽视了。 例如,有限元方法通过顺序传播全局解来隐式地合并时间依赖性。 这种传播依赖于时间 t+Δt 时的状态取决于时间 t 时的状态的原理。相比之下,PINN 作为点对点框架,不考虑偏微分方程内的时间依赖性。 忽略时间依赖性给 PINN 中全局传播初始条件约束带来了挑战。 因此,PINN 经常表现出失效模式,其中近似值在初始条件附近保持准确,但随后会陷入过于平滑或朴素的近似值。

为了解决 PINN 中忽略时间依赖性的问题,一个自然的想法是采用基于 Transformer 的模型(Vaswani 等人,2017),该模型以通过多维度捕获顺序数据中的长期依赖性而闻名。头自注意力和编码器-解码器注意力。 基于 Transformer 的模型的变体在各个领域都取得了巨大的成功。 然而,将本质上是为顺序数据设计的 Transformer 适应 PINN 的点对点框架提出了不小的挑战。 这些挑战涵盖了框架内的数据表示和正则化损失。

主要贡献。 在这项工作中,我们介绍了 PINNsFormer,这是一种基于 Transformer 架构构建的新型序列到序列 PDE 求解器。 据我们所知,PINNsFormer 是 PINN 领域中第一个明确关注并学习偏微分方程内时间依赖性的框架。 我们的主要贡献可概括如下:

新框架: 我们提出了一个新颖而简单的基于 Transformer 的框架,名为 PINNsFormer。 该框架使 PINN 能够通过生成的伪序列捕获时间依赖性,从而增强有效求解偏微分方程的泛化能力和近似精度。

小说激活: 我们引入了一种新颖的非线性激活函数小波 Wavelet 旨在预测任意目标信号的傅立叶变换,使其成为无限宽度神经网络的通用逼近器。 Wavelet 还可能有利于跨不同模型架构的各种深度学习任务。

广泛的实验: 我们针对各种场景对 PINNsFormer 进行综合评估。 在解决 PINN 的故障模式或求解高维偏微分方程时,我们展示了其在优化和近似精度方面的优势。 此外,我们还展示了 PINNsFormer 在整合 PINN 变体学习方案方面的灵活性。 我们通过这些方案展示了 PINNsFormer 优于 PINNs 的性能。

2相关工作

物理信息神经网络 (PINN)。 物理信息神经网络 (PINN) 已成为解决科学和工程问题的一种有前景的方法。 Raissi 等人 (2019) 引入了新颖的框架,将物理定律融入神经网络训练中来求解偏微分方程。 这项开创性工作启发了后续研究,并在流体动力学、固体力学和量子力学等多个领域得到了应用(Ling等人,2016;Carleo等人,2019;Yang等人,2020) 研究人员还研究了 PINN 的不同学习方案(Mao 等人,2020;Wang 等人,2021;2022a) 与 PINN 相比,这些策略在收敛性、泛化性和可解释性方面取得了显着的进步。

PINN 的失效模式。 尽管 PINN 展现出了良好的前景,但最近的研究表明了 PINN 固有的某些失效模式,特别是在面对具有高频或多尺度特征 的偏微分方程时(Fuks & Tchelepi, 2020;Raissi, 2018;McClenny & Braga-Neto, 2020;Krishnapriyan 等人,2021;赵等人,2022; 这一挑战促使人们从不同角度进行研究,包括设计变体模型架构、学习方案或使用数据插值(Han 等人,2018;Lou 等人,2021;Wang 等人,2021;2022a;2022b). 全面了解 PINN 的局限性和潜在的故障模式对于解决复杂物理问题的应用至关重要。

基于 Transformer 的模型。 Transformer 模型(Vaswani 等人,2017)因其捕获长期依赖关系的能力而受到广泛关注,在自然语言处理任务中取得重大成就(Devlin 等人,2018) ; 雷德福德等人,2018) Transformers 还扩展到其他领域,包括计算机视觉、语音识别和时间序列分析(Liu 等人, 2021; Dosovitskiy 等人, 2020; Gulati 等人, 2020; Zhou 等人, 2021). 研究人员还开发了旨在提高 Transformer 效率的技术,例如稀疏注意力和模型压缩(Child 等人,2019;Sanh 等人,2019)

3方法论

预备知识:Ωd中的开集,以Ωd1为界。 具有空间输入 𝒙 和时间输入 t 的偏微分方程通常符合以下抽象:

𝒟[u(𝒙,t)]=f(𝒙,t),𝒙,tΩ[u(𝒙,t)]=g(𝒙,t),𝒙,tΩ (1)

其中 u 是偏微分方程的解,𝒟 是规范系统行为的微分算子, 描述一般的边界或初始条件。 具体来说,{𝒙,t}Ω是残差点,{𝒙,t}Ω是边界/初始点。 u^ 为神经网络近似值,PINN 描述了其中 u^ 通过以下约束根据经验正则化的框架:

𝙿𝙸𝙽𝙽𝚜=λ𝑟i=1N𝑟𝒟[u^(𝒙,t)]f(𝒙,t)2+λbi=1Nb[u^(𝒙,t)]g(𝒙,t)2 (2)

其中Nb,Nr分别指残差和边界/初始点,λr,λb是平衡损失项重点的正则化参数。 神经网络u^以向量化的{𝒙,t}作为输入并输出近似解。 然后,目标是使用机器学习方法来训练神经网络 u^,从而最大限度地减少方程 2 中的损失。

方法概述: 虽然 PINN 专注于点对点预测,但对现实世界物理系统中时间依赖性的探索却被忽视了。 传统的 PINN 方法采用一对空间信息 𝒙 和时间信息 t 来近似数值解 u(𝒙,t),而不考虑先前或后续时间的时间依赖性脚步。 然而,这种简化仅适用于椭圆偏微分方程,其中未知函数及其导数之间的关系不明确涉及时间。 相比之下,双曲和抛物线偏微分方程包含时间导数,这意味着一个时间步长的状态可以影响先前或后续时间步长的状态。 因此,考虑时间依赖性对于使用 PINN 有效解决这些偏微分方程至关重要。

在本节中,我们将介绍一种新颖的框架,该框架采用基于 Transformer 的 PINN 模型,即 PINNsFormer。 与点对点预测不同,PINNsFormer 将 PINN 的功能扩展到顺序预测。 PINNsFormer 允许在特定时间步精确逼近解决方案,同时还学习和规范传入状态之间的时间依赖性。 该框架由四个组件组成:伪序列生成器、时空混合器、具有多头注意力的编码器-解码器和输出层。 此外,我们引入了一种新颖的激活函数,名为Wavelet,它采用实傅里叶变换技术来预测偏微分方程的解。 框架图如图1所示。 我们在以下小节中提供每个框架组件和学习方案的详细说明。

Refer to caption
图1: 提议的 PINNsFormer 的架构。 PINNsFormer 基于逐点输入特征生成伪序列。 它输出相应的序列近似解。 该序列的第一个近似值是所需的解u^(𝒙,t)

3.1 伪序列生成器

虽然 Transformer 和基于 Transformer 的模型旨在捕获序列数据中的长期依赖性,但传统 PINN 使用非序列数据作为神经网络的输入。 因此,要将 PINN 与基于 Transformer 的模型结合起来,必须将逐点时空输入转换为时间序列。 因此,对于给定的空间输入𝒙d1和时间输入t,伪序列生成器执行以下操作:

[𝒙,t]𝙶𝚎𝚗𝚎𝚛𝚊𝚝𝚘𝚛{[𝒙,t],[𝒙,t+Δt],,[𝒙,t+(k1)Δt]} (3)

其中[]是串联操作,使得[𝒙,t]d被向量化,生成器以k×d的形式输出伪序列。 简而言之,伪序列生成器通过将单个时空输入扩展到多个等距离散时间步长来推断顺序时间序列。 kΔt是超参数,直观地决定伪序列需要“向前看”多少步以及每一步应该“走多远”。 在实践中,kΔt都不应该设置为非常大的比例,因为较大的k会导致大量的计算和内存开销,而较大的Δt可能会破坏相邻离散时间步的时间依赖关系。

3.2模型架构

除了伪序列生成器之外,PINNsFormer 还包含其架构的三个组件:Sptio-Temporal Mixer、具有多头注意力的编码器-解码器以及输出层。 输出层可以直接解释为附加到末尾的全连接 MLP。 我们在下面提供了对前两个组成部分的详细见解。 值得注意的是,PINNsFormer 仅依赖于线性层和非线性激活,避免了卷积或循环层等复杂操作。 这种设计在实践中保留了 PINNsFormer 的计算效率。

时空混合器。 大多数偏微分方程包含低维空间或时间信息。 直接将低维数据输入编码器可能无法捕获每个特征维度之间的复杂关系。 因此,有必要将原始序列数据嵌入到更高维空间中,以便将更多信息编码到每个向量中。

PINNsFormer 没有将原始数据嵌入到向量之间的距离反映语义相似性的高维空间中(Vaswani 等人,2017;Devlin 等人,2018),而是构建了映射时空输入的线性投影使用全连接的 MLP 到更高维的空间。 嵌入数据通过将所有原始时空特征混合在一起来丰富信息的能力,即所谓的线性投影时空混合器。

Refer to caption
图2: PINNsFormer 的编码器-解码器层的架构。 解码器没有配备自我注意功能。

编码器-解码器架构。 PINNsFormer 采用类似于 Transformer 的编码器-解码器架构。 编码器由一堆相同的层组成,每个层都包含一个编码器自注意力层和一个前馈层。 解码器与普通 Transformer 略有不同,其中每个相同的层仅包含编码器-解码器自注意力层和前馈层。 在解码器级别,PINNsFormer 使用与编码器相同的时空嵌入。 因此,解码器不需要重新学习相同输入嵌入的依赖关系。 编码器-解码器架构图如图2所示

直观地说,编码器的自注意力允许学习所有时空信息的依赖关系。 解码器编码器-解码器注意力允许在解码过程中选择性地关注输入序列内的特定依赖关系,使其能够比传统 PINN 捕获更多信息。 我们对编码器和解码器使用相同的嵌入,因为 PINN 专注于近似当前状态的解,这与语言任务或时间序列预测中的下一个状态预测相反。

3.3 小波激活

而 Transformers 通常采用 LayerNormReLU 非线性激活函数(Vaswani 等人,2017;Gehring 等人,2017;Devlin 等人,2018),这些激活函数可能并不总是适合求解 PINN。 特别是,在 PINN 中使用 ReLU 激活可能会导致性能不佳,其有效性很大程度上依赖于导数的准确评估,而 ReLU 具有不连续的导数(Haghighat 等)人, 2021; de Wolff 等人, 2021) 最近的研究利用特定场景的Sin激活来模拟偏微分方程解的周期性特性(Li 等人, 2020; Jagtap 等人, 2020; Song 等人, 2022) 然而,它需要对解决方案的行为有很强的先验知识,并且其适用性受到限制。 针对这个问题,我们提出了一种新颖且简单的激活函数,即Wavelet,定义如下:

𝚆𝚊𝚟𝚎𝚕𝚎𝚝(𝒙)=ω1sin(𝒙)+ω2cos(𝒙) (4)

其中 ω1ω2 是注册的可学习参数。 小波激活背后的直觉简单地遵循实数傅立叶变换:虽然周期信号可以分解为多个频率的正弦积分,但所有信号,无论是周期信号还是非周期信号,都可以分解为正弦积分和不同频率的余弦。 显然,Wavelet 可以逼近任意函数,并给出足够的逼近能力,从而得出以下命题:

命题1

𝒩是一个无限宽度的两隐层神经网络,配备小波激活函数,则𝒩是任何实数的通用逼近器有价值的目标 f.

证明草图: 证明遵循实傅里叶变换(傅里叶积分变换)。 对于任何给定的输入 x 及其相应的实值目标 f(x),它具有傅里叶积分:

f(x)=Fc(ω)cos(ωx)𝑑ω+Fs(ω)sin(ωx)𝑑ω

其中FcFs分别是正弦和余弦的系数。 其次,通过黎曼和近似,积分可以用无穷和来近似:

f(x)n=1N[Fc(ωn)cos(ωnx)+Fs(ωn)sin(ωnx)]W2(𝚆𝚊𝚟𝚎𝚕𝚎𝚝(W1x))

其中W1W2𝒩的第一和第二隐藏层的权重。 由于W1W2是无限宽度的,我们可以将分段求和分成无限小的区间,使近似值任意接近真实积分。 因此,𝒩 是任何给定 f 的通用逼近器。实际上,大多数偏微分方程解仅包含有限数量的主要频率。 使用具有有限参数的神经网络也将导致真实解的正确近似。

尽管 Wavelet 激活函数主要由 PINNsFormer 用于改进我们工作中的 PINN,但它在其他深度学习任务中也可能具有潜在的应用。 类似于 ReLUσ()Tanh 激活,它们都将无限宽度的两隐藏层神经网络转化为通用逼近器 ( Cybenko, 1989; Hornik, 1991; Glorot 等人, 2011),我们预计 Wavelet 可以在本工作范围之外的其他应用中证明其有效性。

3.4学习计划

虽然传统的 PINN 专注于点对点预测,但在采用 PINN 处理伪序列输入方面还有一个尚未探索的领域。 在 PINNsFormer 中,序列中的每个生成点(即 [𝒙i,ti+jΔt])都被转发到相应的近似值,即对于任何 j,j<k 而言,u^(𝒙i,ti+jΔt)。这种方法允许我们针对任何有效的 n 独立计算相对于 𝒙tn 阶梯度。例如,对于任何给定的输入伪序列 {[𝒙i,ti],[𝒙i,ti+Δt],,[𝒙i,ti+(k1)Δt]} 以及相应的近似值 {u^(𝒙i,ti),u^(𝒙i,ti+Δt),,u^(𝒙i,ti+(k1)Δt)},我们可以计算一阶导数。 𝒙t分别如下:

{u^(𝒙i,ti+jΔt)}j=0k1{ti+jΔt}j=0k1={u^(𝒙i,ti)ti,u^(𝒙i,ti+Δt)(ti+Δt),,u^(𝒙i,ti+(k1)Δt)(ti+(k1)Δt)}{u^(𝒙i,ti+jΔt)}j=0k1𝒙i={u^(𝒙i,ti)𝒙i,u^(𝒙i,ti+Δt)𝒙i,,u^(𝒙i,ti+(k1)Δt)𝒙i} (5)

这种计算顺序近似相对于顺序输入的梯度的方案可以很容易地扩展到高阶导数,并且适用于残差、边界和初始点。 然而,与方程2中结合初始和边界条件目标的一般PINNs优化目标不同,PINNsFormer区分了两者,并通过其学习方案将不同的正则化方案应用于初始和边界条件。 对于残差点和边界点,可以使用 PINN 损失对所有顺序输出进行正则化。 这是因为所有生成的伪时间步都在与其原始输入相同的域内。 例如,如果 [𝒙i,ti] 是从边界采样的,则 [𝒙i,ti+jΔt] 也位于任何 j+ 的边界上。 相反,对于初始点,仅对 t=0 条件进行正则化,对应于顺序输出的第一个元素。 这是因为只有伪序列的第一个元素与 t=0 处的初始条件完全匹配。 对于任何 j+,所有其他生成的时间步都具有 t=jΔt,这超出了初始条件。

出于这些考虑,我们将 PINN 损失调整为顺序版本,如下所述:

𝑟𝑒𝑠=1kN𝑟𝑒𝑠i=1N𝑟𝑒𝑠j=0k1𝒟[u^(𝒙i,ti+jΔt)]f(𝒙i,ti+jΔt)2𝑏𝑐=1kN𝑏𝑐i=1N𝑏𝑐j=0k1[u^(𝒙i,ti+jΔt)]g(𝒙i,ti+jΔt)2𝑖𝑐=1N𝑖𝑐i=1N𝑏𝑐[u^(𝒙i,0)]h(𝒙i,0)2𝙿𝙸𝙽𝙽𝚜𝙵𝚘𝚛𝚖𝚎𝚛=λ𝑟𝑒𝑠𝑟𝑒𝑠+λ𝑖𝑐𝑖𝑐+λ𝑏𝑐𝑏𝑐 (6)

其中N𝑟𝑒𝑠=Nr指的是残差点,如方程2,N𝑏𝑐,N𝑖𝑐分别表示边界点和初始点的数量,N𝑏𝑐+N𝑖𝑐=Nb λ𝑟𝑒𝑠λ𝑏𝑐λ𝑖𝑐 是平衡 PINNsFormer 中损失项重要性的正则化权重,类似于 PINNs 损失。

在训练过程中,PINNsFormer 前转所有残差点、边界点和初始点以获得它们相应的顺序近似值。 然后,它使用基于梯度的优化算法(例如 L-BFGS 或 Adam)优化方程 6 中修改后的 PINN 损失 𝙿𝙸𝙽𝙽𝚜𝙵𝚘𝚛𝚖𝚎𝚛,更新模型参数直至收敛。 在测试阶段,PINNsFormer 转发任意对 [𝒙,t] 以观察顺序近似值,其中顺序近似值的第一个元素与 u^(𝒙,t) 的所需值完全对应。

3.5损失情况分析

Refer to caption
Refer to caption
图3: 以对数尺度可视化 PINNs(左)和 PINNsFormer(右)的损失情况。 PINNsFormer 的损失情况比传统 PINN 明显更加平滑。

虽然实现理论收敛或为基于 Transformer 的模型建立泛化界限可能具有挑战性,但评估优化轨迹的另一种方法是通过损失景观的可视化。 这种方法已用于 Transformers 和 PINN 的分析(Krishnapriyan 等人,2021;Yao 等人,2020;Park & Kim,2022) 损失景观是通过沿着前两个主要 Hessian 特征向量的方向扰动训练模型来构建的。 该技术通常比随机参数扰动提供更多信息。 一般来说,具有较少局部最小值的更平滑的损失景观表明模型更容易收敛到全局最小值。 我们对传统 PINN 和 PINNsFormer 的损失情况进行了可视化。 可视化如图5所示。

可视化结果清楚地表明,PINN 表现出比 PINNsFormer 更复杂的损失情况。 具体来说,我们估计了两种损失景观的利普希茨常数。 我们发现L𝙿𝙸𝙽𝙽𝚜=776.16明显大于L𝙿𝙸𝙽𝙽𝚜𝙵𝚘𝚛𝚖𝚎𝚛=32.79 此外,PINN 的损失景观在其最佳点附近表现出多个尖锥,表明在收敛点(零扰动)附近存在多个局部最小值。 传统 PINN 的崎岖损失景观和多个局部最小值表明,优化 PINNsFormer 方程 6 中描述的目标提供了一条更容易达到全局最小值的路径。 这意味着 PINNsFormer 在避免与 PINN 相关的故障模式方面具有优势。 通过实证实验进一步验证了该分析,如下一节所示。

4实验

4.1设置

目标。 我们的实证评估旨在证明 PINNsFormer 的三个关键优势。 首先,我们表明,与 PINN 和变体架构相比,PINNsFormer 提高了泛化能力并减少了故障模式。 其次,我们说明了 PINNsFormer 在整合各种学习方案方面的灵活性,从而产生了卓越的性能。 第三,我们提供了 PINNsFormer 在求解高维偏微分方程方面更快收敛和改进泛化能力的证据,这对于 PINN 及其变体来说可能具有挑战性。

偏微分方程设置。 我们使用一系列偏微分方程,包括对流偏微分方程、一维反应偏微分方程、一维波偏微分方程和纳维-斯托克斯偏微分方程。 对流、一维反应和一维波方程的设置遵循过去的工作(陈等人,2018) 对于基线模型训练,包括 PINN、QRes (Bu & Karpatne, 2021) 和 First-Layer Sine (FLS) (Wong 等人, 2022),我们统一采样N𝑖𝑐=N𝑏𝑐=101 初始点和边界点,以及残差域的 101×101 网格点的均匀网格,得到总 N𝑟𝑒𝑠=10201 点。 在训练 PINNsFormer 的情况下,我们减少了搭配点,使用 N𝑖𝑐=N𝑏𝑐=51 初始点和边界点以及用于剩余点的 51×51 网格。 减少训练样本数量有两个目的:提高训练效率,并允许我们用有限的训练数据展示 PINNsFormer 的泛化能力。 为了进行测试,我们在残差域内使用了 101×101 网格。

对于纳维-斯托克斯偏微分方程,我们的实验遵循Raissi等人(2017)中建立的设置。 为了训练目的,我们从残差域内的 3D 网格中采样了 2500 个点。 通过测试最终时间步t=20.0处的预测压力来进行评估。

训练和测试。 我们构建 PINN、QRes 和 FLS 作为基线,以及提议的 PINNsFormer。 我们在所有模型中保持大约接近数量的参数,以突出 PINNsFormer 的优势,因为它能够捕获时间依赖性,而不是仅仅依赖于模型过度参数化。 我们使用 L-BFGS 优化器和 Strong Wolfe 线性搜索对所有模型进行 1000 次迭代训练。 为简单起见,我们在公式6中设置λ𝑟𝑒𝑠=λ𝑖𝑐=λ𝑏𝑐=1作为优化目标。 附录A中提供了详细的超参数。

在评估方面,我们采用了相关工作中常用的指标(Krishnapriyan等人,2021;Raissi等人,2019;McClenny & Braga-Neto,2020),包括相对平均绝对误差(rMAE)或相对 1 误差)和相对均方根误差(rRMSE 或相对 2 误差)。 附录A中提供了指标的详细表述。

再现性。 所有模型均在 PyTorch (Paszke 等人,2019) 中实现,并在单个 NVIDIA Tesla V100 GPU 上单独训练。 所有代码和演示均包含在 https://github.com/AdityaLab/pinnsformer 中并可重现。

4.2 减轻 PINN 的故障模式

我们的主要评估重点是证明 PINNsFormer 与 PINN 相比具有卓越的泛化能力,尤其是已知会挑战 PINN 泛化能力的偏微分方程。 我们专注于求解两种不同类型的偏微分方程:对流方程和一维反应方程。 这些方程对传统的基于 MLP 的 PINN 提出了重大挑战,通常会导致所谓的“PINN 失效模式”(Mojgani 等人,2022;Daw 等人,2022;Krishnapriyan 等人,2021) 在这些故障模式中,优化陷入局部最小值,导致过于平滑的近似值偏离真实的解决方案。

我们评估的目的是展示 PINNsFormer 与标准 PINN 及其变体相比增强的泛化能力,特别是在解决 PINN 的故障模式方面。 评估结果总结在表1中,详细的PDE公式在附录B中提供。 我们在图 4 中展示了 PINNs 和 PINNsFormer 对对流方程的预测和绝对误差图,所有预测图均可在附录 C 中找到。

Model Convection 1D-Reaction
Loss rMAE rRMSE Loss rMAE rRMSE
PINNs 0.016 0.778 0.840 0.199 0.982 0.981
QRes 0.015 0.746 0.816 0.199 0.979 0.977
FLS 0.012 0.674 0.771 0.199 0.984 0.985
PINNsFormer 3.7e-5 0.023 0.027 3.0e-6 0.015 0.030
表格1: 求解连接方程和一维反应方程的结果。 PINNsFormer 在训练损失、rMAE 和 rRMSE 方面始终优于所有基线方法。

评估结果表明 PINNsFormer 的性能在两种场景的所有基线上均显着优于。 PINNsFormer 实现了最低的训练损失和测试错误,使 PINNsFormer 成为唯一能够减轻故障模式的方法。 相比之下,所有其他基线方法仍然停留在全局最小值,无法有效优化客观损失。 这些结果表明,与传统 PINN 和现有变体相比,PINNsFormer 在泛化能力和近似精度方面具有明显的优势。

Refer to captionRefer to captionRefer to captionRefer to caption
图4: PINN(上)和 PINNsFormer(下)对对流方程的预测(左)和绝对误差(右)。 PINNsFormer 在减轻故障模式方面比 PINNs 更成功。

评估 PINNsFormer 时的另一个考虑因素是其相对于 PINN 的计算和内存开销。 虽然基于 MLP 的 PINN 以其效率而闻名,但 PINNsFormer 在处理顺序数据时采用基于 Transformer 的架构,自然会产生更高的计算和内存成本。 尽管如此,我们的经验评估表明,开销是可以忍受的,受益于仅依赖具有非线性激活函数的线性隐藏层,避免了复杂的算子,例如卷积层或循环层。 例如,当设置伪序列长度k=5时,我们观察到计算成本大约增加了2.92倍,内存使用量增加了2.15倍(详见附录A) 。 这些开销被认为是可以接受的,以换取 PINNsFormer 实现的实质性性能改进。

虽然 PINN 及其各种架构适应性可能会在某些场景下遇到挑战,但先前的研究已经探索了复杂的优化方案来缓解这些问题,包括学习率退火 (Wang 等人,2021)、增强拉格朗日方法 (Lu 等人, 2021),以及神经切线核方法(Wang 等人, 2022a) 这些修改后的 PINN 在某些场景下显示出 PINN 的显着改进。 值得注意的是,当这些优化策略应用于 PINNsFormer 时,可以轻松地将它们合并以实现进一步的性能改进。 例如,PINN 的神经正切核 (NTK) 方法已在求解一维波方程方面取得了成功。 在这种情况下,我们证明,当将 NTK 与 PINNsFormer 结合使用时,我们可以在近似精度方面取得进一步的优异性能。 详细结果如表2所示,附录B中提供了全面的偏微分方程公式,附录C中提供了预测图。

4.3 灵活地结合变体学习方案

Model 1D-Wave
Loss rMAE rRMSE
PINNs 1.93e-2 0.326 0.335
PINNsFormer 1.38e-2 0.270 0.283
PINNs + NTK 6.34e-3 0.140 0.149
PINNsFormer + NTK 4.21e-3 0.054 0.058
表2: 结合 NTK 方法求解一维波动方程的结果。 PINNsFormer 与 NTK 相结合在所有指标上都优于所有其他方法。

我们的评估结果显示了将 PINNsFormer 与 NTK 方法结合起来的灵活性和有效性。 特别是,我们观察到一系列性能改进,从标准 PINN 到 PINNsFormer,从 PINNs+NTK 到 PINNsFormer+NTK 本质上,PINNsFormer 探索了 PINN 的变体架构,而许多学习方案是从优化角度设计的,并且与神经网络架构无关。 这种固有的灵活性允许 PINNsFormer 与各种学习方案进行多功能组合,为实际应用中的准确解决方案提供实用且可定制的解决方案。

4.4 高维偏微分方程的推广

Refer to caption
图5: 训练损失与 PINN 和 PINNsFormer 在纳维-斯托克斯方程上的迭代。

在前面的部分中,我们展示了 PINNsFormer 在推广 PINN 故障模式解决方案方面的明显优势。 然而,这些偏微分方程通常具有简单的解析解。 在实际物理系统中,需要求解更高维和更复杂的偏微分方程。 因此,评估 PINNsFormer 在此类高维偏微分方程上的泛化能力非常重要,特别是当 PINNsFormer 配备了自注意力等先进机制时。

我们评估了 PINNsFormer 与 PINN 在 2D Navier-Stokes PDE 上的性能比较,这是 Raissi 等人 (2019) 之前研究过的问题。 训练损失如图5所示,评估结果如表3所示。 二维纳维-斯托克斯方程的详细公式可以在附录B中找到,预测图在附录C中提供。

Model Navier-Stokes
Loss rMAE rRMSE
PINNs 6.72e-5 13.08 9.08
QRes 2.24e-4 6.41 4.45
FLS 9.54e-6 3.98 2.77
PINNsFormer 6.66e-6 0.384 0.280
表3: 求解 2D Navier-Stokes 方程的结果,PINNsFormer 在所有指标上均优于所有基线。

评估结果表明 PINNsFormer 在高维偏微分方程上比 PINN 具有明显的优势。 首先,PINNsFormer 在损失和验证错误方面均优于训练 PINN 及其 MLP 变体。 首先,PINNsFormer 在训练过程中表现出明显更快的收敛速度,这弥补了每次迭代较高的计算成本。 其次,虽然 PINN 及其 MLP 变体以良好的形状预测压力,但随着时间的增加,它们表现出越来越大的差异。 相比之下,PINNsFormer 一致地调整了不同时间间隔内预测压力的形状和大小。 这种一致性归功于 PINNsFormer 通过基于 Transformer 的模型架构和自注意力机制学习时间依赖性的能力。

5结论

在本文中,我们介绍了 PINNsFormer,这是一种基于 Transformer 的新颖框架,被设计为 PINN 的扩展,旨在在逼近偏微分方程解时捕获时间依赖性。 为了使传统 PINN 适应基于 Transformer 的模型,我们引入了伪序列生成器,这是一种将矢量化输入转换为伪时间序列的机制,并结合了修改后的编码器-解码器层以及新颖的 Wavelet 激活函数。 我们的实证评估表明,PINNsFormer 在各种场景中始终优于传统的 PINN,包括处理 PINN 的故障模式和解决高维偏微分方程。 此外,PINNsFormer 通过仅使用具有非线性激活函数的线性层来保留计算简单性,使其成为实际应用的实用选择。 它可以灵活地与 PINN 的现有学习方案集成,从而获得卓越的性能。

除了在 PINNsFormer 中的应用之外,新颖的 Wavelet 激活函数还为更广泛的机器学习社区带来了希望。 我们提供了一个草图证明,证明 Wavelet 能够使用两个隐藏层无限宽度神经网络,利用这些解决方案的傅立叶分解来近似任意目标解决方案。 我们鼓励从理论上和经验上进一步探索小波激活函数的潜力。 它的适用性超出了 PINN 范围,可以在各种架构和应用程序中使用。

参考

  • Bathe (2007) Klaus-Jürgen Bathe. Finite element method. Wiley encyclopedia of computer science and engineering, pp. 1–12, 2007.
  • Bu & Karpatne (2021) Jie Bu and Anuj Karpatne. Quadratic residual networks: A new class of neural networks for solving forward and inverse problems in physics involving pdes. In Proceedings of the 2021 SIAM International Conference on Data Mining (SDM), pp. 675–683. SIAM, 2021.
  • Carleo et al. (2019) Giuseppe Carleo, Ignacio Cirac, Kyle Cranmer, Laurent Daudet, Maria Schuld, Naftali Tishby, Leslie Vogt-Maranto, and Lenka Zdeborová. Machine learning and the physical sciences. Reviews of Modern Physics, 91(4):045002, 2019.
  • Chen et al. (2018) Ricky TQ Chen, Yulia Rubanova, Jesse Bettencourt, and David K Duvenaud. Neural ordinary differential equations. Advances in neural information processing systems, 31, 2018.
  • Chen et al. (2021) Zhao Chen, Yang Liu, and Hao Sun. Physics-informed learning of governing equations from scarce data. Nature communications, 12(1):6136, 2021.
  • Child et al. (2019) Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever. Generating long sequences with sparse transformers. arXiv preprint arXiv:1904.10509, 2019.
  • Cybenko (1989) George Cybenko. Approximation by superpositions of a sigmoidal function. Mathematics of control, signals and systems, 2(4):303–314, 1989.
  • Daw et al. (2022) Arka Daw, Jie Bu, Sifan Wang, Paris Perdikaris, and Anuj Karpatne. Rethinking the importance of sampling in physics-informed neural networks. arXiv preprint arXiv:2207.02338, 2022.
  • de Wolff et al. (2021) Taco de Wolff, Hugo Carrillo, Luis Martí, and Nayat Sanchez-Pi. Assessing physics informed neural networks in ocean modelling and climate change applications. In AI: Modeling Oceans and Climate Change Workshop at ICLR 2021, 2021.
  • Devlin et al. (2018) Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.
  • Dosovitskiy et al. (2020) Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020.
  • Fornberg (1998) Bengt Fornberg. A practical guide to pseudospectral methods. Number 1. Cambridge university press, 1998.
  • Fuks & Tchelepi (2020) Olga Fuks and Hamdi A Tchelepi. Limitations of physics informed machine learning for nonlinear two-phase transport in porous media. Journal of Machine Learning for Modeling and Computing, 1(1), 2020.
  • Gehring et al. (2017) Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N Dauphin. Convolutional sequence to sequence learning. In International conference on machine learning, pp. 1243–1252. PMLR, 2017.
  • Glorot et al. (2011) Xavier Glorot, Antoine Bordes, and Yoshua Bengio. Deep sparse rectifier neural networks. In Proceedings of the fourteenth international conference on artificial intelligence and statistics, pp. 315–323. JMLR Workshop and Conference Proceedings, 2011.
  • Gulati et al. (2020) Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, et al. Conformer: Convolution-augmented transformer for speech recognition. arXiv preprint arXiv:2005.08100, 2020.
  • Haghighat et al. (2021) Ehsan Haghighat, Maziar Raissi, Adrian Moure, Hector Gomez, and Ruben Juanes. A physics-informed deep learning framework for inversion and surrogate modeling in solid mechanics. Computer Methods in Applied Mechanics and Engineering, 379:113741, 2021.
  • Han et al. (2018) Jiequn Han, Arnulf Jentzen, and Weinan E. Solving high-dimensional partial differential equations using deep learning. Proceedings of the National Academy of Sciences, 115(34):8505–8510, 2018.
  • Hornik (1991) Kurt Hornik. Approximation capabilities of multilayer feedforward networks. Neural networks, 4(2):251–257, 1991.
  • Jagtap et al. (2020) Ameya D Jagtap, Kenji Kawaguchi, and George Em Karniadakis. Adaptive activation functions accelerate convergence in deep and physics-informed neural networks. Journal of Computational Physics, 404:109136, 2020.
  • Krishnapriyan et al. (2021) Aditi Krishnapriyan, Amir Gholami, Shandian Zhe, Robert Kirby, and Michael W Mahoney. Characterizing possible failure modes in physics-informed neural networks. Advances in Neural Information Processing Systems, 34:26548–26560, 2021.
  • Lagaris et al. (1998) Isaac E Lagaris, Aristidis Likas, and Dimitrios I Fotiadis. Artificial neural networks for solving ordinary and partial differential equations. IEEE transactions on neural networks, 9(5):987–1000, 1998.
  • Li et al. (2020) Zongyi Li, Nikola Kovachki, Kamyar Azizzadenesheli, Burigede Liu, Kaushik Bhattacharya, Andrew Stuart, and Anima Anandkumar. Fourier neural operator for parametric partial differential equations. arXiv preprint arXiv:2010.08895, 2020.
  • Ling et al. (2016) Julia Ling, Andrew Kurzawski, and Jeremy Templeton. Reynolds averaged turbulence modelling using deep neural networks with embedded invariance. Journal of Fluid Mechanics, 807:155–166, 2016.
  • Liu et al. (2021) Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF international conference on computer vision, pp. 10012–10022, 2021.
  • Lou et al. (2021) Qin Lou, Xuhui Meng, and George Em Karniadakis. Physics-informed neural networks for solving forward and inverse flow problems via the boltzmann-bgk formulation. Journal of Computational Physics, 447:110676, 2021.
  • Lu et al. (2021) Lu Lu, Raphael Pestourie, Wenjie Yao, Zhicheng Wang, Francesc Verdugo, and Steven G Johnson. Physics-informed neural networks with hard constraints for inverse design. SIAM Journal on Scientific Computing, 43(6):B1105–B1132, 2021.
  • Mao et al. (2020) Zhiping Mao, Ameya D Jagtap, and George Em Karniadakis. Physics-informed neural networks for high-speed flows. Computer Methods in Applied Mechanics and Engineering, 360:112789, 2020.
  • McClenny & Braga-Neto (2020) Levi McClenny and Ulisses Braga-Neto. Self-adaptive physics-informed neural networks using a soft attention mechanism. arXiv preprint arXiv:2009.04544, 2020.
  • Mojgani et al. (2022) Rambod Mojgani, Maciej Balajewicz, and Pedram Hassanzadeh. Lagrangian pinns: A causality-conforming solution to failure modes of physics-informed neural networks. arXiv preprint arXiv:2205.02902, 2022.
  • Park & Kim (2022) Namuk Park and Songkuk Kim. How do vision transformers work? arXiv preprint arXiv:2202.06709, 2022.
  • Paszke et al. (2019) Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al. Pytorch: An imperative style, high-performance deep learning library. Advances in neural information processing systems, 32, 2019.
  • Radford et al. (2018) Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever, et al. Improving language understanding by generative pre-training. 2018.
  • Raissi (2018) Maziar Raissi. Deep hidden physics models: Deep learning of nonlinear partial differential equations. The Journal of Machine Learning Research, 19(1):932–955, 2018.
  • Raissi et al. (2017) Maziar Raissi, Paris Perdikaris, and George Em Karniadakis. Physics informed deep learning (part i): Data-driven solutions of nonlinear partial differential equations. arXiv preprint arXiv:1711.10561, 2017.
  • Raissi et al. (2019) Maziar Raissi, Paris Perdikaris, and George E Karniadakis. Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations. Journal of Computational physics, 378:686–707, 2019.
  • Sanh et al. (2019) Victor Sanh, Lysandre Debut, Julien Chaumond, and Thomas Wolf. Distilbert, a distilled version of bert: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108, 2019.
  • Song et al. (2022) Chao Song, Tariq Alkhalifah, and Umair Bin Waheed. A versatile framework to solve the helmholtz equation using physics-informed neural networks. Geophysical Journal International, 228(3):1750–1762, 2022.
  • Vaswani et al. (2017) Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. Advances in neural information processing systems, 30, 2017.
  • Wang et al. (2021) Sifan Wang, Yujun Teng, and Paris Perdikaris. Understanding and mitigating gradient flow pathologies in physics-informed neural networks. SIAM Journal on Scientific Computing, 43(5):A3055–A3081, 2021.
  • Wang et al. (2022a) Sifan Wang, Xinling Yu, and Paris Perdikaris. When and why pinns fail to train: A neural tangent kernel perspective. Journal of Computational Physics, 449:110768, 2022a.
  • Wang et al. (2022b) Yicheng Wang, Xiaotian Han, Chia-Yuan Chang, Daochen Zha, Ulisses Braga-Neto, and Xia Hu. Auto-pinn: Understanding and optimizing physics-informed neural architecture. arXiv preprint arXiv:2205.13748, 2022b.
  • Wong et al. (2022) Jian Cheng Wong, Chinchun Ooi, Abhishek Gupta, and Yew-Soon Ong. Learning in sinusoidal spaces with physics-informed neural networks. IEEE Transactions on Artificial Intelligence, 2022.
  • Yang et al. (2020) Liu Yang, Dongkun Zhang, and George Em Karniadakis. Physics-informed generative adversarial networks for stochastic differential equations. SIAM Journal on Scientific Computing, 42(1):A292–A317, 2020.
  • Yao et al. (2020) Zhewei Yao, Amir Gholami, Kurt Keutzer, and Michael W Mahoney. Pyhessian: Neural networks through the lens of the hessian. In 2020 IEEE international conference on big data (Big data), pp. 581–590. IEEE, 2020.
  • Zhao et al. (2022) Zhiyuan Zhao, Xueying Ding, Gopaljee Atulya, Alex Davis, and Aarti Singh. Physics informed machine learning with misspecified priors:\\an analysis of turning operation in lathe machines. In AAAI 2022 Workshop on AI for Design and Manufacturing (ADAM), 2022.
  • Zhou et al. (2021) Haoyi Zhou, Shanghang Zhang, Jieqi Peng, Shuai Zhang, Jianxin Li, Hui Xiong, and Wancai Zhang. Informer: Beyond efficient transformer for long sequence time-series forecasting. In Proceedings of the AAAI conference on artificial intelligence, volume 35, pp. 11106–11115, 2021.
  • Zhu et al. (2019) Yinhao Zhu, Nicholas Zabaras, Phaedon-Stelios Koutsourelakis, and Paris Perdikaris. Physics-constrained deep learning for high-dimensional surrogate modeling and uncertainty quantification without labeled data. Journal of Computational Physics, 394:56–81, 2019.

附录 A 附录 A:模型超参数

模型超参数。 我们提供了一组详细的超参数用于获得实验结果,如表4所示。

Model Hyperparameters Value Model Parameters
PINNs & FLS hidden layer 4 527k
hidden size 512
QRes hidden layer 4 397k
hidden size 256
PINNsFormer k 5 454k
Δt 1e-3, 1e-4
# of encoder 1
# of decoder 1
embedding size 32
head 2
hidden size 512
表 4: 主要结果的超参数

训练开销。 我们比较了 PINNsFormer 与 PINN 的训练开销,因为 PINN 被认为是一种高效的框架,而基于 Transformer 的模型则因计算成本高昂而闻名。 该比较依赖于求解对流偏微分方程,详细信息请参见表5 在这里,我们出于验证目的改变伪序列长度 k 的超参数。 在实践中,我们对本文所有的实证实验都设置了k=5

Model
Training Time
(sec/epoch)
Computational
Overhead
GPU Memory
(MiB)
Memory
Overhead
PINNs 0.80 / 1311 /
PINsFormer k=3 2.10 2.62x 2207 1.68x
k=5 2.34 2.92x 2827 2.15x
k=10 3.10 3.87x 4803 3.66x
表 5: PINN 的开销比不同伪序列长度的 PINN 更重要。 计算和内存开销都是可以容忍的,并且随着 k 的增加而近似线性增长

评估指标。 我们给出 rMAE 和 rRMSE 的详细公式如下:

𝚛𝙼𝙰𝙴=n=1N|u^(xn,tn)u(xn,tn)|n=1N𝑟𝑒𝑠|u(xn,tn)|𝚛𝚁𝙼𝚂𝙴=n=1N|u^(xn,tn)u(xn,tn)|2n=1N|u(xn,tn)|2 (7)

其中 N 是测试点的数量,u^ 是神经网络近似值,u 是基本事实。

附录 B 附录 B:偏微分方程设置

我们为对流、反应扩散和一维反应方程提供详细的偏微分方程设置。

对流偏微分方程。 一维对流问题是双曲偏微分方程,通常用于模拟传输现象。 该系统具有周期性边界条件的公式如下:

ut+βux=0,x[0,2π],t[0,1]IC:u(x,0)=sin(x),BC:u(0,t)=u(2π,t) (8)

其中β是对流系数。 随着 β 的增加,其解的频率越高,PINN 就越难以逼近。 在这里,我们设置β=50

一维反应偏微分方程。 一维反应问题是双曲偏微分方程,通常用于模拟化学反应。 该系统具有周期性边界条件的公式如下:

utρu(1u)=0,x[0,2π],t[0,1]IC:u(x,0)=exp((xπ)22(π/4)2),BC:u(0,t)=u(2π,t) (9)

其中ρ是反应系数。 在这里,我们设置ρ=5 该方程有一个简单的解析解:

u𝚊𝚗𝚊𝚕𝚢𝚝𝚒𝚌𝚊𝚕=h(x)exp(ρt)h(x)exp(ρt)+1h(x) (10)

其中 h(x) 是初始条件的函数。

一维波偏微分方程。 一维波方程是一个双曲偏微分方程,用于描述波在一个空间维度上的传播。 它经常在物理和工程中用于模拟各种波动现象,例如声波、地震波和电磁波。 该系统具有周期性边界条件的公式如下:

2ut2β2ux2=0x[0,1],t[0,1]IC:u(x,0)=sin(πx)+12sin(βπx),u(x,0)t=0BC:u(0,t)=u(1,t)=0 (11)

其中β是波速。 在这里,我们指定 β=3。该方程有一个简单的解析解:

u(x,t)=sin(πx)cos(2πt)+12sin(βπx)cos(2βπt) (12)

二维纳维-斯托克斯偏微分方程。 二维纳维-斯托克斯方程是一个抛物线偏微分方程,由一对描述二维空间中不可压缩流体流动行为的偏微分方程组成。 它们广泛用于流体动力学,以模拟各种工程和科学应用中的流体运动,例如空气和水。 该系统的公式如下:

ut+λ1(uux+vuy)=px+λ2(2ux2+2uv2)vt+λ1(uvx+vvy)=py+λ2(2ux2+2uv2) (13)

其中u(t,x,y)v(t,x,y)分别是速度场的x分量和y分量,p(t,x,y) 是压力。 在这里,我们设置λ1=1λ2=0.01 该系统没有明确的解析解,而模拟解由Raissi等人(2019)给出。

附录 C 附录 C:其他结果

我们在这里展示了实验部分中包含的所有评估的地面实况解决方案、神经网络预测和绝对误差的图。 对流、一维反应、一维波和二维纳维-斯托克斯方程的图分别如图所示。