体内生物反应器中微生物种群密度的基于学习的控制

Sara Maria Brancato saramaria.brancato@unina.it
University of Naples Federico II Davide Salzano davide.salzano@unina.it
Scuola Superiore Meridionale Francesco De Lellis francesco.delellis@unina.it
University of Naples Federico II Davide Fiore davide.fiore@unina.it
University of Naples Federico II Giovanni Russo* giovarusso@unisa.it
University of Salerno Mario di Bernardo* mario.dibernardo@unina.it
University of Naples Federico II

摘要

使用微生物作为生物工厂的一个关键问题是使细胞群落达到并维持所需的密度和组成，以便它们能够有效地将其生物质转化为有用的化合物。生物反应器是实时细胞密度控制的有前景的技术平台。在这项工作中，我们开发了一种基于学习的策略来扩展可用控制算法的工具箱，这些算法能够调节生物反应器中单个细菌群体的密度。具体来说，我们使用了sim-to-real范例，其中采用使用一些数据校准的简单数学模型来生成控制器训练的合成数据。然后使用名为 Chi.Bio 的低成本生物反应器对最终的策略进行了体内彻底测试，评估性能和稳健性。此外，我们将性能与更传统的控制器（即 PI 和 MPC）进行了比较，确认基于学习的控制器在体内表现出相似的性能。我们的工作展示了基于学习的策略控制生物反应器中细胞密度的可行性，朝着将其用于控制微生物群落的组成迈出了一步。

关键词：

控制应用、基于学习的控制、体内验证、模拟到真实、合成生物学

*通讯作者

1简介

微生物，如细菌和酵母，已在工业中用作高效、低废物的生物工厂，能够将营养物质转化为有用的蛋白质或化学物质（Brenner 等人（2008）Brenner、You 和 Arnold；Satyanarayana（ 2009); Su 等人(2020)Su, Liu, Fang, and Zhang; Jullesson, David, Pfleger, and Nielsen 等人(2018)Choi, Park, Lee, and Lee Hug 等人人(2020)Hug、Krug 和 Müller)。这是通过将从头合成电路工程设计到细胞中或结合不同生物体的天然生物处理能力来实现的。在此背景下，一个重要的问题是如何利用细胞资源有效地将生物质转化为蛋白质生产，同时防止有毒副产物的积累(Mauri 等人(2020)Mauri, Gouzé, De Jong, and Cinquemani; Tian等人(2020)Tian、Liu、Cao、Zhang、Li、Liu、Du、Chen；等人(2018)Xu、Lybrand、Bennewitz、Tissier、Last、Pichersky 等人(2019)Lv、Qian 、杜、陈、周、徐）。使用生物反应器，可以在生长环境中达到并维持所需的细胞密度，从而为给定化学品的生物生产创造最佳的生长条件。图1展示了应用于细胞生长调节的自动化控制架构的示例。具体来说，通过在生长环境中引入新的营养物质来调节稀释度，可以实时调节培养物的密度。为此，可以设计外部控制器在计算机上运行，并通过评估室内密度测量值与要达到的所需密度水平之间的误差来自动调节生物反应器中的细胞密度。存在多种调节室内细胞群的策略，包括操纵恒化器稀释率的策略（De Leenheer 和 Smith（2003）），而其他策略则利用细胞株的遗传干预，并利用不同的控制输入，例如灯光(Gutiérrez Mena 等人(2022)Gutiérrez Mena、Kumar 和 Khammash) 或各种营养素(Treloar 等人(2020)Treloar、Fedorec、Ingalls 和 Barnes). 从控制设计的角度来看，现有方法利用传统控制器，如 PI（Kusuda 等人（2021）Kusuda、Shimizu 和 Toya）、非线性分段平滑方法或增益调度状态反馈策略（Fiore 等人（2021）Fiore、Della Rossa、Guarino 和 di Bernardo）。有些还利用计算能力通过机械模型（Bertaux 等人（2022）Bertaux，Sosa-Carrillo，Gross，Fraisse，Aditya，Furstenheim 和 Batt；Aditya 等人（2021）Aditya 来导出包含约束的控制律、Bertaux、Batt 和 Ruess；Zhu 等人(2000)Zhu、Zamamiri、Henson 和 Hjortsø) 或完全通过利用强化学习的数据驱动方法(Treloar 等人(2020)Treloar、Fedorec 、英格尔斯和巴恩斯）。

定量系统和合成生物学的最新发展导致越来越多地采用紧凑且具有成本效益的生物反应器，例如 Bertaux 等人 (2022)Bertaux, Sosa-Carrillo, Gross, Fraisse, Aditya, Furstenheim,和巴特； Steel 等人(2019)Steel, Habgood, Kelly, and Papachristodoulou; Wong 等人(2018)Wong, Mancuso, Kiriakov, Bashor, and Khalil. 这些生物反应器在统一平台中提供集成控制设备和多个传感器，能够在微生物培养中长时间精确控制环境条件，这使得它们对于控制微生物群落极具吸引力。在可用于生物生产的新型微生物群落快速原型设计的不同低成本开源生物反应器平台中，Chi.Bio (Steel 等人(2019)Steel, Habgood, Kelly, and Papachristodoulou) 提供了拥有受控静态环境的可能性，其中可以调节营养可用性和温度等培养参数，并且包括频繁测量细胞密度和体荧光的能力以及光遗传学驱动的可能性。该平台利用 PI 控制器来实时控制培养瓶中的细胞密度。尽管该控制器能够将细胞群的密度稳定并维持在所需的固定值，但控制器增益的最佳调整需要对受控系统的准确了解。

克服对准确、校准良好的数学模型的需求的另一种方法是利用基于学习的控制方法通过直接与系统交互来学习策略。正如（Treloar等人(2020)Treloar, Fedorec, Ingalls, and Barnes)提出的，使用五个并行生物反应器可以在24小时内学习到合适的控制律。然而，这种方法仅在实验室内进行了验证，并没有考虑到生物过程的随机性和可变性，这表明有必要对这种方法的可行性进行更多的研究。事实上，学习过程可能是“样本效率低下”，需要很长时间和大量的实验数据来学习该策略，这可能会阻碍其在生物学中的使用（参见 Buşoniu 等人(2018)Buşoniu, de Bruin,托利奇、科贝尔和帕伦科；(2005))。一种无需大量实验数据即可学习控制策略的可能解决方案来自sim-to-real方法，其中控制策略是在模拟环境中学习的，然后导出到真实环境中system (Rusu 等人(2017)Rusu, Večerík, Rothörl, Heess, Pascanu, and Hadsell; Tan 等人(2018)Tan, Zhang, Coumans, Iscen, Bai, Hafner, Bohez, and Vanhoucke; James 等人(2017)詹姆斯、戴维森和约翰斯）。这在生物系统的应用中尤其具有挑战性，因为它们不断进化和生长，并且其特点是细胞间的变异性、不确定性和其他干扰，这些干扰在合成数学模型中很难准确捕获。因此，一个关键的开放问题是了解使用模拟到真实方法训练的基于学习的控制器是否以及如何可以有效地部署体内来控制细菌种群。

在这项工作中，我们通过开发基于学习的控制器来解决这个问题，用于将生物反应器中的细胞密度调节到所需值。根据模拟到真实方法，控制律是通过与综合生成的数据交互来学习的。这些数据是从一个简单的模型生成的，该模型捕获了增长动态的主要特征。请注意，即使需要系统动力学的部分知识，通过一些开环实验获得的参数粗略校准也足以生成控制算法训练所需的数据。我们通过一组详尽的体内实验表明，可以填补模拟到真实的差距，并且可以转移使用简单、不准确的模型学习到的控制性能使用生物反应器进行的真实实验。我们将控制器的性能和鲁棒性与 Chi.Bio 中的板载 PI 控制器和模型预测控制器进行基准测试，该控制器是为了进行比较而开发的，利用用于生成用于学习的合成数据的简单模型 -基于控制器。

Refer to caption — 图1：自动化细胞生长设置：通过光密度测量来估计给定时间的细胞密度，而计算机自动执行控制律，能够通过添加新鲜培养基和丢弃废物来调节稀释度（从而调节室内的密度）。

2 控制问题的表述

我们将微生物培养室内的细菌物种的生长动力学视为以下形式的连续时间动态系统：

\begin{split}\dot{x}_{t}&=f(x_{t},u_{t}),\quad x_{0}=\tilde{x}_{0},\\ y_{t}&=\alpha\,x_{t},\end{split}

(1)

式中， $x_{t}\in\mathcal{X}$ 为 $t$ 时刻微生物培养室中细菌浓度， $\mathcal{X}\subseteq\mathbb{R}$ 为状态空间， $\tilde{x}_{0}\in\mathcal{X}$ 为状态空间。初始浓度， $u_{t}\in\mathcal{U}$ 是控制输入或泵速，作为微生物室中新鲜生长培养基的外源注射而传递， $\mathcal{U}\subseteq\mathbb{R}$ 是一组可行的输入， $f:\mathcal{X}\times\mathcal{U}\rightarrow\mathcal{X}$ 是定义系统动力学的矢量场，输出 $y\in[0,1]$ 是平台测量的光密度（OD），以任意单位表示。为了简单起见，我们假设 $\alpha$ 等于1，因此从现在开始我们将等效地指细菌浓度 $x$ 或光密度 $y$ 。

为了考虑到常见微生物学平台的技术限制，我们考虑控制输入只能以固定的离散时间步长应用的情况。因此，我们从以下离散时间动态系统开始设计控制策略：

x_{t_{k+1}}=x_{t_{k}}+\int_{t_{k}}^{t_{k+1}}f(x_{\tau},u_{t_{k}})\,d\tau,\quad x% _{t_{0}}=\tilde{x}_{0},

(2)

其中 $t_{k}\in\mathbb{N}_{\geq 0}$ 是离散时间， $u_{t_{k}}$ 是分段常量函数，定义在时间间隔 $[t_{k},t_{k+1})$ 中应用的常量泵速系统动力学 (1)。此外，请注意，当 $u_{t_{k}}\neq 0$ 时，即当新鲜介质被泵入腔室时，实验平台会自动以大于输入速率的速率从腔室中排出一些流体，以避免溢出来自容器的介质。考虑以下假设：

•

A1。浓度 x 通过 OD 测量进行量化
•

A2。每分钟收集一次测量值
•

A3。控制输入，即泵速受到限制以避免溢出

控制目标是在稳定状态下将腔室中的细菌浓度 $x$ 调节至某个期望值 $\bar{x}\in[0.2,1]$ ，该值对应于操作条件细胞呈指数增长，促进蛋白质的产生。

2.1 陈述基于学习的控制问题

以下(De Lellis 等人(2022)De Lellis, Coraggio, Russo, Musolesi, and di Bernardo;De Lellis 等人(2023)De Lellis, Coraggio, Russo, Musolesi, and di Bernardo)，先前的控制目标可以重新表述为基于学习的控制问题。具体来说，我们想要学习控制策略 $\pi:\mathcal{X}\rightarrow\mathcal{U}$ 来解决有限时间范围内的以下最优控制问题 $t_{N}\in\mathbb{N}_{>0}$ ：

$\displaystyle\max_{\pi}$	$\displaystyle\ \ \mathbb{E}[J^{\pi}],$	(3a)
s.t.	$\displaystyle\ \ x_{t_{k+1}}=x_{t_{k}}+\int_{t_{k}}^{t_{k+1}}f(x_{\tau},u_{t_{% k}})\,d\tau,\quad t_{k}\in\{0,\dots,t_{N-1}\},$	(3b)
	$\displaystyle\ \ u_{t_{k}}=\pi(x_{t_{k}}),\quad t_{k}\in\{0,\dots,t_{N-1}\},$	(3c)
	$\displaystyle\ \ x_{t_{0}}\ \text{given},$	(3d)

其中目标函数是折扣累积奖励，定义为：

J^{\pi}=r_{t_{N}}(x_{t_{N}})+\sum_{k=0}^{N-1}\gamma^{k}r(x_{t_{k}}),

(4)

其中 $r:\mathcal{X}\rightarrow\mathbb{R}$ 是学习代理收到的奖励, $\gamma$ 是等于 $0.99$ 的遗忘因子， $r_{t_{N}}:\mathcal{X}\rightarrow\mathbb{R}$ 是最终奖励。特别是，奖励函数被公式化为腔室中细菌密度与给定参考设定点 $\bar{x}$ 之间的类距离函数，如下所示：

r(x_{t_{k}})=-(x_{t_{k}}-\bar{x})^{2},

(5)

它引导学习代理实现并将细菌密度维持在参考设定点值 $\bar{x}$ 。

3控制设计和验证

为了解决上述学习问题，从而调节生物反应器中细菌种群的密度，我们利用所谓的sim-to-real方法设计了一种深度Q学习算法。具体来说，作为试验床物种，我们使用了 Gardner 等人(2000)Gardner, Cantor, and 设计的大肠杆菌 (E. coli)菌株。柯林斯嵌入了一个实现遗传切换开关（即可逆双稳态记忆机制）的质粒。

在本节中，我们将说明用于开发控制算法的三步流程（图2)。具体来说，首先，我们选择并校准了能够捕获微生物生长动态的动态模型。然后，使用数学模型生成神经网络训练的合成数据。最后，将经过训练的网络体内部署来控制生物反应器内的群体密度。

3.1 微生物生长模拟器建模

模型训练的合成数据的生成需要选择和参数化捕获细菌生长的主要动态特征的数学模型。描述生物反应器中细菌指数生长的已建立模型（Monod（1949））可以写为：

\dot{x}_{t}=\left(\mu-\frac{u_{t}}{\tau}\right)x_{t},

(6)

其中 $x$ 是细胞群的密度， $\mu$ 是细胞群的增长率， $\tau$ 是缩放因子， $u$ 代表我们的控制输入（即通过调节将新鲜介质输送到反应器中的泵的速度来施加稀释率）。上述模型中的所有量都是无量纲的。事实上，测得的光密度值介于 0 和 1 之间，分别对应于室内细菌的存在和丰富，并在实验开始时进行校准。为了参数化这个模型，我们进行了一次开环实验，以每 30 分钟随机变化的不同稀释率值在 Chi.Bio 中培养细菌。除非另有说明，所有实验均在 37 ${}^{o}$ C 的 luria 肉汤培养基中进行，补充有 $50\,\mu g/\mu L$ 卡那霉素和 $1\,mM$ 异丙醇 $\beta$ -D-1-硫代吡喃半乳糖苷（IPTG）。

$\mu$ 和 $\tau$ 的值是使用 MATLAB 中的最小二乘估计器根据实验数据估计的，并通过开环实验进行验证。在这些实验中，细胞生长 60 分钟。随后，使用最大可用稀释率 $0.02mL/s$ 稀释细胞培养物，直到光密度降至0.3以下。最后，每30分钟随机改变一次稀释率。图2（左下图）显示了模型生成的数据（蓝色）与 Chi.Bio 记录的真实数据（红色）之间的比较。请注意，该模型可以有效地捕获种群指数增长的动态和稀释效应。然而，正如预期的那样，系统轨迹的预测不是很准确，估计数据和记录数据之间的均方误差相对较高（百分比均方误差 (PMSE) 等于 $6\%$ )。现在的问题是，在生成合成数据以设计基于学习的控制器并在体内使用时，使用这样一个简单的模型是否有效。

3.2基于学习的控制器的训练和部署

我们实现了 DQN 算法(Mnih 等人(2015)Mnih, Kavukcuoglu, Silver, Rusu, Veness, Bellemare, Graves, Riedmiller, Fidjeland, Ostrovski, 等人)，其中神经网络逼近最优动作值函数（参见 Watkins 和 Dayan（1992）)。具体来说，神经网络用于根据 OD 度量 $x$ 和 OD 的期望参考值 $\bar{x}$ 来估计动作 $u$ ，这是神经网络网络输入。训练使用简化数学模型(6)生成的合成数据进行，而 $\bar{x}$ 是从离散集合 $\{0.2,\,0.3,\,\dots\,,\,0.9,\,1\}$ 中随机抽取的均匀分布在每一集。可能的控制动作 $u$ 是在允许的泵率的间隔 $[0,0.02]$ 中统一采取的17个离散值。该神经网络有两个全连接层，每个层有 64 个节点，由 ReLU 函数激活。训练使用 Adam Optimizer 进行，学习率为 0.001。我们使用模型 (6) 对智能体进行 100 集in-silico训练。每个情节包括 100 个步骤，每个时间步长等于 1 分钟，这是生物反应器的约束所施加的采样时间。合成 OD 测量 $x$ 是通过将 (6) 与较小的时间步长 $0.1\,\mathrm{min}$ 积分来生成的，以模拟连续时间动态细胞准确。累计奖励结果如图2.b所示。

一旦获得综合训练的 DQN，我们就实时实施控制策略来调节 Chi.Bio 内的 OD。生物反应器含有大肠杆菌培养物。宿主带有遗传切换开关的质粒的大肠杆菌菌株。图 2.c 中 OD 的时间演变证明了控制器在成功达到并维持设定为 0.5 的所需设定点方面的有效性。这是通过平均 10 分钟的稳定时间实现的，表明控制器能够高效、快速地稳定系统。

接下来，我们测试所提出的控制器改变所需 OD 的性能及其对影响细胞固有生长速率的培养物温度变化的鲁棒性。

3.3体内性能和稳健性评估

我们使用 Chi.Bio 进行了多次实验，测试了sim-to-real DQN 控制器的性能。在恢复阶段后，细胞在丰富的营养物质下生长，我们将样品稀释至目标 OD 值 0.8。我们将该参考 OD 值保留 30 分钟。之后，我们将目标值切换为 0.65，并在 30 分钟后将其切换为 0.5，持续 30 分钟。实验重复 3 次，每个期望的 OD 值分别为 0.8、0.65 和 0.5。每个实验场景的受控 OD 平均值以及标准差如图 3a-b 所示。

此外，我们还评估了 DQN 控制器对温度变化的鲁棒性，温度变化直接影响细胞的生长速率。事实上，相对于 37°C 的标称条件，我们通过实验观察到当温度更改为 30°C 时生长速率 $10\%$ 下降。测试在 37°C 下开始实验，将 OD 调节至目标值 0.5，持续 30 分钟。之后，我们将 Chi.Bio 的温度切换至 30°C。该实验的结果如图3.c 所示。可以注意到，尽管由于捕获其鲁棒性的温度变化而导致细胞的固有生长速率受到扰动，但控制器成功地将 OD 维持在所需值。

4控制基准和比较

接下来，我们将所提出的基于学习的控制器与合成生物学应用中经常使用的用于生化过程调节的其他控制器类型（即比例积分（PI）控制器和模型预测控制器（MPC））进行比较。这里考虑的 PI 控制器已经嵌入到 Chi.Bio (Steel 等人(2019)Steel, Habgood, Kelly, and Papachristodoulou)中，而 MPC 是为了比较而专门设计的。根据所需 OD 值和测量的 OD 之间的误差，PI 控制器评估比例作用和两种积分作用：一种经典作用用于抑制稳态误差，另一种用于补偿泵中故障垫圈的影响。 MPC 通过在每个控制周期解决优化问题来评估必须将哪些控制输入值应用于系统。具体来说，在每个时间步，它在长度 $T_{h}=5\,\mathrm{min}$ 的有限预测范围内解决优化问题，搜索最小化成本函数的策略：

J=\sum_{k=0}^{N-1}{c_{k}}+V_{F}(x_{N}),

(7)

其中成本项 $c_{k}$ 定义为：

c_{k}=\begin{cases}100&\quad\text{if }u\notin[0,0.02]\\ (x_{k}-\bar{x})^{2}&\quad\text{otherwise }\end{cases},

(8)

从而对违反执行器约束的行为进行处罚；最终成本定义为 $V_{F}(x_{N})=(x_{N}-\bar{x})^{2}$ 。该算法采用模型 (6) 来运行优化问题，并通过粒子群优化器（Bonyadi 和 Michalewicz(2017)）来求解。作为该优化问题的解而获得的控制输入然后在下一个 1 分钟的时间间隔（即控制范围 $T$ )内应用于实际系统。

4.1比较

为了定量评估控制算法的性能，我们使用了两个积分指标，即积分平方误差 (ISE) 和积分时间绝对误差 (ITAE)，它们分别提供瞬态和静态性能的定量测量。更准确地说，ISE 和 ITAE 被定义为 (Fiore 等人(2016)Fiore, Perrino, di Bernardo, and di Bernardo; Guarino 等人(2020)Guarino, Fiore, Salzano, and di Bernardo)：

\mathrm{ISE}=\frac{1}{T}\int_{0}^{t}(\bar{x}-x(\tau))^{2}d\tau,\quad\mathrm{% ITAE}=\frac{1}{T}\int_{0}^{t}\tau|\bar{x}-x(\tau)|d\tau,

(9)

其中 $\bar{x}$ 是所需密度， $T$ 是控制范围。图4所示的实验结果证实了所有控制器调节感兴趣群体密度的能力。此外，表1显示了控制器的性能，将基于学习的控制策略与PI和MPC进行了比较，确认了sim-to-real范式在生物环境。请注意，尽管使用基于不确定、简单的模拟到真实方法，但所有控制器都具有与 DQN 相当的性能，DQN 提供与 MPC 相当的性能和鲁棒性（参见表 1)。细菌生长动力学模型。

Reference 0.8
	DQN	PI	MPC
ISE	$0.039$	$0.046$	$0.035$
ITAE	$12.21$	$12.38$	$10.44$
Reference 0.65
ISE	$0.032$	$0.039$	$0.092$
ITAE	$11.90$	$10.50$	$9.38$
Reference 0.5
ISE	$0.051$	$0.111$	$0.117$
ITAE	$7.43$	$11.49$	$12.98$

Temperature 37°C
	DQN	PI	MPC
ISE	$0.045$	$0.033$	$0.032$
ITAE	$12.42$	$9.65$	$11.60$
Temperature 30°C
ISE	$0.031$	$0.025$	$0.042$
ITAE	$11.84$	$9.12$	$11.54$

表1：通过 ISE 和 ITAE 指标进行控制性能和鲁棒性比较

5讨论

我们调节E的生长。通过使用基于机器学习的外部控制方法来调节 OD 测量，在小型恒浊器中检测大肠杆菌种群。为了解决可能导致该算法在合成生物学应用中不切实际的数据效率问题，我们采用并通过实验验证了sim-to-real范式的使用。特别是，该策略最初是通过细胞生长数学模型的训练获得的。该模型通过有限数量的实验进行参数化，使我们能够满足训练阶段所需的大量数据要求。随后，我们通过体内实验测试对其进行了验证。我们的实验证实了这种方法的可行性，证明可以通过基于学习的控制器缩小模拟与实验之间的差距，从而在体内实验期间有效调节像Chi.Bio这样的紧凑型生物反应器中的种群密度。从这里提出的结果开始，未来的工作将集中于开发基于学习的控制器，利用两种不同细胞群生长速率的差异来调节它们在生物反应器内的相对密度，这是一个更难解决的问题。传统方法。

我们衷心感谢 TIGEM 研究所和 Scuola Superiore Meridionale 的支持和资源，为本文的成功完成做出了贡献。

参考

[Aditya et al.(2021)Aditya, Bertaux, Batt, and Ruess] Chetan Aditya, François Bertaux, Gregory Batt, and Jakob Ruess. A light tunable differentiation system for the creation and control of consortia in yeast. Nature Communications, 12(1):5829, 2021.
[Bertaux et al.(2022)Bertaux, Sosa-Carrillo, Gross, Fraisse, Aditya, Furstenheim, and Batt] François Bertaux, Sebastián Sosa-Carrillo, Viktoriia Gross, Achille Fraisse, Chetan Aditya, Mariela Furstenheim, and Gregory Batt. Enhancing bioreactor arrays for automated measurements and reactive control with reacsight. Nature Communications, 13(1):3363, 2022.
[Bertsekas(2005)] Dimitri P. Bertsekas. Dynamic Programming and Optimal Control, volume I. Athena Scientific, Belmont, MA, USA, 3rd edition, 2005.
[Bonyadi and Michalewicz(2017)] Mohammad Reza Bonyadi and Zbigniew Michalewicz. Particle swarm optimization for single objective continuous space problems: a review. Evolutionary Computation, 25(1):1–54, 2017.
[Brenner et al.(2008)Brenner, You, and Arnold] Katie Brenner, Lingchong You, and Frances H Arnold. Engineering microbial consortia: a new frontier in synthetic biology. Trends in Biotechnology, 26(9):483–489, 2008.
[Buşoniu et al.(2018)Buşoniu, de Bruin, Tolić, Kober, and Palunko] Lucian Buşoniu, Tim de Bruin, Domagoj Tolić, Jens Kober, and Ivana Palunko. Reinforcement learning for control: Performance, stability, and deep approximators. Annual Reviews in Control, 46:8–28, 2018.
[Choi et al.(2018)Choi, Park, Lee, and Lee] Yoojin Choi, Tae Jung Park, Doh C Lee, and Sang Yup Lee. Recombinant escherichia coli as a biofactory for various single-and multi-element nanomaterials. Proceedings of the National Academy of Sciences, 115(23):5944–5949, 2018.
[De Leenheer and Smith(2003)] Patrick De Leenheer and Hal Smith. Feedback control for chemostat models. Journal of Mathematical Biology, 46(1):48–70, 2003.
[De Lellis et al.(2022)De Lellis, Coraggio, Russo, Musolesi, and di Bernardo] Francesco De Lellis, Marco Coraggio, Giovanni Russo, Mirco Musolesi, and Mario di Bernardo. Control-tutored reinforcement learning: Towards the integration of data-driven and model-based control. In Proceedings of the 4th Annual Learning for Dynamics and Control Conference (L4DC 2022), volume 168 of Proceedings of Machine Learning Research, pages 1048–1059. PMLR, 2022.
[De Lellis et al.(2023)De Lellis, Coraggio, Russo, Musolesi, and di Bernardo] Francesco De Lellis, Marco Coraggio, Giovanni Russo, Mirco Musolesi, and Mario di Bernardo. CT-DQN: Control-tutored deep reinforcement learning. In Proceedings of the 5th Annual Learning for Dynamics and Control Conference (L4DC 2023), volume 211 of Proceedings of Machine Learning Research, pages 941–953. PMLR, 2023.
[Fiore et al.(2021)Fiore, Della Rossa, Guarino, and di Bernardo] Davide Fiore, Fabio Della Rossa, Agostino Guarino, and Mario di Bernardo. Feedback ratiometric control of two microbial populations in a single chemostat. IEEE Control Systems Letters, 6:800–805, 2021.
[Fiore et al.(2016)Fiore, Perrino, di Bernardo, and di Bernardo] Gianfranco Fiore, Giansimone Perrino, Mario di Bernardo, and Diego di Bernardo. In vivo real-time control of gene expression: a comparative analysis of feedback control strategies in yeast. ACS Synthetic Biology, 5(2):154–162, 2016.
[Gardner et al.(2000)Gardner, Cantor, and Collins] Timothy S Gardner, Charles R Cantor, and James J Collins. Construction of a genetic toggle switch in Escherichia coli. Nature, 403(6767):339–342, 2000.
[Guarino et al.(2020)Guarino, Fiore, Salzano, and di Bernardo] Agostino Guarino, Davide Fiore, Davide Salzano, and Mario di Bernardo. Balancing cell populations endowed with a synthetic toggle switch via adaptive pulsatile feedback control. ACS Synthetic Biology, 9(4):793–803, 2020.
[Gutiérrez Mena et al.(2022)Gutiérrez Mena, Kumar, and Khammash] Joaquín Gutiérrez Mena, Sant Kumar, and Mustafa Khammash. Dynamic cybergenetic control of bacterial co-culture composition via optogenetic feedback. Nature Communications, 13(1):4808, 2022.
[Hug et al.(2020)Hug, Krug, and Müller] Joachim J Hug, Daniel Krug, and Rolf Müller. Bacteria as genetically programmable producers of bioactive natural products. Nature Reviews Chemistry, 4(4):172–193, 2020.
[James et al.(2017)James, Davison, and Johns] Stephen James, Andrew J Davison, and Edward Johns. Transferring end-to-end visuomotor control from simulation to real world for a multi-stage task. In Proceedings of the 1st Annual Conference on Robot Learning, volume 78 of Proceedings of Machine Learning Research, pages 334–343. PMLR, 2017.
[Jullesson et al.(2015)Jullesson, David, Pfleger, and Nielsen] David Jullesson, Florian David, Brian Pfleger, and Jens Nielsen. Impact of synthetic biology and metabolic engineering on industrial production of fine chemicals. Biotechnology Advances, 33(7):1395–1402, 2015.
[Kusuda et al.(2021)Kusuda, Shimizu, and Toya] Minori Kusuda, Hiroshi Shimizu, and Yoshihiro Toya. Reactor control system in bacterial co-culture based on fluorescent proteins using an arduino-based home-made device. Biotechnology Journal, 16(12):2100169, 2021.
[Lv et al.(2019)Lv, Qian, Du, Chen, Zhou, and Xu] Yongkun Lv, Shuai Qian, Guocheng Du, Jian Chen, Jingwen Zhou, and Peng Xu. Coupling feedback genetic circuits with growth phenotype for dynamic population control and intelligent bioproduction. Metabolic Engineering, 54:109–116, 2019.
[Mauri et al.(2020)Mauri, Gouzé, De Jong, and Cinquemani] Marco Mauri, Jean-Luc Gouzé, Hidde De Jong, and Eugenio Cinquemani. Enhanced production of heterologous proteins by a synthetic microbial community: Conditions and trade-offs. PLOS Computational Biology, 16(4):e1007795, 2020.
[Mnih et al.(2015)Mnih, Kavukcuoglu, Silver, Rusu, Veness, Bellemare, Graves, Riedmiller, Fidjeland, Ostrovski, et al.] Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A Rusu, Joel Veness, Marc G Bellemare, Alex Graves, Martin Riedmiller, Andreas K Fidjeland, Georg Ostrovski, et al. Human-level control through deep reinforcement learning. nature, 518(7540):529–533, 2015.
[Monod(1949)] Jacques Monod. The growth of bacterial cultures. Annual review of microbiology, 3(1):371–394, 1949.
[Rusu et al.(2017)Rusu, Večerík, Rothörl, Heess, Pascanu, and Hadsell] Andrei A. Rusu, Matej Večerík, Thomas Rothörl, Nicolas Heess, Razvan Pascanu, and Raia Hadsell. Sim-to-real robot learning from pixels with progressive nets. In Proceedings of the 1st Annual Conference on Robot Learning, volume 78 of Proceedings of Machine Learning Research, pages 262–270. PMLR, 2017.
[Satyanarayana(2009)] Tulasi Satyanarayana. Yeast biotechnology: diversity and applications. Springer, 2009.
[Steel et al.(2019)Steel, Habgood, Kelly, and Papachristodoulou] Harrison Steel, Robert Habgood, Ciarán Kelly, and Antonis Papachristodoulou. Chi. Bio: An open-source automated experimental platform for biological science research. BioRxiv, page 796516, 2019.
[Su et al.(2020)Su, Liu, Fang, and Zhang] Yuan Su, Chuan Liu, Huan Fang, and Dawei Zhang. Bacillus subtilis: a universal cell factory for industry, agriculture, biomaterials and medicine. Microbial cell factories, 19(1):1–12, 2020.
[Tan et al.(2018)Tan, Zhang, Coumans, Iscen, Bai, Hafner, Bohez, and Vanhoucke] Jie Tan, Tingnan Zhang, Erwin Coumans, Atil Iscen, Yunfei Bai, Danijar Hafner, Steven Bohez, and Vincent Vanhoucke. Sim-to-real: Learning agile locomotion for quadruped robots. arXiv preprint arXiv:1804.10332, 2018.
[Tian et al.(2020)Tian, Liu, Cao, Zhang, Li, Liu, Du, and Chen] Rongzhen Tian, Yanfeng Liu, Yanting Cao, Zhongjie Zhang, Jianghua Li, Long Liu, Guocheng Du, and Jian Chen. Titrating bacterial growth and chemical biosynthesis for efficient n-acetylglucosamine and n-acetylneuraminic acid bioproduction. Nature Communications, 11(1):5078, 2020.
[Treloar et al.(2020)Treloar, Fedorec, Ingalls, and Barnes] Neythen J Treloar, Alex JH Fedorec, Brian Ingalls, and Chris P Barnes. Deep reinforcement learning for the control of microbial co-cultures in bioreactors. PLoS Computational Biology, 16(4):e1007783, 2020.
[Watkins and Dayan(1992)] Christopher JCH Watkins and Peter Dayan. Q-learning. Machine Learning, 8(3):279–292, 1992.
[Wong et al.(2018)Wong, Mancuso, Kiriakov, Bashor, and Khalil] Brandon G Wong, Christopher P Mancuso, Szilvia Kiriakov, Caleb J Bashor, and Ahmad S Khalil. Precise, automated control of conditions for high-throughput growth of yeast and bacteria with evolver. Nature Biotechnology, 36(7):614–623, 2018.
[Xu et al.(2018)Xu, Lybrand, Bennewitz, Tissier, Last, and Pichersky] Haiyang Xu, Daniel Lybrand, Stefan Bennewitz, Alain Tissier, Robert L Last, and Eran Pichersky. Production of trans-chrysanthemic acid, the monoterpene acid moiety of natural pyrethrin insecticides, in tomato fruit. Metabolic Engineering, 47:271–278, 2018.
[Zhu et al.(2000)Zhu, Zamamiri, Henson, and Hjortsø] Guang-Yan Zhu, Abdelqader Zamamiri, Michael A Henson, and Martin A Hjortsø. Model predictive control of continuous yeast bioreactors using cell population balance models. Chemical Engineering Science, 55(24):6155–6167, 2000.