機器學(xué)習(xí)模型
有一系列機器學(xué)習(xí)方法可應(yīng)用于模擬生物反應(yīng)器放大的問題。表 2 列出了這些技術(shù)及其一般優(yōu)缺點。
表2. 機器學(xué)習(xí)方法的一般優(yōu)缺點。

人工神經(jīng)網(wǎng)絡(luò) (ANN) 是最有前途的機器學(xué)習(xí)技術(shù)之一,可應(yīng)用于生物反應(yīng)器規(guī)模縮放??偟膩碚f,人工神經(jīng)網(wǎng)絡(luò)對非線性復(fù)雜系統(tǒng)進行建模的能力使人工神經(jīng)網(wǎng)絡(luò)成為增長最快的數(shù)據(jù)驅(qū)動生化系統(tǒng)建模方法之一。此外,ANN 模型可以同時預(yù)測多個響應(yīng)變量,同時也可以將多個自變量引入輸入層。例如,可以構(gòu)建 ANN 來預(yù)測生物反應(yīng)器內(nèi)的不同代謝物濃度。
ANN 是由輸入層(第一層)、輸出層(最后一層)和位于輸入層和輸出層之間的隱藏層組成的多層模型。人工神經(jīng)網(wǎng)絡(luò)是高度特定于問題的,并且沒有通用的策略可用于構(gòu)建網(wǎng)絡(luò)拓撲,主要是因為:
雖然駐留在輸入和輸出層中的節(jié)點數(shù)由自變量和因變量的數(shù)量指定,但沒有一般規(guī)則來確定隱藏層的數(shù)量,且隱藏節(jié)點的數(shù)量根據(jù)問題的復(fù)雜性而變化。
在 ANN 架構(gòu)中,節(jié)點可以完全或部分連接;
傳遞函數(shù)種類繁多,例如線性函數(shù)、S形函數(shù)和雙曲正切函數(shù),用于處理在隱藏層和輸出層中的每個節(jié)點的輸出值;
有相當(dāng)多的學(xué)習(xí)算法,例如 Levenberg-Marquardt、隨機梯度下降和自適應(yīng)矩估計,可用于訓(xùn)練模型;以及
還有其它超參數(shù)和層操作,如信息失落、訓(xùn)練迭代次數(shù)、批次大小和學(xué)習(xí)率需要確定
考慮到這一點,應(yīng)該采用優(yōu)化策略來調(diào)整網(wǎng)絡(luò)的超參數(shù)并確定其最佳拓撲。這個優(yōu)化過程可能很耗時,特別是對于由高維數(shù)據(jù)集訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)。
ANN 模型定制的優(yōu)點是這些模型非常靈活,可以用來捕獲各種系統(tǒng)中數(shù)據(jù)的底層結(jié)構(gòu),例如復(fù)雜的生化過程。此外,還開發(fā)了許多其它模型來模擬生物過程,其中包括遞歸神經(jīng)網(wǎng)絡(luò) (RNN)、卷積神經(jīng)網(wǎng)絡(luò) (CNN)、圖神經(jīng)網(wǎng)絡(luò) (GNN) 和徑向基神經(jīng)網(wǎng)絡(luò) (RBNN)。
人工神經(jīng)網(wǎng)絡(luò)已成功用于細胞培養(yǎng)建模,包括蛋白質(zhì)糖基化的預(yù)測、培養(yǎng)基成分的優(yōu)化以及預(yù)測蛋白質(zhì)聚集。此外,一些文獻報道了使用 ANN 來估計反應(yīng)器流體動力學(xué)。Patel 和 Thibault (2009) 建立了一個前饋神經(jīng)網(wǎng)絡(luò)來預(yù)測好氧發(fā)酵中的 kLa 值。作者試圖調(diào)和由不同理論方法確定的 kLa 數(shù)據(jù),即動態(tài)方法、穩(wěn)態(tài)方法、氧氣平衡法和二氧化碳氣體平衡法,而不是對通過這些方法獲得的 kLa 值進行平均。ANN 被證明比其它復(fù)雜的傳統(tǒng)數(shù)據(jù)協(xié)調(diào)算法更簡單。研究表明,人工神經(jīng)網(wǎng)絡(luò)預(yù)測的 kLa 值比平均技術(shù)更精確,與傳統(tǒng)數(shù)據(jù)協(xié)調(diào)方法計算的值相當(dāng)。
在另一項研究中,人工神經(jīng)網(wǎng)絡(luò)被應(yīng)用于預(yù)測不同的流體動力學(xué)和傳質(zhì)參數(shù),例如氣體滯留率、kLa 和氣泡直徑。包含 7,374 個數(shù)據(jù)點的大型數(shù)據(jù)集由反應(yīng)器幾何形狀、物理化學(xué)特性和操作變量組成,用于訓(xùn)練和測試開發(fā)的神經(jīng)網(wǎng)絡(luò)。開發(fā)的人工神經(jīng)網(wǎng)絡(luò)在預(yù)測方面是準確的,并提供了一個成功的經(jīng)驗相關(guān)性替代方案。
遞歸神經(jīng)網(wǎng)絡(luò)也已用于預(yù)測哺乳動物細胞生物反應(yīng)器中的關(guān)鍵變量,包括單克隆抗體滴度、活細胞密度和活性,以及葡萄糖和乳酸濃度。RNN 提供的時間記憶不是傳統(tǒng) ANN 的特征,這使得 RNN 成為強大的數(shù)據(jù)驅(qū)動工具,用于連續(xù)輸入數(shù)據(jù),包括時間序列數(shù)據(jù),例如代謝物濃度的時間過程變化。在這項研究中,創(chuàng)建了兩個 RNN 模型,分別命名為特定 RNN 和通用 RNN。特定的 RNN 是根據(jù)從用于生產(chǎn)單一抗體產(chǎn)品的大型生物反應(yīng)器獲得的數(shù)據(jù)進行訓(xùn)練的,而通用 RNN 是根據(jù)在小型生物反應(yīng)器中生成的四種不同單克隆抗體產(chǎn)品的組合數(shù)據(jù)進行訓(xùn)練的。這項研究的結(jié)果表明,這些模型在計算不同規(guī)模的細胞代謝物濃度方面具有適當(dāng)?shù)念A(yù)測能力。根據(jù)特定過程的數(shù)據(jù)訓(xùn)練的特定 RNN 比通用 RNN 具有更高的準確性,因為后者給出了偏離實驗值的細胞代謝物和細胞濃度的預(yù)測。這對于預(yù)測葡萄糖 (R2 = 0.83) 和乳酸濃度 (R2 = 0.95) 最為重要。特定過程中的代謝差異和改進的補液策略被認為是觀察到的差異的原因。
基于樹的模型也是一類高性能機器學(xué)習(xí)監(jiān)督算法,可用于描述自變量和因變量之間的高度非線性關(guān)系,使其成為建模本質(zhì)上是非線性的生物系統(tǒng)的潛在工具。基于樹的模型的其它突出優(yōu)勢包括它們對缺失值和異常值的不敏感性、它們衡量特征重要性的能力、它們的可解釋性,以及它們在過度擬合和欠擬合時改進的穩(wěn)健性。隨機森林是由多個并行決策樹組成的基于樹的集成。隨機森林可用于回歸和分類問題。隨機森林回歸工具由通過遞歸分區(qū)方法創(chuàng)建的去相關(guān)回歸樹組成。每棵樹都用于根據(jù)獨立采樣的隨機向量的值預(yù)測響應(yīng)。隨機森林已被用作預(yù)測蛋白質(zhì)結(jié)構(gòu)的分類器算法,預(yù)測蛋白質(zhì)-蛋白質(zhì)/配體相互作用,生物反應(yīng)器故障檢測和微生物網(wǎng)絡(luò)分析。隨機森林作為預(yù)測生物量和微生物或細胞代謝物的回歸工具的應(yīng)用也在多項研究中進行了分析, 表明了它們在模擬不同規(guī)模生物反應(yīng)器內(nèi)代謝物濃度的潛力。
梯度提升方法也被認為是非常強大的基于樹的集成。這種方法對異常值具有穩(wěn)健性。該技術(shù)還能夠自動合并預(yù)測變量之間的交互作用。與隨機森林模型不同,增強算法是一組順序決策樹,這些樹經(jīng)過迭代訓(xùn)練和增強,用于重新加權(quán)現(xiàn)有樹集合建模不佳的觀察結(jié)果。
極端梯度提升 (XGBoost) 是一種可擴展的樹提升算法,其僅需要最少的計算資源,具有良好的通用性和高可解釋性。XGBoost 已應(yīng)用于許多系統(tǒng),以識別生物分子反應(yīng)坐標,預(yù)測革蘭氏陰性菌的抗菌素耐藥性,預(yù)測發(fā)酵產(chǎn)物并確定潛在的抗病毒藥物和抗病毒的中和抗體。
這些基于樹的算法的多功能性已經(jīng)在蛋白質(zhì)工程領(lǐng)域得到證實并且由于其可解釋性和特征選擇能力,預(yù)計它們將有相當(dāng)大的潛力為復(fù)雜生物過程開發(fā)策略的未來數(shù)據(jù)驅(qū)動評估做出貢獻。
另一種流行的機器學(xué)習(xí)方法是支持向量機 (SVM) 分析,它可用于分類和回歸。SVM 模型是一種基于核的非參數(shù)數(shù)據(jù)驅(qū)動方法。核函數(shù)用于將原始輸入從原始特征空間轉(zhuǎn)換到更高維空間。SVM 算法中可以使用各種核函數(shù),即線性函數(shù)、多項式函數(shù)、狄利克雷函數(shù)、徑向基函數(shù)和 S 形函數(shù)。與每個內(nèi)核函數(shù)關(guān)聯(lián)的參數(shù)通過適當(dāng)?shù)男阅軆?yōu)化方法進行調(diào)整。SVM 以其處理高維數(shù)據(jù)集的能力而聞名。它們在為不同系統(tǒng)建模時也具有內(nèi)存效率和靈活性。
除了它們在生物學(xué)中廣泛用于預(yù)測蛋白質(zhì)和酶功能、轉(zhuǎn)錄起始位點的鑒定和基因表達數(shù)據(jù)的分類之外,一些研究人員已經(jīng)將 SVM 應(yīng)用于生物反應(yīng)器模型。SVM 算法也已用于預(yù)測不同規(guī)模的生物反應(yīng)器性能。作者開發(fā)了基于內(nèi)核的支持向量回歸和偏最小二乘回歸,以根據(jù)在不同規(guī)模下(包括 80 L、400 L、2,000 L 和12,000 L)的抗體終濃度和乳酸終濃度,分析CHO細胞培養(yǎng)性能。以 80 L 規(guī)模開發(fā)的模型預(yù)測 12,000 L 生產(chǎn)規(guī)模生物反應(yīng)器性能的能力低于以 2,000 L 規(guī)模開發(fā)的模型的能力。與每種規(guī)模的單獨數(shù)據(jù)集相比,跨規(guī)模編譯數(shù)據(jù)并沒有提高預(yù)測準確性。這歸因于在較小規(guī)模(即 80 L 至 2,000 L)下獲得的噪聲數(shù)據(jù)。盡管如此,與本研究中同樣檢查的更簡單的 PLS 模型相比,SVM 模型在處理這些噪聲數(shù)據(jù)方面更加穩(wěn)健,顯示了這種先進方法的優(yōu)勢。
高斯過程算法是另一種非參數(shù)的、基于內(nèi)核的機器學(xué)習(xí)技術(shù),可應(yīng)用于縮放生物反應(yīng)器。這種方法在確定預(yù)測的置信區(qū)間方面具有明顯優(yōu)勢。計算由平均值和方差表示的正態(tài)分布作為高斯過程模型的輸出。平均值被分配給最可能的預(yù)測值,而置信區(qū)間由方差確定。然而,對大型數(shù)據(jù)集使用高斯過程在計算上可能存在問題。研究人員已成功地將高斯過程應(yīng)用于生物系統(tǒng),以優(yōu)化細胞培養(yǎng)基、估計生物量濃度、預(yù)測時間依賴性代謝物以及鑒定代謝途徑中的酶。
正則化方法在具有大量相關(guān)參數(shù)的生物系統(tǒng)的數(shù)據(jù)驅(qū)動分析中尤其可以發(fā)揮重要作用,因為這些方法同時考慮了模型擬合和特征選擇。如圖 4 所示,生物反應(yīng)器中可能會出現(xiàn)不同變量之間的顯著相關(guān)性(稱為多重共線性),這使得這種縮放方法特別有吸引力。盡管多重共線性可能不會影響模型預(yù)測,但強多重共線性會導(dǎo)致對自變量對響應(yīng)變量影響的嚴重誤導(dǎo)性解釋,以及不穩(wěn)定和有偏見的統(tǒng)計分析?;谡齽t化技術(shù)的懲罰回歸模型的開發(fā)可以減輕這些多重共線性問題。為此,通過以下常用的正則化方法將懲罰項添加到誤差函數(shù)(也稱為損失函數(shù))中:
L1 正則化(也稱為 L1 范數(shù)和最小絕對收縮和選擇算子 (LASSO))將模型參數(shù)的絕對值之和合并到懲罰損失函數(shù)中。使用此正則化器,未使用的參數(shù)變?yōu)榱?;因此,通過消除對模型的預(yù)測能力沒有顯著影響的冗余特征來簡化模型。盡管如此,L1 范數(shù)無法識別協(xié)變量的正確選擇,而是從多個相關(guān)變量中隨機選擇一個變量。此外,當(dāng)預(yù)測變量的數(shù)量遠大于觀測值的數(shù)量時,L1 范數(shù)無效。
L2 正則化(也稱為 L2 范數(shù)和嶺正則化)將模型參數(shù)的平方值之和納入懲罰損失函數(shù)。與 L1 范數(shù)相比,L2 范數(shù)不排除任何特征,而是降低了最不重要特征的系數(shù)大小。因此,使用 L2 范數(shù)進行特征選擇受到限制。
彈性網(wǎng)絡(luò)正則化結(jié)合了 L1 和 L2 正則化方法。由于 L1- 和 L2-范數(shù)的優(yōu)點都包含在彈性網(wǎng)絡(luò)正則化器中,因此它通常優(yōu)于單獨的 L1- 和 L2-范數(shù)。2003 年提出彈性網(wǎng)的 Zou 和 Hastie 證明了當(dāng)預(yù)測變量的數(shù)量遠大于觀測值的數(shù)量時彈性網(wǎng)的改進能力。
這些正則化方法已應(yīng)用于代謝通量分析和蛋白質(zhì)組學(xué)的特征選擇,以及提供細胞培養(yǎng)生物反應(yīng)器的簡化表示。Severson等人 (2015) 利用帶有Monte Carlo采樣的彈性網(wǎng)來預(yù)測抗體生產(chǎn)過程的滴度和產(chǎn)品質(zhì)量屬性。在 Badsha 等人 (2016) 的研究中,還開發(fā)了 LASSO 和彈性凈回歸模型,以將細胞生長、抗體產(chǎn)生、葡萄糖、乳酸、氨離子和谷氨酰胺濃度與 CHO 細胞的關(guān)鍵細胞內(nèi)代謝物聯(lián)系起來。比較為每個模型輸出確定的重疊重要特征,作者指出了基于細胞代謝的模型輸出之間的可能關(guān)系,顯示了這些數(shù)據(jù)驅(qū)動方法在識別細胞代謝物之間合理關(guān)聯(lián)方面的潛在用途。
