實(shí)驗(yàn)數(shù)據(jù)或觀察的數(shù)量對(duì)于基于機(jī)器學(xué)習(xí)的方法的開(kāi)發(fā)和應(yīng)用至關(guān)重要。具體而言,觀察值與過(guò)程變量或預(yù)測(cè)變量數(shù)量的比率很重要。當(dāng)觀察值與預(yù)測(cè)值的比率很小時(shí),可能會(huì)發(fā)生過(guò)度擬合。因此,必須通過(guò)將適當(dāng)?shù)膶?shí)驗(yàn)方法設(shè)計(jì)應(yīng)用于細(xì)胞培養(yǎng)實(shí)驗(yàn)來(lái)生成足夠的實(shí)驗(yàn)數(shù)據(jù)。盡管如此,在廣泛的過(guò)程變量和工程設(shè)計(jì)考慮因素下從大型生物反應(yīng)器中獲取數(shù)據(jù)既昂貴又耗時(shí)。此外,對(duì)于每個(gè)新產(chǎn)品,都應(yīng)該進(jìn)行一組新的實(shí)驗(yàn)來(lái)表征過(guò)程。因此,任何能夠減少對(duì)實(shí)驗(yàn)數(shù)據(jù)的依賴的方法都是有價(jià)值的。
遷移學(xué)習(xí)是一種可以通過(guò)利用細(xì)胞培養(yǎng)過(guò)程和產(chǎn)品的先驗(yàn)知識(shí)來(lái)減少數(shù)據(jù)不足問(wèn)題的方法。借助這種數(shù)據(jù)高效技術(shù),可以捕獲各種過(guò)程或產(chǎn)品的相互關(guān)聯(lián)的屬性,然后將其轉(zhuǎn)移到新過(guò)程中。換句話說(shuō),遷移學(xué)習(xí)的目標(biāo)是重新處理已經(jīng)在其它相互關(guān)聯(lián)的數(shù)據(jù)集上進(jìn)行過(guò)預(yù)訓(xùn)練的算法,并將這些算法應(yīng)用于觀察通常不足的新數(shù)據(jù)集。由于深度神經(jīng)網(wǎng)絡(luò)的流行,許多研究人員為此開(kāi)發(fā)了深度遷移學(xué)習(xí)算法。通常采用兩種策略來(lái)創(chuàng)建最初由大型數(shù)據(jù)集作為先驗(yàn)知識(shí)訓(xùn)練的深度遷移學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。
在第一種策略中,參數(shù)網(wǎng)絡(luò)的一些現(xiàn)有層被凍結(jié),這意味著它們?cè)谥匦掠?xùn)練過(guò)程中不會(huì)更新,而現(xiàn)有模型的其余部分使用新的目標(biāo)數(shù)據(jù)集進(jìn)行重新訓(xùn)練,然后超參數(shù)優(yōu)化。在重新訓(xùn)練和超參數(shù)調(diào)整過(guò)程之前,新參數(shù)也可能被附加到現(xiàn)有網(wǎng)絡(luò)。由于可以考慮各種拓?fù)鋪?lái)向網(wǎng)絡(luò)中的任何層添加新參數(shù),因此還需要進(jìn)行優(yōu)化研究以找到最佳拓?fù)洹?/span>
在第二種策略中,所有由源數(shù)據(jù)集初始化的網(wǎng)絡(luò)參數(shù)都使用目標(biāo)數(shù)據(jù)集重新計(jì)算。如果目標(biāo)數(shù)據(jù)集很小并且現(xiàn)有網(wǎng)絡(luò)有很多參數(shù),這種策略可能會(huì)導(dǎo)致過(guò)度擬合。
遷移學(xué)習(xí)越來(lái)越受歡迎,并已成功應(yīng)用于材料特性預(yù)測(cè)、藥物發(fā)現(xiàn)、故障檢測(cè)以及化學(xué)反應(yīng)預(yù)測(cè)等不同領(lǐng)域。一些研究人員還利用遷移學(xué)習(xí)來(lái)改進(jìn)生物系統(tǒng)中的模型預(yù)測(cè),例如通過(guò)將序列衍生知識(shí)從包括五種蛋白酶的源蛋白質(zhì)域轉(zhuǎn)移到目標(biāo)蛋白酶蛋白質(zhì)域來(lái)預(yù)測(cè)金屬蛋白酶中的底物切割位點(diǎn),通過(guò)將在Yarrowia lipolytica酵母數(shù)據(jù)上訓(xùn)練的模型轉(zhuǎn)移到其它產(chǎn)油酵母來(lái)預(yù)測(cè)包括脂質(zhì)和有機(jī)酸在內(nèi)的產(chǎn)品滴度,以及通過(guò)將在Saccharomyces cerevisiae釀酒酵母數(shù)據(jù)上訓(xùn)練的模型轉(zhuǎn)移到Trichoderma reesei里氏木霉來(lái)預(yù)測(cè)分泌途徑中的蛋白質(zhì)-蛋白質(zhì)相互作用。
遷移學(xué)習(xí)在生物反應(yīng)器規(guī)模放大中的具體應(yīng)用尚未在已發(fā)表的文獻(xiàn)中進(jìn)行研究,盡管最近,Rogers 等人 (2021) 展示了遷移學(xué)習(xí)在生物工藝開(kāi)發(fā)中的潛力。在這項(xiàng)研究中,開(kāi)發(fā)了人工神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè) Desmodesmus sp.(鏈帶藻) 和 Chlorella sorokiniana(一種新的葉黃素生產(chǎn)菌株,其可用數(shù)據(jù)有限)。盡管新菌株 Chlorella sorokiniana 可以產(chǎn)生比Desmodesmus sp.更高的細(xì)胞葉黃素含量,但它們具有相似的代謝途徑,這表明從Desmodesmus sp.培養(yǎng)物中轉(zhuǎn)移知識(shí)的可能性。新菌株進(jìn)一步提高產(chǎn)量。為此,從Desmodesmus sp.的補(bǔ)料分批培養(yǎng)中獲得的時(shí)程數(shù)據(jù),包括生物量濃度、入射光強(qiáng)度、硝酸鹽濃度和流入率以及葉黃素濃度,被用于訓(xùn)練 ANN 模型。然后使用 Chlorella sorokiniana 的單個(gè)數(shù)據(jù)集重新訓(xùn)練源 ANN 以創(chuàng)建兩個(gè)遷移學(xué)習(xí)模型:遷移模型#1,其中僅更新源 ANN 的最后一層,以及遷移模型#2,其中最后兩層來(lái)源 ANN 已更新。與僅在 Chlorella sorokiniana 的有限數(shù)據(jù)上訓(xùn)練的基準(zhǔn) ANN 相比,這兩種轉(zhuǎn)移模型都使預(yù)測(cè)誤差顯著降低了 50%。這個(gè)例子有效地展示了遷移學(xué)習(xí)如何有效地促進(jìn)生物工藝開(kāi)發(fā)中的知識(shí)遷移。
另一種方法涉及組合相關(guān)產(chǎn)品的數(shù)據(jù)集,以制作產(chǎn)品物理化學(xué)和生物學(xué)特性的分子描述符的組合訓(xùn)練數(shù)據(jù)集。可以使用計(jì)算方法生成分子描述符,例如預(yù)測(cè)定量構(gòu)效關(guān)系 (QSAR) 建模。盡管可以通過(guò)這種方法捕獲分子特征,但無(wú)法整合來(lái)自不同工藝的知識(shí),例如,使用不同細(xì)胞系或使用不同反應(yīng)器規(guī)模生產(chǎn)的同一產(chǎn)品,從而限制了利用該方法使用所有現(xiàn)有數(shù)據(jù)。
可以使用編碼技術(shù)(例如單熱編碼或標(biāo)簽編碼)來(lái)包含此類分類數(shù)據(jù)的數(shù)字表示,從而允許將工藝或產(chǎn)品標(biāo)識(shí)附加到訓(xùn)練數(shù)據(jù)中,以明確指定每組數(shù)據(jù)所對(duì)應(yīng)的單個(gè)過(guò)程或產(chǎn)品歸屬,但這種方法不能傳達(dá)不同數(shù)據(jù)之間隱藏的相似性。有趣的是,在 Hutter 等人(2021)的一篇論文中,提出了一種新方法,使用嵌入向量捕獲跨細(xì)胞系的可能相似性。在這種方法中,創(chuàng)建了一個(gè)抽象的 D 維嵌入空間來(lái)表示每個(gè)產(chǎn)品。附加到訓(xùn)練集的嵌入向量及其維度是通過(guò)超參數(shù)優(yōu)化研究確定的,包括定義高斯過(guò)程回歸模型中使用的自定義核函數(shù)。盡管開(kāi)發(fā)像這樣的定制模型比傳統(tǒng)方法需要更多的努力,但與傳統(tǒng)的單熱編碼模型相比,作者展示了使用高斯過(guò)程回歸模型的顯著改進(jìn)。此外,由于模型的知識(shí)轉(zhuǎn)移能力得到增強(qiáng),為新細(xì)胞系重新訓(xùn)練模型的實(shí)驗(yàn)次數(shù)顯著減少。
工藝過(guò)程之間的相似性也可以通過(guò)使用 PCA 方法生成的“載荷”計(jì)算的相似性因子在數(shù)值上表示。在 PCA 中計(jì)算的系數(shù)(也稱為權(quán)重)可以用于推導(dǎo)原始變量和投影變量或主成分之間的線性關(guān)系。這些權(quán)重稱為載荷。如果主成分的數(shù)量用??表示,?? 1 和?? 2 表示載荷矩陣,過(guò)程1和2的轉(zhuǎn)置矩陣分別為?? '1和?? '2,相似因子可以通過(guò)以下公式計(jì)算:
它介于 0 和 1 之間。對(duì)于兩個(gè)相似的過(guò)程,相似性因子更接近 1,而不同的過(guò)程具有更接近 0 的相似性因子。這種方法已成功應(yīng)用于跨規(guī)模比較生物制藥工藝過(guò)程,但尚未對(duì)知識(shí)轉(zhuǎn)移算法進(jìn)行檢查。在不久的將來(lái),將這些相似性指數(shù)作為附加特征包含在數(shù)據(jù)驅(qū)動(dòng)模型的訓(xùn)練中,可能會(huì)提高模型在相互關(guān)聯(lián)的過(guò)程之間傳遞知識(shí)和區(qū)分?jǐn)?shù)據(jù)的能力。
原文:M. K. Alavijeh, I. Baker, Y. Y. Lee, et al., Digitally enabled approaches for the scale up of mammalian cell bioreactors, Digital Chemical Engineering 4 (2022) 100040
