實驗數(shù)據(jù)或觀察的數(shù)量對于基于機器學習的方法的開發(fā)和應用至關重要。具體而言,觀察值與過程變量或預測變量數(shù)量的比率很重要。當觀察值與預測值的比率很小時,可能會發(fā)生過度擬合。因此,必須通過將適當?shù)膶嶒灧椒ㄔO計應用于細胞培養(yǎng)實驗來生成足夠的實驗數(shù)據(jù)。盡管如此,在廣泛的過程變量和工程設計考慮因素下從大型生物反應器中獲取數(shù)據(jù)既昂貴又耗時。此外,對于每個新產品,都應該進行一組新的實驗來表征過程。因此,任何能夠減少對實驗數(shù)據(jù)的依賴的方法都是有價值的。
遷移學習是一種可以通過利用細胞培養(yǎng)過程和產品的先驗知識來減少數(shù)據(jù)不足問題的方法。借助這種數(shù)據(jù)高效技術,可以捕獲各種過程或產品的相互關聯(lián)的屬性,然后將其轉移到新過程中。換句話說,遷移學習的目標是重新處理已經(jīng)在其它相互關聯(lián)的數(shù)據(jù)集上進行過預訓練的算法,并將這些算法應用于觀察通常不足的新數(shù)據(jù)集。由于深度神經(jīng)網(wǎng)絡的流行,許多研究人員為此開發(fā)了深度遷移學習算法。通常采用兩種策略來創(chuàng)建最初由大型數(shù)據(jù)集作為先驗知識訓練的深度遷移學習神經(jīng)網(wǎng)絡。
在第一種策略中,參數(shù)網(wǎng)絡的一些現(xiàn)有層被凍結,這意味著它們在重新訓練過程中不會更新,而現(xiàn)有模型的其余部分使用新的目標數(shù)據(jù)集進行重新訓練,然后超參數(shù)優(yōu)化。在重新訓練和超參數(shù)調整過程之前,新參數(shù)也可能被附加到現(xiàn)有網(wǎng)絡。由于可以考慮各種拓撲來向網(wǎng)絡中的任何層添加新參數(shù),因此還需要進行優(yōu)化研究以找到最佳拓撲。
在第二種策略中,所有由源數(shù)據(jù)集初始化的網(wǎng)絡參數(shù)都使用目標數(shù)據(jù)集重新計算。如果目標數(shù)據(jù)集很小并且現(xiàn)有網(wǎng)絡有很多參數(shù),這種策略可能會導致過度擬合。
遷移學習越來越受歡迎,并已成功應用于材料特性預測、藥物發(fā)現(xiàn)、故障檢測以及化學反應預測等不同領域。一些研究人員還利用遷移學習來改進生物系統(tǒng)中的模型預測,例如通過將序列衍生知識從包括五種蛋白酶的源蛋白質域轉移到目標蛋白酶蛋白質域來預測金屬蛋白酶中的底物切割位點,通過將在Yarrowia lipolytica酵母數(shù)據(jù)上訓練的模型轉移到其它產油酵母來預測包括脂質和有機酸在內的產品滴度,以及通過將在Saccharomyces cerevisiae釀酒酵母數(shù)據(jù)上訓練的模型轉移到Trichoderma reesei里氏木霉來預測分泌途徑中的蛋白質-蛋白質相互作用。
遷移學習在生物反應器規(guī)模放大中的具體應用尚未在已發(fā)表的文獻中進行研究,盡管最近,Rogers 等人 (2021) 展示了遷移學習在生物工藝開發(fā)中的潛力。在這項研究中,開發(fā)了人工神經(jīng)網(wǎng)絡來預測 Desmodesmus sp.(鏈帶藻) 和 Chlorella sorokiniana(一種新的葉黃素生產菌株,其可用數(shù)據(jù)有限)。盡管新菌株 Chlorella sorokiniana 可以產生比Desmodesmus sp.更高的細胞葉黃素含量,但它們具有相似的代謝途徑,這表明從Desmodesmus sp.培養(yǎng)物中轉移知識的可能性。新菌株進一步提高產量。為此,從Desmodesmus sp.的補料分批培養(yǎng)中獲得的時程數(shù)據(jù),包括生物量濃度、入射光強度、硝酸鹽濃度和流入率以及葉黃素濃度,被用于訓練 ANN 模型。然后使用 Chlorella sorokiniana 的單個數(shù)據(jù)集重新訓練源 ANN 以創(chuàng)建兩個遷移學習模型:遷移模型#1,其中僅更新源 ANN 的最后一層,以及遷移模型#2,其中最后兩層來源 ANN 已更新。與僅在 Chlorella sorokiniana 的有限數(shù)據(jù)上訓練的基準 ANN 相比,這兩種轉移模型都使預測誤差顯著降低了 50%。這個例子有效地展示了遷移學習如何有效地促進生物工藝開發(fā)中的知識遷移。
另一種方法涉及組合相關產品的數(shù)據(jù)集,以制作產品物理化學和生物學特性的分子描述符的組合訓練數(shù)據(jù)集??梢允褂糜嬎惴椒ㄉ煞肿用枋龇珙A測定量構效關系 (QSAR) 建模。盡管可以通過這種方法捕獲分子特征,但無法整合來自不同工藝的知識,例如,使用不同細胞系或使用不同反應器規(guī)模生產的同一產品,從而限制了利用該方法使用所有現(xiàn)有數(shù)據(jù)。
可以使用編碼技術(例如單熱編碼或標簽編碼)來包含此類分類數(shù)據(jù)的數(shù)字表示,從而允許將工藝或產品標識附加到訓練數(shù)據(jù)中,以明確指定每組數(shù)據(jù)所對應的單個過程或產品歸屬,但這種方法不能傳達不同數(shù)據(jù)之間隱藏的相似性。有趣的是,在 Hutter 等人(2021)的一篇論文中,提出了一種新方法,使用嵌入向量捕獲跨細胞系的可能相似性。在這種方法中,創(chuàng)建了一個抽象的 D 維嵌入空間來表示每個產品。附加到訓練集的嵌入向量及其維度是通過超參數(shù)優(yōu)化研究確定的,包括定義高斯過程回歸模型中使用的自定義核函數(shù)。盡管開發(fā)像這樣的定制模型比傳統(tǒng)方法需要更多的努力,但與傳統(tǒng)的單熱編碼模型相比,作者展示了使用高斯過程回歸模型的顯著改進。此外,由于模型的知識轉移能力得到增強,為新細胞系重新訓練模型的實驗次數(shù)顯著減少。
工藝過程之間的相似性也可以通過使用 PCA 方法生成的“載荷”計算的相似性因子在數(shù)值上表示。在 PCA 中計算的系數(shù)(也稱為權重)可以用于推導原始變量和投影變量或主成分之間的線性關系。這些權重稱為載荷。如果主成分的數(shù)量用??表示,?? 1 和?? 2 表示載荷矩陣,過程1和2的轉置矩陣分別為?? '1和?? '2,相似因子可以通過以下公式計算:
它介于 0 和 1 之間。對于兩個相似的過程,相似性因子更接近 1,而不同的過程具有更接近 0 的相似性因子。這種方法已成功應用于跨規(guī)模比較生物制藥工藝過程,但尚未對知識轉移算法進行檢查。在不久的將來,將這些相似性指數(shù)作為附加特征包含在數(shù)據(jù)驅動模型的訓練中,可能會提高模型在相互關聯(lián)的過程之間傳遞知識和區(qū)分數(shù)據(jù)的能力。
原文:M. K. Alavijeh, I. Baker, Y. Y. Lee, et al., Digitally enabled approaches for the scale up of mammalian cell bioreactors, Digital Chemical Engineering 4 (2022) 100040