拉曼光譜解碼:機器學習助力無標記SERS快速鑒定病原菌
發(fā)布時間:2025-04-07 瀏覽次數(shù):130
1. 引言
快速準確的病原體檢測至關重要,但傳統(tǒng)方法存在局限性。表面增強拉曼散射(SERS)技術具有靈敏、快速、無損等優(yōu)勢,尤其無標記SERS無需復雜標記,可直接檢測細菌的固有振動指紋。然而,SERS分析面臨信號峰重疊和咖啡環(huán)效應導致信號不均勻等挑戰(zhàn)。為解決這些問題,機器學習(ML)與數(shù)據(jù)預處理技術結合,可有效去除噪聲和背景干擾,提高SERS數(shù)據(jù)分析的準確性,為病原菌的快速鑒定提供了新的途徑。
本研究報道了一種結合機器學習和數(shù)據(jù)預處理的無標記疏水SERS平臺,用于病原菌的快速高通量檢測。首先優(yōu)化了SERS信號,并比較了咖啡環(huán)效應和疏水富集效應下的SERS性能。然后,針對SERS數(shù)據(jù)開發(fā)并評估了四種機器學習分類模型:k-NN、SVM-poly、SVM-rbf和1D-CNN。其中,SVM模型被廣泛應用于數(shù)據(jù)分類任務,而CNN模型則擅長學習數(shù)據(jù)的空間結構和模式。此外,k-NN模型作為一種簡單的無監(jiān)督學習算法也被應用于此研究。
2. 結果與討論
使用疏水SERS平臺進行細菌檢測的無標簽SERS分析
本研究利用疏水SERS平臺進行病原菌的無標記快速檢測。疏水硅片通過限制液滴擴散,使細菌和納米顆粒集中,產(chǎn)生“局部濃度效應”,相比于普通硅片上的“咖啡環(huán)效應”,更有利于SERS檢測。研究人員用該平臺對大腸桿菌、單核增生乳桿菌、鼠傷寒沙門氏菌和金黃色葡萄球菌四種食源性致病菌進行了檢測,并構建了包含800個光譜的數(shù)據(jù)集。通過數(shù)據(jù)預處理技術對數(shù)據(jù)集進行標準化,再結合機器學習分類模型,實現(xiàn)了對這四種細菌的準確分類。
圖1. 使用疏水SERS平臺進行細菌檢測的無標簽SERS分析
細菌和等離子體粒子混合物在正常和疏水硅襯底上的分布及PNs的表征
利用金核銀殼納米粒子(Au@AgNPs)增強SERS信號,并比較了普通硅片和疏水硅片作為基底的效果。Au@AgNPs結構均勻,在普通硅片上,由于咖啡環(huán)效應,Au@AgNPs和細菌集中在液滴邊緣;而在疏水硅片上,則集中在中心區(qū)域,形成“局部濃度效應”,顯著提高了細菌和Au@AgNPs的濃度。疏水處理后的硅片接觸角明顯增大,證實了其良好的疏水性。結果表明,疏水基底更有利于SERS檢測,因為它能增加熱點成分并使細菌充分暴露于熱點中。
圖2. 細菌和等離子體粒子混合物在正常和疏水硅襯底上的分布及PNs的表征
咖啡環(huán)效應和局部濃度效應下不同PNs配比的SERS活性優(yōu)化
比較了咖啡環(huán)效應和局部濃度效應下Au@AgNPs對大腸桿菌的SERS檢測效果。結果表明,疏水硅片上的局部濃度效應比普通硅片上的咖啡環(huán)效應具有更高的靈敏度。在734 cm?1處,局部濃度效應的最佳Au@AgNPs濃度為2.6 μg/mL,而咖啡環(huán)效應則為21 μg/mL。此外,局部濃度效應下的SERS強度比咖啡環(huán)效應高33倍,且檢測限更低。這表明疏水硅片更有利于提高SERS性能,因為它能有效提高細菌和Au@AgNPs的局部濃度。
圖3. 咖啡環(huán)效應和局部濃度效應下不同PNs配比的SERS活性優(yōu)化
數(shù)據(jù)預處理和數(shù)據(jù)集準備
利用機器學習模型對四種細菌的SERS數(shù)據(jù)進行分類。由于原始SERS數(shù)據(jù)存在噪聲干擾,研究人員采用了基線校正、平滑和歸一化等預處理步驟,增強了特征峰譜的清晰度。通過比較k-NN、SVM-poly、SVM-rbf和1D-CNN四種ML模型的分類性能,研究探索了不同細菌拉曼光譜的內在差異。此外,通過分析預處理后鳥嘌呤峰和腺嘌呤峰的相對強度,驗證了在不使用ML模型的情況下,利用SERS光譜區(qū)分細菌的可行性。
圖4. 數(shù)據(jù)預處理流程圖,數(shù)據(jù)集準備,機器學習分類模型。
圖5. 數(shù)據(jù)預處理和數(shù)據(jù)集準備
研究發(fā)現(xiàn),不同細菌的鳥嘌呤/腺嘌呤峰值比存在差異,可用于區(qū)分部分細菌,但同種細菌的不同菌株之間也存在信號差異,例如金黃色葡萄球菌菌株間差異較大,難以區(qū)分。為評估疏水SERS平臺的再現(xiàn)性,對大腸桿菌進行了40次重復測量,相對標準偏差為7.45%。此外,不同培養(yǎng)溫度(25-42℃)下,疏水基底均能產(chǎn)生均勻的拉曼光譜,但42℃時腺嘌呤峰信號減弱,可能與細菌成分或代謝物變化有關。結果表明,疏水基底的局部濃度效應保證了SERS信號的穩(wěn)定性和可重復性。
圖6. (A)種和(B)菌株水平上的鳥嘌呤相對強度峰比(654 ~ 661 cm?1)和腺嘌呤相對強度峰比(734 ~ 737 cm?1)。數(shù)據(jù)為20個拉曼光譜的平均值±標準差。
使用ML模型的細菌分類結果
本研究使用k-NN、SVM-poly、SVM-rbf和1D-CNN四種機器學習模型對預處理后的SERS數(shù)據(jù)進行細菌分類。結果顯示,數(shù)據(jù)預處理,尤其是基線校正、平滑和歸一化,顯著提高了模型分類準確率。未經(jīng)預處理的原始數(shù)據(jù)中,除k-NN外,其他模型均出現(xiàn)錯誤分類。ROC曲線分析也表明,預處理后模型的AUC值顯著增加。即使在咖啡環(huán)效應下,預處理后的SERS光譜準確率也能達到95%以上。研究證實,數(shù)據(jù)預處理對于基于SERS數(shù)據(jù)和機器學習的細菌分類至關重要。
圖7. (A)原始數(shù)據(jù)和(B)預處理后的數(shù)據(jù)得到k-NN、SVM-poly、SVM-rbf和1D-CNN四種分類模型的混淆矩陣。E., L., S., St.:大腸桿菌,單核細胞增生乳桿菌,鼠傷寒沙門氏菌,金黃色葡萄球菌。(C和D)四種分類模型的ROC曲線。
3. 總結
本研究提出了一種簡單、經(jīng)濟、高靈敏度的無標記SERS分析方法,用于快速分類和預測食源性致病菌。該方法基于疏水SERS底物、數(shù)據(jù)預處理技術和機器學習算法。研究人員通過優(yōu)化Au@AgNPs濃度和增強底物疏水性來誘導局部濃度效應,從而提升SERS性能。結果顯示,優(yōu)化后的SERS底物強度比利用咖啡環(huán)效應的底物高33倍。為了提高SERS光譜的清晰度,研究人員采用了基線校正、平滑和歸一化三個預處理步驟,并結合k-NN、SVM-poly、SVM-rbf和1D-CNN四種機器學習分類模型進行分析。數(shù)據(jù)預處理后,幾乎所有模型的分類準確率都達到了100%。然而,本研究存在一個局限性:缺乏在實際低濃度環(huán)境中的驗證,目前僅依賴于測試集進行評估。未來研究將納入更多不同來源和環(huán)境的外部數(shù)據(jù)集,以減少選擇偏差,更全面地評估模型性能。
論文鏈接:https://doi.org/10.1016/j.snb.2024.136963
來源:微生物安全與健康網(wǎng),作者~占英。