簡介
拉曼光譜學因其可以無損測量、快速分析以及可以同時進行定性和定量分析的能力,已經成為制藥和化學工業過程分析中日益普遍的技術。光譜預處理算法通常應用在定量光譜數據分析中,是為了在加強光譜特征的同時盡可能地減少與所討論分析物無關的變異性。對于沒有化學計量學專業背景的普通人來說,理解預處理步驟可能性以及知道如何正確應用它們可能就會令人怯步。本文的目的是通過實際應用的例子來討論與拉曼光譜有關的主要預處理方案,并復習 B&WTek和 Metrohm軟件中可用的算法,以便讀者能夠自如地應用它們來建立拉曼定量的模型。
拉曼數據的光譜預處理
光譜預處理用于消除或盡量減少在光譜數據中的一些影響,這些影響與所研究系統相關的光譜變化并不直接相關。預處理還可用來提高細微光譜差異的區分能力,如小峰強度或光譜偏移。讓我們來探討一些與拉曼數據較相關的光譜預處理步驟。
去除基線
基線去除或基線校正(在 Vision 軟件中被稱為去除多項式趨勢)可用于去除拉曼數據中變化的背景,如熒光或有干擾的環境光,這在光譜仍然有清晰的拉曼峰時特別有用。有許多巧妙的數學方法可用來去除基線,普遍會用蕞小二乘法函數對多項式擬合來描述光譜的基線,然后從光譜中減去該函數。圖1舉例顯示了在 BWSpec軟件中對碳黑粉未光譜進行基線校正。碳樣品有著變化的背景,在進行進一步的光譜分析之前需要進行基線校正,例如計算D帶和G帶的強度比。

圖 1.基線校正后碳黑樣品的拉曼光譜。操縱上方滑桿可改變多項式擬合(為了清晰顯示,光譜已被人為地加粗)。
WSpec、BWIO和 Vision軟件中都有去除基線的算法。在對具有不同基線的大型數據集使用基線校正時應謹慎,因為一種擬合可能無法對數據集中的所有光譜進行優化。相反,推選對定量數據集使用求導來去除基線的影響。
求導
對拉曼和近紅外數據使用求導也是常見的預處理步驟。求導應用在光譜數據中可以增強光譜特征和消除基線的影響。通常使用一階和二階求導,因為高階求導會放大不必要的噪聲。在 B&WTek的軟件和 Vision 軟件中有多種求導方法,但到目前為止,常用 Savitzky-Golay 求導法對拉曼數據進行處理。
Savitzkv-Golav 求導法是通過對一段小區間數據點進行多項式擬合,然后該函數的求導是根據中心點附近的數據段計算的。該段通常被稱為"窗口"尺寸。通常會使用大的窗口尺寸,因為小的窗口尺寸會產生更多的噪聲數據,會對拉曼位移的微小變化更加敏感。圖2顯示對同一組數據,取兩個不同窗口尺寸進行Savitzky-Golay一階求導后的對比;具有較大窗口尺寸的光譜比具有較小窗口尺寸的光譜顯示出更小的噪聲。

圖 2.(上圖)用 SG一階求導處理的數據,窗口=5;(下圖)用 SG一階求導處理的數據,窗口=25。該光譜顯示的是殺蟲劑中的乳化劑樣品
區域選擇
可以用特定的光譜區域建立模型,以排除那些信息量小或不相關的變化區域;這會使模型更簡單,潛在變量也更少。在BWIO 和 Vision 軟件中,可以手動選擇光譜區域。在通常情況下,選擇整個指紋區域(約200-1800cm-1) 就足以建立拉曼模型。經驗豐富的光譜分析人員可以選擇更多的定制區域,但在使用多元回歸法時,一個常見的錯誤是選擇的區域太窄,該區域只包含了與感興趣分析物對應的特征。而分析物濃度的確定需要對分析物和參照物(含特征值外所有數據)進行量化,所以如果只包括分析物的特征,模型就缺乏參照物,并且可能變得不穩定。如果還使用了歸一化步驟,這種不穩定的情況就會更明顯。
舉個例子,考慮一個簡單的偏蕞小二乘法(PLS)模型來量化苯腈與環己烷的混合物。從6個樣品的 12 個光譜組成得到該模型,苯甲腈的濃度從 10%到 35%v/v不等。如圖3所示,苯甲腈在 2232cm!處有一個較強的峰,這是由氰基-CN 拉伸強度引起的。

圖 3.苯甲腈和環己烷混合物的原始光譜。
圖4對比顯示對數據使用兩種創建的 PLS 模型后對應的預測與測量圖。如果選擇 300-2300cm-的區域(圖4a),可以得到一個具有良好線性的模型(均方根誤差RMSE為0.21%)。另一方面,如果選擇2150-2300cm的狹窄區域(圖4b),該模型的線性度就較差,均方根誤差 RMSE 則高達 1.64%。后一個模型的性能差原因是缺乏參照物,導致歸一化后所有光譜的光譜強度相同。

圖4.(a)選擇 300-2300cm-的PLS 模型和(b)選擇 2150-2300 cm的 PLS模型。
歸一化
定量拉曼的模型很大程度會受到整體光譜強度波動的影響。強度波動可能來自許多因素,如光譜儀的光通量的漂移、激發功率的不穩定、光程長度的差異和采樣點位置的物理差異。盡管在短期內這些波動是可以避免的,但從長期來看它們是不可避免的。光譜歸一化可以有效地消除整體強度變化的影響,因此是搭建穩健回歸模型的一個必要步驟。
在光譜學中,有許多不同的數學方法可用于歸一化。標準正態變量變換(SNV)和多元散射校正(MSC)是振動光譜學中常見的兩種歸一化算法,在 BWIQ和 Vision 軟件中可使用。與 MSC 相比,光譜學家傾向于 SNV,因為 MSC 是基于整個數據集的平均值的散射校正,而 SNV 是基于單個樣品光譜的標準差,它不依賴于整個數據集。
圖5顯示的光譜為含有不同量葡萄糖和乳酸的水溶液。將使用 SNV 的數據與基線不斷變化的非歸一化數據進行比較(插圖)。在歸一化之前需完成區域選擇,這樣就不用考慮被排除的區域了。

圖 5.使用 SNV 后葡萄糖和乳酸的水溶液的拉曼數據集(插圖顯示的是原始非歸一化的數據)
中心化處理
中心化處理是從將每個光譜減去數據集的平均光譜。這是得到基于 PLS和 PCA模型的必要步驟,因為這兩種技術都是分析數據集的方差。BWIQ 軟件中有一個單獨的步驟可進行中心化處理,因此在預處理步驟中明確已包含,而 Vision 軟件中的中心化處理為已暗含訓練光譜。
實際應用例子
我們用上一節學到的信息來檢查一個實際應用的例子。這個數據是用一個透射拉曼裝置收集得到的。樣品是一組 3.0mm 厚的藥片,其中含有低劑量的對乙酰氨基酚(又稱撲熱息痛,APAP),以及纖維素、甘露醇、交聯羧甲纖維素和硬脂酸鎂等輔料。對乙酰氨基酚的濃度范圍為0-1.5%(w/w),目標濃度0.5%,對應的目標劑量為每片~300mg的藥片中含有乙酰氨基酚 1.5mg。為了建立一個能預測新樣品的模型,使用3秒的積分時間和 10 個光譜平均數來收集校準光譜。圖6顯示了原始數據;除了暗減法和相對強度校正外,沒有應用其他預處理。光譜被導入BWIQ進行處理并建立 PLS模型。

圖 6.含有 0-1.5% w/w 對乙酰氨基酚藥片的光譜,并且圖譜為原始光譜![]()
在收集數據后,將樣品光譜與組成樣品的各個純成分的光譜進行比較是非常有用的。圖7顯示并比較了含有 1.5%的對乙酰氨基酚的樣品與純對乙酰氨基酚、纖維素和甘露醇的光譜(交聯羧甲纖維素和硬脂酸鎂的特征峰太寬或太弱,無法直觀地區分)。樣品光譜中標記為綠色的峰是由樣品中的對乙酰氨基酚貢獻的。

圖7.比較 1.5%APAP 藥片樣品(紅色)、纖維素(藍色)、純對乙酰氨基酚(綠色)、甘露醇(黑色)的光譜
預處理步驟
片劑中的輔料在 785nm 的激光激發下會產生較高的熒光背景。在這種情況下不建議用基線校正來消除熒光背景,因為一元多項式擬合不可能適合每個光譜。相反,Savitzky-Golay 求導法是一個更簡單的方法。對數據使用 Savitzky-Golay一階求導(立方階,w=25)可消除熒光背景。
當檢查光譜時,我們可以看到在指紋區有明顯的拉曼信號,而在1800cm-1以上則沒有明顯的信號。為了在模型中排除1800-2800cm-1這段不重要的光譜區域,我們可以進行手動區域選擇,設置模型只選擇指紋區域(約200-1800cm-1)。當在BWIQ 軟件中執行手動區域選擇步驟時,軟件將總是會回到歸一化步驟之前。圖8顯示了經過Savitzky-Golay一階求導、手動區域選擇和 SNV 處理的數據。在~860 cm1和~1500cm處的信號顯示出了明顯的強度變化,這與對乙酰氨基酚濃度的增加相對應。

圖8.用S-G一階求導、手動區域選擇和 SNV處理的光譜。光譜顯示,隨著對乙酰氨基酚濃度的增加,位置~860cm-1和 1500-1650cm-1的信號顯示出了明顯的強度變化,這信號的位置與對乙酰氨基酚的拉曼特征峰一致。
在 BWIO軟件中,中心化處理是作為一個單獨的步驟使用的(在Vision 軟件中是自動完成的)。當中心化處理被使用時,光譜會以零線為中心。圖9顯示了使用了包含中心化處理在內的所有預處理算法的數據集。經過處理的數據現在就適合用來搭建一個穩健的 PLS 模型。

圖 9.預處理后的數據集,包含了中心化處理
表1顯示了模型中會使用的預處理步驟,以及它們對應的目的。通過執行這些預處理步驟,即使是拉曼光譜學的初學者和沒有敏銳的化學計量學意識的人,通常也能搭建一個穩健的模型。

表 1。預處理步驟用于準備示例模型和每個步驟的目的。