Chemometria dla NIR: kiedy matematyka uczy widmo „mówić”
W odróżnieniu od klasycznej średniej podczerwieni (MIR) widmo bliskiej podczerwieni (NIR) nie daje się „czytać” gołym okiem. W MIR wiele grup funkcyjnych ma dobrze znane, ostre pasma. Karbonyl, na przykład, pojawia się wyraźnym maksem w okolicach ~1700 cm⁻¹ (±15 cm⁻¹) i przesuwa się w przewidywalny sposób wraz ze zmianą otoczenia grupy – dzięki czemu doświadczony analityk potrafi wnioskować o obecności i typie sąsiednich grup. Od dziesięcioleci powstają obszerne kompendia z zestawieniami takich zależności – tzw. tablice korelacyjne spektroskopii w podczerwieni.
W zakresie NIR obraz jest znacznie bardziej złożony. Dominują tu obertony (wyższe harmoniczne drgań podstawowych) oraz pasma kombinacyjne (sumy kilku drgań). Sygnały te są słabsze, szerokie i masowo się nakładają. Nie ma jednego „piku karbonylu” ani prostej serii jego maksimów; zamiast tego analizujemy kontur całego widma, w którym „rozpuszczone” są wkłady grup O–H, N–H, C–H i ich kombinacji. Dlatego poleganie na „ostrych pikach” tu nie działa: NIR wymaga statystyki, a nie intuicyjnej lektury. Z pomocą przychodzi chemometria.
Chemometria to zastosowanie statystyki, algebry liniowej i teorii informacji do danych chemicznych (widm, chromatogramów, wielowymiarowych sygnałów), aby wydobywać własności ilościowe i jakościowe z złożonego, zaszumionego sygnału z nakładającymi się pasmami. Ukształtowała się w latach 1960–80 jako odpowiedź na dwa kluczowe wyzwania rozwoju spektrometrii:
- dane stały się wielowymiarowe;
- klasyczne „pojedyncze piki” przestały nieść wystarczającą informację.
Najważniejsze słowo to statystyka. Chemometria to praca z estymacją, błędami, weryfikacją hipotez i walidacją. Dlatego dobrze zbudowany model chemometryczny dostarcza nie tylko liczbowego wyniku (lub decyzji klasowej w analizie dyskryminacyjnej), lecz także granice ufności, błąd predykcji i miary wiarygodności. Innymi słowy, przy właściwym użyciu chemometria zapewnia kontrolowaną dokładność w granicach jasno określonych niepewności.
Jednym z najważniejszych narzędzi chemometrii jest regresja, czyli sposób powiązania wielowymiarowego predyktora X (np. macierzy widm) z wielkością docelową Y (wilgotność, białko, tłuszcz itd.). Do zbudowania modelu potrzebne są pary „widmo/wartość referencyjna”. Często dla jednego widma mamy kilka wartości odniesienia (np. dla ziarna: białko, lipidy, skrobia, gluten), więc można konstruować modele wielowyjściowe. W praktyce NIR zwykle buduje się osobny model dla każdego analitu: zwiększa to stabilność, upraszcza walidację i ułatwia kontrolę błędów.
Dla stosunkowo prostych zadań opartych na widmach NIR (np. jak oznaczanie zawartości ibuprofenu w tabletkach czy białka w jęczmieniu) kluczowe narzędzia to:
- Regresja PLS (Partial Least Squares) – szuka zmiennych ukrytych (latent variables, LV), czyli projekcji w przestrzeni widm, które maksymalnie korelują z celem Y.
- PLS-DA – „krewny” PLS do klasyfikacji (Discriminant Analysis): zamiast ciągłego Y mamy etykiety klas (np. odmiana/gatunek/„oryginał–fałszywka”). Model szuka kierunków latentnych, które najlepiej rozdzielają klasy.
PLS-regresja: jak znaleźć informację użyteczną w widmach
W widmach NIR zmiennych są setki, a nierzadko tysiące (łatwo policzyć: każda długość fali to osobna kolumna w macierzy X). Zmienne są przy tym silnie skorelowane z powodu szerokich, nakładających się pasm. Klasyczna regresja liniowa „dławi się” taką współliniowością. PLS kompresuje dane do zmiennych ukrytych (LV, scores) – liniowych kombinacji wszystkich długości fal – i robi to tak, aby te kombinacje jak najmocniej korelowały z Y (wilgotność, białko, tłuszcz itp.). W odróżnieniu od PCR (Principal Component Regression), który najpierw szuka składowych najlepiej wyjaśniających zmienność X, a dopiero potem dopasowuje Y, PLS „od pierwszego kroku patrzy na Y” i odrzuca to, co do prognozy nie wnosi informacji.
Przykłady praktyczne
- Ziarno: zawartość białka. Macierz X: 600 próbek pszenicy, zakres 950–1650 nm, przetwarzanie wstępne: SNV + 1. pochodna Savitzky’ego–Golaya; Y: wartość białka referencyjna metodą Kjeldahla. PLS (5 LV) daje RMSEP ≈ 0,28% białka. PCR z taką samą liczbą składowych: RMSEP ≈ 0,36%, ponieważ część zmienności X była nieinformatywna dla białka.
- Mleko: tłuszcz. 300 widm mleka surowego, 1350–2450 nm, przetwarzanie: MSC + centrowanie. PLS (6 LV) – RMSEP 0,12% tłuszczu, bias ≈ 0; przejście na 8 LV nie daje zysku (minimum RMSECV już osiągnięte), więc 6 to „wystarczająco, nie maksymalnie”.
- Drewno: wilgotność. 200 próbek, 1000–2200 nm, przetwarzanie: MSC. PLS (5 LV) – RMSEP 0,35%; dodanie 2 pochodnej pogorszyło wynik (wzmocniło szum), co ilustruje zasadę: przetwarzanie musi być zestrojone z SNR.
PLS-DA: gdy odpowiedzią są klasy
W PLS-DA zamiast ciągłego Y mamy etykiety klas (np. „Arabica/Robusta”, „oryginał/fałszywka”, „PE/PP/PET”). Technicznie kodujemy klasy w macierzy Y (schemat one-vs-rest lub one-hot), szukamy kierunków latentnych, które najlepiej rozdzielają klasy, a następnie klasyfikujemy na podstawie odległości w przestrzeni latentnej, progów na projekcjach lub poprzez „miękkie” prawdopodobieństwa (np. softmax).
Przykłady (zadania klasyfikacyjne).
- Plastiki na linii sortującej. 5 klas (PE, PP, PVC, PET, PS), 1000–1700 nm, przetwarzanie: SNV, 8 LV. Zbalansowana dokładność ~98–99%, błędy głównie między PE/PP przy zabrudzonych powierzchniach. Dodanie „obszaru bez decyzji” (reject option) zmniejszyło fałszywe alarmy o ~40% kosztem ~3% odrzuceń.
- Kawa: odmiana + geografia. 3 klasy („Arabica Brazylia”, „Arabica Etiopia”, „Robusta Wietnam”), 1350–2450 nm, 8 LV. Miara F1 = 0,93; najczęstsze pomyłki – między dwiema arabikami. Poprawę dał dobór interwałów 1900–2000 i 2300–2350 nm (strefy wody/tłuszczów).
Jak oceniać model regresyjny: kluczowe metryki
- RMSEC/RMSECV/RMSEP – średniokwadratowy błąd odpowiednio na zbiorze uczącym, w walidacji krzyżowej i na niezależnym teście. RMSEP to główny wskaźnik wydajności „w terenie”. Pamiętajmy, że błąd wyrażamy w tych samych jednostkach, co przewidywana wielkość (np. %, g, itp.).
- PRESS – suma kwadratów błędów w CV; wygodna do doboru liczby komponentów LV.
- R² – część wyjaśnionej zmienności na uczniu/teście. Wysokie R² bez dobrego RMSEP niewiele znaczy (może świadczyć o przeuczeniu).
- Q² – „prognostyczny” odpowiednik R² z walidacji krzyżowej; mówi, jak dobrze model uogólnia.
- Bias – systematyczne przesunięcie (średni błąd). Powinno być bliskie zera; istotny bias sugeruje różnice między przyrządami/kampaniami lub problemy z przetwarzaniem wstępnym.
Po co i jak przygotować widmo do modelu (przetwarzanie wstępne)
Bliska podczerwień jest bardzo wrażliwa na rozpraszanie, geometrię oświetlenia, drobne przesunięcia osi długości fali i dryfty linii bazowej. Te same próbki, zmierzone innego dnia lub innym czujnikiem, mogą mieć identyczną „chemię”, ale inny fundament i skalę sygnału. Przetwarzanie wstępne to nie fanaberia, lecz sposób, by przywrócić dane do układu współrzędnych, w którym chemia brzmi głośniej niż artefakty optyczno-geometryczne. Najczęściej stosowane procedury to:
Wygładzanie (zwykle algorytm Savitzky’ego–Golaya, w skrócie SG)
Co robi. Zmniejsza losowy szum przy zachowaniu kształtu pasm. W SG ustala się rozmiar okna (liczbę punktów) oraz rząd wielomianu.
Kiedy stosować. Przed pochodnymi i SNV/MSC, zwłaszcza gdy SNR jest średni/niski.
Przykład:
- Ziarno → wilgotność (950–1650 nm): wygładzanie SG (okno 11–17 punktów, rząd 2) obniżyło RMSEP z 0,41% do 0,36% przy niezmienionej liczbie zmiennych ukrytych (LV = 6).
- Mleko → tłuszcz (1350–2450 nm): zbyt duże okno (35–41 punktów) „przegładziło” pasma kombinacyjne 1720–1780 nm i pogorszyło RMSEP z 0,12% do 0,15%.
Kompensacja linii bazowej / detrending
Co robi. Usuwa wolne „pochylenia” i fale tła spowodowane właściwościami źródła światła, optyką, zabrudzeniami itp.
Metody. Asymetryczna regresja najmniejszych kwadratów (ALS), detrending wielomianowy, „rubberband”.
Przykłady.
- Tabletki → zawartość substancji czynnej (API): ALS + PLS dalej zmniejszyły bias na teście z 0,18% do 0,05%.
- Pelety drzewne → wilgotność: ALS usunęła wpływ kąta lampy; RMSEP spadł z 0,52% do 0,43%.
Pochodne (1. i 2., zwykle algorytm Savitzky’ego–Golaya)
Co robią. Podkreślają (wyodrębniają) niewielkie, słabo widoczne zmiany kształtu widma, częściowo niwelują linię bazową i efekt grubości warstwy.
Kiedy są użyteczne. Dla nakładających się pasm (O–H/N–H/C–H) oraz gdy istotne są łagodne przesunięcia konturów.
Przykłady.
- Pszenica → białko: 1. pochodna (okno 15, rząd 2) + SNV obniżyły RMSEP z 0,33% do 0,28%.
- Polimery na linii sortującej: 2. pochodna uwydatniła różnice w zakresie 1700–1800 nm; dokładność PLS-DA wzrosła z 96% do 98%.
Korekcje rozpraszania: SNV, MSC
Fizyka. Rozpraszanie powoduje różną „jasność” i „nachylenie” widm przy tej samej chemii (grubość warstwy, ziarnistość, chropowatość powierzchni).
Metody.
SNV (Standard Normal Variate): normalizuje każde widmo do średniej równej zero i wariancji równej jeden – usuwa efekty addytywno-multiplikatywne na poziomie pojedynczego widma.
MSC (Multiplicative Scatter Correction): dopasowuje każde widmo do średniego wzorca (estymuje i koryguje przesunięcie oraz skalę).
Przykłady.
- Jagody → sucha masa: SNV + 1. pochodna obniżyły RMSEP z 0,86% do 0,62%; RPD wzrósł z 1,8 do 2,6.
- Mąka → wilgotność: MSC lepsze niż SNV przy różnych grubościach kuwety: RMSEP 0,25% vs 0,31%.
Normalizacja (wektorowa, względem pola, względem maksimum)
Co robi. Sprowadza widma do wspólnej skali intensywności, aby model nie uczył się „jasności przyrządu”.
Kiedy stosować. Do porównywania próbek o różnej grubości/kontakcie, w klasyfikacji (PLS-DA), gdy ważny jest kształt, a nie poziomy bezwzględne.
Przykłady.
- Surowce polimerowe (PLS-DA): normalizacja wektorowa + 1. pochodna podniosły dokładność z 95% do 97% i zmniejszyły wrażliwość na zabrudzenia powierzchni.
- Kawa „oryginał/podróbka”: normalizacja względem pola zwiększyła AUC z 0,985 do 0,992, redukując zmienność całkowitego odbicia.
Centrowanie i skalowanie cech
Po co. Aby żadna część widma nie dominowała sztucznie tylko z powodu skali.
- Mean-centering: odejmujemy średnią dla każdej długości fali; standard obowiązkowy w PLS.
- Autoscaling (z-score): dzielimy przez odchylenie standardowe – wszystkie zmienne stają się jednakowo „głośne”; może jednak przeskalować strefy szumowe.
Ważne zasady stosowania przetwarzania wstępnego:
- Wszystkie parametry przetwarzania wstępnego wyznacza się na zbiorze uczącym, a następnie bez zmian przenosi na walidację/test (aby uniknąć „podejrzenia” danych i wycieku informacji).
- Nie „przegotowuj” danych: każdy krok musi mieć sens dla Twojej matrycy (pochodne przy słabym SNR mogą zaszkodzić).
- Ta sama sekwencja powinna stabilnie działać na nowych partiach.
Model chemometryczny to nie przycisk „zrób dobrze”, lecz proces: od właściwego planu pobierania próbek i dobrego widma, przez przemyślane przetwarzanie, świadomą walidację i rzetelną diagnostykę. Spotykają się tu nauka (statystyka, algebra liniowa), rzemiosło (wyczucie matrycy, dobór przetwarzania wstępnego) oraz intuicja badacza (gdzie szukać źródeł błędów, kiedy zatrzymać się złożonością). Takie modele są pełnoprawnymi składnikami sztucznej inteligencji: uczą się na danych, przewidują z określoną niepewnością i same sygnalizują, gdy wychodzą poza zakres własnej kompetencji.
W tandemie ze współczesnymi zminiaturyzowanymi spektrometrami NIR chemometria przekształca rozproszone pomiary w ekosystem wiedzy: łączy czujniki terenowe, znormalizowane protokoły, wspólne bazy widm i klarowne metryki jakości. To ten przypadek, gdy „niewidzialne” staje się mierzalne, a mierzalne – użyteczne dla decyzji w terenie, na linii produkcyjnej i w życiu codziennym.
Yurii Khokha
Alpinus Chemia