Loading [MathJax]/jax/output/HTML-CSS/jax.js
Poznański Portal Matematyczny

Regresja liniowa, czyli o zastosowaniu funkcji liniowej w analizie statystycznej, II

Autor: Łukasz Smaga Redaktor: Marek Kaluba, Paweł Mleczko

Zobacz poprzednią część tego artykułu

W poprzednim artykule pisałem właśnie o regresji liniowej i jej zastosowaniu. Niniejszy artykuł jest kontynuacją tej pracy, w którym formalnie wyprowadzimy estymatory metody najmniejszych kwadratów parametrów modelu regresji liniowej.

Załóżmy, że dysponujemy n obserwacjami y1,y2,,yn zmiennej y oraz odpowiadającymi im obserwacjami x1,x2,,xn zmiennej x. Wtedy model zależności w regresji liniowej dla powyższych obserwacji jest postaci
yi=axi+b+ei,i=1,2,,n,
przy czym a0, bR są nieznanymi parametrami, a ei to błędy losowe. Oszacowania parametrów a i b uzyskane metodą najmniejszych kwadratów mają postać
ˆa=y1(x1ˉx)+y2(x2ˉx)++yn(xnˉx)(x1ˉx)2+(x2ˉx)2++(xnˉx)2,ˆb=ˉyˉxˆa,
przy czym ˉx=1n(x1+x2++xn) i ˉy=1n(y1+y2++yn) są średnimi arytmetycznymi z obserwacji zmiennych x i y, odpowiednio. Otrzymujemy zatem prostą postaci y=ˆax+ˆb zwaną prostej regresji opisującą zależność między zmiennymi x i y.

Wyprowadzenie estymatorów metody najmniejszych kwadratów parametrów a i b podanych we wzorach (2) rozpoczniemy od przedstawienia modelu (1) w postaci wykorzystującej macierze. Poniżej przedstawimy kilka potrzebnych informacji o macierzach, lecz w trosce o zachowanie przejrzystości artykułu, ograniczamy formalizm i szczegółowe definicje do minimum.

Macierz to pewna funkcja, której jednak nie będziemy tutaj dokładnie definiować. Wystarczy nam intuicyjne zrozumienie macierzy jako tablicy liczb. Przykładowa macierz o czterech wierszach i trzech kolumnach jest następująca
[315537441625].
Liczby, które występują w macierzy nazywamy jej elementami. Elementami powyższej macierzy są liczby 3,1,5,5,3,7,4,4,1,6,2,5. Macierzy o tej samej liczbie wierszy i kolumn możemy dodawać i odejmować element po elemencie, np.
[315537441625]+[526144735526]=[3+51+25+65+13+47+44+74+31+56+52+25+6]=[83116711117611411].
Ponadto, macierze możemy również mnożyć. Aby wymnożyć dwie macierze przez siebie, mnożna musi mieć taką samą liczbę kolumn jak liczba wierszy mnożnika. Mnożenie macierzy nie jest mnożeniem element po elemencie jak w przypadku dodawania. Niech
A=[a11a12a1na21a22a2nam1am2amn],B=[b11b12b1kb21b22b2kbn1bn2bnk].
Macierze A i B mnożymy według wzoru
AB=[c11c12c1kc21c22c2kcm1cm2cmk],
przy czym
cij=ai1b1j+ai2b2j++ainbnj.
Będzie nam potrzebna jeszcze jedna operacja na macierzach, a mianowicie transpozycja macierzy. Macierz transponowana macierzy A (oznaczana A) to taka, której wiersze są kolumnami macierzy A. Mówiąc bardziej zrozumiale, zamieniamy tutaj wiersze na kolumny. Macierzą transponowaną macierzy (3) jest macierz
[354613425715].

Możemy teraz przejść do przedstawienia modelu (1) w postaci macierzowej. Zdefiniujmy wpierw macierze
Y=[y1y2yn],X=[1x11x21xn],β=[ba],E=[e1e2en]
oznaczające odpowiednio macierze obserwacji zmiennej y, obserwacji zmiennej x wraz z kolumną samych jedynek odpowiadającą wyrazowi wolnemu b, parametrów a i b, oraz macierz błędów ei,i=1,2,,n. Przy takich oznaczeniach model (1) możemy zapisać wzorem
Y=Xβ+E.
To przedstawienie modelu (1) pozwala nam skorzystać ze znanego wzoru na estymatory metody najmniejszych kwadratów parametrów będących elementami macierzy β, przedstawiającego się następująco
ˆβ=(XX)1XY,
przy czym (XX)1 oznacza odwrotność macierzy XX (za chwilę powiemy o niej więcej). Podstawiając do tego wzoru macierze X i Y podane w (4), wyznaczymy estymatory parametrów a i b zaprezentowane równaniami (2). Korzystając z podanych powyżej definicji, najpierw transponujemy macierz X:
X=[111x1x2xn],
a następnie wymnażamy przez siebie macierze X i X:1
XX=[111x1x2xn][1x11x21xn]=[nni=1xini=1xini=1x2i]=[nnˉxnˉxni=1x2i].
Teraz musimy odwrócić macierz XX, czyli znaleźć do niej macierz odwrotną. Macierz odwrotna A1 do macierzy A to taka macierz, dla której A1A=AA1=I, przy czym
I=[100010001]
jest macierzą jednostkową. W świecie macierzy, macierz odwrotna jest czymś w rodzaju liczby odwrotnej (x — liczba niezerowa, 1/x — liczba odwrotna do liczby x) a macierz jednostkowa — liczby jeden. Zazwyczaj szukanie macierzy odwrotnej jest czasochłonne. Na szczęście, nam jest potrzebna macierz odwrotna do macierzy o dwóch wierszach i kolumnach (patrz XX), którą łatwo znaleźć korzystając ze wzoru
[abcd]1=[dadcbbadcbcadcbaadcb].
Mianownik ,,adcb” dla macierzy XX liczymy następująco
nni=1x2i(nˉx)2=n(ni=1x2inˉx2)=nni=1(xiˉx)2,
przy czym ostatnią równość otrzymujemy w następujący sposób korzystając ze wzoru skróconego mnożenia
ni=1(xiˉx)2=ni=1(x2i2xiˉx+ˉx2)=ni=1x2ini=12xiˉx+ni=1ˉx2=ni=1x2i2ˉxni=1xi+ˉx2ni=11=ni=1x2i2ˉx(nˉx)+nˉx2=ni=1x2i2nˉx2+nˉx2=ni=1x2inˉx2.
Zatem
(XX)1=[ni=1x2inni=1(xiˉx)2nˉxnni=1(xiˉx)2nˉxnni=1(xiˉx)2nnni=1(xiˉx)2].
Teraz wyznaczamy XY:
XY=[111x1x2xn][y1y2yn]=[ni=1yini=1xiyi]=[nˉyni=1xiyi].
Podsumowując
ˆβ=[ˆbˆa]=[ni=1x2inni=1(xiˉx)2nˉxnni=1(xiˉx)2nˉxnni=1(xiˉx)2nnni=1(xiˉx)2][nˉyni=1xiyi]=[(ni=1x2i)nˉynˉxni=1xiyinni=1(xiˉx)2n2ˉxˉy+nni=1xiyinni=1(xiˉx)2].
Po przekształceniach, które zostawiamy Czytelnikowi jako ćwiczenie, otrzymujemy estymatory ˆa i ˆb podane w (2).

Przypisy

  1. Korzystamy ze skróconego zapisu sumowania za pomocą znaku sumy . Przykładowo, sumę a1+a2++an możemy w skrócie zapisać następująco ni=1ai.


Artykuł został sfinansowany dzięki wsparciu pozyskanemu przez Poznańską Fundację Matematyczną od Miasta Poznań na realizację projektu ,,Potęga matematyki''.

Do góry
Ta strona wykorzystuje pliki cookies

Ta strona wykorzystuje pliki cookies do zapewniania najwyższej wygody korzystania z serwisu. Te same pliki mogą być wykorzystywane przez współpracujące z nami firmy w celach badawczych. Jeśli wyrażasz zgodę na nasze działania, zamknij ten komunikat. Pamiętaj, że zawsze możesz wyłączyć obsługę plików cookies w swojej przeglądarce.

Zamknij