Różnice między wybraną wersją a wersją aktualną.
Poprzednia rewizja po obu stronachPoprzednia wersjaNowa wersja | Poprzednia wersja | ||
narzedzia:php_global_warming [2025/05/17 22:56] – administrator | narzedzia:php_global_warming [2025/05/17 23:07] (aktualna) – [Matematyka: regresja liniowa] administrator | ||
---|---|---|---|
Linia 91: | Linia 91: | ||
===== Matematyka: regresja liniowa ===== | ===== Matematyka: regresja liniowa ===== | ||
- | W celu wyznaczenia prostoliniowego trendu danych (tzw. regresji liniowej) stosujemy model matematyczny: | + | <WRAP right 25%> |
+ | {{: | ||
+ | Źródło: [[https:// | ||
+ | </ | ||
- | $$ | + | Poniższy fragment opisuje metodę najmniejszych kwadratów |
- | y = a \cdot x + b | + | |
- | $$ | + | |
- | + | ||
- | Gdzie: | + | |
- | * $x$ – niezależna zmienna | + | |
- | | + | |
- | * $a$ – współczynnik kierunkowy (nachylenie), | + | |
- | * $b$ – wyraz wolny (punkt przecięcia z osią Y). | + | |
- | + | ||
- | Aby obliczyć $a$ i $b$, używamy poniższych wzorów: | + | |
+ | Metoda polega na minimalizacji sumy kwadratów odchyleń (residuals) pomiędzy rzeczywistymi wartościami \(y_i\) a wartościami przewidywanymi \(\hat{y}_i\) przez model liniowy $$y = \beta_0 + \beta_1 x$$, co wyraża funkcja kryterium: | ||
$$ | $$ | ||
- | a = \frac{n | + | S(\beta_0, |
- | $$ | + | $$ |
+ | Aby znaleźć optymalne \(\beta_0\) i \(\beta_1\), | ||
$$ | $$ | ||
- | b = \frac{\sum y_i - a \sum x_i}{n} | + | \begin{cases} |
- | $$ | + | \displaystyle |
+ | \displaystyle \frac{\partial S}{\partial \beta_0} \;=\; -2 \sum_{i=1}^n (y_i - \beta_0 - \beta_1 x_i)\; | ||
+ | \end{cases} | ||
+ | $$ | ||
- | Gdzie: | + | Rozwiązując ten układ, otrzymujemy wzory na estymatory: |
- | * $n$ – liczba punktów danych, | + | * $$\hat{\beta}_1 = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2},$$ |
- | * $\sum x_i$ – suma wszystkich wartości $x$ (np. indeksów dat), | + | * $$\hat{\beta}_0 = \bar{y} - \hat{\beta}_1\, |
- | * $\sum y_i$ – suma wszystkich temperatur, | + | gdzie \(\bar{x} = \frac{1}{n}\sum x_i\) i \(\bar{y} = \frac{1}{n}\sum y_i\). |
- | * $\sum x_i y_i$ – suma iloczynów $x_i \cdot y_i$, | + | |
- | * $\sum x_i^2$ – suma kwadratów wartości $x_i$. | + | |
- | Następnie dla każdego punktu | + | Inna, równoważna postać wzoru na nachylenie prostej korzysta z sum iloczynów i sum kwadratów: |
+ | multiline | ||
+ | \hat{\beta}_1 | ||
+ | = \frac{n\sum_{i=1}^n | ||
+ | | ||
+ | $$ | ||
+ | a wyraz wolny: | ||
+ | multiline $$ | ||
+ | \hat{\beta}_0 | ||
+ | = \frac{\sum_{i=1}^n | ||
+ | =\bar{y}-\hat{\beta}_1\bar{x}\, | ||
+ | $$ | ||
- | $$ | + | W praktycznej implementacji, |
- | \hat{y_i} = a \cdot x_i + b | + | $$x_i = i,\quad y_i = \text{Temp}[i], |
- | $$ | + | pozwalając łatwo wygenerować tablicę wartości trendu:\\ |
+ | $$\hat{y}_i = \hat{\beta}_0 | ||
- | Wartości $\hat{y_i}$ tworzą prostą linię trendu, | + | Interpretacja parametrów: |
+ | * \(\hat{\beta}_1\) – średnia zmiana \(y\) przy wzroście \(x\) o jednostkę, czyli nachylenie | ||
+ | * \(\hat{\beta}_0\) – przewidywana wartość \(y\) dla \(x=0\), czyli punkt przecięcia z osią OY | ||
- | Dzięki | + | Dzięki |