Logistic regression example [Romanian]

Original in English by Geoffrey J. Gordon

Exemplu de regresie logistică

Această pagină funcţionează printr-un exemplu de amenajare a unui model logistic cu algoritmul pătratelor minime iterativ-reponderate (IRLS – de la eng. iteratively-reweighted least squares algorithm). Dacă doriţi să examinați mai detaliat algoritmul, aici este codul Matlab (Matlab code), împreună cu un exemplu de utilizare (usage example; priviți, de asemenea, codul vechi – old code) (GPL pentru cod).

Un model logistic prezice o ieşire binară y de la intrare reală x în conformitate cu regula:

p(y) = g(x.w)
g(z) = 1 / (1 + exp(-z))

în cazul în care w este un vector de parametri reglabile. Aceasta este, probabilitatea astfel ca y = 1 este determinată ca o funcţie liniară de x, urmată de o funcţie monotonă neliniară (numită funcţia de legătură), care se asigură ca probabilitatea, care este între 0 şi 1. Modelul logistic este un exemplu de un model liniar generalizat sau GLIM (de la generalized linear model); alte GLIM-uri diferă numai în sensul că acestea au funcții de legătură diferite.

Algoritmul IRLS este metoda lui Newton aplicată la problema de maximizare a probabilității unor ieșiri y date a intrărilor corespunzător cu x. Este un algoritm iterativ; acesta începe cu calcularea de la vectorul parametrului w, şi la fiecare iterație se rezolvă o problemă de pătrate minime ponderate pentru a găsi un vector de parametru nou.

Aici este un exemplu de o problemă a regresiei logistice cu o intrare şi o ieşire:

logistic

Noi prezicem specii de iris (fie I.versicolor, pe care l-am codificat cum y = 0, sau I.virginica, care l-am codificat ca y = 1) din lungimea uneia dintre petalele sale (pe axa x, în cm). Crucile sunt datele noastre de exemplu (training data), care sunt măsurători ale petalelor de irisi a căror specie este cunoscută. Curba de creştere monotonă este prezicerea noastră: sunt date măsurători de  petale noi, dar care este probabilitatea ca a venit din I. virginica? (Aceasta nu este maximă predicție a curbei de risc, ci este luată de la unul din iteraţii medii IRLS, înainte de a fi conversat). Curba celălaltă este abaterea standard a lui y. În cazul în care probabilitatea noastră a prezis p, atunci varianţa noastră v-a prezice p (1-p). (Se pare că, în general, varianţa este legată de derivate din funcţia de legătura g’(w.x).) 

La fiecare iteraţie, IRLS construieşte şi rezolvă o problemă ponderată de regresie liniară ale căror ponderi sunt abaterile standard ale punctelor de formare. Aici este un exemplu de o astfel de problemă:

WLS

Linia dreaptă este porţiunea liniară a predicției noastre. Dacă am avea nevoie să aplicăm funcţia de legătură g la înălţimea fiecărui punct de pe linie, vom obţine curba de predicţie din imaginea anterioară. Crucile sunt datele noastre de formare din nou, valorile x sunt aceleaşi, dar valorile y au fost ajustate prin procesul descris mai jos, astfel încât acestea se află mai aproape de o linie dreaptă.

O valoare ajustată y depinde de mai multe lucruri: valoarea y originală, partea liniară a predicției noastre z =x.w, predicții noastre p = g (z), şi derivate v = g'(z). Acesta este dat de formula
ajustată.

adjusted_y = z + (y – p) / v

Putem interpreta această formulă ca întinderea în eroare de predicţie (y-p), în conformitate cu varianţa inversă: erori de predicţie pe puncte de variant scăzută devin mai importante decât erorile de predicţie pe puncte de  variant mai mare. (Acest efect este parţial contracarat de greutăţi mai mici de puncte de variant scăzută, dar numai parţial). Putem obţine formula stabilind derivativa de probabilitatea log la zero şi care desfăşoară o extindere lui Taylor a ecuaţiilor care rezultă în jurul valorii de estimarea noastră actuală g; rearanjarea termenilor din această extindere lui  Taylor produce un set de ecuaţii normale, în care variabilele dependente sunt date de formula de mai sus.

Rezumînd, putem spune că algoritmul IRLS este metoda lui Newton pentru  amenajarea lui GLIM de risc maxim. Acesta actualizează în mod repetat ghicirile de la vectorul de parametru, prin formarea problemei pătratului ponderat. Valorile x în această problemă a pătratului ponderat sunt luate direct din datele de formare; valorile y sunt ajustate de la datele de formare în conformitate cu formula de mai sus, şi greutăţile sunt sqrt(g'(x.w)).

ok ok