Introdução à Regressão Logística

Neste blog, discutiremos os conceitos básicos da Regressão Logística e que tipo de problemas pode nos ajudar a resolver.

Representação da Tipotese

Quando usamos a regressão linear usamos uma fórmula da hipótese i.e.

hΘ(x) = β₀ + β₁X

Para a regressão logística vamos modificá-la um pouco i.e.

σ(Z) = σ(β₀ + β₁X)

Espera-se que a nossa hipótese dê valores entre 0 e 1.

Z = β₀ + β₁X

hΘ(x) = sigmoid(Z)

i.e. hΘ(x) = 1/(1 + e^-(β₀ + β₁X)

O limite de decisão

Esperamos que nosso classificador nos dê um conjunto de outputs ou classes baseadas em probabilidade quando passamos as entradas através de uma função de previsão e retornamos uma pontuação de probabilidade entre 0 e 1.

Por exemplo, temos 2 classes, vamos tomá-las como gatos e cães(1 – cão , 0 – gatos). Basicamente decidimos com um valor limite acima do qual classificamos os valores na Classe 1 e do valor vai abaixo do limite depois classificamo-lo na Classe 2.

Como mostrado no gráfico acima escolhemos o valor limite como 0,5, se a função de predição retornasse um valor de 0,7 então classificaríamos esta observação como Classe 1(DOG). Se a nossa previsão retornasse um valor de 0,2 então classificaríamos a observação como Classe 2(CAT).

Cost Function

Aprendemos sobre a função custo J(θ) na regressão Linear, a função custo representa um objetivo de otimização, ou seja, criamos uma função custo e a minimizamos para que possamos desenvolver um modelo preciso com o mínimo de erro.

Se tentarmos usar a função de custo da regressão linear em ‘Regressão logística’, então ela não teria utilidade, pois acabaria sendo uma função não convexa com muitos mínimos locais, em que seria muito difícil minimizar o valor do custo e encontrar o mínimo global.

Free Press