Pular para o conteúdo

Análise preditiva usando regressão linear

Olá pessoal, hoje vou falar sobre a aplicação de regressão linear na ciência de dados. A regressão linear é uma das técnicas mais simples e populares de análise de dados, e pode ser usada para prever valores futuros com base em dados históricos.
A regressão linear é usada para encontrar uma relação linear entre duas variáveis, geralmente chamadas de variável dependente e variável independente. A variável independente é usada para prever a variável dependente. Por exemplo, podemos usar a idade de um carro (variável independente) para prever o preço de revenda (variável dependente).
A regressão linear usa uma equação matemática para descrever a relação entre as variáveis. A equação da regressão linear é da forma y = mx + b, onde y é a variável dependente, x é a variável independente, m é a inclinação da linha e b é o intercepto. A inclinação da linha (m) representa a mudança na variável dependente para cada unidade de mudança na variável independente, enquanto o intercepto (b) representa o valor da variável dependente quando a variável independente é igual a zero.
Agora, vamos ver um exemplo de como aplicar a regressão linear na ciência de dados. Vamos usar o conjunto de dados de preços de casas de Boston, disponível na biblioteca do scikit-learn. Primeiro, precisamos carregar o conjunto de dados:

from sklearn.datasets import load_boston
import pandas as pd
boston = load_boston()
data = pd.DataFrame(boston.data,columns=boston.feature_names) data[‘MEDV’] = boston.target


Em seguida, vamos criar um modelo de regressão linear simples usando o número médio de quartos (variável independente) para prever o preço médio das casas (variável dependente):

from sklearn.linear_model import LinearRegression
X = data[[‘RM’]]
y = data[‘MEDV’]
modelo = LinearRegression().fit(X, y)

Aqui, “RM” é a variável independente (número médio de quartos) e “MEDV” é a variável dependente (preço médio das casas).
Podemos visualizar a relação entre as duas variáveis usando um gráfico de dispersão:

import matplotlib.pyplot as plt
plt.scatter(X, y)
plt.xlabel(“Número médio de quartos”)
plt.ylabel(“Preço médio das casas”)
plt.plot(X, modelo.predict(X), color=’red’)
plt.show()

E podemos adicionar a linha de regressão ao gráfico usando a função “predict” do modelo:

import numpy as np
novos_X = pd.DataFrame({‘RM’: [6, 7, 8]})
predicoes = modelo.predict(novos_X)
print(predicoes)

Aqui, estamos prevendo o preço médio das casas para três valores diferentes de número médio de quartos: 6, 7 e 8. O resultado são os valores previstos para cada valor de número médio de quartos.
Essa é uma aplicação básica da regressão linear na ciência de dados usando Python.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *