SOBREA

Retransformação de Variáveis (1)

Em um dos posts anteriores comentei brevemente sobre o problema da retransformação de variáveis. No último post mostrei algumas simulações sobre a retransformação de valores quando utiliza-se a transformação da variável dependente para a escala logarítmica. Neste post, vou mostrar algumas simulações que fiz sobre o problema da retransformação quando utiliza-se a função raiz quadrada para a transformação da variável dependente. Segundo Land (1972), quando esta transformação é aplicada a retransformação deve ser feita com a seguinte expressão (ver prova):

Retransformação de Variáveis (2)

Segundo Land (1972), o cubo de uma variável aleatória normal \(X \sim N(\mu, \sigma^2)\) é igual a (ver prova): \[\mathbb{E}[X^3] = \mu^3 + 3\mu\sigma^2\] Para melhor compreender, criei os dados abaixo no R: set.seed(1) dados <- data.frame( Area = runif(100, min = 360, max = 600) ) dados$CROOTVU <- 40 - .05*dados$Area + rnorm(100, mean = 0, sd = 1.5) dados$VU <- dados$CROOTVU^3 A Figura 1 mostra que os dados transformados pela raiz cúbica são aproximadamente normais.

Retransformação de Variáveis (3)

set.seed(1) dados <- data.frame( Area = runif(300, min = 360, max = 600) ) dados$INVVU <- .85 + .001*dados$Area + rnorm(300, mean = 0, sd = 0.15) dados$VU <- 10*dados$INVVU^(-1) A Figura 1 mostra que os dados transformados pela função recíproca são aproximadamente normais. m <- mean(dados$VU^(-1)) s <- sd(dados$VU^(-1)) histogram(~VU^(-1), dados) plotDist("norm", mean = m, sd = s, add = TRUE) Figure 1: Histograma dos dados transformados. histogram(~VU, dados) Primeiro ajustamos um modelo linear:

Funções de perda e funções de escore

Como muitos devem saber, a regressão linear é um método estística para a estimação da média condicional de uma distribuição. Desta forma, para sua estimação, minimiza-se o MSE (mean square error) ou erro médio quadrático. Caso se deseje estimar a mediana, deve-se minimizar o MAE (mean absolute error) ou erro médio absoluto. Genericamente falando, no entanto, pode-se optar por minimizar qualquer função de perda que se deseje. No entanto, a depender da distribuição real dos dados, uma função será mais apropriada do que as outras.

Implicações da utilização de transformações sobre a variável dependente

É muito comum na Engenharia de Avaliações a aplicação de transformações à variável dependente para a confecção do modelo de regressão linear. As consequências da adoção de transformações sobre a variável dependente, contudo ainda não foram bem esclarecidas aos avaliadores. Em 2018, elaboramos um artigo para o COBRAC, assim como um artigo para o VIII Simpósio da SOBREA em que analisamos as consequências da transformação da variável dependente para a distribuição lognormal.

Implicações da utilização de um fator oferta em modelos de regressão linear

Um dos maiores problemas práticos da Engenharia de Avaliações no Brasil na atualidade está na falta de dados de mercado referentes a valores de transações de imóveis. Enquanto em outros países os dados de transações de imóveis são públicos e estão disponíveis de maneira estruturada, isto ainda está longe de tornar-se realidade no Brasil, por inúmeros fatores que não pretendo discutir neste pequeno post. O que pretendo discutir aqui é sobre a implicação da aplicação de um fator de homogeneização aos dados de oferta antes ou depois do ajuste de um modelo de regressão linear.