Revisão de Álgebra Linear (2)

Econometria I

Author

Vitor Hugo Miro

1. Sistemas Lineares

Sistemas de equações lineares

Um sistema de \(n\) equações simultâneas em \(k\) variáveis é dado por:

\[ \begin{align*} a_{11} x_1 + a_{12} x_2 + \cdots + a_{1k} x_k &= b_1 \\ a_{12} x_1 + a_{22} x_2 + \cdots + a_{2k} x_k &= b_2 \\ &\vdots \\ a_{n1} x_1 + a_{n2} x_2 + \cdots + a_{nk} x_k &= b_n \\ \end{align*} \]

e pode ser expresso na forma matricial como

\[\mathbf{Ax} = \mathbf{b}\]

, onde \(\mathbf{A}\) é uma matriz \(n \times k\) de coeficientes \([a_{ij}]\), \(\mathbf{x}\) é um vetor coluna das variáveis \(x_1, \dots, x_K\), e \(\mathbf{b}\) é o vetor coluna de constantes \(b_1, \dots, b_n\).

Usando a notação matricial, podemos escrever:

\[ \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1k} \\ a_{21} & a_{22} & \cdots & a_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nk} \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_k \end{bmatrix} = \begin{bmatrix} b_1 \\ b_2 \\ \vdots \\ b_n \end{bmatrix} \]

A solução deste sitema é dada por:

\[\mathbf{x} = \mathbf{A}^{-1}\mathbf{b}\]

EXEMPLO

Considere o seguinte sistema de equações:

\[ \begin{align*} x_1 + x_2 + x_3 &= 5 \\[2ex] 2x_1 – x_2 + 6x_3 &= 12 \\[2ex] x_1 + 3x_2 + 5x_3 &= 17 \end{align*} \]

Na forma matricial:

\[ \begin{align*} \mathbf{Ax} &= \mathbf{b} \\ \begin{bmatrix} 1 & 1 & 1 \\ 2 & – 1 & 6\\ 1 & 3 & 5 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix} &= \begin{bmatrix} 5 \\ 12 \\ 17 \end{bmatrix} \end{align*} \]

Para resolver:

\[ \begin{split} \mathbf{x} &= \mathbf{A}^{-1}\mathbf{b}\\ \begin{bmatrix} x_1 \\ x_2\\ x_3 \end{bmatrix} &= \begin{bmatrix} 1 & 1 & 1 \\ 2 & – 1 & 6\\ 1 & 3 & 5 \end{bmatrix}^{-1} \begin{bmatrix} 5 \\ 12\\ 17 \end{bmatrix} \end{split} \]

No R podemos criar as matrizes \(\mathbf{A}\) e \(\mathbf{b}\):

# Matriz A
A = matrix(c(1, 1, 1, 2, -1, 6, 1, 3, 5), 
           byrow = TRUE, 
           ncol = 3)
cat("A=\n")
A=
print(A)
     [,1] [,2] [,3]
[1,]    1    1    1
[2,]    2   -1    6
[3,]    1    3    5
# Matriz b
b = matrix(c(5, 12, 17), ncol = 1)
cat("b=\n")
b=
print(b)
     [,1]
[1,]    5
[2,]   12
[3,]   17

E resolver para \(\mathbf{x}\)

# Calculando o vetor x
x <- solve(A) %*% b

# Nomeando as linhas de x
rownames(x) <- c("x1", "x2", "x3")

# Exibindo o resultado
print(x)
   [,1]
x1    1
x2    2
x3    2

A solução é \(x_1=1\), \(x_2=2\) e \(x_3=2\).

Aplicado sistemas de equações

Na análise de regressão será bastante comum fazer uso da representação de um sistema de \(n\) equações simultâneas e \(k\) variáveis, como é o exemplo a seguir:

\[ \begin{align*} y_1 &= x_{11} b_1 + x_{12} b_2 + \cdots + x_{1k} b_k \\ y_2 &= x_{21} b_1 + x_{22} b_2 + \cdots + x_{2k} b_k \\ &\vdots \\ y_n &= x_{n1} b_1 + x_{n2} b_2 + \cdots + x_{nk} b_k \end{align*} \]

Usando a notação matricial, podemos escrever:

\[ \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1k} \\ x_{21} & x_{22} & \cdots & x_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{nk} \end{bmatrix} \begin{bmatrix} b_1 \\ b_2 \\ \vdots \\ b_k \end{bmatrix} \]

Mais sucintamente: \(\mathbf{y} = \mathbf{Xb}\), onde

\[ \begin{equation*} \mathbf{y} = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix} \quad ; \quad \mathbf{b} = \begin{bmatrix} b_1 \\ b_2 \\ \vdots \\ b_k \end{bmatrix} \quad ; \quad \mathbf{x}_i = \begin{bmatrix} x_{i1} \\ x_{i2} \\ \vdots \\ x_{ik} \end{bmatrix} \end{equation*} \]

para \(i = 1, 2, \dots, n\) (linhas da matriz \(\mathbf{X}\)).

A matriz \(\mathbf{X}\) também pode ser escrita da seguinte forma:

\[ \begin{equation*} \mathbf{X} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1k} \\ x_{21} & x_{22} & \cdots & x_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{nk} \end{bmatrix} = \begin{bmatrix} \mathbf{x}_1' \\ \mathbf{x}_2' \\ \vdots \\ \mathbf{x}_n' \end{bmatrix} \end{equation*} \]

Neste caso, cada \(\mathbf{x}_i\) é um “vetor de covariáveis” para a \(i\)-ésima observação (cada linha de \(\mathbf{X}\)).

Retornando ao sistema original, podemos escrever cada equação individual usando vetores:

\[ \begin{align*} y_1 &= \mathbf{x}_1' \mathbf{b} \\ y_2 &= \mathbf{x}_2' \mathbf{b} \\ &\vdots \\ y_n &= \mathbf{x}_n' \mathbf{b} \end{align*} \]

Cada vetor destes representa uma equação do tipo:

\[ y_i = \begin{bmatrix} x_{i1} & x_{i2} & \cdots & x_{ik} \end{bmatrix} \begin{bmatrix} b_1 \\ b_2 \\ \vdots \\ b_k \end{bmatrix} = x_{i1} b_1 + x_{i2} b_2 + \cdots + x_{ik} b_k \]

Algumas operações comuns

Representando somatórios e o cálculo da média

Denote por \(\textbf{i}\) um vetor contendo uma coluna de uns.

\[ \textbf{i} = \begin{bmatrix} 1 \\ \vdots \\ 1 \end{bmatrix} \]

Podmeos representar uma soma por meio de um produto escalar entre \(\textbf{i}\) e um vetor \(\textbf{x}\):

\[ \textbf{i}'\textbf{x} = \begin{bmatrix} 1 & 1 & 1 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix} = 1x_1 + 1x_2 + \cdots + 1x_n = \sum_{i=1}^{n} x_i \]

Para qualquer constante \(a\) e vetor \(\textbf{x}\), temos:

\[ \sum_{i=1}^{n} a x_i = a \sum_{i=1}^{n} x_i = a \textbf{i}'\textbf{x}. \]

Se \(a = \frac{1}{n}\), obtemos a média aritmética:

\[ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i = \frac{1}{n} \textbf{i}'\textbf{x} \]

EXEMPLO

# Definindo o vetor x
x <- c(4, 5, 6, 3, 7)

# Criando um vetor de 1's com o mesmo comprimento de x
ones <- rep(1, length(x))

# Calculando a soma dos elementos de x usando o produto interno
soma_x <- t(ones) %*% x
soma_x <- as.numeric(soma_x)  # Convertendo para um número escalar
soma_x
[1] 25

Podemos calcular a média de

# Calculando a média dos elementos de x
a <- 1 / length(x)
media_x <- a * (t(ones) %*% x) 
media_x
     [,1]
[1,]    5

Desvios em relação à média

Uma matriz fundamental na estatística é a , usada para transformar dados em desvios em relação à sua média.

Para calcular os desvios em relação à média, primeiro precisamso definir um vetor com a média. Se \(\bar{x} = \frac{1}{n} \textbf{i}'\textbf{x}\), que é uma constante, então:

\[ \textbf{i} \bar{x} = \begin{bmatrix} 1 \\ 1 \\ \vdots \\ 1 \end{bmatrix} \bar{x} = \begin{bmatrix} \bar{x} \\ \bar{x} \\ \vdots \\ \bar{x} \end{bmatrix} \]

Uma vez que \(\bar{x} = \frac{1}{n} \textbf{i}'\textbf{x}\), então \(\textbf{i} \bar{x} =\frac{1}{n} \textbf{i} \textbf{i}'\textbf{x}\)

Desvio em relação à média então podem ser escritos como:

\[ {\mathbf{x}} - \frac{1}{n} \mathbf{i}\mathbf{i}'\mathbf{x} = \begin{bmatrix} x_1 - \bar{x} \\ x_2 - \bar{x} \\ \vdots \\ x_n - \bar{x} \end{bmatrix} \]

Considerando que \(\mathbf{x} = \mathbf{I} \mathbf{x}\), temos que:

\[ \left[ \mathbf{I} \mathbf{x} - \frac{1}{n} \mathbf{i} \mathbf{i}' \mathbf{x} \right] = \left[ \mathbf{I} - \frac{1}{n} \mathbf{i} \mathbf{i}' \right] \mathbf{x} = \mathbf{M^0} \mathbf{x} \]

EXEMPLO

# Número de elementos em x
n <- length(x)

# Criando a matriz identidade I de dimensão n
I <- diag(n)

# Criando o vetor de 1's
ones <- matrix(1, n, 1)

# Construindo a matriz M0
M0 <- I - (1 / n) * (ones %*% t(ones))

# Calculando os desvios em relação à média
desvios <- M0 %*% x

# Imprimir resultados
cat("x =\n")
x =
print(x)
[1] 4 5 6 3 7
cat("desvios de x em relação à média =\n")
desvios de x em relação à média =
print(round(desvios, 2))
     [,1]
[1,]   -1
[2,]    0
[3,]    1
[4,]   -2
[5,]    2

2. Formas Linares e Formas Quadráticas

Considere a função linear:

\[f(x) = a_1x_1 + a_2x_2 + a_3x_3 + \ldots + a_nx_n\]

Podemos usar uma notação matricial para expressar essa função:

\[ f(\mathbf{x}) = \mathbf{a}'\mathbf{x} \]

Dessa forma, temos:

\[ \mathbf{a}' = \begin{bmatrix} a_1 & a_2 & a_3 & \ldots & a_n \end{bmatrix} \qquad \mathrm{e} \qquad \mathbf{x}= \begin{bmatrix} x_1 \\ x_2 \\ x_3 \\ \vdots \\ x_n \end{bmatrix} \]

Considere agora, a função de duas variáveis \((x,y)\):

\[ f(x,y) = a_{11}x_1y_1 + a_{21}x_2y_1 + a_{31}x_3y_1 + a_{12}x_1y_2 + a_{22}x_2y_2 + a_{32}x_3y_2 \]

Na forma matricial temos uma forma bilinear:

\[ f(\mathbf{x},\mathbf{y}) = \mathbf{x}'\mathbf{A}\mathbf{y} \]

em que:

\[ \mathbf{A} = \begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \\ a_{31} & a_{32} \end{bmatrix} \]

Formas Quadráticas

Uma forma quadrática em \(\mathbb{R}^n\) é uma função de valor real da forma

\[ Q(x_1, \ldots, x_n) = \sum_{i \leq j} a_{ij} x_i x_j \]

Por exemplo, no \(\mathbb{R}^2\) temos \(Q(x_1, x_2) = a_{11}x_1^2 + a_{12}x_1x_2 + a_{22}x_2^2\).

Em termos matriciais, podemos pernsar na forma quadrática como uma forma bilinear em que \(\mathbf{x}=\mathbf{y}\).

Em geral, se \(\mathbf{A}\) é uma matriz simétrica \(n \times n\) e \(\mathbf{x}\) é um vetor-coluna \(n \times 1\) de variáveis, então dizemos que a função

\[ Q_A(\mathbf{x}) = \mathbf{x}' \mathbf{A} \mathbf{x} \]

é a forma quadrática associada com \(A\).

EXEMPLOS

  • Exemplo 1.

\[ \mathbf{x}' \mathbf{A} \mathbf{x} = \begin{bmatrix} x_1 & x_2 \end{bmatrix} \begin{bmatrix} a_1 & a_3 \\ a_3 & a_2 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = a_1 x_1^2 + a_2 x_2^2 + 2 a_3 x_1 x_2 = \]

  • Exemplo 2.

\[ \mathbf{x}' \mathbf{A} \mathbf{x} = \begin{bmatrix} x_1 & x_2 & x_3 \end{bmatrix} \begin{bmatrix} a_1 & a_4 & a_5 \\ a_4 & a_2 & a_6 \\ a_5 & a_6 & a_3 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix} = a_1 x_1^2 + a_2 x_2^2 + a_3 x_3^2 + 2 a_4 x_1 x_2 + 2 a_5 x_1 x_3 + 2 a_6 x_2 x_3 \]

  • Exemplo 3.

Com \(\mathbf{A} = \begin{bmatrix} -3 & 5 \\ 4 & -2 \\ \end{bmatrix}\) e \(\mathbf{x} = \begin{bmatrix} x_1 \\ x_2\end{bmatrix}\)

\[ \begin{split} \mathbf{x}^\intercal\mathbf{Ax} &= \begin{bmatrix} x_1 & x_2\end{bmatrix}\begin{bmatrix} -3 & 5 \\ 4 & -2 \\ \end{bmatrix}\begin{bmatrix} x_1 \\ x_2\end{bmatrix} \\[2ex] &= \begin{bmatrix} x_1 & x_2\end{bmatrix}\begin{bmatrix} -3x_1 + 5x_2 \\ 4x_1 -2x_2 \end{bmatrix} \\[2ex] &= x_1(-3x_1 + 5x_2) + x_2(4x_1 -2x_2) \\[2ex] &= -3x_1^2 + 5x_1x_2 + 4x_1x_2 -2x_2^2 \\[2ex] &= -3x_1^2 + 9x_1x_2 -2x_2^2 \end{split} \]

  • Exemplo 4.

Nos casos em que \(\mathbf{A}\) é uma matriz diagonal, a forma quadrática \(Q_A\) não tem termos mistos.

Por exemplo, se \(\mathbf{A}\) é uma matriz identidade \(n \times n\), então:

\[ Q_A(\mathbf{x}) = \mathbf{x}' I \mathbf{x} = \mathbf{x}' \mathbf{x} = \mathbf{x} \cdot \mathbf{x} = \|\mathbf{x}\|^2 = x_1^2 + x_2^2 + \cdots + x_n^2 \]

  • Exemplo 5.

Se \(\mathbf{A}\) tem entradas diagonais \(\lambda_1, \lambda_2, \ldots, \lambda_n\), então:

\[ Q_A(\mathbf{x}) = \mathbf{x}' A \mathbf{x} = \begin{bmatrix} x_1 & x_2 & \cdots & x_n \end{bmatrix} \begin{bmatrix} \lambda_1 & 0 & \cdots & 0 \\ 0 & \lambda_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix} = \lambda_1 x_1^2 + \lambda_2 x_2^2 + \cdots + \lambda_n x_n^2 \]

Aplicando formas quadráticas

Para uma única variável \(\textbf{x}\), a soma dos quadrados dos desvios em relação à média é dada por:

\[ \sum_{i=1}^{n} (x_i - \bar{x})^2 = \left( \sum_{i=1}^{n} x_i^2 \right) - n \bar{x}^2. \]

Em termos matriciais,

\[ \sum_{i=1}^{n} (x_i - \bar{x})^2 = (\textbf{x} - {\textbf{i}}\bar{x})' (\textbf{x} - {\textbf{i}}\bar{x}) = (\textbf{M}^0 \textbf{x})' (\textbf{M}^0 \textbf{x}) = \textbf{x}' \textbf{M}^0 ' \textbf{M}^0 \textbf{x} \]

A matriz \(\textbf{M}^0\) possui a propriedade de ser idempotente, ou seja, \(\mathbf{M^0}' \mathbf{M^0} = \mathbf{M^0}\).

Assim:

\[ \sum_{i=1}^{n} (x_i - \bar{x})^2 = \textbf{x}' \textbf{M}^0 \textbf{x} \]

EXEMPLO

# Calculando a soma dos quadrados dos desvios
soma_quadrados <- t(x) %*% M0 %*% x
soma_quadrados <- as.numeric(soma_quadrados)
soma_quadrados
[1] 10

Formas quadráticas e otimização

Uma forma quadrática sempre assume o valor zero no ponto \(\mathbf{x} = 0\).

Este, no entanto, não é um resultado interessante!

Por exemplo, se \(\mathbf{x} \in \mathbb{R}\), isto é, \(\mathbf{x} = x_1\), então a forma quadrática geral é \(ax_1^2\), que é igual a zero quando \(x_1 = 0\).

A característica distintiva de uma forma quadrática é o conjunto de valores que assume quando \(\mathbf{x} \neq 0\). Queremos saber se \(\mathbf{x} = 0\) é um máximo, mínimo ou nenhum dos dois.

Sob a ótica de um problema de otimização, isso sim é interessante!

Por exemplo, quando \(\mathbf{x} \in \mathbb{R}\), isto é, a forma quadrática é \(ax_1^2\):

  • Se \(a > 0\) significa que \(ax^2 \geq 0\) e é igual a 0 apenas quando \(x = 0\). Tal forma é chamada definida positiva; \(x = 0\) é um mínimo global.

  • Se \(a < 0\) significa que \(ax^2 \leq 0\) e é igual a 0 apenas quando \(x = 0\). Tal forma é chamada definida negativa; \(x = 0\) é um máximo global.

Uma matriz simétrica, \(\mathbf{A}\), é chamada de definida positiva, semidefinida positiva, definida negativa, etc., de acordo com a forma quadrática correspondente \(Q(\mathbf{x}) = \mathbf{x}' \mathbf{A} \mathbf{x}\).

Seja \(\mathbf{A}\) uma matriz simétrica \(n \times n\), então \(\mathbf{A}\) é:

  • definida positiva se \(\mathbf{x}' \mathbf{A} \mathbf{x} > 0\) para todo \(\mathbf{x} \neq 0\) em \(\mathbb{R}^n\);

  • semidefinida positiva se \(\mathbf{x}' \mathbf{A} \mathbf{x} \geq 0\) para todo \(\mathbf{x} \neq 0\) em \(\mathbb{R}^n\);

  • definida negativa se \(\mathbf{x}' \mathbf{A} \mathbf{x} < 0\) para todo \(\mathbf{x} \neq 0\) em \(\mathbb{R}^n\);

  • semidefinida negativa se \(\mathbf{x}' \mathbf{A} \mathbf{x} \leq 0\) para todo \(\mathbf{x} \neq 0\) em \(\mathbb{R}^n\);

  • indefinida se \(\mathbf{x}' \mathbf{A} \mathbf{x} > 0\) para algum \(\mathbf{x} \neq 0\) em \(\mathbb{R}^n\) e \(< 0\) para outro \(\mathbf{x}\) em \(\mathbb{R}^n\).

3. Autovalores e autovetores

Os autovalores e autovetores são conceitos fundamentais em álgebra linear e têm ampla aplicação em econometria.

Dada uma matriz quadrada \(\mathbf{A}\) de ordem \(n \times n\), um número \(\lambda\) é chamado de autovalor de \(\mathbf{A}\) se existir um vetor não nulo \(\mathbf{x}\) tal que:

\[ \mathbf{A} \mathbf{x} = \lambda \mathbf{x} \]

Neste caso, o vetor \(\mathbf{x}\) é chamado de autovetor associado ao autovalor \(\lambda\).

Os autovalores (\(\lambda\)) indicam a magnitude do efeito de \(\mathbf{A}\) sobre os vetores \(\mathbf{x}\).

Por sua vez, os autovetores (\(\mathbf{x}\)) indicam as direções em que a aplicação da matriz \(\mathbf{A}\) resulta em um escalonamento sem alteração da direção.

  • Número de autovalores: Uma matriz \(n \times n\) terá até \(n\) autovalores.

  • Determinante e traço: O produto dos autovalores de \(\mathbf{A}\) é igual ao seu determinante, e a soma dos autovalores é igual ao traço de \(\mathbf{A}\) (a soma dos elementos da diagonal).

  • Diagonalização: Se todos os autovalores de uma matriz são distintos e a matriz é simétrica, é possível diagonalizá-la, ou seja, encontrar uma matriz \(\mathbf{P}\) de autovetores e uma matriz diagonal \(\mathbf{\Lambda}\) de autovalores, tal que \(\mathbf{A} = \mathbf{P} \mathbf{\Lambda} \mathbf{P}^{-1}\).

EXEMPLO

Vamos calcular os autovalores e autovetores de uma matriz \(3 \times 3\) usando R:

Considere a matriz \(\mathbf{A}\):

\[ \mathbf{A} = \begin{bmatrix} 3 & 1 \\ 1 & 2 \end{bmatrix} \]

Para encontrar os autovalores, calculamos o polinômio característico de \(\mathbf{A}\).

\[ \mathbf{A} - \lambda \mathbf{I} = \begin{bmatrix} 3 - \lambda & 1 \\ 1 & 2 - \lambda \end{bmatrix} \]

Calculamos o determinante desta matriz e igualamos a zero:

\[ \lambda^2 - 5 \lambda + 5 = 0 \]

As raízes dessa equação são:

\[ \lambda_1 = \frac{5 + \sqrt{5}}{2} \quad \text{e} \quad \lambda_2 = \frac{5 - \sqrt{5}}{2} \]

Trata-se de uma parábola com concavidade ‘para baixo’ (côncava).

Vamos resolver isso no R:

# Definindo uma matriz 3x3
A = matrix(c(3, 1,
             1, 2), nrow = 2, byrow = TRUE)
A
     [,1] [,2]
[1,]    3    1
[2,]    1    2
  • Autovalores
# Calculando os autovalores e autovetores
eig_decomp = eigen(A)

# Extraindo autovalores
autovalores = eig_decomp$values
autovalores
[1] 3.618034 1.381966

Note que temos autovalores positivos.

  • Autovetores
# Extraindo autovetores
autovetores = eig_decomp$vectors
autovetores
           [,1]       [,2]
[1,] -0.8506508  0.5257311
[2,] -0.5257311 -0.8506508
  • Verificando estas condições com base em:

$$ \[\begin{align*} \mathbf{A} \mathbf{x} & = \lambda \mathbf{x} \\ \begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} & = \lambda \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} \end{align*}\] $$

Vamos considerar o 1º autovalor \(\lambda_1\) e o 1º autovetor

# Verificando a propriedade: A * x = lambda * x para o primeiro autovalor e autovetor
lambda1 = autovalores[1]
x1 = autovetores[, 1]
cat("A.x =\n")
A.x =
print(A %*% x1)
          [,1]
[1,] -3.077684
[2,] -1.902113
cat("lambda.x =\n")
lambda.x =
print(lambda1 * x1)
[1] -3.077684 -1.902113

Autovalores, a definição da forma quadrática e otimização

Seja \(\mathbf{A}_{n \times n}\) uma matriz com autovalores \(\lambda_1, \cdots, \lambda_n\).

  • Se \(\mathbf{A}\) é definida positiva, então \(\lambda_i > 0\) para \(i = 1, \dots, n\).

  • Se \(\mathbf{A}\) é semidefinida positiva, então \(\lambda_i \geq 0\) para \(i = 1, \dots, n\). O número de autovalores para os quais \(\lambda_i > 0\) é igual ao posto de \(\mathbf{A}\).

  • Se \(\mathbf{A}\) é definida negativa, então \(\lambda_i < 0\) para \(i = 1, \dots, n\).

  • Se \(\mathbf{A}\) é semidefinida negativa, então \(\lambda_i \leq 0\) para \(i = 1, \dots, n\). O número de autovalores para os quais \(\lambda_i < 0\) é igual ao posto de \(\mathbf{A}\).

  • Se \(\mathbf{A}\) é indefinida, então \(\mathbf{A}\) possui autovalores de sinais opostos, ou seja, existem \(\lambda_i > 0\) para alguns \(i\) e \(\lambda_j < 0\) para outros \(j\).

4. Diferenciação matricial

Sejam os vetores:

\[ \mathbf{a} = \begin{bmatrix} a_1 \\ a_2 \\ \vdots \\ a_n \end{bmatrix} \quad \text{e} \quad \mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix} \]

Então:

\[ \mathbf{a}'\mathbf{x} = a_1 x_1 + a_2 x_2 + \cdots + a_n x_n \]

A derivada de \(\mathbf{a}'\mathbf{x}\) é dada por:

\[ \begin{aligned} \frac{\partial}{\partial \mathbf{x}} (\mathbf{a}' \mathbf{x}) &= \frac{\partial}{\partial \mathbf{x}} (a_1 x_1 + a_2 x_2 + \cdots + a_n x_n) \\ &= \begin{bmatrix} \frac{\partial}{\partial x_1} (a_1 x_1 + a_2 x_2 + \cdots + a_n x_n) \\ \frac{\partial}{\partial x_2} (a_1 x_1 + a_2 x_2 + \cdots + a_n x_n) \\ \vdots \\ \frac{\partial}{\partial x_n} (a_1 x_1 + a_2 x_2 + \cdots + a_n x_n) \end{bmatrix} = \begin{bmatrix} a_1 \\ a_2 \\ \vdots \\ a_n \end{bmatrix} \\ &= \mathbf{a} \end{aligned} \]

Considere agora a forma quadrática \(\mathbf{x}' \mathbf{A} \mathbf{x}\)

\[ \frac{\partial}{\partial \mathbf{x}} (\mathbf{x}' \mathbf{A} \mathbf{x}) = 2\mathbf{A} \mathbf{x} \]

Vamos demostrar isso de uma forma um pouco diferente:

Considere a forma quadrática \(\mathbf{x}' \mathbf{A} \mathbf{x}\), onde \(\mathbf{A}\) é uma matriz simétrica.

\[ f(\mathbf{x}) = \mathbf{x}' \mathbf{A} \mathbf{x} = \sum_{i=1}^n \sum_{j=1}^n x_i a_{ij} x_j \]

A derivada de \(f(\mathbf{x})\) em relação a \(\mathbf{x}\) é:

\[ \frac{\partial}{\partial \mathbf{x}} (\mathbf{x}' \mathbf{A} \mathbf{x}) = \frac{\partial}{\partial \mathbf{x}} \left( \sum_{i=1}^n \sum_{j=1}^n x_i a_{ij} x_j \right) \]

Como estamos derivando em relação a cada \(x_i\), temos:

\[ \frac{\partial}{\partial x_i} \left( \sum_{j=1}^n x_i a_{ij} x_j \right) = \sum_{j=1}^n a_{ij} x_j + \sum_{j=1}^n a_{ji} x_j = 2 \sum_{j=1}^n a_{ij} x_j \]

Assim, a derivada é:

\[ \frac{\partial}{\partial \mathbf{x}} (\mathbf{x}' \mathbf{A} \mathbf{x}) = 2 \mathbf{A} \mathbf{x} \]