Primeira vez aqui? Seja bem vindo e cheque o FAQ!
x

Seja \(X \sim Geo(p)\) e considere uma amostra i.i.d. de tamanho \(N\). Obtenha: a) o MME de \(p\); b) o MLE de \(p\); c) a variância assintótica do MLE; d) sendo \(U(0,1)\) a prior, encontre a posterior de \(p\) e sua média.

+1 voto
85 visitas
perguntada Abr 6 em Estatística por Thiago Trafane (21 pontos)  
editado Abr 7 por Thiago Trafane

Exercício 7 do Cap. 8 do Livro Mathematical Statistics and Data Analysis, de John A. Rice.

Compartilhe

1 Resposta

+1 voto
respondida Abr 7 por Thiago Trafane (21 pontos)  
editado Abr 7 por Thiago Trafane

a) Se \( X \sim Geo(p)\), \( P(X=k)=p(1-p)^{k-1} \). Então,

\( E(X)=\sum_{k=1}^{\infty} kp(1-p)^{k-1} = p\sum_{k=1}^{\infty} k(1-p)^{k-1} \)

\( E(X)= p(\sum_{k=1}^{\infty} (1-p)^{k-1} + \sum_{k=2}^{\infty} (1-p)^{k-1} + \sum_{k=3}^{\infty} (1-p)^{k-1} + ...) \)

\( E(X)= p(1/p + (1-p)/p + (1-p)^2/p + ...) \)

\( E(X)= 1 + (1-p) + (1-p)^2 + ... = 1/p \)

Para aplicar o método dos momentos (MM), consideremos o análogo amostral do valor esperado, o que nos leva a

\( \bar{x} = \sum_{i=1}^{N} x_i/N = 1/\hat{p}_{MM} \)

\( \hat{p}_{MM} = 1/\bar{x} \)

b) Inicialmente vamos obter a função de verossimilhança \(L(p)\), que é a probabilidade de extrairmos a nossa amostra \( (x_1,x_2,...,x_N) \) dado \( p \). Como a amostra é i.i.d.,

\( L(p) = \prod_{i=1}^{N} P(X=x_i) = \prod_{i=1}^{N} p(1-p)^{x_i-1} = p^N (1-p)^{\sum_{i=1}^{N} x_i-N} \)

\( L(p) = p^N (1-p)^{N(\bar{x}-1)} \)

\( \ln L(p) = N (\log p + (\bar{x}-1)\log(1-p)) \)

Temos, então, que maximizar a função \( \ln L(p) \) para obter o estimador de máximo verossimilhança (ML). A condição de primeira ordem do problema é

\( \frac{1}{\hat{p}_{ML}} - \frac{\bar{x}-1}{1-\hat{p}_{ML}} = 0 \)

\( 1-\hat{p}_{ML} = \hat{p}_{ML}(\bar{x}-1) \)

\( \hat{p}_{ML} = 1/\bar{x} \)

Assim, \( \hat{p}_{ML} = \hat{p}_{MM} \).

c) A variância de \( \hat{p}_{ML} \) é

\( var(\hat{p}_{ML}) = E(\hat{p}_{ML}^2) - E(\hat{p}_{ML})^2 = E(1/\bar{x}^2) - E(1/\bar{x})^2 \)

Então, note que para \(\delta \in (0,1/p) \) e \(m \in \{1,2 \} \),

\( E(\bar{x}^{-m}) = E(\bar{x}^{-m}|A)P(A) + E(\bar{x}^{-m}|B)P(B) + E(\bar{x}^{-m}|C)P(C) \)

em que \( A = \{\bar{x} \in [1,1/p-\delta)\} \), \( B = \{\bar{x} \in [1/p-\delta,1/p+\delta]\} \) e \( C = \{\bar{x} \in (1/p+\delta,\infty)\} \) e eu usei \( x_i \geq 1 \to \bar{x} \geq 1 \).

Pela Lei dos Grandes Números, \(\bar{x}_N \overset{p}{\to} E(X) = 1/p \), o que implica que \( P(|\bar{x}_N-1/p| \gt \delta) \to 0 \) se \( N \to \infty \). Ou seja, \( P(A) \to 0 \), \( P(C) \to 0 \) e \( P(B) \to 1 \). Ademais, como \( \bar{x} \geq 1 \to 0 \leq \bar{x}^{-m} \leq 1 \), temos que \( 0 \leq E(\bar{x}^{-m}|I) \leq 1 \), com \( I \in \{ A,B,C \} \). Então,

\( \lim_{N \to \infty } E(\bar{x}^{-m}) = E(\bar{x}^{-m}|\bar{x} \in [1/p-\delta,1/p+\delta]) \)

Assim,

\( (1/p+\delta)^{-m} \leq \lim_{N \to \infty } E(\bar{x}^{-m}) \leq (1/p-\delta)^{-m} \)

Tomando o limite \( \delta \to 0 \) nessa expressão, obtemos

\( p^{m} \leq \lim_{N \to \infty } E(\bar{x}^{-m}) \leq p^m \)

\( \therefore \lim_{N \to \infty } E(\bar{x}^{-m}) = p^{m} \)

Finalmente, substituindo na expressão da variância,

\( \lim_{N \to \infty } var(\hat{p}_{ML}) = \lim_{N \to \infty } E(1/\bar{x}^2) - \lim_{N \to \infty } E(1/\bar{x})^2 \)

\( \lim_{N \to \infty } var(\hat{p}_{ML}) = p^2 - p \times p = 0 \)

d) Do teorema de Bayes,

\( f(p|(x_1,x_2,...,x_N)) = \frac{L(p)f(p)}{\int_{0}^{1} L(p)f(p) dp } \)

\( f(p|(x_1,x_2,...,x_N)) = \frac{p^N (1-p)^{N(\bar{x}-1)}}{\int_{0}^{1} p^N (1-p)^{N(\bar{x}-1)} dp } \)

em que na última parte eu usei \( L(p) = p^N (1-p)^{N(\bar{x}-1)} \) e que a distribuição à priori de \( p \) é uma uniforme em \( [0,1] \), isto é, \( f(p) = 1/(1-0)=1 \).

Essa função de densidade é exatamente a da distribuição Beta: \( p|(x_1,x_2,...,x_N) \sim Beta(N+1, N(\bar{x}-1)+1) \).

Para calcular o valor esperado à posteriori, note que, integrando por partes repetidamente,

\( \int_{0}^{1} p^a (1-p)^b dp = {(1-p)^b\frac{p^{a+1}}{a+1}} \bigg\rvert_0^1 + \int_{0}^{1} \frac{p^{a+1}}{a+1} b(1-p)^{b-1} dp \)

\( = \frac{b}{a+1} \int_{0}^{1} p^{a+1} (1-p)^{b-1} dp \)

\( = \frac{b}{a+1}{(1-p)^{b-1}\frac{p^{a+2}}{a+2}} \bigg\rvert_0^1 + \frac{b}{a+1} \int_{0}^{1} \frac{p^{a+2}}{a+2} (b-1) (1-p)^{b-2} dp \)

\( = \frac{b(b-1)}{(a+1)(a+2)}\int_{0}^{1} p^{a+2} (1-p)^{b-2} dp \)

\( \vdots \)

\( = \frac{b!}{(a+1)(a+2)...(a+b)}\int_{0}^{1} p^{a+b} (1-p)^{0} dp \)

\( = \frac{b!}{(a+1)(a+2)...(a+b)} \frac{p^{a+b+1}}{a+b+1} \bigg\rvert_0^1 \)

\( = \frac{b!}{(a+1)(a+2)...(a+b)(a+b+1)} \)

\( \therefore \int_{0}^{1} p^a (1-p)^b dp = \frac{a!b!}{(a+b+1)!} \)

Então,

\( E(p|(x_1,x_2,...,x_N)) = \int_{0}^{1} p f(p|(x_1,x_2,...,x_N)) dp \)

\( E(p|(x_1,x_2,...,x_N)) = \frac{\int_{0}^{1} p^{N+1} (1-p)^{N(\bar{x}-1)} dp}{\int_{0}^{1} p^N (1-p)^{N(\bar{x}-1)} dp} = \frac{\frac{(N+1)! (N(\bar{x}-1))!}{(N(\bar{x}-1)+N+2)!}}{\frac{N! (N(\bar{x}-1))!}{(N(\bar{x}-1)+N+1)!}} \)

\( E(p|(x_1,x_2,...,x_N)) = \frac{N+1}{N(\bar{x}-1)+N+2} = \frac{N+1}{N\bar{x}+2} =\frac{1}{(\frac{N}{N+1})\bar{x}+\frac{2}{N+1}} \)

Dois comentários finais. Em primeiro lugar, sabemos que se \( Y \sim Beta(\alpha,\beta) \), \( E(Y) = \frac{\alpha}{\alpha+\beta} \). Logo, como \( p|(x_1,x_2,...,x_N) \sim Beta(N+1, N(\bar{x}-1)+1) \), \( E(p|(x_1,x_2,...,x_N)) = \frac{N+1}{ N\bar{x}+2} \), que é exatamente o que acabamos de obter. Em segundo lugar, é interessante notar que, apesar de \( E(p|(x_1,x_2,...,x_N)) \neq \hat{p}_{ML} = \hat{p}_{MM} \), \( E(p|(x_1,x_2,...,x_N)) \to \hat{p}_{ML} = \hat{p}_{MM} \) se \( N \to \infty \). Ou seja, eles coincidem para amostras grandes.

comentou Mai 20 por CICERO FILHO (26 pontos)  
Resposta clara e objetiva. Meu comentário é no sentido de contribuir para detalhar um pouco mais a letra “b”.

Uma outra forma de resolver a letra “b” seria:

Sendo n o tamanho da amostra, e seja \(X_1.... X_n\) ser variáveis aleatórias independentes distribuídas de forma idêntica com a mesma função de distribuição de probabilidade (geométrica).

Para encontrar a máxima verossimilhança de p, primeiro definimos a função de verossimilhança:

\(MV(p)=f(x_1,...,x_n\left|\ p\right.)\ =\ f(x_1\left|\ p\right.)...\ f(x_n\left|\ p\right.)\)
\(=\ P(X=x_1\left|\ p\right.)\ ...\ P(X=\ x_n\left|\ p\right.).\)

Substituindo a definição da função de distribuição de probabilidade de X, obtemos:

\(MV(p)=\left[p{(1-p)}^{x_1-1}\right]\left[p{(1-p)}^{x_2-1}\right]...\left[p{(1-p)}^{x_n-1}\right]\)

\(=p^n{(1-p)}^{\sum_{i=1}^{n}{x_i-n}}\)

É mais fácil trabalhar com o logaritmo natural da expressão dada, então podemos definir:

\(l(p)=ln(MV(p))=n\ ln\ p+\left(\sum_{i=1}^{n}{x_i-n}\right)ln(1-p)\)

E precisamos encontrar seu máximo global no intervalo (0,1), (onde p pode assumir valores).

A derivada de l é:

\(l'(p)=\frac{n}{p}-\left(\sum_{i=1}^{n}{x_i-n}\right)\frac{1}{1-p}\)

Os pontos estacionários são os pontos nulos da derivada acima, então:

\(l^\prime\left(p\right)=0\)

\(\frac{n}{p}=\left(\sum_{i=1}^{n}{x_i-n}\right)\frac{1}{1-p}\)

\(n-np=p\sum_{i=1}^{n}{x_i-np}\)

\(p=\frac{n}{\sum_{i=1}^{n}x_i}=\frac{1}{\overline{X}}\)

Nesse ponto, a função de verossimilhança atinge seu máximo local, mas precisamos do máximo global, então vamos verificar se a função de verossimilhança (ou seja, seu logaritmo natural) é estritamente côncavo em (0,1).

A segunda derivada de l é:

\(l''(p)=-\frac{n}{p^2}-\ \left(\sum_{i=1}^{n}{x_i-n}\right)\frac{1}{\left(1-p\right)^2}\)
A primeira parte da função é claramente sempre negativa.

A soma, subtraída por n, é sempre maior que 0, uma vez que todos os x’s são pelo menos 1, então a soma é pelo menos n.

Portanto, a segunda parte da função é sempre negativa, então l’’ é sempre estritamente negativa, o que significa que l é uma função estritamente côncava.

Do exposto, podemos concluir que o ponto onde a probabilidade atinge seu máximo global, ou seja, o MV de p, é:

\(\widetilde{p}=\frac{1}{\overline{X}}\)
comentou Mai 20 por Thiago Trafane (21 pontos)  
Cicero, obrigado pelo comentário. Realmente na parte b eu não avaliei as condições de segunda ordem, como você fez. Fica mais completo dessa maneira. Obrigado!
...