Historinha [T. R. Knapp Instances of Simpson's paradox. The College Mathematics Journal, v. 16, p. 209-211, 1985.]:

Temos dois jogadores de Baseball.
O jogador A rebateu 25.7% das vezes e o jogador B rebateu 25.1%. Isso significa que o jogador A é melhor?
Não. Dê uma olhada na informação completa abaixo:
Jogador A
nAD: Número de vezes que jogou contra um lançador destro: 202
nARD: Número de vezes que rebateu um lançador destro: 45
nAE: Número de vezes que jogou contra um lançador canhoto: 250
nARE: Número de vezes que rebateu um lançador canhoto: 71
Jogador B
nBD: Número de vezes que jogou contra um lançador destro: 250
nBRD: Número de vezes que rebateu um lançador destro: 58
nBE: Número de vezes que jogou contra um lançador canhoto: 108
nBRE: Número de vezes que rebateu um lançador canhoto: 32
Logo, o jogador A conseguiu rebater 22.3% das bolas quando lançadas por um lançador destro e 28.4% das bolas quando lançadas por um lançador canhoto. Por outro lado, o jogador B conseguiu rebater 23.2% das bolas quando lançadas por um lançador destro e 29.6% das bolas quando lançadas por um lançador canhoto.

Como isso é possível?
A explicação é simples. Os dois jogadores enfrentaram de forma bem diferente destros e canhotos. Enquanto o jogador A enfrentou destros em torno de 50% das vezes, o jogador B enfrentou em torno de 70% das vezes. Logo, as porcentagens em ambas as categorias para os jogadores são ponderadas de forma diferente trazendo um resultado que parece ser contra intuitivo. Além disso, o jogador B justamente se saiu pior contra os destros que ele enfrentou mais.
Então, o que é o Paradoxo de Simpson?
O paradoxo de Simpson ocorre quando existe uma tendencia de comportamento em dados de uma determinada variável quando dividida em grupos, mas é revertida quando os grupos são combinados.
Detalhamento das contas (Você não precisa olhar isso para entender o problema - são contas simples de estatística)
O número total de lançadores que o jogador A enfrentou foi: \(nA=nAD+nAE=452\)
A probabilidade do jogador A rebater dado que ele jogou contra um jogador destro: \(p(R/A,D)=nARD/nAD=0.223\)
A probabilidade do jogador A rebater dado que ele jogou contra um jogador canhoto: \(p(R/A,E)=nARE/nAE=0.284\)
A probabilidade do jogador A jogar com um lançador destro: \(p(D/A)=nAD/nA=0.447\)
A probabilidade do jogador A jogar com um lançador canhoto: \(p(E/A)=nAE/nA=0.553\)
A probabilidade do jogador rebater independente da categoria (destro ou canhoto): \(p(R/A)=p(R/A,D)*p(D/A)+p(R/A,E)*p(E/A)=0.257\)
O número total de lançadores que o jogador B enfrentou foi: \(nB=nBD+nBE=358\)
A probabilidade do jogador B rebater dado que ele jogou contra um jogador destro: \(p(R/B,D)=nBRD/nBD=0.232\)
A probabilidade do jogador B rebater dado que ele jogou contra um jogador canhoto: \(p(R/B,E)=nBRE/nBE=0.296\)
A probabilidade do jogador B jogar com um lançador destro: \(p(D/B)=nBD/nB=0.698\)
A probabilidade do jogador B jogar com um lançador canhoto: \(p(E/B)=nBE/nB=0.302\)
A probabilidade do jogador rebater independente da categoria (destro ou canhoto): \(p(R/B)=p(R/B,D)*p(D/B)+p(R/B,E)*p(E/B)=0.251\)
Existem exemplos reais desse paradoxo?

Sim, existem MUITOS exemplos relatados na literatura. Provavelmente, o mais interessante é aquele que ocorreu na universidade de Berkeley na California que sugeria que numa seleção para programas de doutorado homens tinham mais chance que mulheres. Esse caso gerou até processo contra a universidade. De fato, olhando individualmente cada departamento, na maioria deles, ocorria exatamente o contrário. Mais tarde foi concluído que mulheres aplicavam para departamento mais competitivos que aqueles aplicados por homens.
É provável a ocorrência do Paradoxo de Simpson?
Não. Entretanto, a simulação Monte Carlo abaixo mostra que a chance de ele ocorrer aumenta com dispersão do tamanho das categorias. Na simulação Monte Carlo a seguir, o paradoxo de Simpson é explorado sorteando-se o tamanho das amostras em cada categoria dentro de um range máximo possível que pode ocorrer essa diferença de tamanhos. Note que quando o range máximo aumenta, aumenta-se também a chance do paradoxo ocorrer. A figura abaixo apresenta essa tendência:

O código usado para gerar essa figura está aqui:
import matplotlib.pyplot as plt
import numpy as np
import random
def checkSimpson(nAD,nAE,nARD,nARE,nBD,nBE,nBRD,nBRE):
nA=nAD+nAE
pRAD=nARD/nAD
pRAE=nARE/nAE
pDA=nAD/nA
pEA=nAE/nA
pRA=pRAD*pDA+pRAE*pEA
nB=nBD+nBE
pRBD=nBRD/nBD
pRBE=nBRE/nBE
pDB=nBD/nB
pEB=nBE/nB
pRB=pRBD*pDB+pRBE*pEB
if(((pRAD>pRBD) and (pRAE>pRBE) and (pRA<pRB)) or ((pRAD<pRBD) and (pRAE<pRBE) and (pRA>pRB))):
return True
else:
return False
if __name__ == '__main__':
minimalSize=50
step=100
numberRepetitions=500000
sizeExperiment=100
porcentPositive=np.zeros([sizeExperiment])
maxRange=np.empty([sizeExperiment])
for i in range(sizeExperiment):
print i
maximalSize=minimalSize+i*step
for j in range(numberRepetitions):
nAD=1.0*random.randint(minimalSize,maximalSize)
nAE=1.0*random.randint(minimalSize,maximalSize)
nARD=1.0*random.randint(0,nAD)
nARE=1.0*random.randint(0,nAE)
nBD=1.0*random.randint(minimalSize,maximalSize)
nBE=1.0*random.randint(minimalSize,maximalSize)
nBRD=1.0*random.randint(0,nBD)
nBRE=1.0*random.randint(0,nBE)
if(checkSimpson(nAD,nAE,nARD,nARE,nBD,nBE,nBRD,nBRE)):
porcentPositive[i]=porcentPositive[i]+1.0
porcentPositive[i]=(porcentPositive[i]/numberRepetitions)*100
maxRange[i]=maximalSize-minimalSize
fig = plt.figure()
ax = fig.add_subplot(111)
fig.hold()
ax.plot(maxRange,porcentPositive,'r.')
ax.set_xscale('log')
ax.set_ylabel('Porcentagem Simpson')
ax.set_xlabel('Maximo Range')
Existe literatura que pode me dar mais exemplos ou mais detalhes sobre o Paradoxo de Simpson?
Sim, várias delas auxiliaram essa resposta. Dê uma olhada aqui.