library(tibble)
library(dplyr)
library(ggplot2)
Tots fem servir dades de mostres per prendre decisions. Les dades externes que s’utilitzen per ajudar en aquestes decisions també provenen de mostres. Les estadístiques com la puntuació mitjana d’un llibre a les ressenyes en línia, el salari mitjà dels estudiants de psicologia…, totes deriven de mostres.
Però les estadístiques d’algunes mostres són més fiables que les d’altres. Què distingeix les estadístiques que “enganyen” de les que “guien”?
En aquest article i els següents, exposarem els principis estadístics que ens indiquen com dissenyar una enquesta per mostreig i analitzar les dades d’una mostra, de manera que les estadístiques calculades a partir d’una mostra descriguin amb precisió la població de la qual es va extreure la mostra.
Unitat d’observació: Un objecte sobre el qual es pren una mesura, de vegades anomenat element. En les enquestes de poblacions humanes, les unitats d’observació sovint són persones individuals; en les enquestes agrícoles o ecològiques, poden ser petites àrees de terra; en les enquestes d’auditoria, poden ser registres financers.
Població objectiu: La col·lecció completa d’observacions que volem estudiar. Definir la població objectiu és una part important i sovint difícil de l’estudi. Per exemple, en una enquesta política, la població objectiu hauria de ser tots els adults amb dret a vot? Tots els votants registrats? Totes les persones que van votar a les últimes eleccions? L’elecció de la població objectiu afectarà profundament les estadístiques resultants.
Mostra: Un subconjunt d’una població.
Població mostrejada: El conjunt de totes les unitats d’observació possibles que es podrien haver escollit en una mostra; la població de la qual es va extreure la mostra.
Unitat de mostreig: Una unitat que es pot seleccionar per a una mostra. Podem voler estudiar individus però no tenim una llista de tots els individus de la població objectiu. En canvi, les llars serveixen com a unitats de mostreig, i les unitats d’observació són els individus que viuen a les llars.
Marc de mostreig: Una llista, mapa o altra especificació d’unitats de mostreig de la població de la qual es pot seleccionar una mostra. Per a una enquesta telefònica, el marc de mostreig pot ser una llista de números de telèfon de votants registrats o simplement el conjunt de tots els números de telèfon possibles. Per a una enquesta que utilitza entrevistes presencials, el marc de mostreig pot ser una llista de totes les adreces. Per a una enquesta agrícola, un marc de mostreig pot ser una llista de totes les explotacions agrícoles o un mapa de les zones que contenen explotacions agrícoles.
Les discrepàncies entre la població objectiu i la població mostrejada poden fer que la mostra no sigui representativa i que les estadístiques calculades a partir d’ella siguin esbiaixades. El biaix és un error sistemàtic en els procediments de mostreig, mesura o estimació que fa que una estadística sigui constantment més gran (o constantment més petita) que la característica de la població que estima.
Existeixen dos grans cetegories de biaixos en els estudis estadístics: el biaix de selecció i el biaix de mesura.
El biaix de selecció es produeix quan la població objectiu no coincideix amb la població mostrejada o, més generalment, quan algunes unitats de població es mostregen a una taxa diferent de la prevista per l’investigador. Si una enquesta dissenyada per estudiar els ingressos de les llars té menys llars pobres que les que s’obtindrien en una mostra representativa, les estimacions de l’enquesta de l’ingrés mitjà o medià de les llars seran massa grans.
Una bona mostra té respostes precises als elements d’interès. Quan una resposta de l’enquesta difereix del valor real, s’ha produït un error de mesura. El biaix de mesura es produeix quan la resposta tendeix a diferir del valor real en una direcció. Igual que amb el biaix de selecció, l’error i el biaix de mesura s’han de tenir en compte i minimitzar en la fase de disseny de l’enquesta; Cap anàlisi estadística no revelarà que la bàscula va afegir erròniament 5 quilograms al pes de cada persona de l’enquesta de salut.
La majoria de les enquestes informen d’un “marge d’error”. Moltes simplement diuen que el marge d’error és de 3 punts percentuals. D’altres donen més detalls.
El marge d’error descriu l’error de mostreig, l’error que resulta de prendre una mostra seleccionada aleatòriament en lloc d’examinar tota la població. Si seleccionéssim aleatòriament una mostra diferent, el més probable és que obtindríem un percentatge de mostra diferent de persones que van visitar la biblioteca pública la setmana passada. Els errors de mostreig normalment es reporten en termes probabilístics, com ja veurem més endavant.
El biaix de selecció i l’error de mesura són exemples d’errors no de mostreig, que són qualsevol error que no es pot atribuir a la variabilitat entre mostres. De vegades, l’error de mostreig que es reporta per a l’enquesta és insignificant en comparació amb els errors no de mostreig; sovint es veuen enquestes amb una taxa de resposta del 5% que proclamen amb orgull el seu marge d’error del 3%, mentre ignoren l’enorme biaix de selecció potencial en els seus resultats.
Els termes mostra aleatòria simple, mostra estratificada, mostra per clústers i mostra sistemàtica són bàsics per a qualsevol discussió sobre enquestes per mostreig, així que definim-los ara.
El mostreig aleatori simple és la forma més bàsica de mostreig probabilístic i proporciona la base teòrica per a les formes més complicades. Hi ha dues maneres de prendre una mostra aleatòria simple: amb reemplaçament, en què la mateixa unitat es pot incloure més d’una vegada a la mostra, i sense reemplaçament, en què totes les unitats de la mostra són diferents.
En el mostreig de població finita, però, mostrejar la mateixa persona dues vegades no proporciona informació addicional. Normalment preferim mostrejar sense reemplaçament, de manera que la mostra no contingui duplicats. Es selecciona una mostra aleatòria simple sense reemplaçament (SRS) de mida \(n\) de manera que cada subconjunt possible de \(n\) unitats diferents de la població tingui la mateixa probabilitat de ser seleccionat que la mostra. Hi ha (\(\small\binom{N}{n} =\frac{N!}{n!(N−n)!}\)) mostres possibles, i cadascuna té la mateixa probabilitat, de manera que la probabilitat de seleccionar qualsevol mostra individual \(\mathcal{S}\) de \(n\) unitats és
\[ \small P(\mathcal{S}) \frac{1} {\binom{N}{n}}=\frac{n!(N-n)!} {N!}. \]
Com a conseqüència d’aquesta definició, la probabilitat que la unitat de població \(i\) aparegui a la mostra és \(π_i = n/N\), com es mostra aquí (atès que \(\small x!/(x-1)!=x\)),
\[ \require{cancel} \small \pi_i= \frac{\text{nombre de mostres possibles amb }i} {\text{nombre de mostres possibles}}= \frac {\binom{N-1}{n-1}} {\binom{N}{n}}= \frac{(N-1)!}{(n-1)! (N-1-n+1)!}· \frac{n!(N-n)!} {N!}=\\ \small =\frac{(N-1)!}{(n-1)! \cancelto{1}{(N-n)!}}· \frac{n!\cancelto{1}{(N-n)!}} {N!}= \small \frac{(N-1)!}{N!}·\frac{n!}{(n-1)!}= \frac{1}{N}·\frac{n}{1} = \frac{n}{N} \]
sample() del paquet basePer a la selecció d’una mostra SRS es pot utilizar la funció
sample(). Per exemple, per seleccionar una mostra
de mida 4, sense reemplaçament d’una població de
10, podem fer això (generant paral·lelament la població):
set.seed(108742) # Per poder replicar la mateixa selecció, si interessa.
# Ha de ser cridat alhora que `sample()`
sample(1:10,4,replace = F) # Fixar-se en `replace = F`: sense reemplaçament
## [1] 1 8 9 5
Podem seleccionar una mostra amb reemplaçament
set.seed(10001)
sample(1:10,5, replace = T)
## [1] 7 7 5 4 4
Com que ara es tracta d’una mostra amb reemplaçament es poden repetir els valors seleccionats; en aquest cas el 7 i el 9.
srswor()i srswr() del paquet
samplingL’alternativa pot ser la utilització del paquet sampling
amb les funcions srswor() (sence reemplaçament) i
srswr() (amb reemplaçament)
set.seed(1329)
s1 <- sampling::srswor(n = 4, N = 10) # selecciona una mostra 4 elements d'una població de 10
s1
## [1] 0 0 1 1 1 0 0 0 1 0
La funció retorna un vector de valors binomials de mida de la població: els 1 indiquen les posicions seleccionades. Així que per obtenir els valors seleccionats, farem:
(1:10)[s1==1]
## [1] 3 4 5 9
La funció srswr(), treballa grosso modo igual,
però, com que és amb reemplaçament, els valors que retorna són
els cops que apareix a la mostra un valor de la població:
set.seed(1009)
s2 <- sampling::srswr(n = 5, N = 10) # selecciona una mostra 4 elements d'una població de 10
s2
## [1] 1 1 0 0 2 0 0 0 1 0
La base R conté la funció sample() que es pot utilitzar
per seleccionar una mostra aleatòria simple (SRS). Podem seleccionar una
SRS (sense reemplaçament) de mida 4 d’una població de mida 10 de la
manera següent: ****.
El govern dels EUA realitza un Cens d’Agricultura cada cinc anys, recopilant dades sobre totes les granges (definides com qualsevol lloc des del qual es van produir i vendre 1000 dòlars o més en productes agrícoles). El fitxer agpop.csv conté informació històrica de 1982, 1987 i 1992 sobre el nombre de granges, la superfície total dedicada a granges, el nombre de granges amb menys de 9 acres i el nombre de granges amb més de 1000 acres per a la població que consisteix en els N = 3078 comtats i equivalents de comtat als Estats Units. (U.S. Bureau of the Census, 1995).
Les dades són al fitxer agpop de la llibreria
SDAResources:
library(SDAResources)
data("agpop")
str(agpop)
## tibble [3,078 × 15] (S3: tbl_df/tbl/data.frame)
## $ county : chr [1:3078] "ALEUTIAN ISLANDS AREA" "ANCHORAGE AREA" "FAIRBANKS AREA" "JUNEAU AREA" ...
## ..- attr(*, "format.sas")= chr "$"
## $ state : chr [1:3078] "AK" "AK" "AK" "AK" ...
## ..- attr(*, "format.sas")= chr "$"
## $ acres92 : num [1:3078] 683533 47146 141338 210 50810 ...
## ..- attr(*, "format.sas")= chr "BEST"
## $ acres87 : num [1:3078] 726596 59297 154913 214 85712 ...
## ..- attr(*, "format.sas")= chr "BEST"
## $ acres82 : num [1:3078] 764514 256709 204568 127 98035 ...
## ..- attr(*, "format.sas")= chr "BEST"
## $ farms92 : num [1:3078] 26 217 168 8 93 ...
## ..- attr(*, "format.sas")= chr "BEST"
## $ farms87 : num [1:3078] 27 245 175 8 119 ...
## ..- attr(*, "format.sas")= chr "BEST"
## $ farms82 : num [1:3078] 28 223 170 12 137 ...
## ..- attr(*, "format.sas")= chr "BEST"
## $ largef92: num [1:3078] 14 9 25 0 9 25 24 40 6 9 ...
## ..- attr(*, "format.sas")= chr "BEST"
## $ largef87: num [1:3078] 16 10 28 0 18 32 37 48 10 11 ...
## ..- attr(*, "format.sas")= chr "BEST"
## $ largef82: num [1:3078] 20 11 21 0 17 32 48 43 10 16 ...
## ..- attr(*, "format.sas")= chr "BEST"
## $ smallf92: num [1:3078] 6 41 12 5 12 8 90 9 6 43 ...
## ..- attr(*, "format.sas")= chr "BEST"
## $ smallf87: num [1:3078] 4 52 18 4 18 19 91 21 10 44 ...
## ..- attr(*, "format.sas")= chr "BEST"
## $ smallf82: num [1:3078] 1 38 25 8 19 17 95 36 15 64 ...
## ..- attr(*, "format.sas")= chr "BEST"
## $ region : chr [1:3078] "W" "W" "W" "W" ...
## ..- attr(*, "format.sas")= chr "$"
## - attr(*, "label")= chr "AGPOP "
Veiem doncs que es tracta d’un data set de 3078 files i 15 variables.
Extraurem una mostra de 300 unitats utilitzant les funcions que ja
hem vist i afegint la funció getdat().
set.seed(8126834)
index <- sampling::srswor(n= 300, N = nrow(agpop))
index[1:10]
## [1] 0 0 0 1 0 0 0 0 0 0
agsrs2 <- sampling::getdata(data = agpop, m = index)
head(agsrs2)
## ID_unit county state acres92 acres87 acres82 farms92 farms87 farms82
## 1 4 JUNEAU AREA AK 210 214 127 8 8 12
## 2 30 DE KALB COUNTY AL 210733 213440 221502 1894 2047 2228
## 3 38 HALE COUNTY AL 167583 154581 179618 382 441 481
## 4 46 LEE COUNTY AL 67962 79836 100949 336 402 407
## 5 50 MADISON COUNTY AL 224370 235478 292873 871 977 1101
## 6 62 RUSSELL COUNTY AL 112620 143568 141048 213 276 314
## largef92 largef87 largef82 smallf92 smallf87 smallf82 region
## 1 0 0 0 5 4 8 W
## 2 13 5 6 114 133 168 S
## 3 38 33 39 12 22 17 S
## 4 10 10 20 15 22 20 S
## 5 59 59 61 46 76 89 S
## 6 25 30 33 14 14 25 S
agsrs2$pes <- rep(nrow(agpop)/nrow(agsrs2),nrow(agsrs2))
Es reparteix la ponderació de la mostra entre totes les seves untitats, com es pot veure aquí sota:
head(agsrs2$pes)
## [1] 10.26 10.26 10.26 10.26 10.26 10.26
Cada unitat de mostreig pesa doncs 10.26 unitats d’observació (de la població)
D’altra banda es pot controlar que el càlcul és correcte sumant fent la suma de tots els pesos de la mostra que ha de donar el nombre total de les unitats de la població.
sum(agsrs2$pes)
## [1] 3078
Els comtats seleccionats per formar part de la mostra poden no semblar gaire aleatoris a primera vista. La mostra no conté comtats de 3 estats i hi ha certa desproporció entre estats pel que fa a nombre de comtats. Hi ha una temptació força natural de voler “ajustar” la llista de nombres aleatoris, de dispersar-la una mica més. Tanmateix, si volem una mostra aleatòria, hem de resistir aquesta temptació.
En més d’un estudi ha quedat demostrat que les mostres intencionades sovint no representen la població en variables clau. Si substituïm deliberadament altres comtats pels de la mostra generada aleatòriament, és possible que puguem fer coincidir la població en una característica particular, com ara la distribució geogràfica; tanmateix, és probable que no aconseguim fer coincidir la població en característiques d’interès, com ara el nombre de granges o la mida mitjana de les granges.
Si volem assegurar-nos que tots els estats hi estiguin representats, no hem d’ajustar la mostra seleccionada aleatòriament a propòsit, sinó que cal agafar una mostra estratificada.
agsrs2 %>%
group_by(state) %>%
summarise(n=n())
## # A tibble: 47 × 2
## state n
## <chr> <int>
## 1 AK 1
## 2 AL 7
## 3 AR 8
## 4 AZ 1
## 5 CA 6
## 6 CO 7
## 7 CT 1
## 8 FL 8
## 9 GA 13
## 10 HI 1
## # ℹ 37 more rows
A partir d’ara, farem servir, per mantenir la unitat, la
mostra pregenerada agsrs pel paquet
SDAResources.
data("agsrs")
Utilitzant l’esmentada mostra, analitzem la variable
acres92 que dona el valor de la superfície dedicada a
agricultura (en acres). Veiem que no hi ha valors perduts per a aquesta
variable.
agsrs[is.na(agsrs$acres92),]
## # A tibble: 0 × 15
## # ℹ 15 variables: county <chr>, state <chr>, acres92 <dbl>, acres87 <dbl>,
## # acres82 <dbl>, farms92 <dbl>, farms87 <dbl>, farms82 <dbl>, largef92 <dbl>,
## # largef87 <dbl>, largef82 <dbl>, smallf92 <dbl>, smallf87 <dbl>,
## # smallf82 <dbl>, region <chr>
La figura mostra un histograma de la superfície dedicada a producció agrícola a cadascun dels 300 comtats. Observeu la biaix de les dades. La majoria dels comtats tenen menys de 500.000 acres en granges; alguns comtats, però, tenen més d’1,5 milions d’acres en granges.
hist(agsrs$acres92, breaks= 20,
main = "Superfície en acres dedicada a producció agrícola",
xlab = "Acres")
Per estimar la mitjana poblacional \(\small \bar y_\mathcal{U}\) a partir d’una SRS, utilitzem la mitjana mostral \[ \small \bar y_\mathcal{S} = \frac{1}{n} ∑_{i∈S} y_i. \]
A partir d’aquí, utilitzarem \(\small\bar y\) per referir-nos a la mitjana mostral, eliminant el subíndex \(\small\mathcal S\) tret que sigui necessari per claredat. \(\small\bar y\) És doncs un estimador no esbiaixat de la mitjana poblacional \(\small\bar y_\mathcal{U}\), i la variància de \(\small\bar y\) és \[ \small V (y) = \frac{S^2}{n} (1−\frac{n}{N}) \]
per a \(S^2\). La variància \(\small V(\bar y)\) mesura la variabilitat entre les estimacions de \(\small y_\mathcal U\) de diferents mostres.
El factor (1 − n/N) s’anomena correcció de població finita (fpc). Intuïtivament, fem aquesta correcció perquè amb poblacions petites, com més gran sigui la fracció de mostreig \(\small n/N\), més informació tindrem sobre la població i, per tant, més petita serà la variància. Si \(\small N = 10\) i mostrem les 10 observacions, esperaríem que la variància de \(\small\bar y\) fos 0 (que ho és). Si \(\small N = 10\), només hi ha una mostra possible \(\small \mathcal S\) de mida 10 sense reemplaçament, amb \(\small y_\mathcal S = y_\mathcal U\), de manera que no hi ha variabilitat deguda a la presa de mostra. Per a un cens, la fpc, i per tant \(\small V(y)\), és 0. Quan la fracció mostrejadora \(\small n/N\) és gran en un SRS sense reemplaçament, la mostra s’acosta més a un cens, que no té variabilitat mostrejadora.
Per a la majoria de mostres que es prenen de poblacions extremadament grans, la fpc és aproximadament 1. Per a poblacions grans, és la mida de la mostra presa, no el percentatge de la població mostrejada, el que determina la precisió de l’estimador.
Per tant, la variància poblacional \(\small S^2\), que depèn dels valors de tota la població, és en general desconeguda. L’estimem mitjançant la variància mostral: \[ \small s^2 = \frac{1}{n−1} ∑_{i∈\mathcal S}(y_i − y)^2 \]
i un estimador no esbiaixat de la variància de \(\small\bar y\) és \[ \small\hat V(y) = \bigg(1 −\frac{n}{N}\bigg) \frac{s^2}n \]
L’Error estàndard és l’arrel quadrada de la variància estimada de \(\small\bar y\): \[ \small SE(\bar y)= \sqrt{\bigg(1- \frac{n}{N}\bigg)\frac{s^2}{n}}. \]
Recordem que \[ \small SE= SD/\sqrt{n} \] on \(\small SD\) és la desviació estándard.
El coeficient de variació (CV) de l’estimador y en un SRS és una mesura de variabilitat relativa.
Podem estimar el CV(y) utilitzant l’error estàndard dividit per la mitjana (només es calcula quan la mitjana és diferent de zero). En un SRS, \[ \small \hat{CV}(\bar y) = \frac{SE(\bar y)}{\bar y} = \sqrt {1 −\frac nN} \frac{s}{\sqrt n} \frac{1}{\bar y} \]
El CV estimat és, per tant, l’error estàndard expressat com una fracció de la mitjana.
Una població total \(\small t\) es pot expressar com la població mitjana multiplicada per \(\small N\): $$ t = ∑{i=1}^Ny_i = NyU .
$$ Això vol dir que, si agafem l’Univers, calculem la mitjana, la població total s’obtindrà multiplicant la mitjana obtinguda directament de l’univers per N.
Però, també podem utilitzar l’estimador no esbaixat, que s’obté de a mostra: \[ \small\hat t = N\bar y \] amb una variància mostral no esbiaixada \[ \small\hat V(\hat t) = N^2\bigg(1-\frac nN \bigg)\frac {s^2}{n} \]
Cal destacar que el coeficient de variació sobre la boblació total \(\small CV(\hat t) = \sqrt{V (\hat t)}/E(\hat t)\) és el mateix que \(CV(\bar y)\) per a una mostra aleatòria simple.
Aplicarem els estadístics anterior, sobre la variable
acres92, utilitzant la mostra agsrs:
n <- length(agsrs$acres92)
n
## [1] 300
ybar <- mean(agsrs$acres92, na.rm = T)
ybar
## [1] 297897
hatvybar<-(1-n/3078)* # correcció de població finita (fpc) ¡IMPORTANT!
var(agsrs$acres92)/n
hatvybar
## [1] 357150824
seybar<-sqrt(hatvybar)
seybar
## [1] 18898.43
Es calcula l’interval de confiança amb una fórmula directa, en aquest cas utilitzant la distribució t
se_acres92 <- qt(.975, n-1)*seybar
ci_acres92 <- data.frame(
baix = ybar - se_acres92,
alt = ybar + se_acres92
)
ci_acres92
## baix alt
## 1 260706.3 335087.8
Si executem t.test(), veiem que, si bé l’estimació de la
mitjana és idèntica, l’interval de confiança queda més obert respecte al
nostre càlcul manual, perquè aquesta funció no utilitza la
correcció de població finita (fpc):
t.test(agsrs$acres92)
##
## One Sample t-test
##
## data: agsrs$acres92
## t = 14.975, df = 299, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 258749.6 337044.5
## sample estimates:
## mean of x
## 297897
Un t.test amb R assumeix automàticament per
defecte el mostreig per reemplaçament, és a dir, no
utilitza una correcció de població finita (fpc). Si la mostra
s’extreu sense reemplaament d’una població petita i definida: és a dir,
és aproximadament més del 5% de la població total (com en aquest cas),
cal ajustar manualment l’error estàndard per evitar sobreestimar el
vostre valor el valor \(p\) o els
intervals de confiança.
seybar/ybar
## [1] 0.06343948
Com que estimar una proporció és un cas especial d’estimació d’una mitjana, els resultats anteriors també es compleixen per a les proporcions, i prenen una forma simple.
Suposem que volem estimar la proporció d’unitats de la població que tenen alguna característica; anomenem aquesta proporció \(p\). Definim \(y_i\) com a 1 si la unitat té la característica i com a 0 si la unitat no té aquesta característica. Aleshores \(\small p = N∑_{i=1}y_i/N = y_\mathcal{U}\), i \(p\) s’estima mitjançant \(\small \hat p = \bar y\). En conseqüència, \(\small \hat p\) és un estimador no esbiaixat de \(p\). Per a la resposta \(y_i\), prenent valors 0 o 1.
Per a la mostra ja descrita al nostre exemple, la proporció estimada de comtats amb menys de 200.000 acres en explotacions agrícoles és
agsrs$menys_200k_a <- ifelse(agsrs$acres92 < 200000, 1, 0)
p_hat <- sum(agsrs$menys_200k_a) / length(agsrs$menys_200k_a)
p_hat
## [1] 0.51
Anàlogament, podem demostar que la variància de \(p\) és
\[ \small\hat V(\hat p) = (1 −n/N)\frac{\hat p(1−\hat p)}{n−1} \]
Al nostre exemple, l’error estàndard SE serà
se_binom <- sqrt((1-n/3078) * p_hat*(1-p_hat)/(n-1))
se_binom
## [1] 0.02746498
A la secció anterior, hem definit \(\small π_i\) com la probabilitat que la unitat \(i\) s’inclogui a la mostra. En el mostreig probabilístic, aquestes probabilitats d’inclusió s’utilitzen per calcular estimacions puntuals com ara \(\hat t\) i \(\bar y\). Definim la ponderació de mostreig, de vegades anomenat pes de disseny, com el recíproc de la probabilitat d’inclusió**: \[ \small w_i =\frac 1 π_i. \] El pes de mostreig de la unitat mostrejada i es pot interpretar com el nombre d’unitats de població representades per la unitat \(i\).
En un SRS, cada unitat té una probabilitat d’inclusió \(\smallπ_i = n/N\); en conseqüència, tots els pesos de mostreig són els mateixos amb \(\small w_i = 1/π_i = N/n\). Per tant, podem pensar que cada unitat de la mostra representa el mateix nombre d’unitats, \(\small N/n\), a la població, més \(\small N/n − 1\) de les unitats no mostrejades. Anomenem una mostra d’aquest tipus, en què cada unitat té el mateix pes de mostreig, una mostra autoponderada.
Utilitzem els pesos de mostreig directament per a tots els càlculs:
Per a un SRS, on \(\small w_i = N/n\), les expressions de (2.24) a (2.26) es simplifiquen a \(\small\hat N = ∑_{i∈\mathcal S} (N/n) = N\), \(\small\hat t= (N/n)∑_ {i∈\mathcal S} y_i\), i \(\small\bar y = (1/n)∑_{i∈\mathcal S} y_i\), les mateixes expressions que teníem a la secció anterior.
### S'utilitzen 3 llibreries: dplyr, janitor (per a la línia de totals) i flextable (per a la visualització de la taula)
library(dplyr)
agsrs %>%
mutate(pes = nrow(agpop)/nrow(agsrs), # Calculem le ponderació N/n
`pes*acres92`= pes * acres92, # Estmem el nombre d'acres de cada comtat
`pes*menys_200k_a` = pes * menys_200k_a) %>%
select(1:3,16:19) %>%
select(1,2,5,3,4,6,7) %>%
janitor::adorn_totals() %>%
mutate(across(everything(), as.character)) %>%
add_row(county = "...", state = "...", pes = "...", acres92 = "...", menys_200k_a = "...",
`pes*acres92` = "...", `pes*menys_200k_a`= "...", .after = 5) %>%
slice(1:6,302) %>%
flextable::flextable()
county | state | pes | acres92 | menys_200k_a | pes*acres92 | pes*menys_200k_a |
|---|---|---|---|---|---|---|
COFFEE COUNTY | AL | 10.26 | 175209 | 1 | 1797644.34 | 10.26 |
COLBERT COUNTY | AL | 10.26 | 138135 | 1 | 1417265.1 | 10.26 |
LAMAR COUNTY | AL | 10.26 | 56102 | 1 | 575606.52 | 10.26 |
MARENGO COUNTY | AL | 10.26 | 199117 | 1 | 2042940.42 | 10.26 |
MARION COUNTY | AL | 10.26 | 89228 | 1 | 915479.28 | 10.26 |
... | ... | ... | ... | ... | ... | ... |
Total | - | 3078 | 89369114 | 153 | 916927109.64 | 1569.78 |
on veiem l’estimació dels valors totals a l’última fila.
surveyLa majoria de les estadístiques hem vist es poden calcular amb R
utilitzant les funcions svydesign(), svymean()
i svytotal() del paquet survey (Lumley,
2020).
El conjunt de dades agsrs no conté una variable de
ponderació de la mostra, per la qual cosa cal crear-ne una. També cal
definir la variable menys_200k_a, que pren el valor 1 si
acres92 < 200.000 i el valor 0 si
acres92 ≥ 200.000. La mitjana de la variable
lt200k estima la proporció de granges que tenen menys de
200.000 acres. Ambdues coses ja les hem fet; per tant podem seguir.
Ara especificarem el disseny de l’enquesta amb la funció
svydesign(). La funció té nombrosos arguments opcionals,
per la qual cosa hem d’utilitzar els noms de les variables als
arguments. Els arguments utilitzats per a un SRS són:
id: En dissenys d’enquesta generals,
id especifica els identificadors de
clúster. Per a un SRS utilitzem
id = ~1, que indica a svydesign que
no hi ha agrupament. R utilitza la tilde
(~) per especificar una fórmula. En discutirem la sintaxi
més endavant.
weights: Anomena la variable del
marc de dades que conté els pesos de mostreig. L’argument
wights es pot ometre per calcular mitjanes en un SRS (la
funció calcularà els pesos a partir de l’argument fpc si es
proporciona, o establirà tots els pesos iguals a 1 si no s’inclouen ni
els pesos ni fpc), però és bo adquirir el costum d’utilitzar una
variable de pes, per la qual cosa la incloem aquí.
fpc: Informació per calcular la
correcció de població finita. Per a un SRS, podem utilitzar
fpc = rep(N, n). Recordem que a agsrs,
N = 3078, n = 300. Dins de d’aquesta funció,
serà fpc = rep(3078, 300).
data: Nom del marc de dades que
conté les variables que s’analitzaran.
Per tant, per aplicar la funció svydesign() a la nostra
mostra, farem
agsrs$pes <- nrow(agpop)/nrow(agsrs) # Primer incloem de manera estable els pesos al data set
library(survey)
dsrs <- svydesign(id = ~1, weights = ~pes, fpc = rep(3078,300), data = agsrs)
dsrs
## Independent Sampling design
## svydesign(id = ~1, weights = ~pes, fpc = rep(3078, 300), data = agsrs)
Quan imprimim dsrs, se’ns diu que es tracta d’un
“disseny de mostreig independent”, és a dir, que
no hi ha estratificació ni clustering.
Ara que s’ha especificat el disseny de l’enquesta, podem calcular
les mitjanes i els totals estimats utilitzant les
funcions svymean() i
svytotal(). Per a cadascuna d’aquestes, el
primer argument conté el nom de la variable o
variables que s’analitzaran, i el segon
argument és el nom de l’objecte de disseny que
va ser creat per svydesign().
La funció confint() construirà un interval de
confiança del 95% (podeu especificar altres nivells de
confiança amb l’argument opcional level) utilitzant una
distribució \(t\) amb graus de
llibertat df. Si no especifiqueu els df,
s’utilitzarà una distribució normal per als intervals de confiança. Per
a un SRS, la distribució \(t\) té n − 1 df, on
n és la mida de la mostra.
smean <- svymean(~acres92,dsrs)
smean
## mean SE
## acres92 297897 18898
confint(smean, df=n-1, level = 0.95)
## 2.5 % 97.5 %
## acres92 260706.3 335087.8
stotal <- svytotal(~acres92,dsrs)
stotal
## total SE
## acres92 916927110 58169381
confint(stotal, df=n-1, level = 0.95)
## 2.5 % 97.5 %
## acres92 802453859 1031400361
SE(smean)/coef(smean)
## acres92
## acres92 0.06343948
Hájek (1960) va demostrar un teorema del límit central per al mostreig aleatori simple sense reemplaçament (vegeu també les seccions 2.8 i 4.4 de Lehmann, 1999). En termes pràctics, el teorema de Hájek diu que si es compleixen certes condicions tècniques i si \(n\), \(N\) i \(N − n\) són tots “prou grans”, aleshores la distribució de la mostra de \[ \small\frac {\bar y−\bar y_\mathcal U} {\sqrt{(1−\frac nN)}\frac {S}{\sqrt{n}}} \]
és aproximadament normal amb mitjana 0 i variància 1, \(\small \approx N(0,1)\).
El terme imprecís “prou gran” apareix al teorema del límit central perquè l’adequació de l’aproximació normal depèn de n i de com de semblant s’assembla la població \(\{y_i,i = 1,…, N\}\) a una població generada a partir de la distribució normal.
El “nombre màgic” de n = 30, sovint citat en llibres d’introducció a l’estadística com una mida de mostra “prou gran” perquè s’apliqui el teorema del límit central, sovint no és suficient en problemes de mostreig de població finita. Moltes poblacions de què fem mostres tenen un biaix elevat: podem mesurar els ingressos, el nombre d’ha d’una granja dedicats a blat de moro o la concentració de mercuri als llacs de Nord Amèrica. Per a tots aquests exemples, esperem que la majoria de les observacions siguin relativament petites, però algunes siguin molt, molt grans, de manera que un histograma suavitzat de tota la població tindria aquest aspecte:
Sugden et al. (2000) recomanen una mida mínima de la mostra de:
\[ \small n_{\text{min}} = 28 + 25 \Bigg(\frac {∑_{i=1}^N (y_i−\bar y_\mathcal U)^3}{NS^3}\Bigg)^2 \] perquè l’IC tingui un nivell de confiança aproximadament igual a \(\small 1 − α\). La quantitat
\[ \small\frac{∑_{i=1}^N (y_i−\bar y_\mathcal U)^3}{NS^3} \]
és la asimetria en la població; si la asimetria és gran, es necessita una mida de mostra gran perquè l’aproximació normal sigui vàlida.
Un altre enfocament per considerar si la mida de la mostra és adequada per a una aproximació normal que s’ha d’utilitzar és mirar una aproximació bootstrap a la distribució del mostreig.
Per exemple, l’histograma que hem viat abans de le¡a distribució de
les dades de acres92 mostrava una distribució subjacent de
la superfície agrícola que estava lluny de ser normal. La mida
de la mostra és prou gran per aplicar el teorema del límit
central?
Substituïm els valors mostrals
sd(agsrs$acres92)
## [1] 344551.9
\(s = 344.551,9\), y
sum((agsrs$acres92-mean(agsrs$acres92,na.rm=T))^3, na.rm = T)/n
## [1] 1.050355e+17
\(\small ∑ i∈S(y_i − \bar y)^3/n = 1.05036 × 10^{17}\)
en comptes de \(S\) i \(∑_{i=1}^N(y_i − y_\mathcal U)3/N\), obtenint una moda mínima de mostra de \[ \small n_{\text{min}} = 28 + 25 \Bigg[\frac{1.05036×10^{17}} {(344,551.9)^3} \Bigg]^2 \approx 193 \]
Per a aquest exemple, la nostra mostra de mida 300 sembla ser prou gran perquè la distribució de mostreig de \(\small\bar y\) sigui aproximadament normal.
Per estimar les proporcions, el criteri habitual que la mida de la mostra sigui prou gran com per utilitzar la distribució normal si tant \(\small np ≥ 5\) com \(\small n(1 − p) ≥ 5\) és una guia útil. (Quan no es compleix aquesta pauta, potser podrem utilitzar el CI de Clopper-Pearson.)
Un IC aproximat del 95% per a la proporció de comtats amb menys de 200.000 acres en granges és \[ \small 0,51 ± 1,968(0,0275) ~\text o ~[0,456, 0,564] \]
Per trobar un IC del 95% per al nombre total de comtats amb menys de 200.000 acres a les granges, simplement multipliquem totes les quantitats per \(\small N\), de manera que l’estimació puntual és \(\small 3078(0,51) = 1570\), amb un error estàndard \(\small3078 × SE(\hat p) = 84,54\) i 95% de IC \(\small [1403, 1736]\).
Un investigador sovint mesura múltiples variables i té diversos objectius per a una enquesta.
Qualsevol persona que dissenyi un SRS ha de decidir quina quantitat d’error de mostreig en les estimacions és tolerable i ha d’equilibrar la precisió de les estimacions amb el cost de l’enquesta. Tot i que es poden mesurar moltes variables, un investigador sovint es pot centrar en una o dues respostes que siguin d’interès principal en l’enquesta i utilitzar-les per estimar la mida de la mostra.
Per a una sola resposta, seguiu aquests passos per estimar la mida de la mostra:
Pregunteu “Què s’espera de la mostra i quanta precisió necessito?” Quines són les conseqüències dels resultats de la mostra? Quant d’error és tolerable? Si la vostra enquesta mesura la taxa d’atur cada mes, voldríeu que les vostres estimacions tinguessin una alta precisió per poder detectar canvis en les taxes d’atur de mes a mes. Tanmateix, una investigació preliminar sovint necessita menys precisió que una enquesta contínua. En lloc de preguntar sobre la precisió requerida, molta gent pregunta: “Quin percentatge de la població hauria d’incloure a la meva mostra?”. Aquesta sol ser la pregunta equivocada que cal fer. Excepte en poblacions molt petites, la precisió s’obté a través de la mida absoluta de la mostra, no de la proporció de la població coberta. Com hem vist, la fpc, que és l’únic lloc on apareix la mida de la població N a la fórmula de la variància, té poc efecte sobre la variància de l’estimador en poblacions grans.
Trobeu una equació que relacioni la mida de la mostra \(n\) i les vostres expectatives de la mostra.
Estimeu qualsevol quantitat desconeguda i resoleu per a \(n\).
Si sou relativament nous en el disseny d’enquestes, trobareu en aquest punt que la mida de la mostra que vau calcular al pas 3 és molt més gran del que us podeu permetre. Torneu enrere i ajusteu algunes de les vostres expectatives per a l’enquesta i torneu-ho a intentar. En alguns casos, trobareu que ni tan sols us podeu apropar a la precisió que necessiteu amb els recursos que teniu disponibles; en aquest cas, potser hauríeu de considerar si hauríeu de dur a terme el vostre estudi.
Només els investigadors de l’estudi poden dir quanta precisió es necessita. La precisió desitjada sovint s’expressa en termes absoluts, com \[ \small P(|\bar y − \bar y_\mathcal U | ≤ e) = 1 − α. \] ja que l’investigador ha de decidir valors raonables per a \(α\) i \(e\); \(e\) s’anomena marge d’error. El marge d’error és la meitat de l’amplada d’un IC del 95%. Per a moltes enquestes a persones en què es mesura una proporció, el marge d’error s’estableix en \(\small e = 0,03\) i \(\smallα = 0,05\).
De vegades es vol aconseguir una precisió relativa desitjada, controlant el CV en lloc de l’error absolut. En aquest cas, si \(\small y_\mathcal U ≠ 0\), la precisió es pot expressar com \[ \small P\bigg(\bigg|\frac{y−y_\mathcal U} {y_\mathcal U}\bigg| ≤ r \bigg) = 1 − α \]
L’equació més simple que relaciona la precisió i la mida de la mostra prové dels intervals de confiança de la secció anterior. Per obtenir una precisió absoluta \(e\), trobeu un valor de \(n\) que satisfaci \[ \small e = z_{α/2}\sqrt{(1 − \frac{n}N)} \frac{S}{\sqrt{n}} \]
Per resoldre aquesta equació per a \(n\), primer trobem la mida de la mostra \(n_0\) que utilitzaríem per a un Mostreig aleatori simple amb reemplaçament (SRSWR): \[ n_0 = \bigg(\frac{z_{α/2}S}e \bigg)^2\tag{1.} \]
Aleshores, la mida de la mostra desitjada és \[ \small n = \frac{n_0}{1+\frac {n_0} N} = \frac{z_{α/2}^2 S^2} {e^2+\frac{z_{α/2}^2S^2}N}\tag{2.} \]
En enquestes en què una de les principals respostes d’interès és una proporció, sovint és més fàcil utilitzar aquesta resposta en establir la mida de la mostra. Per a poblacions grans, \(\small S^2 ≈ p(1 − p)\), que assoleix el seu valor màxim quan \(\small p = 1/2\). Per tant, utilitzar \(\small n_0 = 1.96^2/(4e^2)\) donarà com a resultat un IC del 95% amb una amplada com a màxim \(\small 2e\).
Per calcular una mida de mostra per obtenir una precisió relativa especificada, substituïu \(\small r\bar y_\mathcal U\) per \(\small e\) a (1.) i (2.). Això resulta en la mida de mostra \[ \small n=\frac {z_{α/2}^2S^2}{(r\bar y_\mathcal U )^2 + \frac{z_{2α/2}S^2}N}=\\ \small= \frac{z_{2α/2}^2(S/\bar y_\mathcal U )^2} {r^2+\frac{z_{2α/2}^2(S/\bar y\mathcal U)^2}N} \] Per aconseguir una precisió relativa especificada, la mida de la mostra es pot determinar utilitzant només la relació \(\small S/y_\mathcal U\) , el CV per a una mostra de mida 1.
Suposem que volem estimar la proporció de receptes d’un llibre de cuina que no impliquen productes animals. Tenim previst fer un SRS de les N = 1251 receptes del llibre de cuina i volem utilitzar un IC del 95% amb un marge d’error de 0,03. Aleshores, recordant que \(\small S^2 ≈ p(1 − p)\) i aplicant \(\small 1.\): \[ \small n_0 = \frac{(1.96)^2(1/2)(1−1/2)}{(0.03)^2} ≈ 1067. \] La mida de la mostra, ignorant el fpc, és gran en comparació amb la mida de la població, de manera que en aquest cas faríem l’ajustament amb fpc : \[ \small n =\frac {n_0} {1+n_0/N}= \frac{1067}{1+1067/ 1251}= 576 \]
En aquest exemple, el fpc fa una diferència en la mida de la mostra perquè \(N\) només és 1251. Tanmateix, si \(N\) és gran, normalment \(\small n_0/N\) serà molt petit, de manera que per a poblacions grans normalment tenim \(\small n ≈ n_0\). Per tant, necessitem aproximadament la mateixa mida de mostra per a qualsevol població gran, tant si aquesta població té 10 milions, 1.000 milions o 100.000 milions d’unitats.
Moltes enquestes d’opinió pública especifiquen l’ús d’una mida de mostra d’uns 1100. Aquest nombre prové d’arrodonir el valor de \(n_0\) a l’exemple 1 fins al següent centenar i després observar que la mida de la població és tan gran en relació amb la mostra que s’ha d’ignorar el fpc. Per a poblacions grans, és la mida de la mostra, no la proporció de la població mostrejada, la que determina la precisió. És a dir, ss’aplica \[ \small n_0 = \frac{(1.96)^2(1/2)(1−1/2)}{(0.03)^2} ≈ 1067~\text{arrodoniment}=>1100 \] Fixar-se en com canvia \(n_0\), tan sols canviant de de poquíssim \(e\): posant-lo a 0.05, compte de 0.03, \(n_0\) passa a \(\approx 384\).
Per què l’American Community Survey (ACS) necessita una mostra de 3,5 milions de llars, quan el marge d’error per a una proporció estimada d’un SRS molt més petit de mida 40.000 és inferior a 0,005? Si l’únic objectiu de l’enquesta fos produir estadístiques per al país en conjunt, una mostra molt més petita seria suficient. Però l’enquesta també produeix estimacions detallades per a subàrees del país, i la mida de la mostra a cada subàrea ha de ser prou gran per produir estimacions d’una precisió especificada per a aquesta subàrea.
Quan ens interessa una proporció, podem utilitzar 1/4 com a límit superior per a \(\small S^2\). Per a altres quantitats, s’ha d’estimar o endevinar \(\small S^2\). Alguns mètodes per estimar \(\small S^2\) inclouen:
De vegades, el mostreig sistemàtic s’utilitza com a aproximació per al mostreig aleatori simple, quan no existeix cap llista de la població o quan la llista està en ordre aproximadament aleatori. Per obtenir una mostra sistemàtica, trieu una mida de mostra n. Si \(\small N/n\) és un nombre enter, sigui \(\small k = N/n\); en cas contrari, sigui \(k\) el següent nombre enter després de \(\small N/n\). A continuació, trobeu un nombre enter aleatori R entre 1 i k, que determini que la mostra són les unitats numerades \(\small R, R + k, R + 2k,…, R + (n − 1)k\). Per exemple, per seleccionar una mostra sistemàtica de 45 estudiants de la llista de 45.000 estudiants d’una universitat, l’interval de mostreig k és 1000. Suposem que l’enter aleatori que escollim és 597. Aleshores, els estudiants numerats 597, 1597, 2597, …, 44.597 estarien a la mostra. Si la llista d’estudiants s’ordena per números d’identificació d’estudiant generats aleatòriament, probablement obtindrem una mostra que es comportarà de manera molt similar a un SRS: és poc probable que la posició d’una persona a la llista estigui associada amb la característica d’interès. Tanmateix, el mostreig sistemàtic no és el mateix que el mostreig aleatori simple; no té la propietat que cada grup possible de n unitats tingui la mateixa probabilitat de ser la mostra.
A l’exemple anterior, és impossible que els estudiants 345 i 346 apareguin tots dos a la mostra. El mostreig sistemàtic és tècnicament una forma de mostreig per clústers, com es discutirà en futures publicacions.
surveyPer a una variable numèrica binària (que pren valors 0 o 1), la
proporció estimada és la mitjana de la variable i la proporció de la
població que té menys_200k_a = 1 és la mitjana de la
variable menys_200k_a. A partir del resultat anterior,
podem veure que el valor de \(\small\hat p =
0.51\) és la proporció estimada on menys_200k_a pren
el valor 1. L’error estàndard és 0.0275, i un interval de confiança del
95% de p és [0.456, 0.564].
De vegades es vol estimar la proporció de la població que
pertany a cadascuna de les múltiples categories. La variable
region a les dades d’agsrs descriu la regió
del cens per a cada comtat de la mostra i pren els valors “NE”, “NC”,
“S” i “W”. Si executeu svymean amb la variable region,
obteniu la proporció estimada a cada categoria.
Per una variable categòrica, codificada
as.character:
table(agsrs$region)
##
## NC NE S W
## 107 24 130 39
region_prop <- survey::svymean(~region,dsrs)
region_prop
## mean SE
## regionNC 0.35667 0.0263
## regionNE 0.08000 0.0149
## regionS 0.43333 0.0272
## regionW 0.13000 0.0185
stats::confint(region_prop, df=299)
## 2.5 % 97.5 %
## regionNC 0.30487557 0.4084578
## regionNE 0.05066780 0.1093322
## regionS 0.37975605 0.4869106
## regionW 0.09363889 0.1663611
region_total <- survey::svytotal(~region,dsrs)
region_total
## total SE
## regionNC 1097.82 81.005
## regionNE 246.24 45.878
## regionS 1333.80 83.799
## regionW 400.14 56.872
stats::confint(region_total,df=299)
## 2.5 % 97.5 %
## regionNC 938.4070 1257.2330
## regionNE 155.9555 336.5245
## regionS 1168.8891 1498.7109
## regionW 288.2205 512.0595
Les variables numèriques són variables per a les
quals voleu calcular estadístics com ara mitjanes (per exemple,
acres92 és una variable numèrica). Les variables
categòriques són aquelles els valors de les quals representen
categories. Regió és una variable categòrica.
Volem estimar la proporció de la població a cada regió, però no podem calcular una regió “mitjana”. Aquí, la regió es reconeix automàticament com a variable categòrica perquè conté caràcters que no són números.
Algunes enquestes codifiquen les categories com a números; call anar amb compte de tractar aquestes variables com a categòriques en lloc de numèriques.
A R, per especificar que una variable és categòrica es pot fer servir
la funció factor(). Podeu declarar la variable com a
variable factor al conjunt de dades o a executant de funció
svymean().
Per exemple, podem veure com R tracta de manera diferent la variable
menys_200k_a, segons si especifiquem que és categórica o
no:
survey::svymean(~ menys_200k_a, dsrs)
## mean SE
## menys_200k_a 0.51 0.0275
Només funciona si tots els valors són 0 o 1. Això dóna la mitjana de
la variable menys_200k_a, que és la proporció amb
menys_200k_a = 1.
factor) de la
variablesurvey::svymean(~factor(menys_200k_a),dsrs)
## mean SE
## factor(menys_200k_a)0 0.49 0.0275
## factor(menys_200k_a)1 0.51 0.0275
Ara, analitzem menys_200k_a com a variable
factor. Això dóna la proporció a cada categoria.