library(tibble)
library(dplyr)
library(ggplot2)

Introducció

Tots fem servir dades de mostres per prendre decisions. Les dades externes que s’utilitzen per ajudar en aquestes decisions també provenen de mostres. Les estadístiques com la puntuació mitjana d’un llibre a les ressenyes en línia, el salari mitjà dels estudiants de psicologia…, totes deriven de mostres.

Però les estadístiques d’algunes mostres són més fiables que les d’altres. Què distingeix les estadístiques que “enganyen” de les que “guien”?

En aquest article i els següents, exposarem els principis estadístics que ens indiquen com dissenyar una enquesta per mostreig i analitzar les dades d’una mostra, de manera que les estadístiques calculades a partir d’una mostra descriguin amb precisió la població de la qual es va extreure la mostra.

Referències

  • S.L. Lohr, Sampling Design and Analysis, 3rd. Edition, 2022.
  • Y, Lu & S.L. Lohr, R Companion for Sampling Design and Analysis, 2022.

Definicions

  • Unitat d’observació: Un objecte sobre el qual es pren una mesura, de vegades anomenat element. En les enquestes de poblacions humanes, les unitats d’observació sovint són persones individuals; en les enquestes agrícoles o ecològiques, poden ser petites àrees de terra; en les enquestes d’auditoria, poden ser registres financers.

  • Població objectiu: La col·lecció completa d’observacions que volem estudiar. Definir la població objectiu és una part important i sovint difícil de l’estudi. Per exemple, en una enquesta política, la població objectiu hauria de ser tots els adults amb dret a vot? Tots els votants registrats? Totes les persones que van votar a les últimes eleccions? L’elecció de la població objectiu afectarà profundament les estadístiques resultants.

  • Mostra: Un subconjunt d’una població.

  • Població mostrejada: El conjunt de totes les unitats d’observació possibles que es podrien haver escollit en una mostra; la població de la qual es va extreure la mostra.

  • Unitat de mostreig: Una unitat que es pot seleccionar per a una mostra. Podem voler estudiar individus però no tenim una llista de tots els individus de la població objectiu. En canvi, les llars serveixen com a unitats de mostreig, i les unitats d’observació són els individus que viuen a les llars.

  • Marc de mostreig: Una llista, mapa o altra especificació d’unitats de mostreig de la població de la qual es pot seleccionar una mostra. Per a una enquesta telefònica, el marc de mostreig pot ser una llista de números de telèfon de votants registrats o simplement el conjunt de tots els números de telèfon possibles. Per a una enquesta que utilitza entrevistes presencials, el marc de mostreig pot ser una llista de totes les adreces. Per a una enquesta agrícola, un marc de mostreig pot ser una llista de totes les explotacions agrícoles o un mapa de les zones que contenen explotacions agrícoles.

Biaixos

Les discrepàncies entre la població objectiu i la població mostrejada poden fer que la mostra no sigui representativa i que les estadístiques calculades a partir d’ella siguin esbiaixades. El biaix és un error sistemàtic en els procediments de mostreig, mesura o estimació que fa que una estadística sigui constantment més gran (o constantment més petita) que la característica de la població que estima.

Existeixen dos grans cetegories de biaixos en els estudis estadístics: el biaix de selecció i el biaix de mesura.

  • El biaix de selecció es produeix quan la població objectiu no coincideix amb la població mostrejada o, més generalment, quan algunes unitats de població es mostregen a una taxa diferent de la prevista per l’investigador. Si una enquesta dissenyada per estudiar els ingressos de les llars té menys llars pobres que les que s’obtindrien en una mostra representativa, les estimacions de l’enquesta de l’ingrés mitjà o medià de les llars seran massa grans.

  • Una bona mostra té respostes precises als elements d’interès. Quan una resposta de l’enquesta difereix del valor real, s’ha produït un error de mesura. El biaix de mesura es produeix quan la resposta tendeix a diferir del valor real en una direcció. Igual que amb el biaix de selecció, l’error i el biaix de mesura s’han de tenir en compte i minimitzar en la fase de disseny de l’enquesta; Cap anàlisi estadística no revelarà que la bàscula va afegir erròniament 5 quilograms al pes de cada persona de l’enquesta de salut.

Error de mostreig

La majoria de les enquestes informen d’un “marge d’error”. Moltes simplement diuen que el marge d’error és de 3 punts percentuals. D’altres donen més detalls.

El marge d’error descriu l’error de mostreig, l’error que resulta de prendre una mostra seleccionada aleatòriament en lloc d’examinar tota la població. Si seleccionéssim aleatòriament una mostra diferent, el més probable és que obtindríem un percentatge de mostra diferent de persones que van visitar la biblioteca pública la setmana passada. Els errors de mostreig normalment es reporten en termes probabilístics, com ja veurem més endavant.

El biaix de selecció i l’error de mesura són exemples d’errors no de mostreig, que són qualsevol error que no es pot atribuir a la variabilitat entre mostres. De vegades, l’error de mostreig que es reporta per a l’enquesta és insignificant en comparació amb els errors no de mostreig; sovint es veuen enquestes amb una taxa de resposta del 5% que proclamen amb orgull el seu marge d’error del 3%, mentre ignoren l’enorme biaix de selecció potencial en els seus resultats.


Mostres probabilístiques simples

Tipus de mostres probabilístiques

Els termes mostra aleatòria simple, mostra estratificada, mostra per clústers i mostra sistemàtica són bàsics per a qualsevol discussió sobre enquestes per mostreig, així que definim-los ara.

  • Una mostra aleatòria simple (SRS) és la forma més senzilla de mostra probabilística. Una SRS de mida \(n\) es pren quan cada subconjunt possible de \(n\) unitats de la població té la mateixa probabilitat de ser la mostra. Les SRS són el focus d’aquest capítol i la base per a dissenys de mostreig més complexos. En prendre una mostra aleatòria, l’investigador està barrejant la població abans d’agafar \(n\) unitats. L’investigador no necessita examinar tots els membres de la població per la mateixa raó que un tècnic mèdic no necessita drenar-vos la sang per mesurar el recompte de glòbuls vermells: la vostra sang està prou ben barrejada perquè qualsevol mostra sigui representativa.
  • En una mostra aleatòria estratificada, la població es divideix en subgrups anomenats estrats. L’SRS es selecciona de cada estrat, i els SRS dels estrats es seleccionen de manera independent. Els estrats sovint són subgrups d’interès per a l’investigador; per exemple, els estrats es poden definir per regions del país en una enquesta de persones, tipus de terreny en una enquesta ecològica o mides de les empreses en una enquesta empresarial. Els elements del mateix estrat sovint tendeixen a ser més similars que els elements seleccionats aleatòriament de tota la població, de manera que l’estratificació sovint augmenta la precisió.
  • En una mostra per clústers, les unitats d’observació de la població s’agreguen en unitats de mostreig més grans, anomenades clústers. Suposem que voleu enquestar els membres de colles castelleres de Catalunya, però no teniu una llista de tots els castellers, de manera que no podeu fer una SRS tots els castellers de Catalunya. Tanmateix, sí que teniu una llista de totes les colles castelleres. Aleshores podeu fer una SRS de les colles i després submostrejar tots o alguns membres de la colles/les colles seleccionada/es. En aquest cas, les colles formen els clústers i els membres de les colles són les unitats d’observació. És més convenient doncs fer una mostra a nivell de colla; tanmateix, els membres de la mateixa colla poden tenir més similituds que els castellers seleccionats a l’atzar arreu a Catalunya, de manera que una mostra de clúster de 500 castellers pot no proporcionar tanta informació com una SRS de 500 castellers. Explorarem aquesta idea més a fons més endavant.
  • En una mostra sistemàtica, es tria un punt de partida d’una llista de membres de la població utilitzant un nombre aleatori. Aquesta unitat, i cada unitat \(k\) posterior, es tria per formar part de la mostra. Per tant, una mostra sistemàtica consisteix en unitats que estan equidistants a la llista.


Mostreig aleatori simple

El mostreig aleatori simple és la forma més bàsica de mostreig probabilístic i proporciona la base teòrica per a les formes més complicades. Hi ha dues maneres de prendre una mostra aleatòria simple: amb reemplaçament, en què la mateixa unitat es pot incloure més d’una vegada a la mostra, i sense reemplaçament, en què totes les unitats de la mostra són diferents.

En el mostreig de població finita, però, mostrejar la mateixa persona dues vegades no proporciona informació addicional. Normalment preferim mostrejar sense reemplaçament, de manera que la mostra no contingui duplicats. Es selecciona una mostra aleatòria simple sense reemplaçament (SRS) de mida \(n\) de manera que cada subconjunt possible de \(n\) unitats diferents de la població tingui la mateixa probabilitat de ser seleccionat que la mostra. Hi ha (\(\small\binom{N}{n} =\frac{N!}{n!(N−n)!}\)) mostres possibles, i cadascuna té la mateixa probabilitat, de manera que la probabilitat de seleccionar qualsevol mostra individual \(\mathcal{S}\) de \(n\) unitats és

\[ \small P(\mathcal{S}) \frac{1} {\binom{N}{n}}=\frac{n!(N-n)!} {N!}. \]

Com a conseqüència d’aquesta definició, la probabilitat que la unitat de població \(i\) aparegui a la mostra és \(π_i = n/N\), com es mostra aquí (atès que \(\small x!/(x-1)!=x\)),

\[ \require{cancel} \small \pi_i= \frac{\text{nombre de mostres possibles amb }i} {\text{nombre de mostres possibles}}= \frac {\binom{N-1}{n-1}} {\binom{N}{n}}= \frac{(N-1)!}{(n-1)! (N-1-n+1)!}· \frac{n!(N-n)!} {N!}=\\ \small =\frac{(N-1)!}{(n-1)! \cancelto{1}{(N-n)!}}· \frac{n!\cancelto{1}{(N-n)!}} {N!}= \small \frac{(N-1)!}{N!}·\frac{n!}{(n-1)!}= \frac{1}{N}·\frac{n}{1} = \frac{n}{N} \]

Selecció d’una mostra aleatòria simple (SRS) amb R

La funció sample() del paquet base

Per a la selecció d’una mostra SRS es pot utilizar la funció sample(). Per exemple, per seleccionar una mostra de mida 4, sense reemplaçament d’una població de 10, podem fer això (generant paral·lelament la població):

set.seed(108742) # Per poder replicar la mateixa selecció, si interessa.
# Ha de ser cridat alhora que `sample()`
sample(1:10,4,replace = F) # Fixar-se en `replace = F`: sense reemplaçament
## [1] 1 8 9 5

Podem seleccionar una mostra amb reemplaçament

set.seed(10001)
sample(1:10,5, replace = T)
## [1] 7 7 5 4 4

Com que ara es tracta d’una mostra amb reemplaçament es poden repetir els valors seleccionats; en aquest cas el 7 i el 9.

Les funcions srswor()i srswr() del paquet sampling

L’alternativa pot ser la utilització del paquet sampling amb les funcions srswor() (sence reemplaçament) i srswr() (amb reemplaçament)

set.seed(1329)
s1 <- sampling::srswor(n = 4, N = 10) # selecciona una mostra 4 elements d'una població de 10
s1
##  [1] 0 0 1 1 1 0 0 0 1 0

La funció retorna un vector de valors binomials de mida de la població: els 1 indiquen les posicions seleccionades. Així que per obtenir els valors seleccionats, farem:

(1:10)[s1==1]
## [1] 3 4 5 9

La funció srswr(), treballa grosso modo igual, però, com que és amb reemplaçament, els valors que retorna són els cops que apareix a la mostra un valor de la població:

set.seed(1009)
s2 <- sampling::srswr(n = 5, N = 10) # selecciona una mostra 4 elements d'una població de 10
s2
##  [1] 1 1 0 0 2 0 0 0 1 0

Exemple

La base R conté la funció sample() que es pot utilitzar per seleccionar una mostra aleatòria simple (SRS). Podem seleccionar una SRS (sense reemplaçament) de mida 4 d’una població de mida 10 de la manera següent: ****.

El govern dels EUA realitza un Cens d’Agricultura cada cinc anys, recopilant dades sobre totes les granges (definides com qualsevol lloc des del qual es van produir i vendre 1000 dòlars o més en productes agrícoles). El fitxer agpop.csv conté informació històrica de 1982, 1987 i 1992 sobre el nombre de granges, la superfície total dedicada a granges, el nombre de granges amb menys de 9 acres i el nombre de granges amb més de 1000 acres per a la població que consisteix en els N = 3078 comtats i equivalents de comtat als Estats Units. (U.S. Bureau of the Census, 1995).

Les dades són al fitxer agpop de la llibreria SDAResources:

library(SDAResources)
data("agpop")
str(agpop)
## tibble [3,078 × 15] (S3: tbl_df/tbl/data.frame)
##  $ county  : chr [1:3078] "ALEUTIAN ISLANDS AREA" "ANCHORAGE AREA" "FAIRBANKS AREA" "JUNEAU AREA" ...
##   ..- attr(*, "format.sas")= chr "$"
##  $ state   : chr [1:3078] "AK" "AK" "AK" "AK" ...
##   ..- attr(*, "format.sas")= chr "$"
##  $ acres92 : num [1:3078] 683533 47146 141338 210 50810 ...
##   ..- attr(*, "format.sas")= chr "BEST"
##  $ acres87 : num [1:3078] 726596 59297 154913 214 85712 ...
##   ..- attr(*, "format.sas")= chr "BEST"
##  $ acres82 : num [1:3078] 764514 256709 204568 127 98035 ...
##   ..- attr(*, "format.sas")= chr "BEST"
##  $ farms92 : num [1:3078] 26 217 168 8 93 ...
##   ..- attr(*, "format.sas")= chr "BEST"
##  $ farms87 : num [1:3078] 27 245 175 8 119 ...
##   ..- attr(*, "format.sas")= chr "BEST"
##  $ farms82 : num [1:3078] 28 223 170 12 137 ...
##   ..- attr(*, "format.sas")= chr "BEST"
##  $ largef92: num [1:3078] 14 9 25 0 9 25 24 40 6 9 ...
##   ..- attr(*, "format.sas")= chr "BEST"
##  $ largef87: num [1:3078] 16 10 28 0 18 32 37 48 10 11 ...
##   ..- attr(*, "format.sas")= chr "BEST"
##  $ largef82: num [1:3078] 20 11 21 0 17 32 48 43 10 16 ...
##   ..- attr(*, "format.sas")= chr "BEST"
##  $ smallf92: num [1:3078] 6 41 12 5 12 8 90 9 6 43 ...
##   ..- attr(*, "format.sas")= chr "BEST"
##  $ smallf87: num [1:3078] 4 52 18 4 18 19 91 21 10 44 ...
##   ..- attr(*, "format.sas")= chr "BEST"
##  $ smallf82: num [1:3078] 1 38 25 8 19 17 95 36 15 64 ...
##   ..- attr(*, "format.sas")= chr "BEST"
##  $ region  : chr [1:3078] "W" "W" "W" "W" ...
##   ..- attr(*, "format.sas")= chr "$"
##  - attr(*, "label")= chr "AGPOP                           "

Veiem doncs que es tracta d’un data set de 3078 files i 15 variables.

Extraurem una mostra de 300 unitats utilitzant les funcions que ja hem vist i afegint la funció getdat().

Obtenció d’un índex de les files seleccionades del data set

set.seed(8126834)
index <- sampling::srswor(n= 300, N = nrow(agpop))
index[1:10]
##  [1] 0 0 0 1 0 0 0 0 0 0

Extracció de la mostra a partir de l’índex

agsrs2 <- sampling::getdata(data = agpop, m = index)
head(agsrs2)
##   ID_unit         county state acres92 acres87 acres82 farms92 farms87 farms82
## 1       4    JUNEAU AREA    AK     210     214     127       8       8      12
## 2      30 DE KALB COUNTY    AL  210733  213440  221502    1894    2047    2228
## 3      38    HALE COUNTY    AL  167583  154581  179618     382     441     481
## 4      46     LEE COUNTY    AL   67962   79836  100949     336     402     407
## 5      50 MADISON COUNTY    AL  224370  235478  292873     871     977    1101
## 6      62 RUSSELL COUNTY    AL  112620  143568  141048     213     276     314
##   largef92 largef87 largef82 smallf92 smallf87 smallf82 region
## 1        0        0        0        5        4        8      W
## 2       13        5        6      114      133      168      S
## 3       38       33       39       12       22       17      S
## 4       10       10       20       15       22       20      S
## 5       59       59       61       46       76       89      S
## 6       25       30       33       14       14       25      S

Pesos (weight) dentro la muestra

agsrs2$pes <- rep(nrow(agpop)/nrow(agsrs2),nrow(agsrs2))

Es reparteix la ponderació de la mostra entre totes les seves untitats, com es pot veure aquí sota:

head(agsrs2$pes)
## [1] 10.26 10.26 10.26 10.26 10.26 10.26

Cada unitat de mostreig pesa doncs 10.26 unitats d’observació (de la població)

D’altra banda es pot controlar que el càlcul és correcte sumant fent la suma de tots els pesos de la mostra que ha de donar el nombre total de les unitats de la població.

sum(agsrs2$pes)
## [1] 3078

Els comtats seleccionats per formar part de la mostra poden no semblar gaire aleatoris a primera vista. La mostra no conté comtats de 3 estats i hi ha certa desproporció entre estats pel que fa a nombre de comtats. Hi ha una temptació força natural de voler “ajustar” la llista de nombres aleatoris, de dispersar-la una mica més. Tanmateix, si volem una mostra aleatòria, hem de resistir aquesta temptació.

En més d’un estudi ha quedat demostrat que les mostres intencionades sovint no representen la població en variables clau. Si substituïm deliberadament altres comtats pels de la mostra generada aleatòriament, és possible que puguem fer coincidir la població en una característica particular, com ara la distribució geogràfica; tanmateix, és probable que no aconseguim fer coincidir la població en característiques d’interès, com ara el nombre de granges o la mida mitjana de les granges.

Si volem assegurar-nos que tots els estats hi estiguin representats, no hem d’ajustar la mostra seleccionada aleatòriament a propòsit, sinó que cal agafar una mostra estratificada.

agsrs2 %>% 
  group_by(state) %>% 
  summarise(n=n())
## # A tibble: 47 × 2
##    state     n
##    <chr> <int>
##  1 AK        1
##  2 AL        7
##  3 AR        8
##  4 AZ        1
##  5 CA        6
##  6 CO        7
##  7 CT        1
##  8 FL        8
##  9 GA       13
## 10 HI        1
## # ℹ 37 more rows

La mostra per als pròxims càlculs

A partir d’ara, farem servir, per mantenir la unitat, la mostra pregenerada agsrs pel paquet SDAResources.

data("agsrs")

Utilitzant l’esmentada mostra, analitzem la variable acres92 que dona el valor de la superfície dedicada a agricultura (en acres). Veiem que no hi ha valors perduts per a aquesta variable.

agsrs[is.na(agsrs$acres92),]
## # A tibble: 0 × 15
## # ℹ 15 variables: county <chr>, state <chr>, acres92 <dbl>, acres87 <dbl>,
## #   acres82 <dbl>, farms92 <dbl>, farms87 <dbl>, farms82 <dbl>, largef92 <dbl>,
## #   largef87 <dbl>, largef82 <dbl>, smallf92 <dbl>, smallf87 <dbl>,
## #   smallf82 <dbl>, region <chr>

La figura mostra un histograma de la superfície dedicada a producció agrícola a cadascun dels 300 comtats. Observeu la biaix de les dades. La majoria dels comtats tenen menys de 500.000 acres en granges; alguns comtats, però, tenen més d’1,5 milions d’acres en granges.

hist(agsrs$acres92, breaks= 20,
     main = "Superfície en acres dedicada a producció agrícola", 
     xlab = "Acres")

Estimació d’estadístics

Mitjana

Per estimar la mitjana poblacional \(\small \bar y_\mathcal{U}\) a partir d’una SRS, utilitzem la mitjana mostral \[ \small \bar y_\mathcal{S} = \frac{1}{n} ∑_{i∈S} y_i. \]

Variància

A partir d’aquí, utilitzarem \(\small\bar y\) per referir-nos a la mitjana mostral, eliminant el subíndex \(\small\mathcal S\) tret que sigui necessari per claredat. \(\small\bar y\) És doncs un estimador no esbiaixat de la mitjana poblacional \(\small\bar y_\mathcal{U}\), i la variància de \(\small\bar y\) és \[ \small V (y) = \frac{S^2}{n} (1−\frac{n}{N}) \]

per a \(S^2\). La variància \(\small V(\bar y)\) mesura la variabilitat entre les estimacions de \(\small y_\mathcal U\) de diferents mostres.

El factor (1 − n/N) s’anomena correcció de població finita (fpc). Intuïtivament, fem aquesta correcció perquè amb poblacions petites, com més gran sigui la fracció de mostreig \(\small n/N\), més informació tindrem sobre la població i, per tant, més petita serà la variància. Si \(\small N = 10\) i mostrem les 10 observacions, esperaríem que la variància de \(\small\bar y\) fos 0 (que ho és). Si \(\small N = 10\), només hi ha una mostra possible \(\small \mathcal S\) de mida 10 sense reemplaçament, amb \(\small y_\mathcal S = y_\mathcal U\), de manera que no hi ha variabilitat deguda a la presa de mostra. Per a un cens, la fpc, i per tant \(\small V(y)\), és 0. Quan la fracció mostrejadora \(\small n/N\) és gran en un SRS sense reemplaçament, la mostra s’acosta més a un cens, que no té variabilitat mostrejadora.

Per a la majoria de mostres que es prenen de poblacions extremadament grans, la fpc és aproximadament 1. Per a poblacions grans, és la mida de la mostra presa, no el percentatge de la població mostrejada, el que determina la precisió de l’estimador.

Per tant, la variància poblacional \(\small S^2\), que depèn dels valors de tota la població, és en general desconeguda. L’estimem mitjançant la variància mostral: \[ \small s^2 = \frac{1}{n−1} ∑_{i∈\mathcal S}(y_i − y)^2 \]

i un estimador no esbiaixat de la variància de \(\small\bar y\) és \[ \small\hat V(y) = \bigg(1 −\frac{n}{N}\bigg) \frac{s^2}n \]

Error estàndard

L’Error estàndard és l’arrel quadrada de la variància estimada de \(\small\bar y\): \[ \small SE(\bar y)= \sqrt{\bigg(1- \frac{n}{N}\bigg)\frac{s^2}{n}}. \]

Recordem que \[ \small SE= SD/\sqrt{n} \] on \(\small SD\) és la desviació estándard.

Coeficient de variació (CV)

El coeficient de variació (CV) de l’estimador y en un SRS és una mesura de variabilitat relativa.

Podem estimar el CV(y) utilitzant l’error estàndard dividit per la mitjana (només es calcula quan la mitjana és diferent de zero). En un SRS, \[ \small \hat{CV}(\bar y) = \frac{SE(\bar y)}{\bar y} = \sqrt {1 −\frac nN} \frac{s}{\sqrt n} \frac{1}{\bar y} \]

El CV estimat és, per tant, l’error estàndard expressat com una fracció de la mitjana.

Població total

Una població total \(\small t\) es pot expressar com la població mitjana multiplicada per \(\small N\): $$ t = ∑{i=1}^Ny_i = NyU .

$$ Això vol dir que, si agafem l’Univers, calculem la mitjana, la població total s’obtindrà multiplicant la mitjana obtinguda directament de l’univers per N.

Però, també podem utilitzar l’estimador no esbaixat, que s’obté de a mostra: \[ \small\hat t = N\bar y \] amb una variància mostral no esbiaixada \[ \small\hat V(\hat t) = N^2\bigg(1-\frac nN \bigg)\frac {s^2}{n} \]

Cal destacar que el coeficient de variació sobre la boblació total \(\small CV(\hat t) = \sqrt{V (\hat t)}/E(\hat t)\) és el mateix que \(CV(\bar y)\) per a una mostra aleatòria simple.

Exemple amb R

Aplicarem els estadístics anterior, sobre la variable acres92, utilitzant la mostra agsrs:

n <- length(agsrs$acres92)
n
## [1] 300

Mitjana

ybar <- mean(agsrs$acres92, na.rm = T)
ybar
## [1] 297897

Variància

hatvybar<-(1-n/3078)* # correcció de població finita (fpc) ¡IMPORTANT!
  var(agsrs$acres92)/n
hatvybar
## [1] 357150824

Error estàndard

seybar<-sqrt(hatvybar)
seybar
## [1] 18898.43

Interval de confiança

Es calcula l’interval de confiança amb una fórmula directa, en aquest cas utilitzant la distribució t

se_acres92 <- qt(.975, n-1)*seybar

ci_acres92 <- data.frame(
  baix = ybar - se_acres92,
  alt = ybar + se_acres92
)
ci_acres92
##       baix      alt
## 1 260706.3 335087.8

Si executem t.test(), veiem que, si bé l’estimació de la mitjana és idèntica, l’interval de confiança queda més obert respecte al nostre càlcul manual, perquè aquesta funció no utilitza la correcció de població finita (fpc):

t.test(agsrs$acres92)
## 
##  One Sample t-test
## 
## data:  agsrs$acres92
## t = 14.975, df = 299, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  258749.6 337044.5
## sample estimates:
## mean of x 
##    297897

Un t.test amb R assumeix automàticament per defecte el mostreig per reemplaçament, és a dir, no utilitza una correcció de població finita (fpc). Si la mostra s’extreu sense reemplaament d’una població petita i definida: és a dir, és aproximadament més del 5% de la població total (com en aquest cas), cal ajustar manualment l’error estàndard per evitar sobreestimar el vostre valor el valor \(p\) o els intervals de confiança.

Coeficient de variació (CV)

seybar/ybar
## [1] 0.06343948

Estimació de proporcions

Com que estimar una proporció és un cas especial d’estimació d’una mitjana, els resultats anteriors també es compleixen per a les proporcions, i prenen una forma simple.

Suposem que volem estimar la proporció d’unitats de la població que tenen alguna característica; anomenem aquesta proporció \(p\). Definim \(y_i\) com a 1 si la unitat té la característica i com a 0 si la unitat no té aquesta característica. Aleshores \(\small p = N∑_{i=1}y_i/N = y_\mathcal{U}\), i \(p\) s’estima mitjançant \(\small \hat p = \bar y\). En conseqüència, \(\small \hat p\) és un estimador no esbiaixat de \(p\). Per a la resposta \(y_i\), prenent valors 0 o 1.

Per a la mostra ja descrita al nostre exemple, la proporció estimada de comtats amb menys de 200.000 acres en explotacions agrícoles és

agsrs$menys_200k_a <- ifelse(agsrs$acres92 < 200000, 1, 0)
p_hat <- sum(agsrs$menys_200k_a) / length(agsrs$menys_200k_a)
p_hat
## [1] 0.51

Variància en proporcions

Anàlogament, podem demostar que la variància de \(p\) és

\[ \small\hat V(\hat p) = (1 −n/N)\frac{\hat p(1−\hat p)}{n−1} \]

Al nostre exemple, l’error estàndard SE serà

se_binom <- sqrt((1-n/3078) * p_hat*(1-p_hat)/(n-1))

se_binom
## [1] 0.02746498

Ponderació del mostreig (sampling wight)

A la secció anterior, hem definit \(\small π_i\) com la probabilitat que la unitat \(i\) s’inclogui a la mostra. En el mostreig probabilístic, aquestes probabilitats d’inclusió s’utilitzen per calcular estimacions puntuals com ara \(\hat t\) i \(\bar y\). Definim la ponderació de mostreig, de vegades anomenat pes de disseny, com el recíproc de la probabilitat d’inclusió**: \[ \small w_i =\frac 1 π_i. \] El pes de mostreig de la unitat mostrejada i es pot interpretar com el nombre d’unitats de població representades per la unitat \(i\).

En un SRS, cada unitat té una probabilitat d’inclusió \(\smallπ_i = n/N\); en conseqüència, tots els pesos de mostreig són els mateixos amb \(\small w_i = 1/π_i = N/n\). Per tant, podem pensar que cada unitat de la mostra representa el mateix nombre d’unitats, \(\small N/n\), a la població, més \(\small N/n − 1\) de les unitats no mostrejades. Anomenem una mostra d’aquest tipus, en què cada unitat té el mateix pes de mostreig, una mostra autoponderada.

Utilitzem els pesos de mostreig directament per a tots els càlculs:

  • La mida de la població s’estima mitjançant la suma dels pesos de la mostra, \[ \small\hat N = ∑_{i∈\mathcal S} w_i \]
  • El total de la població per a \(y\) s’estima mitjançant \[ \small\hat t = ∑_{i∈\mathcal S} w_iy_i \]
  • i la mitjana de la població s’estima mitjançant \[ \small\hat y = \frac{∑_{i∈\mathcal S} w_iy_i} {∑_{i∈S}w_i} = \frac {\hat t} {\hat N} \]

Per a un SRS, on \(\small w_i = N/n\), les expressions de (2.24) a (2.26) es simplifiquen a \(\small\hat N = ∑_{i∈\mathcal S} (N/n) = N\), \(\small\hat t= (N/n)∑_ {i∈\mathcal S} y_i\), i \(\small\bar y = (1/n)∑_{i∈\mathcal S} y_i\), les mateixes expressions que teníem a la secció anterior.

Continuant amb R l’exemple amb els pesos

Càlcul dels pesos i dels productes

### S'utilitzen 3 llibreries: dplyr, janitor (per a la línia de totals) i flextable (per a la visualització de la taula)

library(dplyr)
agsrs %>%
  mutate(pes = nrow(agpop)/nrow(agsrs),  # Calculem le ponderació N/n
         `pes*acres92`= pes * acres92,    # Estmem el nombre d'acres de cada comtat
         `pes*menys_200k_a` = pes * menys_200k_a) %>% 
  select(1:3,16:19) %>% 
  select(1,2,5,3,4,6,7) %>% 
  janitor::adorn_totals() %>% 
  mutate(across(everything(), as.character)) %>% 
  add_row(county = "...", state = "...", pes = "...", acres92 = "...", menys_200k_a = "...", 
          `pes*acres92` = "...", `pes*menys_200k_a`= "...", .after = 5) %>% 
  slice(1:6,302) %>% 
  flextable::flextable()

county

state

pes

acres92

menys_200k_a

pes*acres92

pes*menys_200k_a

COFFEE COUNTY

AL

10.26

175209

1

1797644.34

10.26

COLBERT COUNTY

AL

10.26

138135

1

1417265.1

10.26

LAMAR COUNTY

AL

10.26

56102

1

575606.52

10.26

MARENGO COUNTY

AL

10.26

199117

1

2042940.42

10.26

MARION COUNTY

AL

10.26

89228

1

915479.28

10.26

...

...

...

...

...

...

...

Total

-

3078

89369114

153

916927109.64

1569.78

on veiem l’estimació dels valors totals a l’última fila.

Treball amb la llibreria específica survey

La majoria de les estadístiques hem vist es poden calcular amb R utilitzant les funcions svydesign(), svymean() i svytotal() del paquet survey (Lumley, 2020).

El conjunt de dades agsrs no conté una variable de ponderació de la mostra, per la qual cosa cal crear-ne una. També cal definir la variable menys_200k_a, que pren el valor 1 si acres92 < 200.000 i el valor 0 si acres92 ≥ 200.000. La mitjana de la variable lt200k estima la proporció de granges que tenen menys de 200.000 acres. Ambdues coses ja les hem fet; per tant podem seguir.

Ara especificarem el disseny de l’enquesta amb la funció svydesign(). La funció té nombrosos arguments opcionals, per la qual cosa hem d’utilitzar els noms de les variables als arguments. Els arguments utilitzats per a un SRS són:

  • id: En dissenys d’enquesta generals, id especifica els identificadors de clúster. Per a un SRS utilitzem id = ~1, que indica a svydesign que no hi ha agrupament. R utilitza la tilde (~) per especificar una fórmula. En discutirem la sintaxi més endavant.

  • weights: Anomena la variable del marc de dades que conté els pesos de mostreig. L’argument wights es pot ometre per calcular mitjanes en un SRS (la funció calcularà els pesos a partir de l’argument fpc si es proporciona, o establirà tots els pesos iguals a 1 si no s’inclouen ni els pesos ni fpc), però és bo adquirir el costum d’utilitzar una variable de pes, per la qual cosa la incloem aquí.

  • fpc: Informació per calcular la correcció de població finita. Per a un SRS, podem utilitzar fpc = rep(N, n). Recordem que a agsrs, N = 3078, n = 300. Dins de d’aquesta funció, serà fpc = rep(3078, 300).

  • data: Nom del marc de dades que conté les variables que s’analitzaran.

Per tant, per aplicar la funció svydesign() a la nostra mostra, farem

agsrs$pes <- nrow(agpop)/nrow(agsrs) # Primer incloem de manera estable els pesos al data set

library(survey)

dsrs <- svydesign(id = ~1, weights = ~pes, fpc = rep(3078,300), data = agsrs)
dsrs
## Independent Sampling design
## svydesign(id = ~1, weights = ~pes, fpc = rep(3078, 300), data = agsrs)

Quan imprimim dsrs, se’ns diu que es tracta d’un “disseny de mostreig independent”, és a dir, que no hi ha estratificació ni clustering.

Ara que s’ha especificat el disseny de l’enquesta, podem calcular les mitjanes i els totals estimats utilitzant les funcions svymean() i svytotal(). Per a cadascuna d’aquestes, el primer argument conté el nom de la variable o variables que s’analitzaran, i el segon argument és el nom de l’objecte de disseny que va ser creat per svydesign().

La funció confint() construirà un interval de confiança del 95% (podeu especificar altres nivells de confiança amb l’argument opcional level) utilitzant una distribució \(t\) amb graus de llibertat df. Si no especifiqueu els df, s’utilitzarà una distribució normal per als intervals de confiança. Per a un SRS, la distribució \(t\)n − 1 df, on n és la mida de la mostra.

Exemples

Càlcul mitjana i error estàndard (SE) estimats

smean <- svymean(~acres92,dsrs)
smean
##           mean    SE
## acres92 297897 18898

Estimació IC de la mitjana

confint(smean, df=n-1, level = 0.95)
##            2.5 %   97.5 %
## acres92 260706.3 335087.8

Càlcul de totals estimats

stotal <- svytotal(~acres92,dsrs)
stotal
##             total       SE
## acres92 916927110 58169381

Estimació de l’IC dels totals

confint(stotal, df=n-1, level = 0.95)
##             2.5 %     97.5 %
## acres92 802453859 1031400361

Estimació del CV de la mitjana

SE(smean)/coef(smean)
##            acres92
## acres92 0.06343948

Teorema del límit central per a un SRS

Hájek (1960) va demostrar un teorema del límit central per al mostreig aleatori simple sense reemplaçament (vegeu també les seccions 2.8 i 4.4 de Lehmann, 1999). En termes pràctics, el teorema de Hájek diu que si es compleixen certes condicions tècniques i si \(n\), \(N\) i \(N − n\) són tots “prou grans”, aleshores la distribució de la mostra de \[ \small\frac {\bar y−\bar y_\mathcal U} {\sqrt{(1−\frac nN)}\frac {S}{\sqrt{n}}} \]

és aproximadament normal amb mitjana 0 i variància 1, \(\small \approx N(0,1)\).

Quant de gran és “prou gran”?

El terme imprecís “prou gran” apareix al teorema del límit central perquè l’adequació de l’aproximació normal depèn de n i de com de semblant s’assembla la població \(\{y_i,i = 1,…, N\}\) a una població generada a partir de la distribució normal.

El “nombre màgic” de n = 30, sovint citat en llibres d’introducció a l’estadística com una mida de mostra “prou gran” perquè s’apliqui el teorema del límit central, sovint no és suficient en problemes de mostreig de població finita. Moltes poblacions de què fem mostres tenen un biaix elevat: podem mesurar els ingressos, el nombre d’ha d’una granja dedicats a blat de moro o la concentració de mercuri als llacs de Nord Amèrica. Per a tots aquests exemples, esperem que la majoria de les observacions siguin relativament petites, però algunes siguin molt, molt grans, de manera que un histograma suavitzat de tota la població tindria aquest aspecte:

Sugden et al. (2000) recomanen una mida mínima de la mostra de:

\[ \small n_{\text{min}} = 28 + 25 \Bigg(\frac {∑_{i=1}^N (y_i−\bar y_\mathcal U)^3}{NS^3}\Bigg)^2 \] perquè l’IC tingui un nivell de confiança aproximadament igual a \(\small 1 − α\). La quantitat

\[ \small\frac{∑_{i=1}^N (y_i−\bar y_\mathcal U)^3}{NS^3} \]

és la asimetria en la població; si la asimetria és gran, es necessita una mida de mostra gran perquè l’aproximació normal sigui vàlida.

Un altre enfocament per considerar si la mida de la mostra és adequada per a una aproximació normal que s’ha d’utilitzar és mirar una aproximació bootstrap a la distribució del mostreig.

Per exemple, l’histograma que hem viat abans de le¡a distribució de les dades de acres92 mostrava una distribució subjacent de la superfície agrícola que estava lluny de ser normal. La mida de la mostra és prou gran per aplicar el teorema del límit central?

Substituïm els valors mostrals

sd(agsrs$acres92)
## [1] 344551.9

\(s = 344.551,9\), y

sum((agsrs$acres92-mean(agsrs$acres92,na.rm=T))^3, na.rm = T)/n
## [1] 1.050355e+17

\(\small ∑ i∈S(y_i − \bar y)^3/n = 1.05036 × 10^{17}\)

en comptes de \(S\) i \(∑_{i=1}^N(y_i − y_\mathcal U)3/N\), obtenint una moda mínima de mostra de \[ \small n_{\text{min}} = 28 + 25 \Bigg[\frac{1.05036×10^{17}} {(344,551.9)^3} \Bigg]^2 \approx 193 \]

Per a aquest exemple, la nostra mostra de mida 300 sembla ser prou gran perquè la distribució de mostreig de \(\small\bar y\) sigui aproximadament normal.

Per estimar les proporcions, el criteri habitual que la mida de la mostra sigui prou gran com per utilitzar la distribució normal si tant \(\small np ≥ 5\) com \(\small n(1 − p) ≥ 5\) és una guia útil. (Quan no es compleix aquesta pauta, potser podrem utilitzar el CI de Clopper-Pearson.)

Un IC aproximat del 95% per a la proporció de comtats amb menys de 200.000 acres en granges és \[ \small 0,51 ± 1,968(0,0275) ~\text o ~[0,456, 0,564] \]

Per trobar un IC del 95% per al nombre total de comtats amb menys de 200.000 acres a les granges, simplement multipliquem totes les quantitats per \(\small N\), de manera que l’estimació puntual és \(\small 3078(0,51) = 1570\), amb un error estàndard \(\small3078 × SE(\hat p) = 84,54\) i 95% de IC \(\small [1403, 1736]\).

Algunes qüestions sobre la mida de la mostra

Un investigador sovint mesura múltiples variables i té diversos objectius per a una enquesta.

Qualsevol persona que dissenyi un SRS ha de decidir quina quantitat d’error de mostreig en les estimacions és tolerable i ha d’equilibrar la precisió de les estimacions amb el cost de l’enquesta. Tot i que es poden mesurar moltes variables, un investigador sovint es pot centrar en una o dues respostes que siguin d’interès principal en l’enquesta i utilitzar-les per estimar la mida de la mostra.

Per a una sola resposta, seguiu aquests passos per estimar la mida de la mostra:

  1. Pregunteu “Què s’espera de la mostra i quanta precisió necessito?” Quines són les conseqüències dels resultats de la mostra? Quant d’error és tolerable? Si la vostra enquesta mesura la taxa d’atur cada mes, voldríeu que les vostres estimacions tinguessin una alta precisió per poder detectar canvis en les taxes d’atur de mes a mes. Tanmateix, una investigació preliminar sovint necessita menys precisió que una enquesta contínua. En lloc de preguntar sobre la precisió requerida, molta gent pregunta: “Quin percentatge de la població hauria d’incloure a la meva mostra?”. Aquesta sol ser la pregunta equivocada que cal fer. Excepte en poblacions molt petites, la precisió s’obté a través de la mida absoluta de la mostra, no de la proporció de la població coberta. Com hem vist, la fpc, que és l’únic lloc on apareix la mida de la població N a la fórmula de la variància, té poc efecte sobre la variància de l’estimador en poblacions grans.

  2. Trobeu una equació que relacioni la mida de la mostra \(n\) i les vostres expectatives de la mostra.

  3. Estimeu qualsevol quantitat desconeguda i resoleu per a \(n\).

  4. Si sou relativament nous en el disseny d’enquestes, trobareu en aquest punt que la mida de la mostra que vau calcular al pas 3 és molt més gran del que us podeu permetre. Torneu enrere i ajusteu algunes de les vostres expectatives per a l’enquesta i torneu-ho a intentar. En alguns casos, trobareu que ni tan sols us podeu apropar a la precisió que necessiteu amb els recursos que teniu disponibles; en aquest cas, potser hauríeu de considerar si hauríeu de dur a terme el vostre estudi.

Especificar l’error tolerable

Només els investigadors de l’estudi poden dir quanta precisió es necessita. La precisió desitjada sovint s’expressa en termes absoluts, com \[ \small P(|\bar y − \bar y_\mathcal U | ≤ e) = 1 − α. \] ja que l’investigador ha de decidir valors raonables per a \(α\) i \(e\); \(e\) s’anomena marge d’error. El marge d’error és la meitat de l’amplada d’un IC del 95%. Per a moltes enquestes a persones en què es mesura una proporció, el marge d’error s’estableix en \(\small e = 0,03\) i \(\smallα = 0,05\).

De vegades es vol aconseguir una precisió relativa desitjada, controlant el CV en lloc de l’error absolut. En aquest cas, si \(\small y_\mathcal U ≠ 0\), la precisió es pot expressar com \[ \small P\bigg(\bigg|\frac{y−y_\mathcal U} {y_\mathcal U}\bigg| ≤ r \bigg) = 1 − α \]

Trobar una equació.

L’equació més simple que relaciona la precisió i la mida de la mostra prové dels intervals de confiança de la secció anterior. Per obtenir una precisió absoluta \(e\), trobeu un valor de \(n\) que satisfaci \[ \small e = z_{α/2}\sqrt{(1 − \frac{n}N)} \frac{S}{\sqrt{n}} \]

Per resoldre aquesta equació per a \(n\), primer trobem la mida de la mostra \(n_0\) que utilitzaríem per a un Mostreig aleatori simple amb reemplaçament (SRSWR): \[ n_0 = \bigg(\frac{z_{α/2}S}e \bigg)^2\tag{1.} \]

Aleshores, la mida de la mostra desitjada és \[ \small n = \frac{n_0}{1+\frac {n_0} N} = \frac{z_{α/2}^2 S^2} {e^2+\frac{z_{α/2}^2S^2}N}\tag{2.} \]

Quan les principals respostes d’interès són una proporció

En enquestes en què una de les principals respostes d’interès és una proporció, sovint és més fàcil utilitzar aquesta resposta en establir la mida de la mostra. Per a poblacions grans, \(\small S^2 ≈ p(1 − p)\), que assoleix el seu valor màxim quan \(\small p = 1/2\). Per tant, utilitzar \(\small n_0 = 1.96^2/(4e^2)\) donarà com a resultat un IC del 95% amb una amplada com a màxim \(\small 2e\).

Per calcular una mida de mostra per obtenir una precisió relativa especificada, substituïu \(\small r\bar y_\mathcal U\) per \(\small e\) a (1.) i (2.). Això resulta en la mida de mostra \[ \small n=\frac {z_{α/2}^2S^2}{(r\bar y_\mathcal U )^2 + \frac{z_{2α/2}S^2}N}=\\ \small= \frac{z_{2α/2}^2(S/\bar y_\mathcal U )^2} {r^2+\frac{z_{2α/2}^2(S/\bar y\mathcal U)^2}N} \] Per aconseguir una precisió relativa especificada, la mida de la mostra es pot determinar utilitzant només la relació \(\small S/y_\mathcal U\) , el CV per a una mostra de mida 1.

Exemple 1

Suposem que volem estimar la proporció de receptes d’un llibre de cuina que no impliquen productes animals. Tenim previst fer un SRS de les N = 1251 receptes del llibre de cuina i volem utilitzar un IC del 95% amb un marge d’error de 0,03. Aleshores, recordant que \(\small S^2 ≈ p(1 − p)\) i aplicant \(\small 1.\): \[ \small n_0 = \frac{(1.96)^2(1/2)(1−1/2)}{(0.03)^2} ≈ 1067. \] La mida de la mostra, ignorant el fpc, és gran en comparació amb la mida de la població, de manera que en aquest cas faríem l’ajustament amb fpc : \[ \small n =\frac {n_0} {1+n_0/N}= \frac{1067}{1+1067/ 1251}= 576 \]

En aquest exemple, el fpc fa una diferència en la mida de la mostra perquè \(N\) només és 1251. Tanmateix, si \(N\) és gran, normalment \(\small n_0/N\) serà molt petit, de manera que per a poblacions grans normalment tenim \(\small n ≈ n_0\). Per tant, necessitem aproximadament la mateixa mida de mostra per a qualsevol població gran, tant si aquesta població té 10 milions, 1.000 milions o 100.000 milions d’unitats.

Exemple 2

Moltes enquestes d’opinió pública especifiquen l’ús d’una mida de mostra d’uns 1100. Aquest nombre prové d’arrodonir el valor de \(n_0\) a l’exemple 1 fins al següent centenar i després observar que la mida de la població és tan gran en relació amb la mostra que s’ha d’ignorar el fpc. Per a poblacions grans, és la mida de la mostra, no la proporció de la població mostrejada, la que determina la precisió. És a dir, ss’aplica \[ \small n_0 = \frac{(1.96)^2(1/2)(1−1/2)}{(0.03)^2} ≈ 1067~\text{arrodoniment}=>1100 \] Fixar-se en com canvia \(n_0\), tan sols canviant de de poquíssim \(e\): posant-lo a 0.05, compte de 0.03, \(n_0\) passa a \(\approx 384\).

Exemple 3.

Per què l’American Community Survey (ACS) necessita una mostra de 3,5 milions de llars, quan el marge d’error per a una proporció estimada d’un SRS molt més petit de mida 40.000 és inferior a 0,005? Si l’únic objectiu de l’enquesta fos produir estadístiques per al país en conjunt, una mostra molt més petita seria suficient. Però l’enquesta també produeix estimacions detallades per a subàrees del país, i la mida de la mostra a cada subàrea ha de ser prou gran per produir estimacions d’una precisió especificada per a aquesta subàrea.

Estimació de quantitats desconegudes

Quan ens interessa una proporció, podem utilitzar 1/4 com a límit superior per a \(\small S^2\). Per a altres quantitats, s’ha d’estimar o endevinar \(\small S^2\). Alguns mètodes per estimar \(\small S^2\) inclouen:

  • Una mostra pilot: una petita mostra presa per proporcionar informació i orientació per al disseny de l’enquesta principal es pot utilitzar per estimar les quantitats necessàries per establir la mida de la mostra.
  • Utilitzar estudis o dades anteriors disponibles a la literatura.
  • Si no hi ha res més disponible, endevinar la variància. De vegades, una distribució hipotètica de les dades ens donarà informació sobre la variància. Per exemple, si creieu que la població té una distribució normal, és possible que no sàpigueu quina és la variància, però podeu tenir una idea del rang de les dades. Aleshores podríeu estimar \(S\) per rang/4 o rang/6, ja que aproximadament el 95% dels valors d’una població normal es troben dins de 2 desviacions estàndard de la mitjana, i el 99,7% dels valors es troben dins de 3 desviacions estàndard de la mitjana.

Mostreig sistemàtic

De vegades, el mostreig sistemàtic s’utilitza com a aproximació per al mostreig aleatori simple, quan no existeix cap llista de la població o quan la llista està en ordre aproximadament aleatori. Per obtenir una mostra sistemàtica, trieu una mida de mostra n. Si \(\small N/n\) és un nombre enter, sigui \(\small k = N/n\); en cas contrari, sigui \(k\) el següent nombre enter després de \(\small N/n\). A continuació, trobeu un nombre enter aleatori R entre 1 i k, que determini que la mostra són les unitats numerades \(\small R, R + k, R + 2k,…, R + (n − 1)k\). Per exemple, per seleccionar una mostra sistemàtica de 45 estudiants de la llista de 45.000 estudiants d’una universitat, l’interval de mostreig k és 1000. Suposem que l’enter aleatori que escollim és 597. Aleshores, els estudiants numerats 597, 1597, 2597, …, 44.597 estarien a la mostra. Si la llista d’estudiants s’ordena per números d’identificació d’estudiant generats aleatòriament, probablement obtindrem una mostra que es comportarà de manera molt similar a un SRS: és poc probable que la posició d’una persona a la llista estigui associada amb la característica d’interès. Tanmateix, el mostreig sistemàtic no és el mateix que el mostreig aleatori simple; no té la propietat que cada grup possible de n unitats tingui la mateixa probabilitat de ser la mostra.

A l’exemple anterior, és impossible que els estudiants 345 i 346 apareguin tots dos a la mostra. El mostreig sistemàtic és tècnicament una forma de mostreig per clústers, com es discutirà en futures publicacions.

Treballar amb proporcions amb R i survey

Calcular mitjanes (\(\small p\)), SE i IC

Per a una variable numèrica binària (que pren valors 0 o 1), la proporció estimada és la mitjana de la variable i la proporció de la població que té menys_200k_a = 1 és la mitjana de la variable menys_200k_a. A partir del resultat anterior, podem veure que el valor de \(\small\hat p = 0.51\) és la proporció estimada on menys_200k_a pren el valor 1. L’error estàndard és 0.0275, i un interval de confiança del 95% de p és [0.456, 0.564].

De vegades es vol estimar la proporció de la població que pertany a cadascuna de les múltiples categories. La variable region a les dades d’agsrs descriu la regió del cens per a cada comtat de la mostra i pren els valors “NE”, “NC”, “S” i “W”. Si executeu svymean amb la variable region, obteniu la proporció estimada a cada categoria.

Per una variable categòrica, codificada as.character:

  1. Cal veure els noms de les catgories i els recomptes
table(agsrs$region)
## 
##  NC  NE   S   W 
## 107  24 130  39
  1. Calcular les proporcions estimades en cada categoria
region_prop <- survey::svymean(~region,dsrs)
region_prop
##             mean     SE
## regionNC 0.35667 0.0263
## regionNE 0.08000 0.0149
## regionS  0.43333 0.0272
## regionW  0.13000 0.0185
  1. Calcular el Intervals de confiana
stats::confint(region_prop, df=299)
##               2.5 %    97.5 %
## regionNC 0.30487557 0.4084578
## regionNE 0.05066780 0.1093322
## regionS  0.37975605 0.4869106
## regionW  0.09363889 0.1663611
  1. Calcular les estimacions dels valors totals
region_total <- survey::svytotal(~region,dsrs)
region_total
##            total     SE
## regionNC 1097.82 81.005
## regionNE  246.24 45.878
## regionS  1333.80 83.799
## regionW   400.14 56.872
  1. Calcular les estimacions dels Intervals de confiança dels totals
stats::confint(region_total,df=299)
##              2.5 %    97.5 %
## regionNC  938.4070 1257.2330
## regionNE  155.9555  336.5245
## regionS  1168.8891 1498.7109
## regionW   288.2205  512.0595

Variables numèriques i categòriques.

Les variables numèriques són variables per a les quals voleu calcular estadístics com ara mitjanes (per exemple, acres92 és una variable numèrica). Les variables categòriques són aquelles els valors de les quals representen categories. Regió és una variable categòrica.

Volem estimar la proporció de la població a cada regió, però no podem calcular una regió “mitjana”. Aquí, la regió es reconeix automàticament com a variable categòrica perquè conté caràcters que no són números.

Algunes enquestes codifiquen les categories com a números; call anar amb compte de tractar aquestes variables com a categòriques en lloc de numèriques.

A R, per especificar que una variable és categòrica es pot fer servir la funció factor(). Podeu declarar la variable com a variable factor al conjunt de dades o a executant de funció svymean().

Per exemple, podem veure com R tracta de manera diferent la variable menys_200k_a, segons si especifiquem que és categórica o no:

Sense esepcificar la classe de la variable

survey::svymean(~ menys_200k_a, dsrs)
##              mean     SE
## menys_200k_a 0.51 0.0275

Només funciona si tots els valors són 0 o 1. Això dóna la mitjana de la variable menys_200k_a, que és la proporció amb menys_200k_a = 1.

Especificant la classe categòrica (factor) de la variable

survey::svymean(~factor(menys_200k_a),dsrs)
##                       mean     SE
## factor(menys_200k_a)0 0.49 0.0275
## factor(menys_200k_a)1 0.51 0.0275

Ara, analitzem menys_200k_a com a variable factor. Això dóna la proporció a cada categoria.