ESTADÍSTICA INFERENCIAL
En resumen, la Estadística
Descriptiva es cuando los resultados del análisis no pretenden ir más allá del
conjunto de datos, y la Estadística Inferencial cuando el objetivo del estudio
es generalizar a toda una población desde los resultados obtenidos de una muestra
de datos.
El principal
interés de la Estadística Inferencial radica en encontrar algo relacionado con
una población a partir de una muestra de ella.
El DANE informa que Colombia ocupa el puesto 28 del ranking de 196 estados con un número de habitantes significativos. La población en los últimos cinco años es: 48.203.000 en 2015, 48.748.000 en 2016, 49.292.000 en 2017, 49.834.000 en 2018 y 50.374.000 en 2019. (ESTADÍSTICA DESCRIPTIVA).
Una encuesta mostró que sólo el 46% de los estudiantes de undécimo grado podían resolver problemas que incluyeran fraccionarios, decimales y porcentajes. Además, sólo el 77% de los estudiantes de undécimo grado pudo sumar correctamente el costo de hamburguesas, papas fritas y gaseosas, que figuraban en el menú de un restaurante. (ESTADÍSTICA INFERENCIAL).
El muestreo
aleatorio simple es aquel en los que todos los individuos tienen la misma
probabilidad de ser elegidos para formar parte de una muestra.
El muestreo
aleatorio estratificado trata de obtener una muestra proporcional
representativa de cada uno de los estratos de la población.
La Estadística Inferencial tiene como objetivo generalizar los resultados de un subconjunto de datos a todo el conjunto.
Población: conjunto de datos que se desea estudiar.
Estos datos deben verse como valores de una misma variable, la cual se utiliza
para designar la población.
Muestra: subconjunto de datos que se seleccionan
de la población.
Si la muestra = población,
la generalización o estudio se le llama CENSO y es exacta.
Muestra
Aleatoria: una
muestra aleatoria de tamaño n está formada por n de estas variables (X1,
X2, X3,... Xn). Todas siguen la misma
distribución y son mutuamente independientes.
Parámetro: es la característica de la población que
se desea estudiar y se convierte en el valor numérico que se le asigna a la
población.
La variancia
insesgada, varianza muestral o cuasivarianza, es más propicia en los cálculos
estadísticos y se usa en las muestras.
Cuando el tamaño
de la muestra es grande, (n – 1) será aproximadamente igual a n, por lo que
este denominador tiene un impacto real en el cálculo de la varianza para
muestras pequeñas.
Estadístico o estimador: variable aleatoria que asigna un valor (estimación) a cada muestra de tamaño fijo.
:::::::::::::::::::::::
:::::::::::::::::::::::
(Campana de Gauss)
Variabilidad
o dispersión: hace
referencia al grado de variación que hay en un conjunto de puntuaciones.
a) las puntuaciones están muy próximas entre sí y concentradas en torno a la media aritmética, por lo que parece que existe poca dispersión en los datos.
b) las puntuaciones están más alejadas entre sí y no están tan concentradas alrededor de la media, existiendo mayor variabilidad.
Cuanto menor
es la variabilidad en una distribución, más homogénea es la muestra de sujetos
en la variable que se está midiendo.
Cuando existe
más o menos dispersión en los datos, la muestra es más o menos heterogénea y
las puntuaciones difieren entre sí.
Si hay máxima
homogeneidad, todos los valores de la variable serían iguales entre sí y a la
media y no habría variabilidad en los datos.
Coeficiente
de Variación: la
comparación del grado de variabilidad o dispersión entre dos conjuntos de
puntuaciones en una misma unidad, se expresa en porcentajes.
Ejercicio. Una distribución tiene como media = 6,12 y
una varianza de 1,61; y en otra, tiene como media = 102 y una varianza de 16. ¿Cuál
de las dos distribuciones presenta mayor dispersión?.
El porcentaje de variación de la primera distribución es del 20,75%, mientras que el de la segunda distribución es del 3,92%. Por lo tanto, el grado de dispersión de los datos es mayor en el primer grupo, siendo el segundo grupo más homogéneo.
La mayor dispersión corresponderá al valor del coeficiente de variación mayor.
La
distribución normal es un
modelo teórico capaz de aproximar satisfactoriamente el valor de una variable
aleatoria continua a una situación ideal.
La
distribución normal
adapta una variable aleatoria continua a una función que depende de la media
y la desviación típica. La función y la variable aleatoria tendrán la
misma representación pero con ligeras diferencias.
La
distribución normal es
una distribución con forma de campana donde las desviaciones estándar sucesivas
con respecto a la media establecen valores de referencia para estimar el
porcentaje de observaciones de los datos. Estos valores de referencia son la
base de muchas pruebas de hipótesis, como las pruebas Z y t.
La
distribución normal es la
distribución de probabilidades más importante para las variables aleatorias
continuas. Karl Gauss (matemático y astrónomo, s. XVIII) contribuyó a la
formación de los fundamentos teóricos que la sustentan: CAMPANA DE GAUSS.
Una variable aleatoria continua puede tomar cualquier número real: las rentabilidades de las acciones, los resultados de un parcial, el coeficiente de inteligencia IQ y los errores estándar.
Una variable
aleatoria discreta toma valores enteros: el número de estudiantes en una
asignatura.
Fórmula de la
distribución normal
Dada una variable
aleatoria X, decimos que la frecuencia de sus observaciones puede
aproximarse satisfactoriamente (representar) a una distribución normal tal
que: X ~ N(µ, s) (Variable aleatoria X aproximada a una
distribución normal).
Media o
valor central = µ
Desviación
típica = s
Función de
densidad de probabilidad de una variable aleatoria que sigue una distribución
normal.
CURVA DE DENSIDAD: Es una curva que se halla siempre en el eje de las abscisas o por encima de él, y se define por debajo un área exactamente igual a 1.
Una curva de
densidad describe el aspecto general de una distribución. El área por debajo de
la curva, y entre cualquier intervalo de valores, es la proporción de todas las
observaciones que están situadas en dicho intervalo.
• Es
una distribución simétrica. El valor de la media, la mediana y la moda
coinciden, están ubicadas en el centro de la distribución
• Distribución unimodal. Los valores que son más
frecuentes o que tienen más probabilidad de aparecer están alrededor de la
media. En otras palabras, cuando nos alejamos de la media, la probabilidad de
aparición de los valores y su frecuencia descienden.
• Ambos lados (colas) de la distribución normal
de probabilidades, se extienden indefinidamente y son asintóticos al eje
horizontal (nunca tocan el eje horizontal).
Tres curvas
diferentes normales con desviación estándar (s) iguales, y medias (µ) diferentes:
Tres curvas diferentes normales con desviación estándar (s) diferentes, y medias (µ) iguales:
Tres curvas diferentes normales con desviación estándar (s) diferentes, y medias (µ) diferentes:
Ejercicio: un grupo de 1500
personas, tiene una distribución normal con la media (µ) = 65 kg y una
desviación estándar (s) = 8 kg.
X tiene una
distribución (X ~ N(µ, s)) de:
N(65;8)
(1). Se
selecciona al azar una persona, hay una probabilidad aproximada de 68% que su
peso esté entre 57 y 73 kg. Los límites del intervalo son: µ ± 1s
57 = µ – 1s 1s = µ – 57 s = 65 – 1 (8)
73 = µ + 1s
1s = 73 – µ s = 65 + 1 (8)
(2). Se
selecciona al azar una persona, hay una probabilidad aproximada de 95%
que su peso
esté entre 49 y 81 kg. Los límites del intervalo son: µ ± 2s
49 = µ – 2s 2s = µ – 49 2s = 65 – 2 (8)
81 = µ + 2s
2s = 81 – µ 2s = 65 + 2 (8)
(3). Se
selecciona al azar una persona, hay una probabilidad aproximada de 99,7%
que su peso
esté entre 41 y 89 kg. Los límites del intervalo son: µ ± 3s
41 = µ – 3s
3s = µ – 41 3s = 65 – 3 (8)
89 = µ + 3s
3s = 89 – µ 3s = 65 + 3 (8)
Aunque existen diversas curvas normales, todas ellas tienen propiedades comunes, como la regla empírica: REGLA DEL 68, 95, 99.7%.
El 68% de todas las observaciones se encuentran dentro del intervalo µ ± s
El 95% de todas las observaciones se encuentran dentro del intervalo µ ± 2s
El 99.7% de todas las observaciones se encuentran dentro del intervalo µ ± 3s
Si x es una
observación de una distribución de media µ y desviación típica σ, el valor
estandarizado de x es:
Los valores estandarizados se llaman a menudo valores z.
Un valor z
nos dice a cuántas desviaciones típicas se encuentra la observación original de
la media y en qué dirección. Las observaciones mayores que la media son
positivas y las menores, negativas.
Ejercicios: La distribución de las estaturas de las jóvenes es aproximadamente normal con µ = 1,64 m y σ = 0,06 m.
La altura
estandarizada es:
¿Qué proporción
de todas los jóvenes miden menos de 1,75 m? Esta proporción es el área por
debajo de la N(1,64, 0,06) situada a la izquierda de 1,75.
Si tiene una
estatura de 1,75 m de altura, entonces tiene una altura estandarizada de:
La proporción de
jóvenes que miden menos de 1,75 m es 0,9664 (cerca del 97%).
En una gran
población de gente de la misma edad y sexo, la distribución del nivel de
colesterol es aproximadamente normal.
Para jóvenes de
14 años, la media es µ = 170 miligramos de colesterol por decilitro de sangre
(mg/dl) y la desviación típica es σ = 30 mg/dl.
¿Qué
porcentaje de los jóvenes de 14 años tienen más de 240 mg/dl de colesterol?
(a).
Planteamiento: La variable x es el nivel de colesterol en la sangre. La
variable x tiene una distribución N(170, 30). Se calcula la proporción de
jóvenes con x > 240.
(b). Estandarización: Resta la media, luego divide por la desviación típica, para convertir x en una z normal estandarizada:
c). Tabulación: En la tabla A se tiene que la proporción de observaciones menores que 2,33 es 0,9901.
¿Qué porcentaje de los jóvenes de 14 años tienen un nivel de colesterol entre de 170 y 240 mg/dl de colesterol?
Ejercicio. Se tiene una población donde la desviación típica de la altura es 20 cm.
a). En una
muestra aleatoria simple de 500 individuos se ha obtenido una altura media
(muestral) de 174 cm. Hallar el intervalo de confianza al 95% para µ
(población).
Intervalo de
confianza: es el área que encierran dos valores simétricos entre –za/2 a za/2
Como en la tabla A (del estadístico Z) no se pueden encontrar dos valores que encierren el 95%, entonces buscamos en esta za/2 que deje a su izquierda el 97,5% (2,5% + 95%).
b). ¿Cuál debe ser el tamaño mínimo de la muestra para que el correspondiente intervalo de confianza para µ al 90%, tenga de amplitud 5 cm?
Se toma una muestra
aleatoria de 10. Calcular la probabilidad que la media muestral sea menor a
160.
Se toma una muestra aleatoria de 9. Calcular la probabilidad que la media muestral sea superior a 14.
Variables aleatorias mutuamente independientes: X1, X2,… Xn ~ N(0,1):
Suma muestral (Sn):
Sn = X1 + X2 + X3 + … Xn ~ N(0,1):
Valores
aproximados de la variable Z ~ N(0,1), se pasa a normal estándar la distribución aproximada de Sn:
Ejercicio.
Generar cinco valores de la variable normal estándar Z, si n = 40.
Para generar
valores aproximados de una variable normal no estándar X ~ N(µ, s2), para n ≥ 30
También se conoce como distribución ji cuadrado o distribución de Pearson. (Pearson K, 1900).
Es una prueba no paramétrica que mide discrepancia entre una distribución de frecuencias observadas y esperadas.
Es una
distribución de probabilidad de una variable aleatoria continua. Es un caso particular la distribución gamma.
n = grados de libertad (entero > 0)
También se
puede obtener sumando los cuadrados de normales estándar N(0, 1):
La función de
densidad es la misma de gamma:
A medida que
aumentan sus grados de libertad se va aproximando a la distribución normal
Los valores
que aparecen en la Tabla de la Normal Estándar son probabilidades.
Los valores
que aparecen en la Tabla Chi Cuadrado son los valores de los percentiles de la
distribución.
El valor
correspondiente, de acuerdo con los grados de libertad se pueden buscar en la
Tabla o por medio de un software estadístico (Minitab).
PROPIEDADES
Es asimétrica
positiva
Reproductividad
Convergencia
Cuando n es suficiente grande, la chi cuadrado converge a una normal que tiene de media igual a n y una varianza de 2n.
Posibles
valores que puede tomar la variable aleatoria continua:
es porque al
elevar al cuadrado no puede quedar negativo. Entonces la suma de todos ellos
debe ser mayor o igual a cero:
Ejemplo: hallar
la probabilidad que chi cuadrado con dos grados de libertad sea mayor o igual
que 6, menor o igual que 3 y menor o igual que -1.
FUNCIÓN
DENSIDAD DE PROBABILIDAD f(x)
Es la que
permite calcular la probabilidad
La primera gráfica es asimétrica, pero en la medida en que aumenta el número de grado de libertad (n) la distribución de chi cuadrado tiende a ser una distribución normal.
Es el seudónimo que el descubridor (matemático W.S Gosset (1908)) publicó del resultado.
Es el cociente
de una N(0,1) dividido entre la raíz de la chi cuadrado entre los grados de
libertad (n).
Z no tiene
parámetros, es fijo, la media es 0 y la varianza es 1.
La chi
cuadrado como es la suma de los cuadrados de las normales estándar, toma solo
valores del 0 al +¥.
Como la Z
normal estándar toma valores de ¥ a +¥, en la t Student toma valores de ¥ a +¥.
La gráfica de
la función de densidad se parece a la gráfica de distribución Normal estándar,
es simétrica con respecto al cero, pero tiene las “colas más pesadas”, tiene
más área o más probabilidad en las colas que en la distribución normal.
La tn está tabulada para percentiles.
No posee la
propiedad de reproductividad
En la
distribución normal N(µ, s) se conoce s, el tamaño
de la muestra (≥ 30) y se sabe que es distribución normal.
En la
distribución t Student, no se conoce s y el tamaño de la muestra es menor que 30 casos,
sin saber si la distribución muestreada es normal o no.
Ejercicio. Se
tiene una caja con tarjetas, cada una con un número. Para la población se tiene
µ = 10 y s = 4.
Calcular el valor del estadístico t, aunque no se conozca la desviación
típica de la muestra.
Datos de la
muestra (n = 9): 4, 13, 8, 12, 8, 15, 14, 7, 8.
La
distribución F de Fisher es Snedecor
Se emplea para
el contraste de hipótesis (análisis de varianza)
El valor dado
en las tablas de Distribución F, el valor de a es mayor a 0,9 y los valores de f son
mayores a 1.
Propiedad
recíproca
Si X es una
variable con distribución F con v1 y v2 grados de libertad, entonces la
variable Y = 1/x
a). En menos
de 5 segundos
b). En más de
40 segundos
Ejercicio. U n
componente electrónico tiene una vida media de servicio de 8 años. Si su
vida útil se distribuye en forma exponencial, ¿cuál deber ser el tiempo de
garantía que se debe otorgar, si se desea reemplazar a lo más el 15% de los
componentes que fallen dentro de este período?
Ejercicio. Una bolsa de valores está en servicio durante 8 horas. El número de operaciones por hora es de 6.
P(x ≤
0,2) (12 minutos = 0,2 horas)
a). ¿Qué
probabilidad hay que el tiempo de falla sea menor que 400 días?. (Confiabilidad
de la batería).
b). ¿Qué
probabilidad hay que el tiempo de falla sea mayor que 360 días?
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
El análisis
multivariante es el conjunto de técnicas estadísticas que simultáneamente
analizan múltiples resultados en los datos obtenidos en una investigación.
Todas las
variables deben ser aleatorias y relacionadas de tal manera que el efecto que
producen no se interpreten de manera individual.
Es más frecuente
encontrar investigaciones de sólo una variable a medir.
Número de
personas por familia; cantidad de motos en una ciudad; cantidad de hijos, etc.
Cuando dos
variables se miden en una sola unidad experimental, los datos resultantes se
denominan DATOS BIVARIADOS.
Las dos variables
se pueden estudiar por separado, como también explorar la relación entre ellas.
Los métodos gráficos para datos bivariados, cualitativos o cuantitativos permiten estudiar las variables simultáneamente.
Cuando al menos
una de las dos variables es cualitativa, se pueden usar gráficas circulares
(tortas), gráficas de líneas y gráficas de barras para presentar y describir
los datos.
Cuando se han
medido en dos diferentes poblaciones o grupos, pueden usar dos gráficas
circulares lado a lado o una gráfica de barras en la que las barras para las
dos poblaciones se colocan una al lado de la otra, o gráfica de barras
apiladas.
VARIABLES CUALITATIVAS
GRÁFICAS DE
DISPERSIÓN PARA DOS VARIABLES CUANTITATIVAS
Cuando las dos
variables que hayan de presentarse en una gráfica son cuantitativas, una de
ellas se grafica a lo largo del eje horizontal y la otra a lo largo del eje
vertical. Cada par de valores de datos se grafica como un solo punto.
Se tiene las respuestas de un estudio a seis familias sobre cantidad de personas y lo que gastan en alimentación por semana. Trazar la gráfica de dispersión.
x representa
los miembros de una familia,
y son los
costos semanales de alimentación
RELACIÓN LINEAL PARA DATOS CUANTITATIVOS BIVARIADOS
Insertar
dispersión
Clic en los
puntos de dispersión
Agregar línea
de tendencia
Presentar
ecuación de la recta
R cuadrado
(coeficiente de determinación)
¿Cuál es la
probabilidad que la media de la muestra de la variedad 1 exceda a la variedad
2, en cinco o más unidades de altura?.
(x1) = promedio de los pesos de 20 niños
(x2) = promedio de los pesos de 25 niños
¿Cuál es la
probabilidad que una muestra aleatoria de 34 elementos del producto A tenga una
vida promedio de al menos un años más que la de una muestra aleatoria de 40
elementos del producto B?.
(x1) = promedio de 34 elementos producto A
(x2) = promedio de 40 elementos producto B
HIPÓTESIS NULAS:
Expresa ausencia
de relación, diferencia, causalidad, etc., entre dos o más variables. Se
formula para ser contrastada con la realidad a partir de la información
obtenida del problema, refutan o niegan.
Ho: Las
ofertas de programas profesionales en la Universidad Z, no satisface la demanda
de formación académica.
Ho: Las TIC no
representan una ventaja preponderante en los estudiantes de pregrado que
requieren de las prácticas para complementar lo teórico.
Ho: No hay
relación entre la autoestima y el temor al éxito. (Hipótesis nula respecto de
una correlación).
Ho: La percepción de la similitud en religión, valores y creencias no provoca mayor atracción. (Hipótesis nula que niega la relación causal).
Se expresa como
una aseveración, conjetura o proposición sobre las probables relaciones entre
dos o más variables.
HIPÓTESIS
DESCRIPTIVA:
Describe una
situación relacional entre las variables que se someten a estudio.
La ansiedad en
las personas bebedoras de licor se elevará en esta época de pandemia.
HIPÓTESIS
CORRELACIONAL:
Expresa una
posible asociación o relación entre dos o más variables, sin que importe en
orden de presentación de las variables.
A mayor
autoestima, habrá menor el temor al éxito. (una variable aumenta, la otra
disminuye, o viceversa).
Quienes logran
puntajes altos en la asignatura de matemáticas tienden a alcanzar los puntajes
más altos en la asignatura de estadística.
Se expresa en
términos de símbolos estadísticos o ecuación matemática que identifique
vínculos estadísticos.
HIPÓTESIS DE
ESTIMACIÓN:
Evalúan la
suposición respecto al valor de alguna característica de una muestra de
individuos o unidades de análisis.
Hi: la media > 2000
(la media de ingresos mensuales es mayor a U$2000)
Ho: la media = 2000 (la media de ingresos mensuales es igual a
U$2000)
Ha: la media < 2000
(la media de ingresos mensuales es menor a U$2000)
HIPÓTESIS DE
CORRELACIÓN:
Transforma una
situación de correlación entre dos o más variables a la simbología estadística
propia de las pruebas estadísticas de correlación.
Hi: rxy ¹ 0
(no es igual a cero, o ambas variables están correlacionadas)
Ho: rxy =
0 (las dos variables no están correlacionadas,
su correlación es 0)
Hi: rxyz ¹ 0
(no es igual a cero, o las tres variables están correlacionadas)
Ho: rxyz =
0 (las tres variables no están
correlacionadas, su correlación es 0)
HIPÓTESIS DE
DIFERENCIA DE MEDIAS:
Compara una
estadística entre dos o más grupos.
Hi: la media1 ¹ la media2 (el
promedio del grupo uno es diferente al promedio del grupo 2).
Como no es
factible recoger información sobre todas y cada una de las unidades de
observación (individuos) de una población, en la investigación se diseña la
recolección de datos respecto a un subconjunto o parte representativa de la
población.
El tamaño de la
muestra está condicionado por los objetivos de estudio, que determinarán su
diseño, las variables a considerar y el método planteado.
Para una población infinita (si la población es igual a 100.000 o más unidades de observación).
Una corporación
desea determinar el promedio de sus clientes en sus cuentas de ahorros. La
desviación estándar de las cuentas es estimada por la corporación en $40.000.
a). Cuál es el tamaño de la muestra, donde el error de estimación no exceda en $20.000.
b). Cuál es el tamaño de la muestra, donde el error de estimación no exceda en $40.000.
En una distribución normal de la población
con una desviación de 4, un error de estimación máximo de 2,5 un nivel de
confianza del 95%, ¿qué tamaño debe tener la muestra?
Calcular el
tamaño de la muestra de una población de 500 elementos con un nivel de
confianza del 99%
¿A cuántas familias se tienen que seleccionar para conocer la preferencia del mercado en cuanto a las marcas de shampoo para bebé, si se desconoce la población total?
La prueba de
hipótesis comienza con una afirmación, o suposición, sobre un parámetro de la
población, como es la media poblacional.
Dependiendo de la
naturaleza de la hipótesis y del tamaño de la muestra, el tipo de distribución
es diferente.
(a/2) representa el porcentaje del nivel de
significancia o de riesgo, son las regiones donde se rechaza la hipótesis nula
cuando es verdadera.
(1 – a) indica la probabilidad de aceptar la
hipótesis nula.
(– Zo, Zo)
identifican el valor del estadístico de prueba.
3. Estadístico
de Prueba
Se pueden utilizar
z, chi, t o F como estadísticos de prueba. Con este valor determinado a partir
de la información de la muestra, se decide si se rechaza la hipótesis nula.
4. Regla de
decisión
Es un enunciado
sobre las condiciones específicas en que se rechaza la hipótesis nula y aquellas
en las que no se rechaza. La región o área de rechazo define la ubicación de
todos esos valores que son tan grandes o pequeños que la probabilidad de que
ocurran es una hipótesis nula verdaderamente es lejana.
5. Toma de decisiones
Al calcular el estadístico de la prueba, comparándolo con el valor crítico y tomar la decisión de aceptar o rechazar la hipótesis nula.
Suponiendo que, de acuerdo con la información de la muestra, se obtiene que z = 2,34, se rechaza la hipótesis nula, con un nivel de significancia de 0,05, porque 2,34 se localiza en la región de derecha, es decir está más allá que 1,65.
La producción
semanal de cajas plásticas en una compañía sigue una distribución normal, con
una media de 200 y una desviación estándar de 16. Nivel de significancia del
0,01.
La empresa
adquirió tecnología de punta y más personal y pretende investigar si la
producción semanal de cajas aumentó.
La cantidad
media de cajas producidas el año anterior fue de 203,5, tomando como referencia
50 semanas.
La prueba es de dos colas, pues la hipótesis alternativa no
indica dirección alguna. La mitad de
0,01 es 0,005 y se ubica en cada cola. Por tanto, el área que no se rechaza Ho,
se ubica entre las dos colas, es 0,99.
Si z se ubica entre – 2,58 y +2,58, la hipótesis nula no se
rechaza.
Si z no se encuentra entre – 2,58 y +2,58, la hipótesis
alternativa se acepta.
Cuanto menor sea
el valor de P, más fuerte es la evidencia que proporcionan los datos en contra
de Ho.
Se realizan 50
pruebas a una variable física y se obtiene una media muestral de 9,9.
Conociendo que el error en el método es de s = 0,4, ¿es el valor medio
significativamente diferente al valor esperado de 9,8?
En general, a un contraste de hipótesis en el que la región crítica se divide en dos partes se le denomina BILATERAL, y se dice que es una prueba de dos colas. Por lo general, el área de cada cola suele coincidir con la mitad del nivel de significación.
Algunas veces se quiere comprobar si un parámetro es mayor o menor que un determinado valor, si va en un sentido u otro. En este caso se denomina UNILATERAL y se realiza una prueba de una cola. El área de región crítica coincide con el nivel de significación.
Una
distribuidora agrícola ofrece un producto en sacos, cuyo peso promedio es de
100 libras, con una desviación de 2 libras. En una muestra de 9 sacos, el peso
promedio es de 98 libras. Con un nivel de significancia de 5%, probar la
hipótesis que el promedio de todos los sacos es igual a 100. ¿Cuál es el valor
del estadístico Z?
Un estudio
médico estableció que, en hombres de 35 y 44 años, la presión sistólica media
de la sangre es 128 con una desviación típica a 15.
El departamento médico
de una compañía halla que la presión sistólica media de una muestra de 72
empleados, entre edades de 34 y 44 años, es de media = 126,07.
Con un nivel
de significancia de 5%, probar la hipótesis que la presión sistólica media de
los empleados de la empresa es distinta que la media poblacional. Suponiendo que tienen la misma s = 15. ¿Cuál es el valor del
estadístico Z?
Cuando se conoce la desviación estándar de la población s, se aplica:
Y cuando no se conoce la desviación estándar de la población s, puede calcularse por medio de la desviación estándar de la muestra, s:
En una muestra
aleatoria normal se tomaron los siguientes resultados: 15, 17, 18, 20 y 23. Con
un nivel de significancia de 10%, probar la hipótesis que la media de la
población es igual a 18. (Utilice el estadístico t-student)
Conclusión: El valor de p en una cola es de 0,00087. Como el valor de p de 0,00087 es menor que el nivel de significación de 0,01, entonces se rechaza Ho.
Las dos varianzas poblaciones son
desconocidas.
La Chi Cuadrado
permite comprobar si los datos observados difieren significativamente de los
valores teóricos esperados.
Las pruebas Chi Cuadrado (pruebas no paramétricas) miden la discrepancia entre unos datos observados y otros esperados.
PRUEBAS: Pruebas de Bonda del Ajuste y Pruebas de Independencia.
La bondad de ajuste es una prueba que determina si existe evidencia
significativa en contra de que una población se distribuye de cierto modo,
utilizando la información dada por una muestra.
#E = Evento. Es
un subconjunto del espacio muestral.
#U = Espacio
Muestral. Es el conjunto de todos los posibles resultados que se pueden obtener
al realizar el experimento. Es todo lo que puede ocurrir al realizar un
experimento.
Se lanza un
dado, qué probabilidad existe que el resultado sea impar.
U = {1, 2,
3, 4, 5, 6}
E = {1, 3,
5}
Para un dado legal,
la probabilidad de obtener cualquiera de los seis resultados posibles en un
lanzamiento es 1/6.
Ho: El dado es
legal.
La tabla dada muestra los resultados obtenidos al lanzar el dado 36 veces.
Una forma de probar si el dado es legal es realizando una prueba de significancia, calculando la probabilidad de obtener frecuencias tan diferentes o más que las obtenidas de la muestra respecto a la distribución uniforme de frecuencias. Si la probabilidad es suficientemente baja, entonces la hipótesis nula puede ser rechazada.
La probabilidad de obtener un “1” en un lanzamiento es 1/6 y en 36 lanzamientos sería 6.
En resultados se
aprecian algunos intervalos de puntajes obtenidos.
Proporciones de
la distribución normal para cada intervalo.
Las frecuencias
esperadas se calculan multiplicando el número total de puntos observados, 105,
por la proporción.
Ho: Los datos se
distribuyen en forma normal.
Con una probabilidad del 0,001%, entonces la hipótesis nula que asegura que los datos se distribuyen en forma normal debe ser rechazada. 30,09 > 21,11.
De acuerdo con el Ministerio de Salud, en cierta ciudad, los estudios históricos realizados muestran los siguientes porcentajes en cada grupo sanguíneo.
Formulación de
hipótesis:
Ho: Los datos
corresponde a la distribución histórica de los grupos sanguíneos de la
población. (Distribución teórica).
H1: Los datos no
se ajustan a la distribución teórica.
Al comparar el valor estadístico de Chi Cuadrado:
6,7371 con el valor de la tabla: 11,345, se concluye que 6,7371 estaría a la
izquierda de 11,345, por tanto la probabilidad de valores mayores a él es
superior al nivel de significación a = 0,01.
Como el valor P > 0,01 entonces se acepta Ho
Se encuestaron
a 150 familias en un barrio de la ciudad, sobre el número de televisores que
tienen en la vivienda.
Ho: X sigue la distribución uniforme de 0
a 4
H1: X no sigue la distribución uniforme de 0
a 4
Se lanza el dado 600 veces y se obtiene lo siguiente:
Un producto con distribución normal tiene una varianza poblacional de 15.
Una muestra
aleatoria de 20 productos, tiene una varianza muestral de 18,2.
Con un nivel
de significancia de 5%, probar la hipótesis que la desviación estándar poblacional
es mayor a 15.
En una muestra
aleatoria normal se tomaron los siguientes resultados: 41.9, 45.2, 45.8, 45.8,
45.9, 46.0, 46.1, 46.1, 46.4, 47.0. Con un nivel de significancia de 95%,
calcular un intervalo de confianza para la varianza.
En un estudio se tomaron los niveles y los
datos fueron: 14.39, 13.62, 17.92, 16.14, 14.60, 16.66, 18.67. Con un nivel de
significancia de 90%, calcular un intervalo de confianza para la varianza y la desviación estándar.
En un estudio
se tomaron los pesos de 10 niños de determinada edad y estos fueron los
resultados: 14.5, 11.6, 12.8, 15.1, 14.2, 13.7, 12.9, 13.8, 14.1, 11.9. Con un
nivel de significancia de 95%, calcular un intervalo de confianza para la
desviación estándar.
En un estudio sobre el tratamiento de una
determinada enfermedad se quiere estimar la proporción de pacientes que se
curarían si se aplicará la medicina a todos ellos.
Se fija un intervalo de confianza del 95%
y un error de estimación de 0,20. La muestra calculada es de 24 pacientes de
los cuales 13 son curados. ¿Cuál es el intervalo de confianza?
En un estudio
sobre una nueva bebida gaseosa se obtuvo los siguientes datos:
En la prueba de
una sola media, se tenía que:
Hipótesis nula Ho:
µ1 – µ2 = do; donde do = diferencia
nula.
El valor hipotético es 0, que es valor que indica la hipótesis nula, donde las diferencias entre las medias poblacionales es 0.
El estimador para el error estándar del estadístico se calcula como la diferencia entre medias en la población:
Si los tamaños de
las muestras y las varianzas de las poblaciones son iguales:
Asumiendo que las
varianzas poblacionales son iguales, entonces se estima esta varianza con el
promedio de las varianzas muestrales.
Los grados de libertad son el número de estimaciones independientes de la varianza.
(n1 – 1) + (n2 – 1)
16 + 16 = 32
La prueba de las
dos colas se usa cuando la hipótesis nula puede ser rechazada sin considera la
dirección del efecto. Es decir, la probabilidad de obtener un valor de t < – 2,533 o y t > 2,533.
En un estudio
sobre la estatura de jóvenes se obtuvo los siguientes datos:
Si los datos
siguen una distribución normal y con un nivel de significancia del 4%, probar
la hipótesis nula que la media de estatura de los hombres excede en 3 cm a la
media de la estatura de las mujeres. (Suponer que s1 = s2).
En un estudio
sobre la resistencia de cierto material, se enterraron 10 tiras de este, a las dos
semanas se sacaron cinco de estas y a las 16 semanas las restantes cinco. La
siguiente tabla muestra las fuerzas de roturas en kg:
A partir de
estos datos siguen una distribución normal y con un nivel de significancia del
5%, probar la hipótesis.
Si los datos siguen una distribución normal y con un nivel de significancia del 0,10, probar la hipótesis nula donde los tiempos medios son iguales. Calcular el estadístico t.
Se comparan 10
vehículos de alta gama en dos concesionarios y los resultados son los
siguientes:
A partir de
estos datos siguen una distribución normal y con un nivel de significancia del
0,05, probar la hipótesis.
A partir de
los datos que se tienen, siguiendo una distribución normal y con un nivel de significancia
del 0,05, probar la hipótesis.
En un estudio
de sobrepeso en la cuidad A con una muestra de 100 personas, se obtiene que 34
tienen sobrepeso, mientras que en la ciudad B con una muestra de 200 personas,
se obtiene que 50 tienen sobrepeso.
Ho: hay mayor
proporción de personas con sobrepeso en la ciudad A, con respecto a la ciudad
B.
p1: la proporción
de personas con sobrepeso en la ciudad A
p2: la proporción de personas con sobrepeso en la ciudad B
En un estudio
de dos poblaciones A y B con 61 y 62 personas cada una.
En la primera
se tomaron 49 y de la segunda 38. (Confianza del 95%)
n1 =
observaciones de la primera muestra
n2 =
observaciones de la segunda muestra
P1 = proporción en la primera muestra
P2 = proporción en la segunda muestra
Pc = proporción conjunta que posee la
característica en las muestras combinadas.
X1 = es el número
que posee la característica en la primera muestra
X2 = es el número
que posee la característica en la segunda muestra
Con un nivel
de Confianza del 0,05, calcular el estadístico Z para una hipótesis nula que la
proporción de mujeres jóvenes que comprarían el perfume es igual a la
proporción de mujeres adultas que lo comprarían.
En un estudio
de dos poblaciones: jóvenes y adultos, donde se les preguntaba sobre la
aceptación con un nuevo producto deportivo.
De una muestra aleatoria de 150 adultos, 87 expresaron la aceptación a
este producto. Y de la muestra de 200 jóvenes, a 123 les agrado el perfume.
Con un nivel
de Confianza del 0,10, calcular el estadístico Z para una hipótesis nula que la
proporción de adultos que comprarían el producto es igual a la proporción de
jóvenes que lo comprarían.
Si se tienen
muestras aleatorias simples independientes de dos poblaciones normales, una
muestra de tamaño n1 de una población N(µ1, s1) y una muestra de tamaño n2 de una
población N(µ2, s2). Las
medias y las desviaciones típicas son desconocidas.
La prueba F de dos muestras examina si las medias son iguales, para contrastar la hipótesis de la igualdad de las variaciones:
Las distribuciones F son una familia de distribuciones con dos parámetros. Estos parámetros son los grados de libertad de las varianzas muestrales que aparecen en el numerador y en el denominador del estadístico F.
Por convenio,
la población 1 es la que tiene la varianza muestral observada mayor, se coloca
en el numerador. Por tanto, F es siempre mayor o igual a 1. Así que el valor
crítico de la cola derecha es el único que se requiere.
Con un nivel
de Confianza del 0,10, calcular el estadístico F para una hipótesis nula de
acuerdo a los datos que se tiene en la tabla.
Se quiere
hacer un estudio sobre la venta de casa frente al mar comparado con la venta de
casas en la tercera cuadra de esta.
Una muestra de
21 casas vendidas, el año anterior, con vistas al mar tiene una desviación
estándar de $45.600.000.
Una muestra de
18 casas vendidas, el año anterior, a tres cuadras del mar tiene una desviación
estándar de $21.330.000.
Con un nivel
de Confianza del 0,01, calcular el estadístico F para probar la hipótesis nula.
Un uso de la
distribución F es el análisis de la técnica de la varianza (ANOVA), en la cual
se comparan tres o más medias poblacionales para determinar si son iguales.
Las
poblaciones siguen una distribución normal
Las
poblaciones tienen desviaciones estándares iguales (s)
Las poblaciones son independientes.
Se quiere contrastar la hipótesis nula:
Ho: µ1 = µ2 = µ3
H1: No es cierto
que µ1, µ2, µ3 sean iguales
La hipótesis
alternativa ya no es de una cola o dos colas, ahora admite muchas colas, ya que
admite cualquier relación distinta a Ho.
El contraste de
Ho en contra de H1 se denomina PRUEBA F DEL ANÁLISIS DE LA VARIANZA (ANOVA).
Si la hipótesis
nula que las medias de todas las poblaciones son iguales es cierta, el
estadístico F del ANOVA tiene una distribución de:
I – 1 grados de libertad en el numerador
N – I grados de libertad en el
denominador
Los tamaños de
las muestras son: n1 = 28; n2 = 28; n3 = 26. Por tanto I = 3. Las
desviaciones estándar son: s1 = 0,841; s2 = 1,144; s3 = 1,566
N = 28 + 28 + 26
= 62
df numerador: df denominador:
I – 1 = 3 – 1 = 2 N – I = 62 – 3 = 59
Nota: los
resultados de la prueba F del ANOVA son aproximadamente correctos cuando la
desviación típica muestral más grande no es mayor que el doble de la desviación
típica muestral más pequeña.
1,566 no es mayor
que 1,682. [(2)(0,841)]
Si se emplea la
distribución t para comparar cuatro medias poblacionales, tendría que efectuar
seis pruebas t distintas, por esto ANOVA permite comparar las medias de
tratamiento de forma simultánea y evitar la acumulación del error de tipo I.
Hay alguna
diferencia entre los niveles de satisfacción medios con respecto a los cuatro
grupos. Utilice el nivel de significancia de 0,01.
Si no se rechaza
Ho, se concluye que no hay diferencia entre las calificaciones medias de los
cuatro grupos.
Si se rechaza Ho,
se concluye que hay una diferencia, al menos, en un par de calificaciones
medias, pero no se sabe cuál par, de los cuatro grupos.
0 Comentarios