miércoles, 10 de septiembre de 2008

Regresión Lineal como promedio

Mediante el siguiente iniciamos el estudio de lo que es la regresión lineal.
Se estudia el ingreso económico mensual de familias dependientes de obreros, residentes. dicho ingreso puede compararse contra la edad del padre de familia, de este modo se estudian 2 variables que representan a su vez una variable susceptible a describirse como un par ordenado estadístico (x,y).
En la tabla siguiente se muestran los datos correspondientes a una muestra aleatoria.




Ingresos mensuales en miles de pesos dependientes de obreros según la edad del padre


Grafica(azul) Ingresos vs Edad y linea de tendencia (negro)

formulas:

Y'=a + b(x)
∑Y=n*a + b∑X
∑XY= a*∑X + b∑X2
donde, n= numero de muestras





Calculo:


1. ∑Y=195= (30)*a+(1378)*b

2. ∑XY=9123.8=(1378)+(64726)b

Sistema de ecuaciones simultaneas
Solución:


a= 2.0470
b=0.0974

Sustituyendo:

Y=a + b(x)
Y'= 2.0470 +0.0974X














martes, 9 de septiembre de 2008

Problemas y ejercicios

  1. Suponga que el siguiente número de datos es una muestra aleatoria de 40 calificaciones de auto concepto.





A. determine Xmax, Xmin y el rango


Xmax=117, Xmin=63, rango=54.




B. ¿Cuántos intervalos sugeriría para mostrar la distribución


Cerca de 10 intervalos a menos que n sea muy grande.




C. Determine el ancho del intervalo, w, para permitir 10 intervalos.

w=rango/10 = 54/10= 5.4, redondeado a 5.


D. Si w=5, ¿Cuál es el primer intervalo (valores más bajos)?

El menor múltiplo de 5 que es menor que 63 es 60:60-64


E. Si w=5, liste los intervalos
F. Construya una distribución de frecuencias agrupadas para los 40 valores
G. Construya columnas de porcentajes y porcentaje a cumulado para esos datos

H. ¿Sería un polígono de frecuencias una grafica apropiada para estos datos? ¿Por qué?

Si los polinomios de frecuencia son excelentes para variables continuas.


I. Construya un polígono como el de la figura 2,.4 con estos datos



Frecuencia Vs Punto medio de intervalo



J. Construya una ojiva de esos datos




K. Estime P10, P50 y P90 utilizando la ojiva
P10=80; P50=100;P90=110


L. Construya una grafica horizontal de caja y patillas para esto datos. (nota: las graficas de caja pueden tener una orientación vertical u horizontal. para la orientación horizontal, las patillas se extiende a la izquierda y a la derecha de la caja).




M. Comente sobre la aparente simetría o asimetría de esos datos
Parece que la distribución es asimétrica y sesgada a la izquierda.


N. ¿Cómo diferiría una ojiva de asimetría positiva de la asimetría negativa?
La ojiva de una distribución asimétrica positiva se elevaría muy rápido de la línea base en el lado izquierdo de la ojiva debido al conjunto de valores en las regiones mas bajas. Por otro lado, la ojiva de una distribución asimétrica negativa no comenzara a elevarse rápidamente sino hasta que alcance los valores altos en el lado derecho de la figura.


O. ¿Puede suponer como podría aparecer la ojiva de una distribución rectangular?


Una línea recta inclinada hacia arriba desde el extremo inferior izquierdo hasta el extremo superior derecho



2.- El siguiente conjunto de datos es de una muestra aleatoria de 50 casos de los datos del HSB. En este caso, los números representan la raza de los individuos, de donde 1 = hispano, 2= asiático, 3= negro, 4= blanco.



a) ¿Un polígono de frecuencias es apropiado para graficar esos datos? ¿Por que? No, ya que esos datos son categóricos mas que cuantitativamente continuos.



b) ¿Es apropiada una grafica de barras para graficar esos datos? ¿Por que?


Una excelente elección, ya que los datos no tienen un continuo fundamental.



c) Construya una distribución de frecuencias agrupadas para estos datos. (Utilice el método de Tukey).
d) Construya una columna de porcentajes para esos datos.


e) Construya un histograma de frecuencias para esos datos.
f) Etiquete el eje vertical de la figura en el e) para indicar frecuencia y porcentajes.



g) ¿Habría probablemente brechas entre las columnas del histograma? ¿Por qué?Si, ya que es congruente con los datos categóricos no clasificables.


Los ejercicios del 1 al 10 están basados en los siguientes datos.
En un grupo de sexto grado con 36 estudiante, se administra una tecnica sociométrica de “adivina quien” para evaluar el grado de relaciones positivas entre ellos para cada estudiante. Los valores para los 36 estudiantes fueron:



1.- ¿Cual es el rango?.
Rango = Xmax-Xmin = 52-0 = 52



2.- Construya una distribución de frecuencias no agrupada.



3.- Construya una distribución de frecuencias agrupada, w= 5.



4.-Construya un histograma de esos datos y comente sobre la forma de la distribución.
La distribución es asimétrica y altamente sesgada positivamente

Frecuencia Vs punto medio



5.- Construya una ojiva.






6.- Estime Q1 y Q2.
Q1 = 2 o 3, Q3 = 13.5



7.- Calcule la media.
9.78



8.- Determine la mediana.
5



9.- Determine la moda.
1



10.-Comparte la distancia de Q1 a Q2 con la distancia de Q2 a Q3. El patrón sugiere asimetría.
Q3-Q2 es mayor que Q2-Q1. Positiva.



11.- Para una década reciente, el incremento en el ingreso medio en el sur fue 74 % para blanco y 113 % para no blancos. ¿Cuál es el incremento medio para ambos grupos combinados si de cada 100 trabajadores 82 fueron blancos?



12.-Suponga que siete amigos viven junto a una autopista y quieren juntarse en la casa de uno de ellos para comer tacos y discutir las medidas de tendencia central y sus tipos favoritos de graficas. Si sus casas a lo largo de la autopista están situadas de este a oeste en este orden: A, B, C, D, E, F Y G, ¿Dónde deberían reunirse para minimizar la suma de las distancias recorridas?
Md en el punto D. (La suma de las derivaciones absolutas es un mínimo alrededor de la mediana).



13.- Suponga que una distribución tiene una media de 70, una mediana de 65 y una moda 55. ¿En que dirección esta sesgada la distribución?
Esta sesgada a la derecha, es decir, positivamente.



14.- Si aplica prueba de Cl a una clase en dos ocasiones separadas, como regla general, comente sobre las diferencias relativas entre las dos medias, las dos medianas y las dos modas.
Se espera que las medias difieran menos y que las modas difieran más.


Las preguntas 15-16 corresponden a los datos presentados en la tabla 2.2.
15.- Mo=?
50


16.- Md=?
51



jueves, 4 de septiembre de 2008

04/09/08

Distribuciones de frecuencias
Definición:
Es una lista de valores de datos ya sea de manera individual o por grupos de intervalos, junto con sus frecuencias (o conteos) correspondientes.

Definiciones,

  • Limite de datos interiores:
    Son las cifras más pequeñas que pueden pertenecer a las diferentes clases.
  • Limites de clases superiores:
    Son las cifras más grandes que pueden pertenecer a las diferentes clases.
  • Frontera de clase:
    Son las cifras utilizadas para separar las clases, aunque sin los espacios creados, por los límites de clase.
Se obtienen de la siguiente manera:

Se determina el tamaño del espacio entre el límite de clase superior de una clase que el límite de clase inferior, se suma la mitad de esa cantidad a cada limite de clase superior, para obtener las fronteras de clases superior. se resta la mitad de esa cantidad de cada límite de clase inferior, para obtener las fronteras de clase inferiores.

Distribución de frecuencias de los niveles contaminantes de nicotina

Limites de clase inferior: 0, 100, 200, 300,400

Limites de clase superior: 99, 199, 299, 399,499

Marca de clase:
Son los puntos medios de las clases: 49.5, 249.5, 349.5, 449.5.

Anchura de clase: Es la diferencia entre dos límites de clase inferiores consecutivos.

Visualización de datos:

Histograma, entre los distintos tipos de graficas que se presentan, este es particularmente importante. Es una grafía de barras en donde la escala horizontal representa clases de valores de datos y la escala vertical. Representa frecuencias, las alturas de las barras corresponden a los valores de frecuencias.



martes, 2 de septiembre de 2008

Tarea #3 03/08/09

Distribución de frecuencias
Toma de datos

Los datos estadísticos generalmente son numéricos con ellos se realiza el estudio de situaciones variadas en los más diversos campos de la ciencia y tecnología, dicho estudio se refiere a situaciones en las cuales es indispensable obtener información confiable para tomar decisiones certeras y las cuales en gran medida se producen gracias a que los datos se organizan en tablas o gráficos.


Datos agrupados
Cuando se toman datos experimentales o de observación estos aparecen sin orden, por eso se les llama datos en bruto o crudos. Estos datos se pueden agrupar por orden del mayor al menor o del mayor al menor. Esto al menos permite saber cuál es el dato mayor, menor y cuáles de estos están en el centro, si son pocos datos, si se repiten los datos, es decir los más frecuentes.
Frecuencia
Estos datos se pueden agrupar en tablas de frecuencia y frecuencias relativas. la agrupación de estas tablas se hacen mediante la distribución de los datos numéricos, en clases según sea su frecuencia.


Ejemplo

En los siguientes datos corresponden a las utilidades en pesos de una panificadora (Conchita) durante cada una de los últimos 24 meses, se dan tal cual se recogieron, por eso aparecen en desorden.
El dueño desea traspasar la panificadora y requiere esos datos para tomar una decisión.



¿Cual es la pregunta del dueño de la panificadora?

Si de acuerdo a las ganancias del los dos ultimos años debe o no traspasar el negocio.


¿Cual es la poblacion bajo estudio?. Describela.


Las ventas mensuales de pan en los ultimos dos años. Estan ordenadas por cuatrimestres. Cada columna un cuatrimestre.

¿Cuales el menor dato y cuál es el mayor?

Mayor: 21,161.32

Menor: 7,814.889

¿Cual es la diferencia entre el dato mayor y el menor?.
21,161.32 - 7814.889 = 13346.4310


¿Cuales con los valores en el centro de los datos?



Valores al centro de los datos: 16,573.73 y 16,505.53

lunes, 1 de septiembre de 2008

Tarea#2 01/09/08

Del siguiente conjunto de datos obtener las definiciones de moda, mediana, media aritmética, así como el promedio por columna y obtener el promedio total de la siguiente tabla: