Realizado por:
Gavazut E. ; Riera L. ; Cordero M.
Análisis de estadístico sobre
jugadores de la MLB
Informe final de
Estadística
Resumen
El deporte como actividad social del ser humano no es ajena a la ciencia, en particular, a la matemática y
la estadística. En beisbol, por ejemplo, se recopila cada mínimo información de todo lo que sucede
durante el juego, aspectos como: tasa de bateo, carreras anotadas o ponches. Y es que estos datos
permiten medir cuan bueno o acertado es el desempeño de cada jugador. Debido a la gran cantidad de
información, que además se ha incrementado con los años, es necesario recurrir a la ciencia y a modelos
computacionales de predicción que ofrezcan un punto de objetividad que permita a los equipos mejorar
su competitividad.
En este trabajo, se mostrará como realizar un análisis estadístico sobre una base de datos de jugadores de
la Major League Baseball (MLB), relativo a la tasa de bateo, carreras anotadas, triples, dobles y ponches
por veces al bate. De este análisis se destaca el comprobar como la tasa de ponches es mayor a la tasa de
jonrones de un jugador y que es posible hallar una relación lineal entre las tasas de bateo y las tasas de
carreras anotadas, de dobles y ponches por veces al bate. Esto permitirá predecir con un nivel 0.8589 de
error cuadrático ajustado, cual será la tasa de carreras anotadas por jugador según su desempeño en el
campo. Más aún, un análisis de varianza (ANOVA), permite demostrar que no hay mayor distinción entre
jugadores con diferentes tasas de bateo
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 2
Planteamiento del problema
En el presente proyecto, el objetivo es tomar una base de datos con diversas métricas
que corresponden a jugadores de la MLB para realizar los siguientes estudios sobre ella:
1. Análisis descriptivo.
2. Intervalo de confianza de 97% para la media de cada variable.
3. Probar (a nivel de 0.05)que el promedio de bateo es inferior a 0.300.
4. Estudiar si la tasa de ponches y de jonrones son iguales.
5. Prueba de bondad de ajuste para la tasa de bateo para determinar si tiene
distribución normal.
6. Gráfico de dispersión y matriz de correlación para las variables.
7. Modelo de regresión final y predicción para la tasa de bateo.
8. Separar a la tasa de bateo en tres grupos: los que tienen menos de 0.200, los que
tienen entre 0.200 y 0.300, y los que tienen más de 0.300, y realización de un análisis
de varianza para estudiar si los promedios de tasas de las otras variables son iguales.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 3
Descripción de la base de datos
La base de datos a estudiar cuenta con 45 observaciones de 6 variables, las cuales son:
X1 = tasa de bateo (hits/veces al bate). Entiéndase la conexión efectuada por el bateador que
coloca la pelota dentro del terreno de juego, permitiéndole alcanzar al menos una base, sin
que se produzca un error de defensa del equipo contrario o algún otro jugador sea declarado
como fuera de juego.
X2 = tasa de carreras anotadas (carreras anotadas/veces al bate). Entiéndase carrera por
anotación, y se logra al recorrer un corredor la totalidad de las bases volviendo al home, bien
de manera continua (por medio de un jonrón) o de forma alternada consecutiva antes de que
se realicen 3 outs.
X3 = tasa de dobles (dobles/veces al bate). Entiéndase por doble como un hit en el que el
bateador logra llegar a segunda base sin ser puesto out y sin que haya error alguno de la
defensiva.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 4
Descripción de la base de datos
X4 = tasa de triples (triples/veces al bate). Entiéndase por triple como un hit en el que el
bateador logra llegar satisfactoriamente a tercera base, sin que ocurra ningún error por parte
de la defensiva.
X5 = tasa de jonrones (jonrones/veces al bate).Un jonrón se da cuando el bateador hace
contacto con la pelota de una manera que le permita recorrer las bases y anotar una carrera
(junto con todos los corredores en base) en la misma jugada, sin que se registre ningún out ni
error de la defensa.
X6 = tasa de ponches (ponches/veces al bate). Por último, un ponche es la acción de retirar a
un bateador con una cuenta de 3 strikes, al que la recibe se le suele llamar ponchao o
ponchado.
De esta forma, vemos que cada una de las variables miden números bastante relevantes para
cada jugador. Como cada una de estas estadísticas pueden ocurrir una sola vez mientras se está
al bate, cada una será un numéro entre el 0 y el 1
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 5
Metododología
Para la realización de esta investigación se hará uso del sofware estadístico Ren el
entorno de desarrollo intergrado (IDE) RStudio.
En este se iniciará por una descripción de los datos y variables almacenadas en el archivo
fuente Baseball.xlsx, tales como: mínimo, media, cuantiles y desviación estándar.
Para la media de las variables se obtendrá un intervalo de confianza del . Como se
desea estudiar la relación de la tasa de bateo respecto al resto de las variables, se
buscará determinar la mejor distribución de probabilidad que se ajuste a esta variable.
Finalmente, se estudiará la eficiencia del mejor modelo lineal de predicción que se
ajuste a los datos y permita establecer si en efecto existe tal relación entre las variables y
las implicaciones que tendría en las estrategias para futuros juegos de beisbol.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 6
Análisis de los datos
Para la realización de este proyecto se con con una archivo de excel con
la información de algunos jugadores de la Major League Beisbol o MLB, el
cual se almacenó en una variable llamada Baseball.
De esta archivo podemos realizar el siguiente análisis de datos.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 7
¿Qué clase es la base de datos?
Con el comando class,se pudo determinar el tipo de base de datos
utilizada o lo que es equivalente, la clase de la variable Baseball.
El resultado que se obtuvo indica que es del tipo tbl_df, que es una
subclase de la clase data.frame.tbl_df cumple con tener
propiedades diferentes por defecto y se suele referir a ellas como
tibble.
Es una clase eficiente para trabajar con bases de datos grandes y su
visualización.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 8
Variables en la base de datos
Si se desea saber que tipo de variables están almacenadas en la base
de datos, se puede utilizar el comando str.
Esta función nos indica que se cuentan con variables denominadas
X1,X2,X3,X4,X5,X6, y distribuidas de tal manera que
representan la columnas de la base de datos.
Cada una de estas variables tienen  valores de tipo double o
número decimal, que representan las  observaciones aleatorias (una
por fila) realizadas a jugadores de la (MLB).
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 9
Estadísticos
Para obtener los estadísticos de las seis (6) variables de esta base de datos, se inicia por guardar
las  observaciones en un vector que represente a cada variable.
Y aplicar las siguientes funciones:
mean que permite obtener la media de los datos,
median para obtener la mediana,
quantile para retornar los cuantiles al  y de cada variable,
min para el valor mínimo,
max para el valor ximo,
var para la varianza,
sd que es para la desviación estándar,
IQR es para el rango intercuartil,
stad/media el coeficiente de variación
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 10
Estadísticos
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 11
Estadísticos
De estos resultados hay varios puntos que podemos detacar:
La varianza de los datos es muy baja indicativo que entre los datos hay pocos
valores atípicos o datos muy dispersos, lo que se refleja en valores mas
cercanos a la media. Misma interpretación se puede extender a la desviación
estándar pues es la raíz cuadrada de la varianza.
Una consecuencia de la baja varianza es que la media y la mediana son
valores muy cercanos. Esto es particularmente útil al analizar el valor del
RIC, que toma como medida central la mediana de los datos. Es decir, nos
indica donde se encuentra el de los datos, cuánto mas bajo es el valor
del RIC menos dispersos están los datos.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 12
Diagramas e histograma de los datos
por cada variable
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 13
Diagramas e histograma de los datos por
cada variable
Para la variable X1, podemos ver que los valores máximos de los datos se
obtienen luego de la media, pero el mayor volumen de ellos se encuentra
antes como bien se observa en el diagrama de caja que permite confirmar,
además, la ausencia de datos atípicos.
Para la variable X2,se puede comprobar que hay simetría de los datos que
se podía apreciar en la tabla de estadísticos. Simetría, particular, respecto
al valor  que coincide a su vez con la media de los datos.
El diagrama de caja permite confirmar la ausencia de los valores atípicos.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 14
Diagramas e histograma de los datos por
cada variable
Por su parte, para la variable X3 yX4. Vemos que en general, ambos
diagramas de caja son bastante parecidos, con la única diferencia siendo que
el de triples es  puntos corrido hacia arriba y los datos desde el primer
cuartil hasta la mediana están muchos más dispersos.
Otra diferencia es que el diagrama de cajas para los triples no cuenta con
datos atípicos, en cambio los dobles si,que corresponde a . Todo esto hace
que el diagrama de los triples sea casi simétrico, y el de los dobles sea s
chato entre el valor mínimo y la mediana, en comparación con lo que
tenemos entre la mediana y el ximo valor.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 15
Diagramas e histograma de los datos por
cada variable
De la gráfica para la variable X5 podemos ver como a medida
que nos vamos acercando a , la frecuencia de jonrones decae
rápidamente, mientras que al incio es muy alta.
De la gráfica para la variable X6 podemos ver que la mayoría de
los jugadores se ponchan menos de un  de las veces que
estan al bate.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 16
Intervalo de confianza para la media de
las variables
Con el uso de la función t.test() se puede encontrar el
intervalo de confianza con una significancia de  o (de
confianza) para las variables estudiadas.
Los resultados de aplicar esta función, se pueden visualizar en la
tabla siguiente tabla y gráfico.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 17
Intervalo de confianza para la media
de las variables
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 18
Intervalo de confianza para la media de
las variables
Note que general, los intervalos de confianza más estrechos son los de
dobles y triples, lo que nos indica que, con una probabilidad del ,
podemos asegurar que los jugadores de la MLB tendrán un promedio
de triples y dobles que puede ser estimado con bastante certeza.
Pero vemos que las carreras anotadas, los ponches y la tasa de bateo
tienen un intervalo de confianza mucho más grande, por lo que no
podemos asegurar que el promedio será estimado de forma tan
certera.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 19
Promedio de bateo
Con lo obtenido en los intervalos de confianza del apartado
anterior se tiene que la tasa de bateo toma valores por debajo
de .
Para corroborar este resultado, se realizará un prueba de
hipótesis con un nivel de significancia de .
Como hipótesis nula y como hipótesis altenativa vamos a
suponer que
   
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 20
Promedio de bateo
Si suponemos que los datos presentan una distribución normal,
podemos aplicar el comando t.test de R, que permite realizar
pruebas de hipótesis sobre las medias de los datos cuando se
trabaja con una sola variable.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 21
Promedio de bateo
Con esta función, se obtuvo que el valor para el estadístico es ,
con  grados libertad.
El  es bastante alto, es igual  (que representa un
). Y se cumple que  .
Por lo tanto, la hipótesis alternativa se rechaza, mas aún, se rechaza para
todo nivel de significancia porque se necesita un valor para más alto que
el  para rechazar la hipótesis nula.
Se afirma entonces, con seguridad, que la tasa de bateo es inferior a
, tal como se podía apreciar con el intervalo de confianza.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 22
Comparación entre las tasas de ponches
y las de jonrones
Ahora, deseamos comparar las tasas de ponches y de jonrones para
determinar si son o no parecidas. Como no tenemos conocimiento
acerca de las varianzas poblacionales, usaremos el test de Welch tal y
como es explicado en Heumann, Schomaker (2017)para comparar las
medias.
En este caso, haremos una prueba de hipótesis, donde tomaremos
como hipótesis nula,e hipótesis alternativa las dadas por:
  vs.  
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 23
Comparación entre las tasas de ponches
y las de jonrones
Es decir, queremos determinar si las tasas de jonrones y ponches son distintas.
Ahora, con apoyo del comando anterior t.test(), pero esta vez para
comparar dos variables, podremos determinar cuál de estas hipótesis es
aceptada.
Como resultado se obtuvo que el    , que es
extremadamente pequeño, mucho más que el nivel de significancia 
que es razonable utilizar para nuestra prueba de hipótesis.
Adicionalmente, el intervalo de confianza que se obtuvo fue de
  que no incluye el cero.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 24
Comparación entre las tasas de ponches y
las de jonrones
Otra cosa que podemos hacer es evaluar el estadístico de prueba con
el comando qt() (vemos por lo anterior que   y ).
Por lo que , vemos que el estadístico cae en la región de
rechazo (porque es de cola doble).
Para cualquiera de estos casos, podemos concluir que la hipótesis nula
se rechaza, es decir que hay suficiente evidencia para creer que
  .
Y además, como el intervalo de confianza es negativo, concluimos que
  con un nivel de confianza del , como se
podía apreciar en los intervalos de confianza de la media.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 25
Prueba de bondad de ajuste para la
distribución de X1
Para continuar con el análisis a un nivel más profundo, resulta
conveniente determinar si los datos en la variable X1, sobre la
tasa de bateos, sigue una distribución normal.
Para esto, primero note que en el histograma para la variable, se
obtuvo que si se subdivide en intervalos de longitud  , las
frecuencias son como las descritas en las siguientes tabla:
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 26
Prueba de bondad de ajuste para la
distribución de X1
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 27
Prueba de bondad de ajuste para la
distribución de X1
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 28
Ahora, agruparemos los datos en categorías de frecuencia mayor
o igual a 5 (para poder aplicar el método de bondad de ajuste)
tal como puede apreciarse en la tabla siguiente:
Con la gráfica cuantil-cuantil de la figura anterior, podemos ver
que esta agrupación se ajusta bien a un distribución normal
(representada por la recta).
Prueba de bondad de ajuste para la
distribución de X1
Vamos a proceder a realizar una prueba ,que es una prueba
de hipótesis que compara la distribución observada de los datos
con la distribución esperada de los datos.
Para este tipo de pruebas, el estadístico de cuantífica que
tanto varía la distribución respecto a la distribución hipotética.
La hipótesis nula y la hipótesis altenativa vienen dadas
por:
Los datos siguen una distribución normal
Los datos no siguen una distribución normal
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 29
Prueba de bondad de ajuste para la
distribución de X1
Como estadístico tenemos:


con el número de clases o categorías, las frecuencias de
cada categoría, ,el valor esparado con el
número total de datos y la probabilidad de cada clase .
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 30
Prueba de bondad de ajuste para la
distribución de X1
Para calcular las probabilidades se obtuvo la media y la
desviación estándar de los datos agrupados como
󰨥  y ,
respectivamente. Con 󰨥 yse obtuvieron las siguientes
probabilidades para cada clase:
   
.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 31
Prueba de bondad de ajuste para la
distribución de X1
Sustituyendo los datos en el estadístico tenemos que:
,
yel  viende dado por  .
El  es bastante alto por lo que la hipótesis nula no se
rechaza para ningún nivel de significancia.
Por tanto, los datos siguen una distribución normal con media
 y deviación estándar .
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 32
Gráfico de dispersión y
matrix de correlación
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 33
Gráfico de dispersión y matrix de
correlación
Es ahora, de nuestro interés estudiar la relación entre las variables de la
base de datos. Esto lo podemos observar en la figura anterior.
Note que de las gráficas de dispersión de la mitad inferior de la figura se
puede apreciar que para carreras anotadas, dobles y triples tenemos algo
que se asemeja a una relación lineal positiva.
Mientras que para los ponches, estos disminuyen a medida que la tasa
de bateo aumenta.
La única variable que no parece tener ninguna relación clara con la tasa
de bateo es la tasa de jonrones, por lo que es una variable que
probablemente no nos ofrezca mayor información si queremos establecer un
modelo lineal que relacione a las variables.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 34
Gráfico de dispersión y matrix de
correlación
Por otro lado, con la parte superior de la figura se tienen los
coeficientes de correlación por pares de variables.
Estos coeficientes nos indican que, efectivamente, para las
carreras, dobles y triples, tenemos una correlación positiva
(siendo las carreras la que tiene mayor correlación, y los triples
la menor).
Además, para los ponches tenemos una correlación negativa
bastante significativa, y entre todas las variables, los jonrones
tienen la menor correlación.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 35
Muestreo 80%-20%
Por lo visto en la matriz de correlación, parece existir una
relación lineal entre las variables, particularmente vamos a estar
interesados en ver como se relaciona cada campo de
información (carreras, dobles, etc.) con la variable X1 que es la
tasa de bateo.
Con Rtenemos la posibilidad de obtener un modelo de regresión
lineal con la función lm.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 36
Muestreo 80%-20%
Pero para asegurarnos que el modelo sea el más adecuado,
primero necesitamos extraer una muestra que permita entrenar
al modelo de predicción, y con los datos restantes probar que
tan eficiente es el modelo.
Con este objetivo, se dividen los datos en un para el
entrenamiento y en un para las pruebas.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 37
Muestreo 80%-20%
Como la base de datos consta de  observaciones por variable, el 
representa tomar una muestra aleatoria de  observaciones, por lo que el
restante serán las observaciones no tomadas en la muestra.
Vale la pena resaltar que se habla de observaciones, o las filas de la base de
datos y no de las entradas particulares de cada variable porque se busca
estudiar la relación por jugador, de su tasa de bateo, respecto a su tasa de
carreras, dobles, triples, jonrones y ponches.
En otras palabras, las filas son independientes entre y por eso se pueden
tomar muestras al azar, pero las columnas no lo son por ser datos relativos a
un jugador en particular.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 38
Modelo de regresión lineal para la
variable X1
Ahora, teniendo seleccionado nuestros datos, podemos pasar a
realizar el modelo.
La mejor manera de realizar un modelo de regresión lineal es
seguir el método de regresión paso a paso, y de esta manera
determinar cuáles variables son significativas o no al tomar en
cuenta la tasa de bateo.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 39
Modelo de regresión lineal para la
variable X1
Ahora, pasemos a realizar el modelo lineal utilizando el comando lm() de R.
Se desarrolla primero el modelo dado por
.
Suponiendo que , buscamos estimar los parámetro para los
cuales
.
Con el comando lm() se obtuvo que el único valor no significativo (y de
hecho el p-valor más alto) fue la tasa de triples, seguido de la tasa de
jonrones que era significativa a nivel .
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 40
Modelo de regresión lineal para la
variable X1
PRUEBA 2:
De esta forma, realicemos de nuevo el modelo pero sin la variable 
correspondiente a los triples. Es decir, el modelo a estimar es:
.
Con Rse obtuvo en esta prueba, que la tasa de jonrones es la variable
con p-valor mas alto, con .
A pesar, de ser significativa a nivel de  procedemos a realizar una
nueva prueba, esta vez sin la tasa de jonrones.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 41
Modelo de regresión lineal para la
variable X1
PRUEBA 3:
El nuevo modelo, consiste en estimar
.
Ahora, todas nuestras variables son bastante significativas, por lo que
sus p-valores son bastante pequeños, significativos a nivel .
Los valores estimados fueron:
 ,  ,  y .
Como medida del error, tenemos el 
,con valor , indicando
que hay un buen ajuste de los datos al modelo.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 42
Modelo de regresión lineal para la
variable X1
Además, tenemos que:
Para los estimadores, los dobles es el mayor de todos, y este nos indica
que por cada aumento del 1 % en la tasa de dobles, hay un aumento
correlacionado del 136 % en la tasa de bateo. Es interesante ver que este
estimador es muchísimo mayor que el de las carreras.
La varianza es estimada como  .
Para el error estándar (Std. Error), podemos construir los intervalos de
confianza para las variables. Primero, tenemos que  :
     
     
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 43
Modelo de regresión lineal para la
variable X1
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 44
Ahora, veamos que efectivamente se cumple con las
característica de un buen modelo apoyándonos en las
gráficas.
Modelo de regresión lineal para
la variable X1
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 45
Modelo de regresión lineal para
la variable X1
Cuando vemos la gráfica de "Residuos vs Ajustados", nos damos cuenta de que la línea
azúl es bastante horizontal, y esta además está centrada alrededor del cero, es decir que
podemos asumir que no hay independencia entre las variables y la tasa de bateo.
Al ver el gráfico "Normal Cuantil-Cuantil", vemos que todos los valores están bastante
cercanos a la recta, lo que nos confirma la normalidad.
En "Escala-Localización" no vemos ningún patrón, lo que nos indica que los valores
presentan homocedasticidad.
Y por último, en "Residuos vs Apalancamiento", no hay ningún valor que esté fuera de
las líneas rayadas, por lo que no parece haber valores que generen apalancamiento.
En conclusión, podemos ver que este es un buen modelo, cuyas variables son todas
significativas, no tiene datos que generen apalancamiento y cumple con homocedasticidad.
En resumen, nuestro modelo es:
   
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 46
Prueba y predicción del modelo lineal
Ahora, haremos uso del comando predict para hacer la
predicción de la variable X1 (tasa de hits), utilizando las
observaciones que se seleccionaron previamente.
Luego calculamos la diferencia entre los valores reales y los
valores estimados por el modelo.
Los resultados se muestran en la siguiente tabla.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 47
Prueba y predicción del modelo
lineal
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 48
Es claro que los residuos son bastante pequeños, así que se considera
que el modelo es suficientemente bueno para predecir la tasa de hits.
ANOVA para la Tasa de Bateo
Para finalizar, estamos interesados en realizar un análisis de varianza sobre la
variable X1 ola tasa de bateo, para compararla con el resto de los variables.
Particularmente queremos realizar, el estudio sobre categorías o grupos:
Grupo 1: los bateadores con una tasa de bateo igual a   .
Grupo 2: los bateadores con una tasa de bateo igual a    .
Grupo 3: los bateadores con una tasa de bateo igual a  
Con esta agrupación se opta por realizar un análisis de varianza con bloques
aleatorizados, donde los bloques serán los grupos y los tratamientos o métodos
serán las distintas variables de la base de datos.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 49
ANOVA para la Tasa de Bateo
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 50
ANOVA para la Tasa de Bateo
Con la tabla anterior podemos apreciar las medias de los valores
agrupados.
Con estos valores, se puede aplicar el comando anova de R
para obtener la tabla ANDEVA, tal y como se detalla en la tabla
siguiente.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 51
ANOVA para la Tasa de Bateo
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 52
Tabla 7: Tabla ANDEVA
ANOVA para la Tasa de Bateo
En esta tabla, se aprecia que el p-valor para lo grupos es de 
que es alto, indicando que la hipótesis nula para los grupos no se
puede rechazar,es decir, que las medias por grupos son iguales.
Sin embargo, para las medias clasificadas por variable o método se
obtuvo un p-valor de  que es bastante bajo, incluso significativo
indicando que las medias son distintas tal como se esperaba por los
datos analizados.
Con esto podemos afirmar con seguridad, que los promedios de las
tasas son iguales por cada grupo.
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 53
Conclusiones
4/27/2022 Cordero M.; Gavazut E.; Riera L Proyecto final de Estadistica para MatemáticosCO3322 Profesor Pedro Ovalles 54
De todo el análisis anterior se deduce que:
1. No hay demasiada variabilidad entre las diferentes tasas de bateo, por lo
que en general los jugadores de la MLB proyectan rendimientos similares
(aunque esto depende del grado de exactitud con el que se quiera medir).
2. La tasa de bateo es en media al menos mas del doble que la tasa de
ponches para cualquier jugador (esto se sigue de la tabla 2).
3. La tasa de hits sigue aproximadamente un distribución normal centrada en
 y con desviación estándar de .
4. Las variables más significativas (entre las estudiadas), para predecir la tasa
de hits o bateos son la tasa de carreras, la tasa de dobles, y la tasa de
ponches, con estas se puede lograr un buen modelo lineal.
¡Gracias!