Muestra Piloto

#LLIMPIEZA DE DATOS

#Archivo modificado: 4 primeras filas eliminadas para la lectura de datos

directorio_companias_1_=read_excel("D:/Descargas/DATABASES/directorio_companias (1).xlsx")

#Quitar todas las entradas cuyo representante no esté presente.

directorionoNA=directorio_companias_1_[complete.cases(directorio_companias_1_$REPRESENTANTE),]

#Conservar solo aquellas compañías cuya situación legal sea activa:

directorio1=directorionoNA[directorionoNA$`SITUACIÓN LEGAL`=="ACTIVA",]

#Conservar solo aquellas compañías situadas en Ecuador (No sé si haya que considerarlas de todas maneras)

directorio1=directorio1[directorio1$PAÍS=="ECUADOR",]

#Conservar solo aquellas que estén situadas en Ecuador continental (No Galápagos) (puede cambiar)

directorio1=directorio1[directorio1$REGIÓN!="GALÁPAGOS",]

#Para agilizar el trabajo de R, se selecciona solo las columnas: RUC, NOMBRE, REGIÓN y REPRESENTANTE.

directorio1=directorio1[,c(3,4,9,18)]

#MUESTRA PILOTO

#Seleccionar 100 elementos al azar:

set.seed(1709)
mpiloto=directorio1[sample(nrow(directorio1), 100), ]

#Clasificar por región:

msierra=mpiloto[mpiloto$REGIÓN=="SIERRA",]
mcosta=mpiloto[mpiloto$REGIÓN=="COSTA",]
moriente=mpiloto[mpiloto$REGIÓN=="ORIENTE",]

#Contando hombres y mujeres por muestra:

#Sierra: 35 hombres, 16 mujeres

pmujsierra=16/51

#Costa: 35 hombres, 10 mujeres

pmujcosta=10/45

#Oriente: 2 hombres, 2 mujeres

poriente=2/4