Para poder comprender mejor los resultados aquí expuestos, es importante hacer ciertas aclaraciones respecto del enfoque y la metodología utilizada.
- ¿Quieren decir que existe subjetividad en este reporte?
- Así es. Aunque hicimos todo lo posible para minimizarla.
Si bien los resultados aquí expuestos son números, hay ciertos procedimientos manuales que ayudaron a seleccionarlos, agruparlos y haberles dado relevancia respecto de otros. Más abajo mencionamos los más importantes:
Representatividad de la muestra
Para todos los segmentos sobre los cuales se ha hecho rankings de algún tipo (de salarios, conformidad, etc.), hemos tenido en cuenta principalmente el tamaño de la muestra por sobre otros factores. Debido a la multidimensionalidad de los datos, no creímos conveniente utilizar la homogeneidad para determinar la representatividad, ya que por ejemplo, para una misma región la dispersión de salarios puede ser muy grande debido a otros factores tales como la antiguedad, el nivel de estudios o la tecnología.
Salarios
Para los valores de los salarios aquí expuestos, ya sea por período, por género, experiencia, etc. utilizamos la mediana del salario bruto. Este valor, si bien se aproxima al promedio de una muestra, no es exactamente eso. La mediana salarial, nos sirve mejor para entender mejor cual es el valor típico de una muestra.
La mediana de los salarios, para los datos de la encuesta, suele estar levemente por debajo del valor promedio.
Evolución de los salarios en pesos constantes ajustados por IPC
Los salarios históricos se ajustaron a pesos constantes utilizando el Índice de Precios al Consumidor (IPC) publicado por el INDEC, lo que permite eliminar el efecto de la inflación y analizar la evolución del poder adquisitivo real. Para ello, se definió un período base y se aplicó el IPC como coeficiente de ajuste a cada salario histórico, convirtiéndolo a valores equivalentes en términos de precios actuales. El detalle sobre cómo utilizar este índice se encuentra en en este documento oficial de INDEC.
Valores atípicos
Muchos salarios ingresados no se corresponden necesariamente con datos reales. Esto puede ser debido a errores de tipeo, no entendimiento de la pregunta, o simplemente intencionales. Para evitar que estos valores distorsionen los resultados, aplicamos el método del Rango Intercuartílico con un coeficiente de 3.5. Dadas las diferencias encontradas entre los salarios dolarizados y los no dolarizados, este método fue aplicado por separado para estas dos poblaciones. Es muy posible que existan salarios reales que hayan quedado fuera del análisis, por ser estos realmente outliers.
Adicionalmente, y dado que el método anteriormente mencionado resulta en cotas inferiores negativas, para evitar distorsiones debido a valores demasiado bajos, hemos eliminado todas aquellas entradas cuyo salario sea menor a medio salario mínimo. Tanto para la más reciente encuesta como para las anteriores.
Medianas salariales no confiables
Para evaluar la confiabilidad de las medianas salariales de cada grupo reportado, se calculó el Intervalo de Confianza del 95% para la mediana y se consideró confiable si dicho intervalo no supera el 50% de la mediana.
Por ejemplo, una mediana de 1.200.000 con un intervalo de confianza del 95% entre 1.000.000 y 1.400.000 se considera confiable, ya que el ancho del intervalo (400.000) representa solo un 33% de la mediana. En cambio, si el intervalo de confianza estuviera entre 850.000 y 1.550.000, la consideraríamos no confiable, ya que el ancho del intervalo representa un 58% de la mediana.
Cotización del dólar
Para el cálculo de salarios dolarizados, tomamos la cotización intradiaria promedio de Bloomberg y tomamos la mediana del valor del día de publicación con un delta de 5 días. En el caso del dólar MEP, la cotización proviene de la serie histórica publicada por Ámbito Financiero.
Experiencia
Para los gráficos en los cuales mencionamos experiencia o seniority, hemos agrupado los datos relevados en tres grandes grupos:
- Junior: de 0 hasta 2 años.
- Semi-Senior: de 2 años inclusive hasta 5 años.
- Senior: desde 5 años inclusive.
Si bien esta forma de agrupar puede ser discutible, ayuda mucho a la hora de visualizar los datos y reducir la dimensionalidad.
Normalización de entradas de texto libre
En la encuesta algunos campos tales como nombre de la carrera universitaria, nombre de la Universidad y rol, además de presentar opciones predefinidas, también permiten texto libre (otros). Esto conlleva a una mayor dispersión de valores, dado que cada participante contesta de maneras distintas:
- en mayúsculas
- en minúsculas
- con abreviaciones
- sin abreviaciones
- con errores de ortografía
- sin errores de ortografía
- con increíbles errores de ortografía
- todas las combinaciones posibles de las anteriores
- etc.
De existir amplia dispersión, es impracticable poder obtener por ejemplo, una noción del salario típico de un Analista Programador que no completó sus estudios.
Para abordar este problema, quienes preparamos este informe escribimos una serie de reglas basadas en expresiones regulares para normalizar los valores y también reducir la dimensionalidad.
Género
Las respuestas al campo de género solían presentar varias irregularidades ya que en todas las ediciones las personas encuestadas tenían la posibilidad de escribir texto libre, y muchas solían hacerlo en tono gracioso o enojado. Todas estas respuestas eran agrupadas en la categoría "Prefiero no decir". Entonces, esa categoría no solo representaba a las personas que explícitamente decían no querer expresar su género, sino también a aquellas que completaron cosas sin sentido.
Este último grupo tendía a aumentar cuando se ofrecían todas las opciones de diversidad de género (con la posibilidad de también escribir texto libre). El nuevo formato de esta pregunta (solo texto libre), produjo un marcado descenso en este tipo de respuestas, ayudándonos a tener una mejor aproximación al número de personas que prefieren no identificarse.
Series temporales
Salarios
Para los valores presentados de Progresión Histórica, tanto en el apartado de Salarios como de Género, también hemos aplicado reglas de normalización de valores y remoción de valores atípicos.
Por ejemplo, para los datasets de entre 2016 a 2018, los salarios podrían estar dados en valores brutos o netos según cada respuesta. En ese caso, lo que se hizo fue convertir los valores netos a brutos, sumándoles el procentaje correspondiente a las cargas sociales. Por supuesto que existe cierto grado de error, puesto que no consideramos el distorsivo Impuesto a las Ganancias, ya que sería impracticable dado la complijidad de su cálculo y la falta de información sobre posibles deducciones.
Representaciones Gráficas
Escalas
Para visualizaciones en las cuales el espectro de valores es demasiado amplio, y a veces distante entre valores de una misma muestra, utilizamos la escala logarítmica. Este recurso nos permite apreciar los datos de una manera más clara, por ejemplo cuando existen valores cercanos a cero y otros de uno o más órdenes de magnitud.
Datos insuficientes
En muchas ocasiones, dado el nivel granularidad de ciertos gráficos, la cantidad escasa de datapoints en algunos segmentos, pueden inducir a conclusiones erróneas. Para advertir al lector de estos casos, hemos grisado en todos los gráficos posibles aquellos segmentos cuya representatividad no supere el umbral de 0,5%, tanto gráficos de barras horizontales como series históricas.
Repositorios
Acá encontraran toda la información para recrear los análisis, los google colab de Python utilizados, y los datos tanto los originales como los limpios para que puedan replicar y realizar nuevos análisis.Análisis previos