Skip to content

Martin17Arg/DS-PI-ProyectoIndividual

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

34 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

HenryLogo

Trabajo Práctico Individual N°1 - Normalización de Datos

Una empresa de ventas de productos al público tomo la decision de ser una empresa Data-driven, concepto en el cual los datos son fundamentales a la hora de tomar decisiones.

En principio, la gerencia decidió crear una base de datos, teniendo en cuenta las principales entidades que son las ventas, compras y gastos. Este proceso deberá ser documentado teniendo en cuenta la estructura de las tablas y un diccionario de datos.
Partiendo del trabajo anterior se deberá analizar su calidad con los datos originales, pudiendo asi encontrar valores faltantes, datos incorrectos y outliers. Antes de proceder con esta limpieza, la genrencia solicito un informe ejecutivo que contenga todas las incongruencias de los datos o la mala calidad de los mismos. Luego, se puede proceder a corregirlos o desestimarlos. Este diagnostico de datos es muy importante y necesario para que el proyecto sea un exito, para ello hay que dedicarle tiempo y analisis para hacerlo bien

Algunos ejemplos de como podrían ser los reportes de calidad del datos son los siguientes

image
image
image
image
image

Si bien el negocio considera primordial entender cuál es la evolucion de las ventas, compras y gastos, desde el area de DATOS se pensó que se podría ofrecer una serie de KPIs utiles para ayudar en la toma de decisiones.

Ademas de todo esto, el area encargada de la apertura de nuevas sucursales necesita encontrar, a partir de la sugerencia del area de DATOS, un lugar para establecer una nueva sucursal.
Se contará con una tabla de localidades de la cual será necesario analizar la calidad de los datos y se deberá normalizar la informacion de dicha tabla. Recuerden que hay un algoritmo para hacer una comparacion de palabras que podria ayudar con esta tarea, ya que esta tarea tiene que ser 100% automatica y sin invervencion de nadie

Se cuenta con los siguientes datasets:

Clientes.csv
Compra.csv
Gasto.csv
Localidades.csv
Proveedores.csv
Sucursales.csv
Venta.csv

Es necesario tener en cuenta que hay otro dataset de clientes (Clientes_2.csv) y no se descarta que puedan aparecer otros. Por eso, se deberá contemplar que el proceso incluya mas dataset de clientes y que no haya duplicados. Esto deberia ser automatico, es fundamental pensar en algo robusto para no tener problemas a futuro.

Por ultimo, recuerden que los reportes que se desarrollarán serán para la toma de decisiones ejecutivas ( Directores, vicepresidente y/o presidente de la empresa, etc), por lo tanto es imperativo evitar errores en los mismos.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • HTML 63.0%
  • Jupyter Notebook 36.1%
  • Other 0.9%