Skip to content
Mateusz Żółtak edited this page Oct 16, 2018 · 19 revisions

MLAKdane wiki

Pakiet MLAKdane przygotowuje dane wykorzystywane do generowania raportów ELA - http://ela.nauka.gov.pl/.

W ogólnym zarysie przygotowanie danych składa się z następujących kroków:

  • Wyczyszczenia danych wejściowych.
  • Złączenia danych wejściowych w zdenormalizowany zbiór na poziomie jednostkowym (tytuł ubezpieczenia ZUS od danego płatnika składek w danym miesiącu kalendarzowym dla absolwenta danego kierunku studiów).
  • Agregowania zbioru danych jednostkowych (np. absolwent danego kierunku studiów w danym miesiącu kalendarzowym, absolwent danego kierunku studiów w pierwszym roku po uzyskaniu dyplomu, itd.) połączonego z wyliczaniem wskaźników właściwych dla danego poziomu agregacji.
  • Połączenia wyliczonych wskaźników w kilka zbiorów danych ze względu na poziom agregacji (wskaźniki zagregowane do poziomu absolwenta kierunku studiów oddzielnie od wskaźników wyliczonych na poziomie agregacji absolwent kierunku studiów w danym miesiącu kalendarzowym) i ich eksportu do plików wynikowych.

Technologia

Pakiet MLAKdane napisany jest w R, jako backend obliczeniowy wykorzystywany jest jednak Spark.

Wykorzystanie Sparka zapewnia możliwość efektywnego zrównoleglania przeprowadzanych obliczeń, co znakomicie skraca czas ich przeprowadzania. Przy tym R zapewnia bardzo dobrą i łatwą integrację ze Sparkiem poprzez pakiety dplyr i sparklyr

Clone this wiki locally