Home

MLAKdane wiki

Pakiet MLAKdane przygotowuje dane wykorzystywane do generowania raportów ELA - http://ela.nauka.gov.pl/.

W ogólnym zarysie przygotowanie danych składa się z następujących kroków:

Wyczyszczenia danych wejściowych.
Złączenia danych wejściowych w zdenormalizowany zbiór na poziomie jednostkowym (tytuł ubezpieczenia ZUS od danego płatnika składek w danym miesiącu kalendarzowym dla absolwenta danego kierunku studiów).
Agregowania zbioru danych jednostkowych (np. absolwent danego kierunku studiów w danym miesiącu kalendarzowym, absolwent danego kierunku studiów w pierwszym roku po uzyskaniu dyplomu, itd.) połączonego z wyliczaniem wskaźników właściwych dla danego poziomu agregacji.
Połączenia wyliczonych wskaźników w kilka zbiorów danych ze względu na poziom agregacji (wskaźniki zagregowane do poziomu absolwenta kierunku studiów oddzielnie od wskaźników wyliczonych na poziomie agregacji absolwent kierunku studiów w danym miesiącu kalendarzowym) i ich eksportu do plików wynikowych.

Technologia

Pakiet MLAKdane napisany jest w R, jako backend obliczeniowy wykorzystywany jest jednak Spark.

Wykorzystanie Sparka zapewnia możliwość efektywnego zrównoleglania przeprowadzanych obliczeń, co znakomicie skraca czas ich przeprowadzania. Przy tym R zapewnia bardzo dobrą i łatwą integrację ze Sparkiem poprzez pakiety dplyr i sparklyr

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Home

MLAKdane wiki

Technologia

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Clone this wiki locally