Zeszyt 41/2016

Kolegium Analiz Ekonomicznych oświadcza, że wersją pierwotną czasopisma jest wersja papierowa.

Michał Bernardelli

Ekonometryczne modelowanie danych panelowych z wykorzystaniem obliczeń równoległych na Apache Spark

Streszczenie
Celem artykułu jest przedstawienie sposobu wyznaczania estymatora fixed effects przy użyciu modelu programowania MapReduce zaimplementowanego w Apache Spark. Spośród wielu znanych algorytmów zostały wykorzystane dwa popularne podejścia: transformacja within oraz least squares dummy variables method (LSDV). Efektywność obliczeń wykazano, rozwiązując specjalnie spreparowany przykład dla wygenerowanej losowo próbki danych. Na podstawie analizy teoretycznej i eksperymentów numerycznych można stwierdzić, że Apache Spark jest efektywnym narzędziem do modelowania danych panelowych, zwłaszcza jeśli chodzi o Big Data.

***

Econometric modeling of panel data using parallel computing with Apache Spark

Abstract
The aim of this article is to provide a method for determining the fixed effects estimators using MapReduce programming model implemented in Apache Spark. From many known algorithms two common approaches were exploited: the within transformation and least squares dummy variables method (LSDV). Efficiency of the computations was demonstrated by solving a specially crafted example for sample data. Based on theoretical analysis and computer experiments it can be stated that Apache Spark is an efficient tool for modeling panel data especially if it comes to Big Data.

Artykuł: PDF

spis treści zeszytu 41

Copyright © Kolegium Analiz Ekonomicznych Szkoły Głównej Handlowej w Warszawie 2011-2017   ISSN 1232-4671