iBigWorld na #ERASMUSDAYS
Zapraszamy na wydarzenie w ramach Erasmus Days. Spotkanie poświęcone jest przedstawieniu i omówieniu tematów planowanego kursu Big Data, który powstaje w ramach projektu Erasmus+ „Innowacje dla Big Data w świecie rzeczywistym” nr 2020-1-PL01-KA203-082197.
https://www.erasmusdays.eu/event/towards-elearning-course-on-big-data-topics-and-tools/
Badania na temat oczekiwań oraz znajomości zagadnień Big Data
W minionych miesiącach zespół projektu (projekt nr 2020-1-PL01-KA203-082197 „Innovations for Big Data in a Real World”) prowadził badania na temat oczekiwań oraz znajomości zagadnień Big Data wśród studentów i wykładowców.
Zostały zebrane informacje na temat poszukiwanych kompetencji dla specjalistów Big Data wśród pracodawców. Monitoringowi zostali również poddani absolwenci.
Wyniki badań są w trakcie opracowania i już w niedługim czasie zostaną przedstawione ich wnioski.
Te same badania wykonywane są w krajach partnerskich czyli Bułgarii, Ukrainie, Serbii.
Big Data dzisiaj!
Big Data to stosunkowo nowy obszar badań, który łączy różne obszary, takie jak przetwarzanie w chmurze, analiza danych i sztuczna inteligencja. Jej definicję zaproponowano w 2012 r. [1], gdzie przetwarzano dużą ilość danych (ang. Velocity), różnorodnych w naturze (ang. Variety), oraz uwzględniono jej prędkość (ang. Velocity – stąd więc 3V). Obecnie definicja ewoluowała do 5V [2] i bierze pod uwagę zarówno prawdziwość (ang. Veracity) traktowaną jako jakość pozyskiwanych danych, jak i ich wartość (ang. Value).
Na przestrzeni ostatniej dekady powstał wzorzec przetwarzania Big Data, który uwzględnia następujące elementy: pozyskiwanie (faza zbierania danych), przechowywanie (zarządzanie i przechowywanie danych – także generowanych w czasie rzeczywistym), przetwarzanie (zarządzanie danymi), analiza (pozyskiwanie istotnych informacji) ) i przeglądanie (wykorzystanie danych w postaci informacji lub danych do dalszych zastosowań).
Proces zwykle rozpoczyna się od zebrania danych (dane są zgodne z definicją 5V). Dane są zwykle przetwarzane jako dzienniki logowanych danych (np. Flume), dane zbiorcze (np. Sqoop), wiadomości (np. Kafka), przepływ danych (np. NiFi). Następnie duże dane są przetwarzane za pomocą silnika obliczeniowego partiami (np. MapReduce) lub jako strumień (np. Flink, Spark, Storm, Flink). Dane (ustrukturyzowane lub nie) są analizowane przy użyciu metod uczenia maszynowego (np. Caffe, Tensorflow, Python), podejścia statystycznego (SparkR, R), a następnie wizualizowane (np. Tableau, GraphX). Warto mieć na uwadze, że tworzone rozwiązanie ciągle się zmienia i należy je aktualizować (np. Oozie, Kepler, Apache NiFi). Uzyskanymi danymi mogą zarządzać różne rozwiązania, np. Apache Falcon, Apache Atlas, Apache Sentry, Apache Hive. Ważną kwestią jest też bezpieczeństwo danych (np. Apache Metron czy Apache Knox) czy nowa technologia zmieniająca sposoby i typy danych (jak InfiniBand czy 5G).
Big data ma ponad 10 lat i osiąga nowe szczyty dzięki szerokiej adaptacji i firmom, które dostarczają nowe narzędzia. Patrząc na podsumowanie [3], liczba technologii i rozwiązań jest przytłaczająca (link).
W trakcie naszych badań poszukujemy kompetencji wymaganych na rynku międzynarodowym i lokalnym. Na podstawie naszej analizy i trendów [4] zidentyfikowaliśmy klasyczne rozwiązania i technologie open source Hadoop, Spark i Storm, które zyskują na popularności. Nasze badania koncentrują się na rozwiązaniach typu open source, które można wykorzystać w dedykowanej infrastrukturze lub usługach chmurowych Big Data dostarczanych przez wiodące platformy, takie jak AWS, Microsoft Azure czy Big Query firmy Google.
W naszych badaniach pamiętamy, że rynek jest nieustannie zalewany nowymi mechanizmami i potokami, aby umożliwić prostsze i ujednolicone radzenie sobie z Big Data. Przedstawione rozwiązania upraszczają analizę Big Data i ułatwiają jej użycie. Istnieje kilka rozwiązań [3], które pokazują aktualne trendy:
- wizualne narzędzia analityczne, które pozwalają skupić się na analizie danych za pomocą prostych obliczeń lub podejścia typu „wskaż i kliknij”, jednocześnie zyskując wsparcie w zakresie przechowywania dużych zbiorów danych, zarządzania w czasie rzeczywistym i bezpieczeństwa. Usługi, które na to pozwalają, to Arcadia Enterprise 4.0, AtScale 5.0 lub Dataguise DgSecure 6.0.5;
- frameworki pozwalające na tworzenie aplikacji w oparciu o Big Data z wykorzystaniem możliwości DevOps oraz wsparcie dla transformacji Big Data. Pozwalają na wykorzystanie znanych języków jak R, Python czy SQL. Są to Attunity Compose 3.0, Cazena Data Science Sandbox as a Service lub Lucidworks Fusion 3. Niektóre rozwiązania, takie jak pakiet Couchbase, są przeznaczone dla aplikacji internetowych, mobilnych i Internetu rzeczy (IoT).
- rozwiązania pomagające w dostarczaniu danych jako usługi dla aplikacji. Korzystają z potoków, takich jak ekosystem Microsoft Azure lub Hadoop, i przekształcają je w platformę informacyjną (Paxata Spring ’17, Pentaho 7.0 lub Qubole Data Service).
Bibliografia:
[1] Wu, X., Zhu, X., Wu, G.-Q. and Ding, W. (2014) Data Mining with Big Data. IEEE Transactions on Knowledge and Data Engineering, 26, 97-107.
https://doi.org/10.1109/TKDE.2013.109
[2] Nagorny K., Lima – Monteiro, P. Barata J., Colombo A.W., Big Data analysis in smart manufacturing. Int.J.Commun.Netw.Syst.Sci.10(2017)31–58
[3] The Big data technology map: http://mattturck.com/wp-content/uploads/2020/09/2020-Data-and-AI-Landscape-Matt-Turck-at-FirstMark-v1.pdf
[4] Yesheng Cui and Sami Kara and Ka C. Cha . Manufacturing big data ecosystem: A systematic literature review. Robotics and Computer-Integrated Manufacturing, 62: 101861, 2020.
[5] Article online: https://www.readitquik.com/articles/digital-transformation/10-big-data-advances-that-are-changing-the-game/
Big Data na rynku pracy
Według trzech popularnych polskich portali z ofertami pracy [1] [2] [3] polski rynek poszukuje informatyków. Istnieje wiele możliwości zatrudnienia dla programistów (3988/830/3570 ofert), projektantów serwisów web (2625/98/355 ofert) i analityków danych (668/356/115 ofert). W ostatnim czasie pojawiają się nowe oferty pracy dla specjalistów Big Data (335/48/22 ofert). Oferty stanowią średnio 5% dla polskiego rynku czekającego na nowych pracowników. Jednak szczególne umiejętności w zakresie Big Data (języki, analiza danych i umiejętności uczenia maszynowego) można znaleźć jeszcze częściej w ogłoszeniach. Co więcej, według raportu Hays [4] średnie wynagrodzenie w Polsce inżyniera Big Data jest o 25% wyższe niż to oferowane programistom i wynosi średnio 17 tyś. PLN. Jakie umiejętności są potrzebne? Już niedługo na stronie dostępna będzie analiza w ramach realizacji projektu.
Referencje:
[1] praca.pl [dostęp 22.03.2021]
[2] pracuj.pl [dostęp 22.03.2021]
[3] jobs.pl [dostęp 22.03.2021]
[4] Hays raport 2021: hays.com
Start!
Witaj na stronie projektu Erasmus+ Innovations for Big Data in a Real World!
Celem projektu Innovations for Big Data in a Real World” (iBigWorld) jest połączenie instytucji szkolnictwa wyższego oraz biznesu w celu wypracowania optymalnych umiejętności i kompetencji wymaganych do pracy na dużych zbiorach danych. Ta współpraca dostarczyć ma nowatorskich rozwiązań dla kształcenia ekspertów branży Big Data. Model nauczania oparty będzie na wytycznych IEEE dla Big Data w uczeniu maszynowym (Machine Learning).
Projekt ruszył w październiku 2020 roku. Akademia Techniczno-Humanistyczna w Bielsku-Białej jest koordynatorem projektu. Kraje partnerskie projektu to: Bułgaria, Serbia oraz Ukraina. Wszystkich zainteresowanych tematyką Big Data zapraszamy do śledzenia tej strony projektu oraz strony międzynarodowej http://ibigworld.ni.ac.rs
Kontakt z grupą projektową: erasmusibigdata@ath.edu.pl