Big Data to stosunkowo nowy obszar badań, który łączy różne obszary, takie jak przetwarzanie w chmurze, analiza danych i sztuczna inteligencja. Jej definicję zaproponowano w 2012 r. [1], gdzie przetwarzano dużą ilość danych (ang. Velocity), różnorodnych w naturze (ang. Variety), oraz uwzględniono jej prędkość (ang. Velocity – stąd więc 3V). Obecnie definicja ewoluowała do 5V [2] i bierze pod uwagę zarówno prawdziwość (ang. Veracity) traktowaną jako jakość pozyskiwanych danych, jak i ich wartość (ang. Value).
Na przestrzeni ostatniej dekady powstał wzorzec przetwarzania Big Data, który uwzględnia następujące elementy: pozyskiwanie (faza zbierania danych), przechowywanie (zarządzanie i przechowywanie danych – także generowanych w czasie rzeczywistym), przetwarzanie (zarządzanie danymi), analiza (pozyskiwanie istotnych informacji) ) i przeglądanie (wykorzystanie danych w postaci informacji lub danych do dalszych zastosowań).
Proces zwykle rozpoczyna się od zebrania danych (dane są zgodne z definicją 5V). Dane są zwykle przetwarzane jako dzienniki logowanych danych (np. Flume), dane zbiorcze (np. Sqoop), wiadomości (np. Kafka), przepływ danych (np. NiFi). Następnie duże dane są przetwarzane za pomocą silnika obliczeniowego partiami (np. MapReduce) lub jako strumień (np. Flink, Spark, Storm, Flink). Dane (ustrukturyzowane lub nie) są analizowane przy użyciu metod uczenia maszynowego (np. Caffe, Tensorflow, Python), podejścia statystycznego (SparkR, R), a następnie wizualizowane (np. Tableau, GraphX). Warto mieć na uwadze, że tworzone rozwiązanie ciągle się zmienia i należy je aktualizować (np. Oozie, Kepler, Apache NiFi). Uzyskanymi danymi mogą zarządzać różne rozwiązania, np. Apache Falcon, Apache Atlas, Apache Sentry, Apache Hive. Ważną kwestią jest też bezpieczeństwo danych (np. Apache Metron czy Apache Knox) czy nowa technologia zmieniająca sposoby i typy danych (jak InfiniBand czy 5G).
Big data ma ponad 10 lat i osiąga nowe szczyty dzięki szerokiej adaptacji i firmom, które dostarczają nowe narzędzia. Patrząc na podsumowanie [3], liczba technologii i rozwiązań jest przytłaczająca (link).
W trakcie naszych badań poszukujemy kompetencji wymaganych na rynku międzynarodowym i lokalnym. Na podstawie naszej analizy i trendów [4] zidentyfikowaliśmy klasyczne rozwiązania i technologie open source Hadoop, Spark i Storm, które zyskują na popularności. Nasze badania koncentrują się na rozwiązaniach typu open source, które można wykorzystać w dedykowanej infrastrukturze lub usługach chmurowych Big Data dostarczanych przez wiodące platformy, takie jak AWS, Microsoft Azure czy Big Query firmy Google.
W naszych badaniach pamiętamy, że rynek jest nieustannie zalewany nowymi mechanizmami i potokami, aby umożliwić prostsze i ujednolicone radzenie sobie z Big Data. Przedstawione rozwiązania upraszczają analizę Big Data i ułatwiają jej użycie. Istnieje kilka rozwiązań [3], które pokazują aktualne trendy:
- wizualne narzędzia analityczne, które pozwalają skupić się na analizie danych za pomocą prostych obliczeń lub podejścia typu „wskaż i kliknij”, jednocześnie zyskując wsparcie w zakresie przechowywania dużych zbiorów danych, zarządzania w czasie rzeczywistym i bezpieczeństwa. Usługi, które na to pozwalają, to Arcadia Enterprise 4.0, AtScale 5.0 lub Dataguise DgSecure 6.0.5;
- frameworki pozwalające na tworzenie aplikacji w oparciu o Big Data z wykorzystaniem możliwości DevOps oraz wsparcie dla transformacji Big Data. Pozwalają na wykorzystanie znanych języków jak R, Python czy SQL. Są to Attunity Compose 3.0, Cazena Data Science Sandbox as a Service lub Lucidworks Fusion 3. Niektóre rozwiązania, takie jak pakiet Couchbase, są przeznaczone dla aplikacji internetowych, mobilnych i Internetu rzeczy (IoT).
- rozwiązania pomagające w dostarczaniu danych jako usługi dla aplikacji. Korzystają z potoków, takich jak ekosystem Microsoft Azure lub Hadoop, i przekształcają je w platformę informacyjną (Paxata Spring ’17, Pentaho 7.0 lub Qubole Data Service).
Bibliografia:
[1] Wu, X., Zhu, X., Wu, G.-Q. and Ding, W. (2014) Data Mining with Big Data. IEEE Transactions on Knowledge and Data Engineering, 26, 97-107.
https://doi.org/10.1109/TKDE.2013.109
[2] Nagorny K., Lima – Monteiro, P. Barata J., Colombo A.W., Big Data analysis in smart manufacturing. Int.J.Commun.Netw.Syst.Sci.10(2017)31–58
[3] The Big data technology map: http://mattturck.com/wp-content/uploads/2020/09/2020-Data-and-AI-Landscape-Matt-Turck-at-FirstMark-v1.pdf
[4] Yesheng Cui and Sami Kara and Ka C. Cha . Manufacturing big data ecosystem: A systematic literature review. Robotics and Computer-Integrated Manufacturing, 62: 101861, 2020.
[5] Article online: https://www.readitquik.com/articles/digital-transformation/10-big-data-advances-that-are-changing-the-game/