Konferencja WWSI

Wydarzenie jakim jest konferencja „Od studenta do specjalisty Business Intelligence” na Warszawskiej Wyższej Szkole Informatyki (WWSI) zostało zorganizowane już po raz szósty. W tym roku uczestniczyłem w konferencji po raz pierwszy, ale nam nadzieję, że nie ostatni 🙂 Moja koleżanka zwróciła mi uwagę, że był to drugi raz, kiedy uczestniczyłem w konferencji! Całe szczęście, że skleroza nie boli! 🙂 Pierwszy raz uczestniczyłem w konferencji w 2011 r. jeszcze jako student.  Jedyne co z niej udało mi się zapamiętać, to ciekawą prezentację dotyczącą wykorzystania narzędzi BI w diagnozowaniu białaczki.

Agenda konferencji wyglądała następująco:

9:30 – 10:00 Rejestracja uczestników
10:00 – 10:40 Powitanie uczestników:

„Metoda składowych głównych, a grupowanie zmiennych”
dr hab. prof. WWSI Zenon Gniazdowski
Rektor Warszawskiej Wyższej Szkoły Informatyki

W metodzie składowych głównych pierwotny zbiór danych składający się z wielu wzajemnie skorelowanych zmiennych losowych, może być reprezentowany przez zbiór niezależnych zmiennych hipotetycznych, tzw. składowych głównych. Nowy zbiór zawiera zwykle mniej zmiennych, niż zbiór pierwotny. Mniejsza ilość składowych głównych niesie prawie taką samą informację jak zbiór pierwotny.

Niestety, składowe główne nie zawsze mają prostą interpretację. W prezentacji zostanie przedstawiona propozycja interpretacji składowych głównych. Punktem wyjścia jest hipoteza, która mówi, iż istnieje możliwość ich interpretacji przy pomocy relacji zdefiniowanej na sile korelacji.

Relacja określona na sile korelacji jest co najmniej relacją podobieństwa, w sprzyjających okolicznościach może być nawet relacją równoważności. Tak zdefiniowana relacja podzieli zbiór zmiennych na klasy podobieństwa lub klasy równoważności. Jeżeli liczba klas podobieństwa (równoważności) jest równa liczbie składowych głównych (liczbie dużych wartości własnych), to można podjąć próbę interpretacji składowych głównych.

10:40 – 11:30 „Dynamiczne bazy danych – platforma szkoleniowa Warszawskiej Wyższej Szkoły Informatyki”
Andrzej PtasznikPrzedstawione zostaną efekty projektu „Dynamiczna populacja” oraz inne dynamiczne bazy danych dostępne do wykorzystania w WWSI.
11:30 – 12:15 „Jupyter & Anaconda”
Grzegorz StoleckiW trakcie sesji zaprezentowane zostaną możliwości notatnika Jupyter. Ta uniwersalna aplikacja pozwala na szybkie tworzenie dokumentów zawierających żywy kod oraz wyniki działania procedur tworzonych w różnych językach programowania. Jupyter doskonale sprawdza się w zastosowaniach analitycznych, gdzie krótki czas przygotowania wynikowego raportu jest kwestią wręcz kluczową.
12:15 – 12:35 Przerwa kawowa
12:35 – 13:25 „Oswajanie języka R w SQL Server 2016”
Marcin SzeligaSzacuje się, że ilość cyfrowych danych podwaja się co dwa lata. O tyle samo wzrosła w ciągu ostatnich pięciu latach liczba firm z różnych branż, które wdrożyły zaawansowany system analityczny. Większość tych systemów zbudowana została z użyciem języka R – darmowego narzędzia do statystycznej analizy danych, ich wizualizacji i  zaawansowanej analizy z użyciem algorytmów uczenia maszynowego.

Integracja języka R z SQL Server 2016 nie tylko pozwoli wykorzystać znajomość języka R w projektach BI, ale również  upraszcza wdrożenie rozwiązań do produkcji. W szczególności:
* R znacznie ułatwia pobieranie danych z różnych, w tym nierelacyjnych, źródeł i ich przygotowanie do dalszej analizy
* Ocena i wzbogacenie danych przy użyciu języka R sprowadza się do zastosowania odpowiednich bibliotek (pakietów)
* Specjalistyczne, ciągle dodawane i na bieżąco rozwijane biblioteki pozwalają analizować dane na lokalnych serwerach SQL przy użyciu najnowszych algorytmów uczenia maszynowego.
W trakcie sesji zobaczymy trzy przykłady praktycznego zastosowania języka R w środowisku SQL Server 2016, zaczynając od analizy serii danych, przez wykrywanie oszustw, po wydajne klasyfikowanie klientów jako zagrożonych migracją.
13:25 – 14:15 „Pojemniki na dane w Microsoft Azure”
Marcin IwanowskiSesja ma na celu przedstawienie z punktu widzenia programisty różnych usług Microsoft Azure pozwalających na przechowywanie danych w chmurze.
14:15 – 15:05 „SQL Server w świecie Big Data”
Bartłomiej GraczykCoraz częściej nie tylko mówimy o świecie Big Data, ale również kojarzymy z tym obszarem rozwiązania takie jak Hadoop czy Spark. Jednak czy faktycznie świat BigData jest tak niezależny od dobrze znanych rozwiązań jakim są relacyjne bazy danych? Czy można połączyć te dwa światy i uzyskać jeszcze większą wartość biznesową? Być może odpowiedzią na te pytania jest Polybase w SQL Server 2016, o którym opowiem w trakcie sesji, a także pokaże jak wkroczyć do świata BigData pozostając wiernym platformie SQL Server.
15:05 – 15:50 „Wykorzystanie narzędzi Power w analizie danych”
Jacek MarkusNa rynku istnieje wiele narzędzi analitycznych o bardzo dużych możliwościach, jednakże ich używanie jest często bardzo skomplikowane i wymaga współpracy zespołu w skład którego wchodzą nie tylko analitycy, ale również specjaliści baz danych, systemów analitycznych, ETL, zasilania wsadowego, aplikacyjnie, systemowi. W wielu przypadkach zmiana reguł analitycznych jest bardzo czasochłonna i złożona. Klasycznym przykładem jest kostka OLAP.

Przed jej utworzeniem jest konieczne dobre zdefiniowanie potrzeb analitycznych gdyż późniejsze dodanie nowych wymiarów lub modyfikacja istniejących, czy dodanie nowym miar wymaga wielu działań zakończonych procesowaniem. Procesowanie jest konieczne, aby analitycy mogli przeprowadzać analizę, a przy dużych zbiorach zasilających partycję jest czasochłonne i generuje bardzo wysokie obciążenie serwera analitycznego i w praktyce jest zazwyczaj wykonywane nie częściej niż raz na dobę poza szczytowym produkcyjnym obciążeniem serwera analitycznego.
W wielu przypadkach analityk dysponuje wystarczającą mocą obliczeniową swojego komputera, jednakże konieczność wykonania wielu działań przygotowujących, ekonomicznie uzasadniona przy wysokiej powtarzalności przeprowadzanych analiz, dla pojedynczego analityka byłaby stratą czasu.
Dobrym pomysłem jest wtedy wykorzystanie narzędzi Power dostępnych między innymi w Microsoft Excel 2016 (od wersji 2010, uwaga wersja Home nie obsługuje dodatków Power). Należy zwrócić uwagę, aby wybrać wersję 64 bit Microsoft Office, gdyż pozwala przetwarzać wielogigabajtowe zbiory o rozmiarze mniejszym od wolnej pamięci operacyjnej RAM (wersja 32 bit przy przetwarzaniu zbiorów przekraczających znacznie rozmiar 1GB zwraca komunikat wyjątku braku dostępnej pamięci operacyjnej, nawet gdy komputer ma wolnych wiele GB RAM).
Z funkcjonalności narzędzi Power można również skorzystać za pomocą programu Microsoft Power BI Desktop (wersja bezpłatna ma wprowadzony limit rozmiaru przetwarzanych zbiorów).
W środowisku korporacyjnym często narzędzia Power są integrowane z platformą pracy grupowej Microsoft SharePoint.

Źródło: http://konferencjabi.wwsi.edu.pl/

Moją uwagę przykuła lista prelegentów, wśród nich znani mi: Marcin Szeliga, Bartłomiej Graczyk czy Grzegorz Stolecki.
Muszę przyznać, że merytorycznie konferencja była bardzo interesująca, poruszała zagadnienia w dużej mierze związane z technologiami Microsoftu dotyczącymi przetwarzania, przechowywania i analizy danych.
Konferencję rozpoczęła sesja teoretyczna Rektora WWSI, skierowana w mojej ocenie głównie do statystyków. Druga sesja Bartłomieja Graczyka stanowiła studium możliwości SQL Server w obszarze Big Data. Dla mnie Big Data jest kompletnie nowym zagadnieniem, dlatego każde słowo na ten temat jest dla mnie interesujące. Mówi się, że technologie Big Data są przyszłością danych, dlatego myślę,  że warto śledzić ich rozwój.
Prezentacja, a właściwie głównie demonstracja Grzegorza Stoleckiego dotyczyła Anacondy, czyli dystrybucji Jupitera. Jest to bardzo przydatne narzędzie, które pozwala na wykonywanie kodu (np. R, Python) „na żywo”. Muszę to koniecznie przetestować i udostępnić krótki poradnik jak z tego korzystać. Demonstracja Grzegorza Stoleckiego jak zwykle była wciągająca i do tego z tym charakterystycznym humorkiem 🙂
Następna prezentacja dotyczyła środowiska R oraz integracji Microsoft SQL Server z tym środowiskiem. Niestety Marcin Szeliga prowadził ją zdalnie, ale nie powodowało to właściwie żadnego dyskomfortu. Z mojego punktu widzenia była to najbardziej przydatna wiedza w obecnym projekcie i muszę koniecznie temat integracji Microsoft SQL Server z R dokładnie zgłębić. Na studiach magisterskich miałem nieco do czynienia z R, ale bardzo dawno nie miałem potrzeby z tego skorzystać.
Kolejna sesja poświęcona była rozwiązaniom chmurowym Microsoftu. Byłem zaskoczony dwoma rzeczami: jak wiele usług obecnie oferuje Microsoft poprzez Azure oraz jak szybko można niemal „wyklikać” działająca aplikację MVC współpracującą z chmurą.
Bardzo przyjazna i odprężająca sesja Pana dr inż. Jacka Markusa poświęcona narzędziom Microsoft Power w końcu pozwoliła mi zrozumieć możliwości i sens ich wykorzystania. Do tej pory wszystko wydawało mi się dość enigmatyczne w tym kontekście mimo kilku webinariów i próby korzystania z tych narzędzi. Nie potrafiłem też zrozumieć np. jaki jest sens stosowania PowerPivot i różnica między zwykłą tabelą przestawną podłączoną do kostki analitycznej a PowerPivot. Wyklarowała mi się jedna myśl. Zastosowanie narzędzi Power ma sens stosowania w przypadku self-service BI i daje większą swobodę i niezależność analitykowi. Może być to niejednokrotnie rozwiązanie wystarczające, gdy ilość danych nie jest porażająca.
Obecnie czytam książkę „Analizy Business Intelligence. Zaawansowane wykorzystanie Excela.” i mam nadzieję, że raz na zawsze zrozumiem kiedy używać czego 😉
Ostatnią sesję poprowadził Pan mgr inż. Andrzej Ptasznik, który notabene przewodniczył całej konferencji. Sesja była poświęcona dydaktycznemu aspektowi budowy dynamicznych baz danych (tworzenie struktury i generowanie „sensownych” danych losowych) na potrzeby ćwiczeniowe.

Wnioski ogólne, które wyniosłem z konferencji to:

  • Widać wyraźnie, że Microsoft postawił sobie za cel rozwój technologii chmurowych oraz otwartość na inne rozwiązania poprzez możliwość integracji z wieloma systemami i językami.
  • Znajomość praktyczna statystyki i ekonometrii w najbliższym czasie będzie niezwykle w cenie.

Więcej informacji: http://konferencjabi.wwsi.edu.pl/

3 Comments Add yours

  1. Adrian Chodkowski napisał(a):

    Z twojego opisu wynika, iż konferencja udana – szkoda, że mnie tam nie było ale może za rok 🙂

  2. Adrian Chodkowski napisał(a):

    ps. z niecierpliwością czekam na tutorial dotyczący Anacondy!:)

  3. Małgorzata F. napisał(a):

    Dobrze, że w końcu to poprawiłeś 🙂 Chociaż nadal nie rozumiem, jak mogłeś zapomnieć ;-)).
    Ps. Szkoda, że w tym roku nie udało mi się być na Konferencji, ale liczę że jeszcze będzie okazja.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *