Analiza danych w Python i PANDAS

Coupon Details

Analiza danych w Python i PANDAS, Otwórz sobie drzwi do Data Science! Przenieś się na wyższy poziom i pracuj jak profesjonalny analityk danych!

Created by Rafał Mobilo

Preview This Course - GET COUPON CODE


analiza-danych-w-python-i-pandas

What Will I Learn?

  • Zobaczysz jak zaintalować Anacode i Jupyter Notebook
  • Dowiesz się jak konfigurować te narzędzia, w sposób graficzny i z linii komend
  • Dowiesz się czym jest PANDAS
  • Poznasz podstawowe obiekty PANDAS jak Data Series, Data Frame
  • Zobaczysz jak wykonywać operacje filtrowania, szukania, sortowania, modyfikacji w/w obiektów
  • Nauczysz się co to jest multiindex i jak z nim pracować
  • Nauczysz się grupować, agregować dane, analizować je w tabeli przestawnej
  • Nauczysz się przekształcać dane, stosować funkcje względem danych
  • Dowiesz się jak łączyć dane znajdujące się w różnych obiektach
  • Zobaczysz jak tworzyć wykresy
  • Dowiesz się jak importować i eksportować dane - również do Excela

Description

To nie jest kurs dla zupełnie początkujących. Wśród wymogów znajdziesz przynajmniej podstawową znajomość Pythona oraz chociaż ogólną wiedzę o analizie danych. Ale bez obaw!

Jeśli chodzi o wiedzę z zakresu programowania w Pythonie – możesz ją zdobyć na kursie „Python dla początkujących”. Jeśli już używasz Pythona, możesz przejrzeć sam spis treści tego kursu i zweryfikować, czy znasz te tematy.

Jeśli chodzi o podstawową znajomość analizy danych, mam na myśli typowe czynności, jakie wykonujemy np. w Excelu. Tam też dane się importuje, przetwarza i analizuje. W tym kursie generalnie robimy to samo, ale w zupełnie inny sposób. Dlatego znajomość np. Excela będzie bardzo mile widziana.

Kurs dość dokładnie omawia wszystkie tematy i właściwie nie ma w nim teorii. Praktycznie tylko video, quizy i zadania do samodzielnego rozwiązania.

Kurs jest dość intensywny. Każde nagranie skupia się na innym temacie i nie tracimy czasu. Główna zaleta kursu online jest taka, że jeśli chcesz aby Ci coś powtórzyć, to nie musisz o to specjalnie prosić… wystarczy skorzystać z przycisku „cofnij 15 sekund wstecz”. Z kolei jeśli materiał już znasz i chcesz go tylko przesłuchać, możesz zwiększyć lub zmniejszyć jego prędkość. O ile tylko nie denerwuje Cię zmiana głosu na bardziej piskliwy, to… czemu nie – korzystaj!

Zaczynamy od skonfigurowania środowiska. Tutaj jest to zrobione w oparciu o system Windows. Jeżeli korzystasz z Linux lub MacOS, to kroki do wykonania są podobne, ale w materiałach ich nie znajdziesz. Jeśli masz już zainstalowane środowisko u siebie to oczywiście ten blok możesz przerobić pobieżnie. Chcę żeby pracowało Ci się wygodnie, dlatego nie tylko instalujemy Jupyter Notebook, ale jeszcze dodatkowo omawiamy jak pracować z nim wydajnie. Jak go konfigurować, dodawać do niego pakiety, jak korzystać ze skrótów klawiaturowych itp. Wiem, że kiedy „palisz się” do analizy danych ten wstęp może Ci się wydawać przydługawy. Możesz w takim przypadku przeskoczyć część tematów i kontynuować lekcje poświęcone PANDAS, a tu wrócisz później. Zdecydowałem się dodać te lekcje po to, żeby ułatwić Ci pracę z PANDAS na własną rękę. Zwłaszcza te kilka lekcji poświęcone tematyce zaawansowanej konfiguracji  środowiska z linii komend przydadzą się, kiedy napotkasz jakieś problemy, a znajdowane na forach odpowiedzi będą mówiły o instalacji pakietu przez conda…

Żeby dane analizować, trzeba je mieć. Wszystkie pliki prezentowane na kursie jak i potrzebne do rozwiązywania zadań są dołączone do kursu. W większości przypadków podaję też skąd te materiały pochodzą i moim zdaniem ich dystrybucja nie jest zabroniona – korzystaj do woli, albo szukaj innych na własną rękę. W Internecie jest naprawdę mnóstwo ciekawych i darmowych zbiorów.

Potem właściwie zaczynamy najważniejszą część kursu opowiadającą o PANDAS. Pełna nazwa PANDAS to Python and data analysis i logo tego pakietu to kilka wykresików, ale… sam powiedz z czym się graficznie kojarzy nazwa PANDAS…

Kluczowa w PANDAS i analizie danych jest kolumna danych – tutaj zwana Data Series. Ten obiekt trzeba bardzo dobrze poznać, bo inne obiekty i polecenia bardzo mocno go wykorzystują. Kiedy sam uczyłem się PANDAS bardzo mnie to denerwowało, że tyle czasu uczyłem się tylko o przetwarzaniu pojedynczej kolumny, ale uwierz mi – to nie będzie stracony czas.

Potem przechodzimy do zbioru kolumn, co w PANDAS nazywa się Data Frame. Tu będzie już ciekawiej, bo da się obserwować na raz więcej kolumn a więc i więcej danych. Na tym etapie możesz już pomyśleć o budowaniu analiz własnych zbiorów danych.

Dalej opowiemy o modyfikacji danych. Można by myśleć, że przy analizie danych, nie trzeba ich modyfikować i ogólnie chyba rzeczywiście tak jest. Ale warto wiedzieć jak dodać wiersz, kolumnę, przebudować indeks, bo to też metody na przygotowanie danych do analizy.

W następnym etapie jesteśmy gotowi do pierwszych analiz. Indeksy będą mogły już składać się z wielu poziomów, będziemy je przerzucać z wierszy do kolumn i odwrotnie, zbudujemy tabele przestawne, albo właśnie przekształcimy dane z postaci tabeli danych do normalnej tabeli.

Kolejny krok to grupowanie danych i agregacja danych. Posiadając zagregowane dane możesz analizować je w mniejszych fragmentach, a dzięki temu możesz wykrywać zależności w tych danych i ich charakterystyczne dane. Bez tego wszystkie wyniki byłyby uśrednione na cały zbiór danych i przez to najprawdopodobniej zupełnie bez wartości, a tak możesz zobaczyć charakterystyczne cechy  zakupów w poszczególnych regionach czy inne zainteresowania w zależności od wieku i płci itp.

Rzadko kiedy wszystko to, co jest potrzebne jest w jednym miejscu, często jedna sytuacja jest opisywana przez kilka zbiorów danych. Dlatego właśnie mamy specjalną sekcję dotyczącą łączenia danych z różnych źródeł. Myśl o tym jak o łączeniu tabel w bazie danych lub łączeniu arkuszy w skoroszycie.

Kolejny temat to wykresy. Przedstawiamy tu kilka różnych rodzajów wykresów i zmieniamy ich wygląd modyfikując ich mniej i bardziej zaawansowane parametry, ale nie ma co ukrywać – za wykresy w PANDAS odpowiadają funkcje z matplotlib. Informacje z tego kursu będą wystarczające do samodzielnego zbudowania wykresów i zaprezentowania na nich analizowanych danych, ale moduł matplotlib nie jest tutaj omawiany – to duży temat na osobny kurs.

Naukę kończymy dodatkowymi materiałami dotyczącymi pobierania i zapisywania danych na zewnątrz PANDAS, włączając w to dane pobierane z Internetu lub wczytywane i zapisywane w plikach excel.

Zapraszam do nauki. Otwórz sobie drzwi do Data Science!

Post a Comment for "Analiza danych w Python i PANDAS"