Kod

Praca z Pandas: podstawowe koncepcje i dane ze świata rzeczywistego

Praca z Pandas: podstawowe koncepcje i dane ze świata rzeczywistego

Kurs z możliwością zatrudnienia: „Zawód Analityk Danych”

Dowiedz się więcej

Python to potężne narzędzie do analizy danych i uczenia maszynowego dzięki możliwości integracji różnych bibliotek, takich jak Pandas, Matplotlib, NumPy i TensorFlow. Każda z tych bibliotek jest przeznaczona do wykonywania określonych zadań, co czyni Pythona wszechstronnym rozwiązaniem do pracy z danymi. Pandas umożliwia wygodne przetwarzanie i analizę danych, Matplotlib służy do wizualizacji, NumPy zapewnia możliwości obliczeń numerycznych, a TensorFlow służy do tworzenia i trenowania sieci neuronowych. Połączenie tych bibliotek otwiera szerokie horyzonty dla specjalistów od analizy danych i uczenia maszynowego.

Dziś omówimy bibliotekę Pandas, jej przeznaczenie i sposób jej importowania do Pythona. Przeanalizujemy również pierwszy zbiór danych poświęcony szybkości internetu w różnych krajach, aby określić, które kraje mają najszybszy internet, a które wolniejszy. Pandas to potężne narzędzie do nauki o danych, dzięki czemu idealnie nadaje się do pracy z dużymi ilościami danych.

Czym jest Pandas w Pythonie?

Pandas to główna biblioteka do nauki o danych w Pythonie. Jest szeroko wykorzystywana przez analityków i naukowców zajmujących się danymi ze względu na swoje potężne narzędzia. Stworzona w 2008 roku przez AQR Capital, Pandas została udostępniona jako oprogramowanie open source w 2009 roku, co doprowadziło do jej aktywnego rozwoju i wsparcia. Biblioteka oferuje wygodne struktury danych, takie jak DataFrame i Series, które upraszczają przetwarzanie i analizę danych. Pandas nadal pozostaje niezbędnym narzędziem dla naukowców zajmujących się danymi, zapewniając wydajne rozwiązania do przetwarzania dużych ilości informacji.

Biblioteka jest wykorzystywana do rozwiązywania różnorodnych problemów, w tym przetwarzania danych, tworzenia interfejsów użytkownika, tworzenia gier i automatyzacji procesów. Zapewnia programistom potężne narzędzia i funkcje, które upraszczają tworzenie oprogramowania i zwiększają jego wydajność. Korzystanie z biblioteki promuje również współdzielenie kodu i współpracę między programistami, ułatwiając integrację gotowych rozwiązań w ich projektach.

Analityka danych obejmuje produkt, marketing i inne obszary. Efektywna praca z danymi wymaga starannej analizy i przygotowania. Ważne jest eliminowanie lub uzupełnianie luk, filtrowanie, sortowanie i modyfikowanie danych w razie potrzeby. Biblioteka Pandas w Pythonie oferuje potężne narzędzia do szybkiego i wydajnego wykonywania tych zadań. Pozwala ona nie tylko na wykonywanie niezbędnych operacji na danych, ale także na automatyzację wielu procesów, znacznie upraszczając pracę analityków. Korzystanie z Pandas w analityce danych poprawia jakość analizy i przyspiesza pozyskiwanie cennych spostrzeżeń.

Nauka o danych i praca z dużymi zbiorami danych odgrywają kluczową rolę we współczesnym świecie. Biblioteka Pandas to potężne narzędzie do przygotowywania danych i ich wstępnej analizy. Umożliwia ona efektywne przetwarzanie, czyszczenie i analizę danych, co jest niezbędnym krokiem przed zastosowaniem metod uczenia maszynowego lub głębokiego uczenia. Korzystanie z Pandas pomaga w wyciąganiu cennych wniosków z dużych wolumenów danych, znacząco zwiększając efektywność analiz i prognoz.

Statystyka jest ważnym aspektem analizy danych, a biblioteka udostępnia kluczowe metody statystyczne niezbędne do efektywnej pracy z informacjami. Obejmuje ona obliczanie średnich, analizę rozkładu danych za pomocą kwantyli i wiele innych narzędzi statystycznych. Funkcje te pozwalają użytkownikom na głębsze zrozumienie danych i wyciąganie trafnych wniosków. Korzystanie z tych metod statystycznych przyczynia się do dokładniejszej interpretacji wyników i poprawy jakości analizy.

Praca z Pandas

Specjalistyczne narzędzia, takie jak Google Colab i Jupyter Notebook, są często wykorzystywane do analizy danych i uczenia maszynowego. Te zintegrowane środowiska programistyczne (IDE) umożliwiają interakcję z danymi krok po kroku i iteracyjną, upraszczając proces analizy i modelowania. Korzystanie z takich platform pozwala badaczom i programistom efektywnie testować algorytmy i wizualizować wyniki bez czasochłonnego tworzenia pełnoprawnej aplikacji.

W tym artykule przyjrzymy się Google Colab, opartemu na chmurze rozwiązaniu do analizy i przetwarzania danych. To wygodne narzędzie, które można uruchomić w przeglądarce na dowolnym urządzeniu, w tym na komputerach stacjonarnych, laptopach, tabletach i smartfonach. Google Colab pozwala użytkownikom pracować z Pythonem, wykonywać obliczenia i wizualizować dane bez konieczności instalowania dodatkowego oprogramowania. Dzięki integracji z Dyskiem Google użytkownicy mogą łatwo zapisywać i udostępniać swoje projekty, co sprawia, że ​​Google Colab to idealny wybór dla badaczy, studentów i naukowców zajmujących się danymi.

Zrzut ekranu: Pandas / Skillbox Media

Każda linia kodu na zrzucie ekranu reprezentuje pojedynczą akcję, której wyniki są natychmiast widoczne w Google Colab i Jupyter Notebook. Jest to szczególnie wygodne w przypadku zadań związanych z analityką i nauką o danych, umożliwiając użytkownikowi szybkie przeglądanie wyników swoich działań i podejmowanie decyzji w oparciu o uzyskane dane. Pandas nie wymaga instalacji podczas korzystania z Jupyter Notebook lub Google Colab, ponieważ jest to standardowa biblioteka dostępna natychmiast po uruchomieniu platformy. Wystarczy zaimportować ją do kodu, aby rozpocząć pracę z danymi. pd to popularny skrót dla biblioteki Pandas w programowaniu w Pythonie. Ten skrót jest szeroko stosowany w materiałach edukacyjnych, artykułach i książkach na temat analizy danych i przetwarzania informacji. Zalecamy używanie go w projektach, aby uprościć kod i uniknąć niepotrzebnej długości związanej z powtarzaniem pełnej nazwy biblioteki. Użycie skrótu pd sprawia, że ​​kod jest bardziej czytelny i zrozumiały dla innych programistów.

Serie i DataFrame

W Pandas dane są reprezentowane w dwóch głównych formatach: Series i DataFrame. Przyjrzyjmy się bliżej każdej z tych struktur. Seria to jednowymiarowa tablica, która może zawierać dane różnych typów i posiada indeks ułatwiający dostęp do elementów. DataFrame z kolei to dwuwymiarowa tabela, w której dane są zorganizowane w wiersze i kolumny, co pozwala na efektywną pracę z danymi tabelarycznymi. Oba formaty są głównymi narzędziami do analizy danych w Pandas i zapewniają zaawansowane możliwości przetwarzania i manipulowania informacjami.

Seria to obiekt przypominający jednowymiarową tablicę, która może zawierać różne typy danych. Można ją łatwo wyobrazić sobie jako kolumnę tabeli z sekwencją wartości, z których każda ma unikalny indeks wskazujący numer wiersza. Ten wygodny sposób organizacji danych pozwala na efektywną pracę z różnymi strukturami informacyjnymi, zapewniając możliwość dostępu do danych i manipulowania nimi za pomocą indeksów. Serie są wykorzystywane w analizie danych, co czyni je niezbędnym narzędziem dla programistów i analityków. Utwórzmy prostą serię w Pythonie, korzystając z biblioteki Pandas. Seria to jednowymiarowa tablica, która może przechowywać dane różnych typów, takie jak liczby całkowite, ciągi znaków lub liczby zmiennoprzecinkowe. Aby utworzyć serię, należy zaimportować bibliotekę Pandas i użyć funkcji pd.Series(). Na przykład, możemy utworzyć serię z listy wartości, przekazując ją do funkcji. Pozwala to na efektywne zarządzanie danymi i ich analizę. Serie obsługują również indeksy, co ułatwia dostęp do elementów. Dzięki prostej strukturze i potężnej funkcjonalności Series to świetne narzędzie do pracy z danymi w Pythonie.

Teraz wyświetlimy je na ekranie.

Zrzut ekranu: Pandas / Skillbox Media

Serie prezentowane są w formacie tabeli, gdzie pierwsza kolumna zawiera indeksy elementów, a druga ich wartości. Taka metoda wyświetlania ułatwia zrozumienie danych i szybkie znalezienie potrzebnych informacji. Format tabeli serii ułatwia analizę i przetwarzanie danych, co jest szczególnie ważne dla użytkowników pracujących z dużymi wolumenami informacji.

DataFrame to kluczowy typ danych w bibliotece Pandas, stanowiący podstawę analizy i przetwarzania danych. Można go wizualizować jako standardową tabelę zawierającą dowolną liczbę wierszy i kolumn. Komórki tej tabeli mogą zawierać dane różnego typu, w tym numeryczne, logiczne, łańcuchowe i inne. DataFrame zapewnia wygodny sposób pracy z danymi, umożliwiając łatwą manipulację i analizę.

DataFrame posiada indeksy wierszy i kolumn, co umożliwia efektywne sortowanie i filtrowanie danych. Pozwala to szybko znaleźć potrzebne komórki i upraszcza pracę z dużymi wolumenami informacji. Użycie indeksów w DataFrame znacznie ułatwia analizę danych i optymalizuje przetwarzanie informacji.

Utwórzmy prostą DataFrame przy użyciu słownika i przeanalizujmy jej wizualną reprezentację. DataFrame to struktura danych używana w bibliotece Pandas do pracy z danymi tabelarycznymi. Zacznijmy od zdefiniowania słownika, w którym będą przechowywane nasze dane, a następnie utwórzmy DataFrame i wyświetlmy go do dalszej analizy.

Przyjrzyjmy się wynikowi końcowemu.

Zrzut ekranu: Pandas / Skillbox Media

Ten przykład pokazuje tabelę, w której wiersze są indeksowane od 0 do 3, a kolumny są etykietowane zgodnie z ich zawartością. Tabela ta ma trzy serie: Miasto, Rok założenia i Liczba ludności. Oba typy indeksów są skutecznie wykorzystywane do nawigacji i analizy danych, ułatwiając wyodrębnianie potrzebnych informacji i wykonywanie dalszych operacji na zbiorze danych.

Importowanie danych

Pandas oferuje wiele opcji importowania danych. Jedną z najpopularniejszych metod jest odczyt danych z plików .csv, co jest szeroko stosowane w analizie danych. Można również importować dane ze słowników, list lub krotek. Pandas wykorzystuje funkcję pd.read_csv() do pracy z plikami .csv, co ułatwia ładowanie i przetwarzanie danych do dalszej analizy. Prawidłowy import danych jest kluczowym krokiem w pracy z Pandas, zapewniającym efektywne wykorzystanie możliwości biblioteki w zakresie analizy i przetwarzania danych.

Funkcja read_csv udostępnia szereg parametrów, które pozwalają efektywnie zarządzać procesem importu danych. Parametry te umożliwiają dostosowanie takich aspektów, jak separator, kodowanie, przetwarzanie nagłówków i pomijanie zbędnych wierszy. Efektywne wykorzystanie tych opcji pomaga uniknąć błędów podczas ładowania danych i zapewnia prawidłowy odczyt informacji z plików CSV. Prawidłowe ustawienie parametrów importu znacznie uprości dalsze przetwarzanie i analizę danych.

  • Funkcja sep pozwala na jawne określenie separatora używanego w importowanym pliku. Wartość domyślna to ,,, która odpowiada separatorowi danych w plikach .csv. Ten parametr jest przydatny w przypadku używania niestandardowych separatorów w pliku źródłowym, takich jak tabulatory lub średniki;
  • Funkcja dtype pozwala na określenie typu danych w kolumnach po załadowaniu pliku .csv. Jest to przydatne w przypadkach, gdy format danych został automatycznie nieprawidłowo wykryty. Na przykład daty są często importowane jako zmienne łańcuchowe, mimo że mają osobny typ.

Szczegółowe parametry konfiguracji importu CSV można znaleźć w dokumentacji. Można tam zapoznać się z różnymi opcjami, które pomogą zoptymalizować proces importu danych.

Zaimportujemy zbiór danych zawierający informacje o prędkościach internetu mobilnego i stacjonarnego w różnych krajach. Gotowy zbiór danych możemy pobrać z platformy Kaggle. Plik jest w formacie .csv. Parametry funkcji read_csv nie są potrzebne, ponieważ dane zostały już przygotowane do dalszej analizy.

Teraz przeanalizujmy utworzoną ramkę danych.

Ważne jest, aby zwrócić uwagę na kluczowe aspekty, które mogą wpłynąć na sukces projektu. Przede wszystkim należy dokładnie zbadać grupę docelową i określić jej potrzeby. Tworzenie wysokiej jakości treści, które odpowiadają zainteresowaniom użytkowników, jest podstawą skutecznej promocji.

Optymalizacja SEO odgrywa kluczową rolę w przyciąganiu ruchu do witryny. Używaj słów kluczowych, które odpowiadają potrzebom odbiorców i naturalnie wpleć je w tekst. Nie zapomnij o meta tagach i opisach, ponieważ pomagają one poprawić widoczność w wyszukiwarkach.

Ważne jest również, aby informacje na stronie były aktualne. Regularna aktualizacja treści pomaga utrzymać zainteresowanie użytkowników i buduje zaufanie do Twojego zasobu. Zwróć uwagę na szybkość ładowania strony i responsywność witryny na urządzeniach mobilnych, ponieważ to również wpływa na zachowanie użytkowników i ich chęć powrotu.

Kompleksowe podejście do tworzenia i optymalizacji treści pomoże Ci osiągnąć wysokie wyniki i przyciągnąć odbiorców docelowych.

Korzystając z Google Colab lub Jupyter Notebook, polecenie drukowania nie jest wymagane do wyświetlania obiektów DataFrame lub Series. Biblioteka Pandas umożliwia wyprowadzanie danych bez użycia polecenia, zachowując format tabelaryczny. Użycie polecenia print(df) spowoduje zakłócenia w prezentacji wizualnej danych. Zaleca się przetestowanie obu metod wyprowadzania danych, aby zobaczyć różnice w wyświetlaniu.

Na ekranie wyświetlono tabelę zawierającą ważne dane.

Zrzut ekranu: Pandas / Skillbox Media

U góry Nagłówki kolumn są prezentowane w górnej części ramki danych: kraj, szerokopasmowy (średnia prędkość internetu) i mobilny (średnia prędkość internetu mobilnego). Po lewej stronie znajdują się indeksy z zakresu od 0 do 176, co oznacza, że ​​tabela zawiera 177 wierszy. Informacje te są również wyświetlane na dole tabeli Pandas, umożliwiając użytkownikowi szybkie poruszanie się po danych i analizowanie wskaźników prędkości internetu dla różnych krajów. Wyświetlanie całej tabeli nie zawsze jest konieczne. Aby uzyskać przegląd danych, wystarczy wyświetlić pierwsze lub ostatnie pięć wierszy. Można to zrobić odpowiednio za pomocą metod df.head() lub df.tail(). Liczbę wierszy do wyświetlenia można określić w nawiasach. Domyślnie ten parametr jest ustawiony na 5.

Zrzut ekranu: Pandas / Skillbox Media

Teraz stało się to o wiele wygodniejsze. Od razu widzimy nazwy kolumn i rodzaj danych zawartych w każdej z nich. Niektóre komórki wyświetlają wartość NaN, którą omówimy bardziej szczegółowo później.

Eksploracja i opisywanie danych

Teraz musimy przeanalizować zaimportowane dane. Będziemy postępować etapami. Najpierw ocenimy strukturę danych, a następnie sprawdzimy jej poprawność i kompletność. Następnie przeanalizujemy kluczowe wskaźniki i zwrócimy uwagę na ważne trendy. Ważne jest, aby zwracać uwagę na szczegóły, aby w pełni zrozumieć dane i zidentyfikować możliwe obszary do poprawy. Takie podejście zapewni wysoką jakość analizy i pozwoli na wyciągnięcie trafnych wniosków.

Pierwszym krokiem jest sprawdzenie typu danych w tabeli. Jest to niezbędne do zrozumienia formatu, w jakim prezentowane są informacje w zbiorze danych, i może pomóc w identyfikacji anomalii. Na przykład daty mogą być przechowywane jako ciągi znaków, co komplikuje dalszą analizę. Do przeprowadzenia tego sprawdzenia można użyć standardowych metod analizy danych.

Na ekranie zostanie wyświetlona tabela wskazująca typy danych dla każdej kolumny ramki danych. Umożliwi to szybką identyfikację danych zawartych w każdej kolumnie i uprości proces analizy danych. Prawidłowe zrozumienie typów danych to ważny krok podczas pracy z ramkami danych, ponieważ wpływa na sposób przetwarzania i analizowania informacji.

Zrzut ekranu: Pandas / Skillbox Media

Co Zwracamy uwagę na Uwaga:

  • Kolumna „Kraj” jest obiektowym typem danych. Ten typ danych jest przeznaczony dla ciągów znaków i wartości mieszanych;
  • Kolumny „Szerokopasmowy” i „Mobilny” są typu danych zmiennoprzecinkowych, co oznacza, że ​​odnoszą się do liczb zmiennoprzecinkowych.

Na drugim etapie analizy danych ważne jest, aby szybko ocenić informacje i sformułować wstępne wnioski. Biblioteka Pandas udostępnia w tym celu wygodną metodę describe(). Metoda ta zapewnia podsumowanie statystyczne, w tym wartości średnie, odchylenia standardowe oraz wartości maksymalne i minimalne zmiennych. Ponadto demonstruje rozkład danych według kwantyli, co pozwala na pełniejsze zrozumienie struktury i charakterystyki zbioru danych. Użycie metody describe() znacznie upraszcza proces wstępnej analizy i pomaga zidentyfikować kluczowe trendy w danych.

Rozważmy zastosowanie tej metody w praktyce.

Oczywiście chętnie pomogę w korekcie tekstu. Proszę podać tekst źródłowy, który chcesz dostosować i zoptymalizować pod kątem SEO.

Zrzut ekranu: Pandas / Skillbox Media

Przyjrzyjmy się każdemu wierszowi bardziej szczegółowo.

  • count to liczba wypełnionych wierszy w każdej kolumnie. Widzimy, że w kolumnie z danymi dotyczącymi prędkości internetu mobilnego występują luki.
  • średnia to średnia wartość prędkości internetu stacjonarnego i mobilnego. Możemy już wnioskować, że internet mobilny w większości krajów jest wolniejszy niż internet kablowy.
  • std to odchylenie standardowe. Ważny wskaźnik statystyczny pokazujący rozrzut wartości.
  • min i max to wartości minimalne i maksymalne.
  • 25%, 50% i 75% to wartości prędkości internetu według percentyla. Bez zagłębiania się w statystyki, percentyl to liczba pokazująca rozkład wartości w próbie. Na przykład w próbie z internetem mobilnym 25. percentyl pokazuje, że 25% wszystkich wartości prędkości internetu jest mniejszych niż 24,4.

Ta metoda ma zastosowanie wyłącznie do danych liczbowych. Nie ma danych dla kolumny zawierającej nazwy krajów.

Wniosek jest jednoznaczny: internet kablowy w większości krajów zapewnia wyższe prędkości niż internet mobilny. Warto jednak zauważyć, że w 75% przypadków prędkość internetu przewodowego nie przekracza 110 Mb/s, podczas gdy prędkość internetu mobilnego osiąga 69 Mb/s. Oznacza to, że dla użytkowników ceniących sobie wysokie prędkości połączenia, internet przewodowy pozostaje preferowaną opcją.

Krok 3. Sortowanie i filtrowanie rekordów. W naszej ramce danych dane są już posortowane malejąco według prędkości internetu przewodowego. Teraz możemy określić kraj z najlepszym internetem mobilnym. W tym celu użyjemy standardowej metody sort_values, która przyjmuje dwa parametry: wartość, według której sortujemy, oraz kolejność sortowania. Korzystając z tej metody, możemy szybko zidentyfikować kraj z najwyższą prędkością internetu mobilnego, co pomoże w dalszej analizie i porównywaniu usług internetowych w różnych krajach.

  • Nazwa kolumny, według której sortujemy, musi być ujęta w pojedyncze lub podwójne cudzysłowy.
  • Parametr ascending= określa typ sortowania. Jeśli chcemy posortować wartości od największej do najmniejszej, ustawiamy parametr na False. Aby posortować tekst od najmniejszego do największego, używamy opcji True.

Oczywiście chętnie pomogę w edycji tekstu. Proszę podać sam tekst, który wymaga przerobienia.

Zrzut ekranu: Pandas / Skillbox Media

Ranking krajów według jakości mobilnego Internetu uległ zmianie i teraz najlepszy Piątka wygląda inaczej. Nasza nowa analiza danych wykazała, że ​​Zjednoczone Emiraty Arabskie mają najszybszy internet mobilny na świecie.

Warto jednak zauważyć, że po powrocie do oryginalnej tabeli posortowanej według prędkości internetu przewodowego, widzimy, że lider, Monako, ma wartość NaN w drugiej kolumnie. Może to budzić wątpliwości co do dokładności danych i ich interpretacji. Warto o tym pamiętać, ponieważ może to wpłynąć na ogólne postrzeganie rankingu i wiarygodność porównywania prędkości internetu w różnych krajach.

NaN w Pythonie oznacza brakujące dane. Oznacza to, że w tym zestawie danych brakuje informacji o prędkości internetu mobilnego w Monako. Dlatego nie możemy wyciągnąć jednoznacznych wniosków na temat liderów w dziedzinie komunikacji mobilnej na podstawie przedstawionych danych.

Przefiltrujemy wartości w ramce danych, wykluczając kraje o nieznanej prędkości internetu mobilnego. Pozwoli nam to skupić się na najniższych wskaźnikach i uzyskać jasny obraz. Bez wartości NaN łatwiej będzie zidentyfikować kraje z najwolniejszym internetem mobilnym i przeanalizować ich wyniki.

Biblioteka Pandas oferuje kilka metod filtrowania danych, które pozwalają skutecznie usuwać wartości NaN. Jedną z najpopularniejszych jest metoda dropna(), która usuwa całe wiersze zawierające co najmniej jedną brakującą wartość. Należy pamiętać, że metoda ta wyklucza cały wiersz zawierający wartości NaN, a nie tylko pojedyncze komórki z brakującymi wartościami w określonych kolumnach. Zapewnia to czystość danych i pozwala uniknąć problemów podczas dalszego przetwarzania i analizy informacji.

Zrzut ekranu: Pandas / Skillbox Media

Po usunięciu pustych danych liczba wierszy W ramce danych liczba wierszy została zredukowana do 136. Jeśli cofniesz się do drugiego etapu analizy, zobaczysz, że liczba ta odpowiada liczbie wypełnionych wierszy w kolumnie mobilnej oryginalnej ramki danych. Zatem usunięcie pustych wartości pozwoliło nam uzyskać dokładne i istotne dane do dalszej pracy.

Utwórzmy nową ramkę danych, którą nazwiemy df_without_nan, w której wartości NaN będą nieobecne. Ważne jest, aby zachować oryginalną ramkę danych bez zmian, ponieważ może być ona potrzebna do dalszej analizy lub przetwarzania danych.

Teraz posortujmy wyniki według kolumny „Internet mobilny” od najwolniejszego do najszybszego i zidentyfikujmy kraj z najwolniejszym Internetem mobilnym.

Zrzut ekranu: Pandas / Skillbox Media

Afganistan zajmuje ostatnie miejsce pod względem jakości internetu mobilnego, a za nim plasują się Palestyna i Wenezuela. Kraje te borykają się z poważnymi problemami z łącznością, które negatywnie wpływają na dostęp do informacji i usług. Niska prędkość internetu i niestabilne połączenia ograniczają komfort użytkowania i utrudniają rozwój gospodarki cyfrowej. Poprawa infrastruktury komunikacyjnej w tych regionach jest niezbędna dla poprawy jakości życia i wzrostu gospodarczego.

Jak edytować ramkę danych

Praca z ramkami danych obejmuje nie tylko analizę i przetwarzanie istniejących danych, ale także ich modyfikację w celu dostosowania do konkretnych potrzeb. Możemy dodawać nowe wiersze, usuwać niepotrzebne rekordy i agregować dane, aby uzyskać bardziej informacyjne wyniki. Operacje te pozwalają nam dostosować ramkę danych do różnych zadań i poprawić jakość analizy danych.

Przywróćmy oryginalny wygląd naszej ramki danych. Aby to zrobić, ponownie prześlemy plik CSV z zestawem danych.

Rozważmy ramkę danych. Jest to tabela, która pozwala uporządkować dane w formacie wygodnym do analizy. Ramki danych są szeroko stosowane w analizie danych i uczeniu maszynowym ze względu na możliwość strukturyzacji informacji i ułatwienia pracy z nimi. Możemy wykonywać różne operacje na DataFrames, takie jak filtrowanie, agregowanie i wizualizacja danych, co czyni je niezastąpionym narzędziem dla analityków i statystyków.

Sprawdźmy, czy wszystkie niezbędne dane są obecne.

Zrzut ekranu: Pandas / Skillbox Media

Lista zawiera 177 krajów, w tym te, dla których brakuje danych o szybkości internetu.

Dodamy nowy kraj do naszej ramki danych. Ponieważ lista zawiera już 177 krajów, zdecydujemy się dodać Republikę Galaktyczną z Gwiezdnych Wojen. To rozszerzy nasz zbiór danych i doda interesujący element do analizy.

Pandas używa metody concat do dodawania danych do ramki danych. Metoda ta pozwala na łączenie wielu ramek danych wzdłuż osi, co jest przydatne podczas pracy z dużymi ilościami danych. Concat ułatwia i przyspiesza dodawanie nowych wierszy lub kolumn, zapewniając elastyczność w zarządzaniu danymi. Prawidłowe użycie metody concat ułatwia efektywną analizę i przetwarzanie danych, co jest kluczowym aspektem pracy z pandas.

Przeanalizujmy kod wiersz po wierszu:

  • Najpierw tworzymy słownik, który będzie zawierał nazwę kraju, średnią prędkość Internetu i średnią prędkość Internetu mobilnego.
  • W konstruktorze pd.DataFrame konwertujemy słownik na ramkę danych.
  • Używając metody concat, łączymy oryginalną ramkę danych z nową, tworząc new_list. Nie zapomnij podać parametru ignore_index=True, aby nowy wiersz pojawił się jako pierwszy.

Sprawdźmy końcowy wynik:

Zrzut ekranu: Pandas / Skillbox Media

Sukces osiągnięty. Republika Galaktyczna jest teraz obecna w naszej tabeli.

W Pandas wiersze są usuwane za pomocą metody „drop”. Teraz użyjmy tej metody, aby usunąć nieistniejący kraj, który wcześniej dodaliśmy do naszej ramki danych.

Metoda przyjmuje dwa parametry.

  • Indeks wierszy do usunięcia — w naszym przypadku jest to wiersz o indeksie 0. Aby usunąć wiele wierszy, przekaż indeksy jako listę. Na przykład: [0, 1, 2].
  • inplace=True — zeruje indeksy, tak aby pierwszy wiersz po usunięciu miał indeks 0.

Uruchom kod i pobierz dane wyjściowe ramki danych. Ramka danych to ustrukturyzowana tabela, w której dane są zorganizowane w wiersze i kolumny. Jest to wygodne narzędzie do analizy i przetwarzania danych, pozwalające na łatwe manipulowanie informacjami, wykonywanie obliczeń i wizualizację wyników. Ważne jest, aby poprawnie skonfigurować kod, aby poprawnie wyświetlać i interpretować dane w ramce danych.

Zrzut ekranu: Pandas / Skillbox Media

Republika Galaktyczna przestała istnieć. Ramka danych powróciła do stanu pierwotnego.

Podczas pracy z ramkami danych często zachodzi potrzeba znalezienia konkretnych wierszy. Istnieją dwie główne metody realizacji tego celu: wyszukiwanie indeksowe i wyszukiwanie indeksowe. Przyjrzyjmy się obu tym metodom bardziej szczegółowo.

Wyszukiwanie indeksowe jest wykonywane na podstawie pierwszej kolumny w ramce danych. W tym kontekście wartości indeksów to liczby z zakresu od 0 do 177. Ta metoda pozwala na efektywne pobieranie danych odpowiadających określonym indeksom, upraszczając analizę i przetwarzanie informacji w ramce danych.

Wyświetlmy kraje o wartościach indeksów 10 i 11. Pozwoli nam to uzyskać informacje o krajach odpowiadających określonym indeksom. Indeksy można wykorzystać do sortowania lub filtrowania danych, co ułatwia analizę i przetwarzanie informacji o różnych krajach.

Przyjrzyjmy się wynikom końcowym.

Zrzut ekranu: Pandas / Skillbox Media

Filtrowanie według indeksu w ramce danych zawsze zaczyna się od zera. Aby wyciąć kraje o indeksach 5–8, użyj metody iloc. Metoda ta pozwala na wybór wierszy i kolumn według ich pozycji, co ułatwia pracę z danymi w Pandas. W ten sposób możesz łatwo wyodrębnić potrzebne dane za pomocą indeksów, co jest szczególnie przydatne podczas analizy dużych zestawów danych.

Analiza wyniku:

Zrzut ekranu: Pandas / Skillbox Media

Uzyskano fragment listy od 6. do 8. elementu. Należy pamiętać, że indeksy i wartości wierszy w tym wycinku mogą się różnić.

Na ekranie będą wyświetlane tylko te kraje, w których prędkość mobilnego Internetu przekracza 100 Mb/s.

W rezultacie utworzono tabelę zawierającą dane dotyczące 18 krajów.

Zrzut ekranu: Pandas / Skillbox Media

Ważne jest, aby zrozumieć, że przestrzeganie podstawowych zasad i reguł jest kluczowe dla osiągnięcia pomyślnych rezultatów. Nieprzestrzeganie ich może prowadzić do niepożądanych konsekwencji. Dlatego niezwykle ważne jest, aby zawsze zachować czujność i postępować zgodnie z ustalonymi wytycznymi. Pomoże to uniknąć błędów i zwiększyć efektywność działań. Zwracaj uwagę na szczegóły i pamiętaj o znaczeniu systematycznego podejścia do rozwiązywania problemów. Pamiętaj, że każdy krok ma znaczenie, a Twoje wybory wpływają na końcowy wynik.

Podczas korzystania z tej metody wartości indeksów analizowanej ramki danych są przechowywane. Pozwala to na efektywną pracę z danymi, zachowując ich strukturę i zapewniając łatwy dostęp do niezbędnych informacji. Korzystanie z wartości indeksów przyspiesza przetwarzanie danych i poprawia wydajność analizy.

Agregacja danych to proces łączenia wielu pojedynczych wartości w jeden widok podsumowujący. Ta funkcja umożliwia efektywne przetwarzanie i analizowanie dużych wolumenów informacji, dając użytkownikom możliwość uzyskania podsumowanych danych do dalszej analizy i podejmowania decyzji. Agregacja danych jest szeroko stosowana w różnych dziedzinach, w tym w biznesie, nauce i analityce, i odgrywa kluczową rolę w optymalizacji pracy z dużymi zbiorami danych.

Aby obliczyć średnią prędkość internetu we wszystkich krajach, używamy funkcji agg z parametrem średniej. Ta metoda pozwala nam efektywnie agregować dane i uzyskiwać uogólnione metryki, co jest ważnym krokiem w globalnej analizie połączeń internetowych. Użycie funkcji agg z parametrem średniej umożliwia dokładne określenie średniej prędkości Internetu, co pozwala lepiej zrozumieć infrastrukturę internetową różnych krajów i zidentyfikować trendy w rozwoju technologii internetowych.

Zrzut ekranu: Pandas / Skillbox Media

Średnia prędkość internetu w różnych krajach wynosi 72,67 Mb/s. Wskaźnik ten odzwierciedla poziom połączeń internetowych na całym świecie i może się różnić w zależności od regionu i dostawcy. Wysoka prędkość internetu jest ważnym czynnikiem dla użytkowników, ponieważ wpływa na jakość usług online, streamingu i pracy z dużymi ilościami danych. Ulepszenia infrastruktury i technologii komunikacyjnych przyczyniają się do wzrostu średniej prędkości internetu, co z kolei pozytywnie wpływa na dostępność i łatwość korzystania z zasobów sieciowych.

Po edycji ramki danych można zapisać ją w formacie CSV lub w innych dostępnych formatach. Zapisanie danych w formacie CSV pozwala na łatwe udostępnianie ich i wykorzystywanie w różnych aplikacjach do analizy. Wybór formatu zależy od potrzeb i preferencji. CSV to uniwersalny format obsługiwany przez większość arkuszy kalkulacyjnych i narzędzi analitycznych.

Zapisany plik będzie dostępny pod wskazaną ścieżką.

Ważne jest, aby zrozumieć, że prawidłowe formatowanie i optymalizacja tekstu pod kątem wyszukiwarek odgrywają kluczową rolę w przyciąganiu odbiorców. Skuteczne użycie trafnych słów kluczowych i fraz pomaga poprawić widoczność treści w wyszukiwarkach. Ważne jest również, aby tekst był łatwy do odczytania i zrozumienia dla użytkowników. To nie tylko zwiększa szanse na wysokie miejsce w wynikach wyszukiwania, ale także pomaga utrzymać uwagę czytelników. Ważne jest również, aby wziąć pod uwagę trafność i użyteczność informacji, aby upewnić się, że odpowiadają one potrzebom grupy docelowej. Optymalizacja meta tagów i tytułów, a także korzystanie z linków wewnętrznych i zewnętrznych, pomoże poprawić pozycję treści w wynikach wyszukiwania.

Ta metoda zachowuje wartości indeksów analizowanej ramki danych. Zapewnia to integralność danych i upraszcza dalszą analizę. Zachowanie wartości indeksów jest ważnym aspektem pracy z ramkami danych, ponieważ stanowią one klucz do dostępu do danych i manipulowania nimi.

Co dalej?

Pandas w Pythonie to potężna biblioteka przeznaczona do analizy i przetwarzania danych. W tym artykule omówiliśmy podstawowe operacje, które pomogą Ci rozpocząć korzystanie z tej biblioteki. Aby lepiej zrozumieć możliwości biblioteki Pandas, zalecamy zapoznanie się z oficjalną dokumentacją. Dostępnych jest również wiele specjalistycznych książek, które pomogą pogłębić wiedzę i umiejętności w pracy z Pandas, dostarczając praktycznych przykładów i wskazówek dotyczących optymalizacji analizy danych.

  • „Learning Pandas” autorstwa Michaela Haidta i Artema Gruzdeva;
  • „Thinking in Pandas: How to Use the Python Data Analysis Library the Right Way”, Hannah Stepanek;
  • „Hands-On Data Analysis with Pandas: Efficiently perform data collection, wrangling, analysis, and visualization using Python”, Stefanie Molin.

Czytaj więcej:

  • Biblioteki w programowaniu: do czego są potrzebne i jakie są typy
  • Test: zgadnij, gdzie są ezoteryczne języki programowania, a gdzie ich nie ma
  • Jak zacząć programować w Pythonie: szybki przewodnik