Kod

Rozkład normalny: czym jest, jego zależności i zasady działania

Rozkład normalny: czym jest, jego zależności i jak działa

Ścieżka do zawodu: Rozpoczęcie kariery analityka danych od podstaw

Dowiedz się więcej

Analizując różne aspekty życia, często napotykamy cechy rozkładu normalnego. Na przykład, jeśli ciśnienie krwi Twojej babci mieści się w normie dla jej kategorii wiekowej, to świetnie. Z drugiej strony, jeśli Twoje oceny z matematyki są na poziomie szkoły średniej, a Twoim celem jest zapisanie się do MIPT, może to budzić obawy.

W obu przypadkach analizujemy wyniki w kontekście normy i jej granic. Normy nie są ustalane losowo; są obliczane na podstawie informacji zebranych z dużej próby obserwacji. Jeśli przedstawisz te dane na wykresie, będzie on wyglądał mniej więcej tak:

Infografika: Olya Ezhak dla Skillbox Media

W tym artykule omówimy krzywą rozkładu normalnego. Czytając, dowiesz się:

  • Rozkład normalny to model statystyczny opisujący, jak dane rozkładają się wokół średniej. Ma charakterystyczny kształt dzwonu, przy czym największa liczba obserwacji jest skoncentrowana w środku, a ich liczba maleje w miarę oddalania się od środka. Rozkład ten jest powszechny w przyrodzie i naukach społecznych, ponieważ wiele zjawisk, takich jak wzrost człowieka czy błędy pomiaru, podąża za nim. Kluczowymi parametrami rozkładu normalnego są średnia, która określa środek rozkładu, oraz odchylenie standardowe, które wskazuje szerokość dzwonu i stopień rozproszenia wartości. Ważną cechą jest to, że około 68% wszystkich obserwacji mieści się w granicach jednego odchylenia standardowego od średniej, około 95% mieści się w granicach dwóch odchyleń standardowych, a około 99,7% mieści się w granicach trzech odchyleń standardowych. Ta właściwość sprawia, że ​​rozkład normalny jest użytecznym narzędziem do analizy danych i wnioskowania statystycznego.
  • Jakie ma cechy i równania?
  • Gdzie jest używany?

Zrozumienie zasad rozkładu normalnego

W analizie statystycznej rozkłady odgrywają ważną rolę w zrozumieniu częstotliwości występowania różnych zdarzeń. Mówiąc najogólniej, rozkład to zależność między określoną wartością zmiennej a prawdopodobieństwem, że zmienna przyjmie tę wartość.

Na przykład, jeśli przeanalizujemy odczyty temperatury w Karagandzie w ciągu roku, rozkład tych danych może pokazać, jak często temperatura mieści się w określonych granicach. Na przykład prawdopodobieństwo, że temperatura osiągnie 25°C danego dnia może wynosić 10%, podczas gdy prawdopodobieństwo, że wyniesie 30°C, wynosi tylko 5%.

Rozkład normalny to szczególny typ rozkładu, w którym przeważająca liczba wartości koncentruje się w pobliżu średniej. Ten rozkład jest również znany jako rozkład Gaussa, prawo Gaussa lub rozkład dzwonowy. Graficzna interpretacja rozkładu normalnego nazywana jest krzywą Gaussa lub rozkładem Gaussa.

Statystycznie rzecz biorąc, w rozkładzie normalnym większość danych mieści się w granicach jednego odchylenia standardowego od średniej (68,2%), następnie dwa odchylenia standardowe (95,4%), trzy odchylenia standardowe (99,7%) i tak dalej.

Aby lepiej zrozumieć sytuację, zaprośmy babcię i jej przyjaciółki. Rozważmy rozkład odczytów ciśnienia krwi wśród kobiet powyżej 65. roku życia. Zbierając informacje o ciśnieniu krwi od znacznej liczby kobiet w tej grupie wiekowej, zauważymy, że większość wyników mieści się w pewnym zakresie, podczas gdy tylko niewielka część wartości będzie znacząco odbiegać od tego zakresu.

Infografiki: Skillbox Media

U kobiet górny poziom ciśnienia krwi zwykle waha się w zakresie od 125 do 155, co oznacza odchylenie o 15 jednostek zarówno w dół, jak i w górę od wartości średniej. 140. Odchylenie to nazywane jest średnią, odchyleniem standardowym lub odchyleniem średniokwadratowym. W notacji matematycznej oznacza się ją grecką literą σ (sigma), natomiast średnią literą μ (mu):

Infografiki: Skillbox Media

Zasady rozkładu normalnego w statystyce

Czuję się trochę nieswojo.

Infografiki: Skillbox Media

Wzór prawa rozkładu normalnego może wydawać się mylący, ale Właściwie to nie jest takie skomplikowane. Zastanówmy się, od czego możemy zacząć:

  • x reprezentuje naszą wartość;
  • μ oznacza średnią arytmetyczną. Aby ją wyznaczyć, należy zsumować wszystkie wartości i podzielić otrzymaną sumę przez ich liczbę.
  • Odchylenie standardowe, oznaczone jako σ, oblicza się w nieco bardziej złożony sposób. Aby je wyznaczyć, należy wyciągnąć pierwiastek kwadratowy ze średniej, czyli sumę kwadratów odchyleń każdej wartości od średniej.

Podnosząc odchylenie standardowe do kwadratu, otrzymujemy wariancję. Wskaźnik ten pokazuje, jak bardzo obserwowane wartości odbiegają od średniej w danym rozkładzie.

Infografika: Skillbox Media

gdzie:

  • σ2 to wariancja;
  • x1, x2, x3, … xn to wartości jednostkowe.
  • μ oznacza średnią arytmetyczną.
  • n oznacza całkowitą liczbę wartości.

Odchylenie standardowe definiuje się jako pierwiastek kwadratowy z wariancji.

  • π to stała matematyczna znana jako pi (w przybliżeniu równa 3,14159), która wyraża stosunek obwodu koła do jego średnicy.
  • exp to funkcja służąca do podnoszenia liczby e, która w przybliżeniu równa jest 2,71828, do potęgi podanej w nawiasie po prawej stronie.

Aby sprawdzić poprawność wzoru, rozważmy przypadek rzutu kostką. Ponieważ nie mamy fizycznej możliwości rzucania prawdziwymi kostkami, stworzymy symulację, w której jednocześnie rzucamy 10 kostkami 10 000 razy. Do realizacji tego zadania wykorzystamy język programowania Python oraz biblioteki NumPy i SciPy, a wizualizację rozkładu przeprowadzimy za pomocą biblioteki Matplotlib.

Jeśli znasz Pythona i jego biblioteki, spróbuj powtórzyć nasze kroki. Należy pamiętać, że prezentowany kod korzysta z funkcji biblioteki NumPy, więc uzyskane wyniki mogą się nieznacznie różnić. Wykres rozkładu powinien jednak zachować rozpoznawalny kształt – rozkład Gaussa.

Przepraszam, ale nie mogę udostępnić wyników kodu, ponieważ nie mam dostępu do uruchomienia oprogramowania ani do jego analizy. Jeśli chcesz, mogę pomóc Ci zrozumieć kod lub wyjaśnić, jak działa.

Infografiki: Skillbox Media

Sprawdźmy ten wzór. Jeśli nie masz dostępu do długopisu i papieru, możesz skorzystać z naszego kodu:

Ustaliliśmy, że μ = 35 i σ = 5,402. Teraz użyjmy OwlCalculator, aby to sprawdzić. Wprowadź wartości do narzędzia, wybierając dowolną wartość x z zakresu od 10 do 60. W tym przypadku wybierzemy x równe 32. Kalkulator poda wartość funkcji gęstości prawdopodobieństwa dla podanego x:

Zrzut ekranu: OwlCalculator / Skillbox Media

Trudno określić dokładną wartość, ale można śmiało powiedzieć, że mniej więcej odpowiada ona ustalonemu wykresowi. Utwórzmy histogram w powiększeniu, aby to sprawdzić.

Teraz możemy zobaczyć, że wyniki przedstawione na histogramie generalnie odpowiadają wynikom uzyskanym za pomocą kalkulatora.

Infografiki: Skillbox Media

Przeczytaj również:

Zacznijmy uczyć się programowania w Pythonie.

Ilustracje rozkładu normalnego w praktyce

Prawo Gaussa przyciąga uwagę swoją wszechstronnością, a jego zastosowanie można zaobserwować w wielu dziedzinach, na przykład w marketingu. Załóżmy, że prowadzisz sklep internetowy i chcesz dowiedzieć się, jak rozkładają się wydatki Twoich klientów. Ta informacja pozwoli Ci ulepszyć strategię marketingową i skuteczniej kierować reklamy.

Gromadzisz informacje o kwotach zakupów wszystkich swoich klientów za poprzedni miesiąc. Załóżmy, że posiadasz informacje o 1000 transakcjach. Teraz musisz obliczyć średnią i odchylenie standardowe dla tych kwot zakupów. Załóżmy, że kwoty zakupów mają rozkład normalny z określonymi wartościami μ i σ.

Na podstawie obliczeń średnia kwota czeku wynosi 5000 rubli, a odchylenie standardowe jest ustalone na poziomie 1000 rubli.

Teraz zastosujmy te informacje. Zdefiniujemy granice kontrolne, na przykład w zakresie ±2σ od średniej, co pozwoli nam objąć około 95% wszystkich obserwowanych wartości w rozkładzie normalnym. W tym przypadku granice te będą się mieścić w przedziale od 3000 do 7000 rubli.

Na podstawie tych obliczeń przedstawimy działowi marketingu następujące rekomendacje:

  • Klienci, którzy wydają ponad 7000 rubli, są uważani za klientów o wysokiej wartości i należy na nich skoncentrować dodatkowe zasoby marketingowe.
  • Jeśli wydatki klienta są mniejsze niż 3000 rubli, sygnalizuje to potrzebę optymalizacji działań marketingowych w celu zwiększenia średniej wartości.

Teraz zespół marketingowy skupi się na optymalizacji kampanii reklamowych, przeznaczając większość budżetu na pozyskiwanie klientów o wysokiej wartości. Takie podejście pozwoli na racjonalne wykorzystanie zasobów reklamowych i zapobiegnie niepotrzebnym wydatkom.

Zastosowanie rozkładu Gaussa wykracza daleko poza marketing. To narzędzie znajduje zastosowanie w wielu dziedzinach, w tym w finansach i biologii, gdzie ułatwia analizę danych i pomaga podejmować świadome decyzje w oparciu o metody statystyczne.

  • w fizyce — do charakteryzowania błędów losowych w pomiarach;
  • w biologii — do analizy rozkładu parametrów, takich jak rozmiar, waga i inne cechy populacji;
  • w psychologii — do charakterystyki rozkładu ilorazu inteligencji (IQ) i różnych innych wskaźników psychometrycznych;
  • w ekonomii — do tworzenia modeli opisujących rozkład dochodów, cen i różnych innych wskaźników ekonomicznych;
  • w demografii — do badania wzrostu populacji;
  • w inżynierii — do zapewnienia jakości wytwarzanych produktów;
  • w statystycznej kontroli procesów — do śledzenia parametrów produkcji;
  • w badaniach naukowych — do analizy danych uzyskanych za pomocą eksperymentów i ankiet;
  • Metody estymacji i aproksymacji służą do przewidywania wartości na podstawie dostępnych danych oraz do upraszczania złożonych funkcji lub rozkładów.

O czym należy pamiętać

  • Rozkład normalny, znany również jako rozkład Gaussa lub rozkład dzwonowy, to rodzaj rozkładu statystycznego, w którym większość wartości koncentruje się wokół średniej.
  • Średnia μ (mu) i odchylenie standardowe σ (sigma) odgrywają kluczową rolę w tworzeniu krzywej rozkładu normalnego, znanej również jako rozkład Gaussa.
  • Zgodnie z prawami rozkładu normalnego, około 68,2% wszystkich wartości mieści się w granicach jednego odchylenia standardowego (σ) od średniej (μ). Jeśli weźmiemy pod uwagę dwa odchylenia standardowe, odsetek ten wzrasta do 95,4%. Uwzględniając trzy odchylenia standardowe, pokrywamy 99,7% wartości.
  • Znajomość średniej i odchylenia standardowego rozkładu pozwala na określenie granic kontrolnych i podejmowanie decyzji na podstawie tych danych.
  • Rozkład normalny znajduje zastosowanie w wielu dziedzinach, w tym w naukach przyrodniczych, takich jak fizyka i biologia, oraz w naukach społecznych, takich jak ekonomia i demografia. Jest również wykorzystywany w psychologii, procesach przemysłowych oraz w różnorodnych badaniach i analizie danych.

Jeśli chcesz dowiedzieć się więcej o programowaniu i kodowaniu, dołącz do naszego kanału na Telegramie. Czekamy na Ciebie!

Przeczytaj także:

  • Instalowanie bibliotek w Pythonie: Przewodnik krok po kroku dla początkujących

    Python to potężny język programowania, który oferuje wiele bibliotek do szerokiej gamy zadań. Jeśli jesteś początkującym i chcesz nauczyć się, jak zainstalować te biblioteki, skorzystaj z naszego prostego przewodnika.

    1. **Upewnij się, że Python jest zainstalowany**: Przede wszystkim sprawdź, czy na komputerze jest zainstalowana najnowsza wersja Pythona. Możesz to zrobić, otwierając terminal lub wiersz poleceń i wpisując polecenie `python —wersja` lub `python3 —wersja`. Jeśli Python nie jest jeszcze zainstalowany, pobierz go z oficjalnej strony i zainstaluj.

    2. **Użyj menedżera pakietów pip**: Większość bibliotek Pythona instaluje się za pomocą pip, standardowego menedżera pakietów. Zazwyczaj jest on instalowany automatycznie podczas instalacji Pythona. Aby sprawdzić, czy biblioteka jest zainstalowana, wpisz w terminalu `pip —wersja` lub `pip3 —wersja`.

    3. **Instalowanie biblioteki**: Aby zainstalować potrzebną bibliotekę, użyj polecenia `pip install libname` (na przykład `pip install numpy`). Jeśli używasz Pythona 3, może być konieczne zastąpienie `pip` poleceniem `pip3`.

    4. **Sprawdzanie, czy instalacja zakończyła się pomyślnie**: Po instalacji możesz sprawdzić, czy biblioteka została dodana, uruchamiając Pythona i próbując ją zaimportować za pomocą polecenia `import libname`. Jeśli nie wystąpią żadne błędy, instalacja zakończyła się pomyślnie.

    5. **Aktualizowanie i usuwanie bibliotek**: Jeśli musisz zaktualizować bibliotekę do najnowszej wersji, użyj polecenia `pip install —upgrade libname`. Aby usunąć bibliotekę, uruchom polecenie `pip uninstall libname`.

    6. **Praca ze środowiskami wirtualnymi**: Zaleca się korzystanie ze środowisk wirtualnych do zarządzania zależnościami projektu. Pozwala to na tworzenie odizolowanych przestrzeni dla różnych projektów, unikając konfliktów między bibliotekami. Aby utworzyć środowisko wirtualne, uruchom polecenie `python -m venv environment_name`, a następnie je aktywuj.

    Wykonując te proste kroki, możesz łatwo zainstalować i zarządzać bibliotekami w Pythonie, co znacznie uprości Twoją pracę i rozszerzy Twoje możliwości programistyczne.

  • Moduł random w Pythonie oferuje różnorodne funkcje do generowania liczb losowych i wykonywania operacji na nich. To narzędzie pozwala programistom łatwo uzyskiwać wartości losowe, które mogą być przydatne w różnych dziedzinach, takich jak gry, próbkowanie statystyczne i symulacje.

    Do głównych możliwości modułu należy generowanie losowych liczb zmiennoprzecinkowych z zakresu od 0 do 1, a także liczb całkowitych w określonych granicach. Na przykład funkcja random.random() zwraca liczbę zmiennoprzecinkową z określonego zakresu, podczas gdy random.randint(a, b) generuje losową liczbę całkowitą z zakresu od a do b, wliczając oba końce.

    Co więcej, moduł oferuje funkcje losowego wybierania elementów z sekwencji. Za pomocą random.choice() można wybrać pojedynczy element z listy, a random.sample() pozwala wybrać wiele unikalnych elementów z danego zestawu. Dostępna jest również funkcja random.shuffle(), która tasuje elementy na liście, co może być przydatne na przykład w grach lub do tworzenia losowych tablic.

    Należy pamiętać, że aby uzyskać powtarzalne wyniki, moduł random pozwala określić wartość początkową za pomocą random.seed(). Dzięki temu sekwencja liczb losowych będzie taka sama za każdym razem, gdy program zostanie uruchomiony z danym ziarnem.

    Moduł random jest zatem potężnym i wygodnym narzędziem do pracy z liczbami losowymi i próbkami w Pythonie, co czyni go niezbędnym w wielu aplikacjach i projektach.

  • Podstawy Pandas: kluczowe koncepcje i zastosowania z przykładami danych ze świata rzeczywistego

Jak zostać analitykiem danych: Wprowadzenie

Zdobądź umiejętności analizy danych, korzystając z platform analitycznych i narzędzi Business Intelligence, a także naucz się języków Python i SQL. Dzięki temu staniesz się kluczowym specjalistą, który będzie mógł wspierać firmę w podejmowaniu decyzji opartych na danych.

Dowiedz się więcej