Spis treści:

Bezpłatny kurs Pythona ➞ Intensywny program dla początkujących i profesjonalistów. Cztery ekscytujące projekty do Twojego portfolio i możliwość zadawania pytań ekspertowi. Dowiedz się więcej o treści kursu!
Dowiedz się więcejAnaliza danych w programie Excel
Na przykład weźmy tabelę z jednego z naszych webinariów. Zawiera tysiąc rzędów informacji edukacyjnych, które gromadzą dane na temat turystów i ich podróży:

- miesięczne zarobki (pensja);
- miasto rodzinne;
- wiek (wiek);
- życzenia dotyczące rodzaju wakacji.
- preferowany sposób podróżowania.
- liczba członków Rodzin;
- I ostatecznie miasto, które podróżnik postanowił odwiedzić.
Będziemy korzystać z bezpłatnej usługi Google Colab, która umożliwia pisanie i uruchamianie kodu przetwarzającego dane bezpośrednio w przeglądarce, bez konieczności instalowania dodatkowych aplikacji. Zapoznaj się z naszym artykułem, aby dowiedzieć się, jak zacząć.
Przekształcanie informacji: Konwersja słów na wartości liczbowe
Kolumna „Wynagrodzenie” jest wygodnym elementem dla uczenia maszynowego, ponieważ zawiera wyłącznie wartości liczbowe. Jednak nasza tabela zawiera również inne kolumny, które mogą sprawiać trudności algorytmom, takie jak nazwy miast, rodzaje wakacji, preferencje dotyczące transportu i miasto docelowe. Te dane to cechy kategoryczne.
Musimy przekształcić te cechy tekstowe w wartości liczbowe. Aby to zrobić, każda wartość cechy zostanie przeniesiona do osobnej kolumny, która następnie zostanie dodana do tabeli źródłowej.
Kolumna „city” reprezentuje 11 miast. Oznacza to, że do oryginalnej tabeli zostanie dodanych 11 nowych kolumn, każda nazwana na cześć odpowiadającego jej miasta. Na przykład, jeśli turysta pochodzi z Jarosławia, kolumna „city_Yaroslavl” będzie zawierać jedynkę, a pozostałe dziesięć kolumn, reprezentujących inne miasta, będzie zawierać zera.
Proces konwersji słów na wartości liczbowe jest znany jako kodowanie zmiennych kategorycznych. Metoda, którą zastosujemy, nazywa się kodowaniem „one-hot”. Istnieją inne, bardziej zaawansowane techniki transformacji kolumn nieliczbowych.
Podobnie potraktujemy kolumny „wakacje” i „transport”: jeśli na przykład jeden z turystów woli pociąg, nowo dodana kolumna „transport_preference_Train” będzie zawierać jedynkę, a pozostałe kolumny będą zawierać zera.
Biblioteka Pandas udostępnia funkcję get_dummies() do kodowania jednym dotknięciem.
Co się tu stało? Utworzyliśmy nową zmienną, trips_df_2, używając metody .get_dummies() biblioteki Pandas. W ten sposób przenieśliśmy dane z poprzedniej zmiennej trips_df, przekształcając wartości w kolumnach city, vacation_preference i transport_preference do osobnych kolumn.
W rezultacie utworzyliśmy tabelę zawierającą 24 kolumny. Teraz możemy uzyskać listę zawierającą tylko nazwy tych kolumn, używając atrybutu .columns:

Zauważono, że poprzednie kolumny, takie jak dochód, wiek i wielkość rodziny, pozostają niezmienione, natomiast zamiast zmiennych kategorialnych, teraz prezentowanych jest wiele nowych danych liczbowych.

