
Darmowy kurs Pythona ➞ Mini kurs dla początkujących i doświadczonych programistów. 4 ciekawe projekty w portfolio, komunikacja na żywo z prelegentem. Kliknij i dowiedz się, czego możesz się nauczyć na kursie.
Dowiedz się więcejKiedy sprawy są niejasne, analityk danych ucieka się do wizualizacji danych. Ten proces znacznie upraszcza identyfikację spostrzeżeń i pomaga formułować hipotezy do dalszych testów. Wizualizacja danych jest niezbędnym narzędziem w analityce, umożliwiającym lepsze zrozumienie struktury i relacji w danych, co z kolei ułatwia podejmowanie bardziej świadomych decyzji.
Chmura słów to skuteczne narzędzie do wizualizacji danych tekstowych, łączące analizę eksploracyjną, infografikę i projektowanie danych. Ta metoda umożliwia szybki przegląd obszernych, luźno ustrukturyzowanych tekstów, w tym literatury pięknej, materiałów naukowych i informacyjnych. Chmura słów pomaga wyróżnić kluczowe terminy i idee, dzięki czemu stanowi cenne narzędzie do analizy danych i wyszukiwania informacji.

Chmura słów to potężne narzędzie, które pomaga wizualizować dane i prezentować informacje w kompaktowym i przejrzystym formacie. Kluczowe powody korzystania z chmury słów to jej zdolność do szybkiego przekazywania kluczowych idei i tematów, lepszego zrozumienia informacji oraz uproszczenia analizy tekstu. Ponadto chmury słów pomagają zidentyfikować najczęściej używane terminy, co może być przydatne w SEO i marketingu treści. Korzystanie z chmur słów pomaga również zwiększyć zaangażowanie odbiorców, umożliwiając im szybszą nawigację po treściach i identyfikację ważnych aspektów. Dlatego chmury słów są skutecznym narzędziem zarówno do analizy danych, jak i wizualizacji informacji, co czyni je przydatnymi w wielu dziedzinach, od edukacji po biznes.
- Po pierwsze, jest piękna — udana wizualizacja wzbogaca portfolio.
- Po drugie, chmura słów pokazuje najpopularniejsze słowa w tekście, co jest przydatne do jego szybkiej oceny. Na przykład, w przypadku wypracowania szkolnego lub tekstu konwersacyjnego mogą to być słowa-wypełniacze (warto się ich pozbyć), podczas gdy w przypadku tekstów naukowych lub informacyjnych mogą to być słowa bardziej istotne dla treści.
- Po trzecie, stworzenie takiej wizualizacji wcale nie jest trudne — i przekonasz się sam.
W naszej pracy będziemy korzystać z Google Colab, który umożliwia pisanie kodu bezpośrednio w przeglądarce. Kod zostanie napisany w Pythonie, a dane tekstowe pobierzemy z Wikipedii. W razie jakichkolwiek trudności zawsze możesz zajrzeć do naszego notatnika; Wszystkie niezbędne linki znajdują się na końcu artykułu.
Rozpoczęcie pracy
Aby rozpocząć korzystanie z Google Colab, wystarczy zalogować się na konto Gmail i otworzyć Notatnik powitalny w przeglądarce. Zaleca się również przeczytanie kilku artykułów, które pomogą Ci lepiej zrozumieć możliwości Colab i poznać podstawy języka Python niezbędne dla naukowców zajmujących się danymi.

Po uruchomieniu Google Colab musisz zainstalować bibliotekę do pracy z Wikipedią, a także bibliotekę słów kluczowych, która zawiera listy słów kluczowych dla tekstu Analiza w różnych językach. Zainstalowanie tych bibliotek pozwoli Ci efektywnie przetwarzać i analizować dane tekstowe, wykorzystując zasoby Wikipedii i filtrując nieistotne słowa.
Uruchom każde polecenie w osobnej komórce kodu. Takie podejście ułatwia śledzenie wyników wykonania i pozwala szybko identyfikować ewentualne błędy.
Prosta chmura słów
Oczywiście podaj tekst wejściowy do przetworzenia.
W tym projekcie zaimportowaliśmy nowo zainstalowaną bibliotekę Wikipedii oraz bibliotekę re do pracy z wyrażeniami regularnymi. Następnie określiliśmy język Wikipedii i zapisaliśmy nazwę interesującej nas strony w zmiennej wiki. Możesz użyć dowolnej innej wybranej strony do dalszej pracy.

Treść tekstowa strony została umieszczona w zmiennej tekstowej. Następnie, za pomocą wyrażeń regularnych, usunęliśmy zbędne znaki, takie jak znaki interpunkcyjne, podziały akapitów i dodatkowe separatory. Ten proces pozwala nam zoptymalizować tekst pod kątem dalszego przetwarzania i poprawia jego czytelność. Wyrażenia regularne to skuteczne narzędzie do czyszczenia danych, co jest szczególnie ważne w kontekście SEO. Czysty tekst poprawia zrozumienie tekstu przez użytkownika i wyszukiwarkę, co z kolei może pozytywnie wpłynąć na pozycję strony w wynikach wyszukiwania.
Teraz potrzebujemy biblioteki i funkcji do wizualizacji tekstu. Zaimportujemy bibliotekę i sami utworzymy funkcję, ponieważ przyda się później.
Polecenie %matplotlib inline wyświetla wykresy bezpośrednio w notatniku Google Colab. Pozwala to na wygodną wizualizację danych i wyników analiz bez konieczności otwierania osobnych okien wykresów, co znacznie upraszcza pracę z interaktywnymi wizualizacjami. Korzystanie z tego polecenia sprawia, że praca z biblioteką Matplotlib jest bardziej wydajna i wizualna, ponieważ wykresy pojawiają się w tym samym dokumencie co kod, zapewniając łatwy dostęp do wyników analizy.
Funkcja plot_cloud wizualizuje chmurę słów. Przyjmuje chmurę słów jako parametr, ustawia rozmiar obrazu w calach i wyświetla go na ekranie. Metoda osi z argumentem „off” wyłącza wyświetlanie etykiet osi, pozwalając skupić się na samej chmurze słów bez rozpraszania się dodatkowymi elementami.
Już prawie skończyłeś, właśnie kończysz ostatnie przygotowania.
Aby dodać własne słowa kluczowe do zmiennej STOPWORDS_RU, użyj metody .add("new stop word"). Ta metoda pozwala skutecznie rozszerzyć listę słów kluczowych, co pomaga usprawnić przetwarzanie tekstu i poprawić jakość analizy danych. Upewnij się, że dodajesz tylko te słowa, które są naprawdę nieistotne dla Twojego zadania, aby zoptymalizować wyniki.
Parametr random_state=1 zapewnia powtarzalność wyników. Jeśli ten parametr nie zostanie ustawiony, chmura słów będzie inna przy każdym uruchomieniu funkcji, co może utrudniać analizę i porównywanie wyników. Ustawienie stałej wartości parametru random_state umożliwia uzyskanie spójnych wizualizacji w wielu przebiegach kodu, co jest szczególnie przydatne w badaniach naukowych i prezentacjach.
Parametr collocations kontroluje, czy w ostatecznej wizualizacji zostaną uwzględnione dwuwyrazowe kombinacje, znane jako bigram. W obecnych ustawieniach ten parametr jest wyłączony, co oznacza, że frazy dwuwyrazowe nie będą wyświetlane w chmurze słów. Aby uzyskać bardziej zróżnicowaną i informacyjną chmurę słów, zaleca się włączenie obsługi bigramów.

Zapisz utworzony obraz do pliku. Umożliwi to zapisanie wyników pracy i wykorzystanie ich w przyszłości. Prawidłowe zapisanie obrazów jest ważne dla zapewnienia ich jakości i dostępności. Wybierz odpowiedni format pliku, który spełnia Twoje wymagania, np. JPEG, PNG lub inny. Następnie określ nazwę pliku i lokalizację zapisu. Upewnij się, że zapisujesz obraz w żądanej rozdzielczości, aby zachować wszystkie szczegóły i był gotowy do użycia.
Plik znajdziesz w menu Pliki po lewej stronie i możesz go pobrać.
Złożona chmura słów
Aby utworzyć złożoną chmurę słów inną niż prosta prostokątna, musisz użyć obrazu. Najlepiej czarno-biały obraz o wysokim kontraście i minimalnej liczbie drobnych szczegółów. Zapewni to przejrzystość i wyrazistość kształtu chmury, co jest szczególnie ważne dla percepcji wizualnej.
Pobrałem obraz o nazwie upvote.png. Możesz zrobić to samo. Po pobraniu po prostu przeciągnij go na listę plików i folderów znajdującą się po lewej stronie w edytorze tekstu.
Zaimportowaliśmy bibliotekę NumPy i funkcję Image z biblioteki PIL (Python Imaging Library). Za pomocą tych narzędzi wczytujemy obraz z pliku i konwertujemy go na maskę (zmienną mask), która zostanie użyta do utworzenia chmury słów. To podejście pozwala na efektywną wizualizację informacji tekstowych za pomocą elementów graficznych.
Należy pamiętać, że parametr maski jest teraz dostępny w funkcji WordCloud(). Ten parametr pozwala określić kształt chmury słów, znacznie rozszerzając możliwości wizualizacji tekstu. Użycie maski pomaga stworzyć unikalny i atrakcyjny projekt chmury słów, który lepiej oddaje istotę prezentowanych informacji. Dostosowywanie maski w WordCloud() to ważny krok w kierunku zwiększenia wartości estetycznej i zawartości informacyjnej wykresów.
Oto wynik naszego najnowszego projektu:


