DeepSeek: Czym jest ta sieć neuronowa i jak ją wykorzystać w Rosji

Spis treści:

Czym jest DeepSeek
Dlaczego wszyscy mówią o DeepSeek
Wyciek danych: co wiadomo
Co potrafi DeepSeek-R1
Jak korzystać z DeepSeek
Jakie inne sieci neuronowe ma DeepSeek?
Najważniejsze

Ucz się za darmo: „Sieci neuronowe. Kurs praktyczny”

Czym jest DeepSeek

DeepSeek to potężny model językowy typu open source stworzony przez chińską firmę o tej samej nazwie przy wsparciu funduszu hedgingowego High-Flyer. Ta sieć neuronowa osiąga wysokie wyniki w różnych zadaniach, porównywalne z możliwościami GPT-01 firmy OpenAI, a w niektórych testach nawet je przewyższa. Dzięki wydajności i wsparciu społeczności DeepSeek staje się coraz popularniejszym narzędziem do rozwiązywania problemów z przetwarzaniem języka naturalnego.

W styczniu 2025 roku startup zaprezentował model językowy DeepSeek-R1, który szybko przyciągnął uwagę programistów i użytkowników. Ta chińska sieć neuronowa wyróżnia się przystępną ceną, otwartym kodem źródłowym i wydajnością porównywalną z odpowiednikami o zamkniętym kodzie źródłowym. Co więcej, model językowy jest dostępny w Rosji bez ograniczeń, co czyni go atrakcyjnym wyborem dla krajowych programistów i badaczy w dziedzinie sztucznej inteligencji.

Wspomnieliśmy o DeepSeek na początku 2024 roku w artykule poświęconym darmowym alternatywom dla ChatGPT. Jeśli jesteś zainteresowany pełną listą alternatyw, zalecamy zapoznanie się z tym artykułem, aby dowiedzieć się o potencjalnych konkurentach znanego chatbota.

Dlaczego wszyscy mówią o DeepSeek?

DeepSeek rozpoczął badania nad uczeniem maszynowym w 2019 roku, ale opinia publiczna dowiedziała się o firmie dopiero sześć lat później. Przyczyny opóźnionego zainteresowania DeepSeek mogą wynikać z kilku czynników, w tym z otoczenia konkurencyjnego, potrzeby dalszych badań i rozwoju oraz stopniowego gromadzenia wyników, które pozwoliły firmie udowodnić znaczenie swojej pracy. Czynniki te wpływają na to, jak i kiedy technologie uczenia maszynowego stają się znane opinii publicznej.

Do 2025 roku DeepSeek był znany jedynie badaczom i entuzjastom, podczas gdy wśród chińskich modeli językowych jedynie Qwen Alibaby budził obawy wśród konkurentów. Niewielu spodziewało się klonu ChatGPT od stosunkowo nieznanego startupu. Ta sytuacja uwypukla nieoczekiwane zwroty akcji w technologii i sztucznej inteligencji, gdzie nowi gracze mogą szybko zmienić krajobraz rynkowy.

Wszystkie produkty DeepSeek są częścią projektu pobocznego funduszu hedgingowego High-Flyer. Założony w 2015 roku przez absolwentów Uniwersytetu Zhejiang, fundusz historycznie stosował algorytmy uczenia maszynowego do dogłębnej analizy rynku akcji. W 2019 roku rozwój sieci neuronowych został wydzielony do osobnego działu, który później stał się spółką zależną High-Flyer AI. W połowie 2023 roku firma zmieniła nazwę na DeepSeek i ogłosiła, że pracuje nad rozwojem sztucznej inteligencji ogólnej (AGI). W grudniu 2024 roku firma wprowadziła model językowy DeepSeek-V3, który konkurował z GPT-4o i Llama 3.1. W kolejnym miesiącu ogłoszono nowy produkt: sieć neuronową DeepSeek-R1. W ciągu zaledwie półtora roku chińscy inżynierowie opracowali model, który może konkurować z rozwiązaniami OpenAI, choć firma początkowo specjalizowała się w tworzeniu rozwiązań AI do handlu akcjami.

Czytaj także:

Szybki tygrys i mądry smok: projekty Perspektywy Chin dla generatywnej sztucznej inteligencji

Chiny aktywnie uczestniczą w wyścigu generatywnej sztucznej inteligencji, łącząc tempo i innowacyjność. Kraj prezentuje ambitne podejście, rozwijając najnowocześniejsze technologie, które mają potencjał transformacji wielu branż. Generatywna sztuczna inteligencja otwiera nowe horyzonty w kreatywności, nauce i biznesie, a chińskie firmy dążą do zajęcia wiodącej pozycji na tym rynku.

Chińskie startupy i duże korporacje technologiczne inwestują znaczne środki w badania i rozwój, których celem jest tworzenie wydajnych algorytmów generatywnej sztucznej inteligencji. Technologie te znajdują zastosowanie w różnych dziedzinach, od zautomatyzowanego tworzenia treści po tworzenie unikatowych dzieł sztuki. Strategia Chin koncentruje się na aktywnej integracji sztucznej inteligencji z życiem codziennym, co przyczyni się do wzrostu konkurencyjności na arenie międzynarodowej.

Perspektywy rozwoju generatywnej sztucznej inteligencji w Chinach wyglądają obiecująco. Biorąc pod uwagę rosnące zainteresowanie sztuczną inteligencją i ciągły rozwój infrastruktury, Chiny mają potencjał, aby stać się wiodącym ośrodkiem rozwoju i wdrażania innowacyjnych rozwiązań w tej dziedzinie. Inwestycje w edukację i szkolenia są również kluczowe dla kształtowania przyszłości generatywnej sztucznej inteligencji w tym kraju.

Chiny, niczym szybki tygrys, są gotowe do działania, podczas gdy mądry smok wykorzystuje swoją wiedzę i doświadczenie, aby osiągnąć swoje cele. W rezultacie projekty związane z generatywną sztuczną inteligencją mogą prowadzić do znaczących zmian w gospodarce i społeczeństwie, podkreślając znaczenie tej technologii we współczesnym świecie.

Szkolenie modelu DeepSeek-V3 kosztowało 5,5 miliona dolarów, podczas gdy opracowanie jego bezpośredniego konkurenta, GPT-4, pochłonęło ponad 100 milionów dolarów. Ciekawostka: prezes OpenAI, Sam Altman, kupił w 2024 roku rzadki samochód sportowy Koenigsegg Regera, również wart około 5 milionów dolarów.

Należy zauważyć, że sankcje eksportowe USA znacznie ograniczyły możliwości chińskich deweloperów w zakresie zakupu nowoczesnych kart graficznych od firm NVIDIA i AMD. W rezultacie do szkolenia systemu DeepSeek wykorzystano jedynie ograniczone zasoby procesorów graficznych H100 i A100 firmy NVIDIA. Te ograniczenia miały znaczący wpływ na rozwój technologii w regionie, ponieważ dostęp do nowoczesnego sprzętu jest kluczowy dla szkolenia i doskonalenia sztucznej inteligencji.

Sukces DeepSeek doprowadził do znacznego spadku wartości amerykańskich akcji technologicznych, a szczególnie mocno ucierpiała firma NVIDIA, tracąc ponad 600 miliardów dolarów kapitalizacji rynkowej. Premiera R1 miała wpływ na wszystkie firmy rozwijające usługi AI i sieci neuronowe. Inwestorzy zaczęli się zastanawiać: skoro chińscy inżynierowie potrafią tworzyć światowej klasy AI przy ograniczonych zasobach, to dlaczego amerykańskie firmy nie mogą osiągnąć podobnych rezultatów? To podkreśla potrzebę ponownego przemyślenia strategii i inwestycji w AI, aby utrzymać konkurencyjność na arenie międzynarodowej.

DeepSeek-R1 to ekonomiczne rozwiązanie dla deweloperów. Wydobycie miliona tokenów za pomocą modelu GPT-O1 kosztuje 60 dolarów, podczas gdy z R1 to tylko 2,19 dolara. Dlatego przejście na sieć neuronową opracowaną przez chińskich inżynierów pozwala obniżyć koszty ponad 27-krotnie. Zwykli użytkownicy również odnoszą znaczące korzyści, ponieważ wszystkie funkcje sieci neuronowych są dostępne bezpłatnie.

Przeczytaj również:

API, czyli interfejs programowania aplikacji, to zestaw reguł i protokołów, które umożliwiają różnym aplikacjom wzajemne oddziaływanie na siebie. Definiuje sposób, w jaki żądania i odpowiedzi powinny być formułowane i przesyłane między klientem a serwerem. API służy jako łącznik między różnymi systemami, umożliwiając im wymianę danych i funkcji.

API działają w oparciu o zasady korzystania ze standardowych metod, takich jak GET, POST, PUT i DELETE, które służą do wykonywania operacji na zasobach. Gdy klient wysyła żądanie do API, otrzymuje odpowiedź w ustrukturyzowanym formacie, najczęściej w formacie JSON lub XML. Pozwala to programistom na integrację usług zewnętrznych i poprawę funkcjonalności swoich aplikacji.

API odgrywają kluczową rolę we współczesnym programowaniu, umożliwiając tworzenie złożonych systemów, które mogą ze sobą współdziałać. Dzięki API programiści mogą korzystać z gotowych rozwiązań, oszczędzając czas i zasoby, a także zapewniając większą elastyczność i innowacyjność w swoich projektach.

Chociaż w nazwie DeepSeek nie ma słowa „otwarty”, nie uniemożliwia to firmie publikowania swoich rozwiązań w domenie publicznej. Wszystkie sieci neuronowe DeepSeek są dostępne do pobrania i można je uruchomić na własnym sprzęcie. Jednak uruchomienie DeepSeek-R1 na standardowym MacBooku jest niemożliwe, ponieważ zawiera on 671 miliardów parametrów i do poprawnego działania wymaga co najmniej 720 GB pamięci wideo. Jeśli prowadzisz firmę informatyczną z własnym lub dzierżawionym centrum danych, możesz wdrożyć DeepSeek już dziś.

Aby poprawić widoczność w wyszukiwarkach, ważne jest tworzenie wysokiej jakości treści, które odpowiadają na zapytania użytkowników. Upewnij się, że Twój tekst jest unikatowy i zawiera słowa kluczowe związane z tematem. Używaj nagłówków i podtytułów, aby uporządkować informacje i ułatwić ich czytanie. Rozważ użycie meta tagów i opisów, aby zwrócić uwagę na swoją treść. Nie zapominaj o znaczeniu linków wewnętrznych i zewnętrznych, które mogą zwiększyć autorytet Twojej witryny. Regularna aktualizacja treści pomaga również zachować jej trafność i poprawić pozycję w wyszukiwarkach. Przeczytaj również:

Kompletny przewodnik po otwartych modelach językowych

Otwarte modele językowe zyskują na popularności w dziedzinie przetwarzania języka naturalnego i uczenia maszynowego. Oferują one przystępne narzędzia do tworzenia aplikacji opartych na sztucznej inteligencji. W tym przewodniku omówimy główne aspekty otwartych modeli językowych, ich zalety i potencjalne zastosowania.

Otwarte modele językowe to rozwiązania programistyczne, które pozwalają programistom używać i modyfikować algorytmy przetwarzania tekstu. Zapewniają elastyczność i adaptowalność, dzięki czemu idealnie nadają się do różnych zadań, takich jak tworzenie chatbotów, automatyczne tłumaczenie, analiza sentymentu i generowanie tekstu.

Jedną z głównych zalet otwartych modeli językowych jest bezpłatna dostępność kodu źródłowego. Umożliwia to badaczom i programistom wprowadzanie modyfikacji i ulepszeń, przyczyniając się do szybkiego rozwoju technologii. Społeczność aktywnych użytkowników i programistów zapewnia również wsparcie, dzieląc się wiedzą i doświadczeniem.

Obecnie istnieje kilka znanych modeli językowych typu open source, takich jak GPT, BERT i T5, z których każdy charakteryzuje się unikalnymi cechami i możliwościami. Wybór odpowiedniego modelu zależy od konkretnych zadań i wymagań projektu.

Korzystanie z modeli językowych typu open source nie tylko umożliwia optymalizację wydajności, ale także oszczędza zasoby. Organizacje mogą znacznie obniżyć koszty rozwoju, korzystając z gotowych rozwiązań i dostosowując je do swoich potrzeb.

Podsumowując, modele językowe typu open source są potężnym narzędziem dla programistów i badaczy w dziedzinie sztucznej inteligencji. Oferują one unikalne możliwości tworzenia innowacyjnych aplikacji i wydajnego przetwarzania języka naturalnego.

21 stycznia 2025 roku Donald Trump ogłosił powstanie Stargate, firmy, w którą konsorcjum największych amerykańskich firm technologicznych zainwestuje rekordową kwotę 500 miliardów dolarów w ciągu dziesięciu lat. Ten ambitny projekt ma na celu uczynienie ze Stanów Zjednoczonych lidera w dziedzinie uczenia maszynowego poprzez stworzenie kosztownej infrastruktury do rozwoju sztucznej inteligencji. Analitycy nazwali już Stargate Projektem Manhattan XXI wieku, podkreślając jego znaczenie i skalę.

Od lewej do prawej: Donald Trump (prezydent USA), Larry Ellison (dyrektor ds. technologii Oracle), Masayoshi Son (CEO Softbank) i Sam Altman (CEO OpenAI) Zdjęcia: Biały Dom / YouTube

Dzień przed ogłoszeniem DeepSeek zaprezentował R1, studząc radość amerykańskich technokratów z wejścia w „nową erę sztucznej inteligencji”. Rosnąca popularność chińskiej sieci neuronowej skłoniła ekspertów do spekulacji, że Stany Zjednoczone przystąpiły do wyścigu, nie doceniając możliwości rywala.

OpenAI spotkało się z obawami. W swoim planie rozwoju gospodarczego analitycy firmy zauważyli, że nieprzestrzeganie kontroli eksportu może pozwolić Chinom na stworzenie bardziej zaawansowanych sieci neuronowych i zajęcie wiodącej pozycji. Rzeczywistość potwierdziła te obawy: ograniczenia OpenAI i zamknięty kod źródłowy nie zapobiegły pojawieniu się chińskich „Transformerów”. To wydarzenie podkreśla wagę nadzoru technologicznego i konieczność uwzględnienia globalnej konkurencji w dziedzinie sztucznej inteligencji.

29 stycznia 2025 roku, zaledwie dziewięć dni po premierze DeepSeek-R1, Microsoft i OpenAI wszczęły dochodzenie w celu ustalenia, jakich danych chińscy inżynierowie użyli do trenowania sieci neuronowej. Amerykańskie firmy podejrzewają, że DeepSeek wykorzystał wnioskowanie ChatGPT podczas procesu trenowania, co pozwoliło mu pomyślnie odtworzyć mechanizm wnioskowania. To dochodzenie podkreśla wagę przejrzystości w rozwoju sztucznej inteligencji i rodzi pytania o przestrzeganie praw autorskich oraz standardy etyczne w dziedzinie technologii.

Istnieją powody, by sądzić, że model językowy czasami identyfikuje się jako YandexGPT. Może to wskazywać, że rosyjskojęzyczny zbiór danych treningowych został utworzony przy użyciu danych z Yandex, a dane te nie zostały odpowiednio przetworzone przed trenowaniem. Takie podejście do tworzenia zbioru danych może wpływać na jakość i dokładność odpowiedzi modelu, co jest ważne podczas korzystania z niego w różnych aplikacjach.

Zrzut ekranu: DeepSeek / Skillbox Media

Wyciek danych: co wiadomo

W styczniu 29 stycznia 2023 roku badacze z Wiz Research poinformowali o ujawnieniu danych użytkowników DeepSeek. Analiza wykazała, że ponad milion wierszy bazy danych ClickHouse było niezabezpieczonych. To odkrycie podkreśla wagę ochrony danych osobowych i potrzebę poprawy bezpieczeństwa przechowywania i przetwarzania informacji.

Wyciek ujawnił klucze tajne, logi, informacje o infrastrukturze serwera i korespondencję użytkowników. Badacze nie są jeszcze w stanie określić, jakie dodatkowe informacje mogą być zagrożone.

Baza danych chińskiej sieci neuronowej DeepSeek wyciekła do sieci. Wyciek ten budzi poważne obawy dotyczące bezpieczeństwa danych i prywatności. Eksperci zauważają, że informacje zawarte w bazie danych mogą zostać wykorzystane do przeprowadzania różnego rodzaju cyberataków i manipulacji. Wyciek danych podkreśla wagę ochrony informacji i potrzebę poprawy cyberbezpieczeństwa zarówno dla osób fizycznych, jak i organizacji. Ważne jest, aby być na bieżąco z wiadomościami i aktualizacjami w tym obszarze, aby szybko reagować na potencjalne zagrożenia.

Co potrafi DeepSeek-R1

DeepSeek-R1 to zaawansowany model językowy podobny do ChatGPT, YandexGPT i GigaChat. Umożliwia on użytkownikom prowadzenie rozmów, generowanie tekstów w różnych formatach, otrzymywanie porad, wyszukiwanie informacji w internecie i pisanie kodu. DeepSeek obsługuje wiele języków, w tym rosyjski, angielski, chiński i inne. Ten model otwiera nowe horyzonty dla komunikacji i kreatywności, ułatwiając dostęp do informacji i automatyzując procesy pisania.

Zobacz także:

ChatGPT to potężna sieć neuronowa przeznaczona do przetwarzania i generowania tekstu. Opiera się na architekturze transformatorowej, co pozwala mu skutecznie analizować kontekst i tworzyć sensowne odpowiedzi. Wyszkolony na ogromnych ilościach danych tekstowych, ChatGPT może wspierać konwersacje, odpowiadać na pytania, generować pomysły, a nawet pisać artykuły.

Główne możliwości ChatGPT obejmują generowanie tekstów na różnorodne tematy, od artykułów naukowych po beletrystykę. Ta sieć neuronowa może być wykorzystywana w edukacji do wspomagania nauki uczniów, w biznesie do automatyzacji obsługi klienta oraz w branżach kreatywnych do generowania pomysłów i tworzenia treści.

Sytuacje zastosowania ChatGPT obejmują chatboty, które mogą angażować się w dialog z użytkownikami, po narzędzia programistyczne i generowanie materiałów marketingowych. Sieć neuronowa jest również wykorzystywana w badaniach, gdzie pomaga analizować i podsumowywać informacje.

Dlatego ChatGPT to wszechstronne narzędzie, które może znacznie uprościć wiele procesów związanych z przetwarzaniem tekstu i interakcją z użytkownikiem.

Główną zaletą R1 w porównaniu z innymi modelami językowymi typu open source jest jego zdolność do rozumowania, podobna do GPT-01. Przed wygenerowaniem odpowiedzi sieć neuronowa poświęca czas na analizę żądania, werbalizację myśli i stworzenie wstępnego planu reakcji. Pozwala to na dokładniejszą i głębszą interpretację żądań użytkowników, zapewniając wyższą jakość i bardziej znaczące odpowiedzi.

Przetestowaliśmy DeepSeek, używając go do stworzenia bota dla Telegrama. W trakcie tego procesu model językowy odkrył, że większość podobnych projektów jest implementowana w Pythonie. Ustrukturyzowała odpowiedź, dzieląc ją na główne składniki, i postanowiła nie wchodzić w szczegóły, ponieważ prośba była dość ogólna.

Zrzut ekranu: DeepSeek / Skillbox Media

Funkcja „Reasoning” to ważne narzędzie do debugowania zapytań, zwłaszcza gdy sieć neuronowa generuje nieistotne odpowiedzi. Na przykład, jeśli zażądano kodu funkcji w JavaScript, ale otrzymano wynik w Javie, funkcja ta może zostać użyta do analizy, w którym momencie model języka popełnił błąd. Pozwala to nie tylko zidentyfikować problem, ale także usprawnić interakcję z siecią neuronową, zapewniając dokładniejsze i trafniejsze zapytania. Korzystanie z funkcji „Reasoning” pomaga poprawić jakość generowanych treści i usprawnia pracę z siecią neuronową.

Oprócz zapytań tekstowych DeepSeek oferuje inne przydatne funkcje. Platforma oferuje zaawansowane możliwości użytkownika, w tym wyszukiwanie według obrazów, plików audio i filmów. Pozwala to na sprawniejsze i szybsze znalezienie potrzebnych informacji. Te funkcje sprawiają, że DeepSeek jest uniwersalnym narzędziem do pracy z różnymi typami treści, znacznie upraszczając proces wyszukiwania i analizowania danych.

Wyszukiwanie. DeepSeek posiada wbudowaną funkcję wyszukiwania informacji w internecie. Dzięki temu sieć neuronowa nie jest powiązana ze zbiorem danych, który z czasem może się zdezaktualizować. Jeśli potrzebujesz dowiedzieć się czegoś o najnowszych wydarzeniach, możesz poprosić DeepSeek o wyszukanie ich w Google.
Praca z plikami. Sieć neuronowa rozpoznaje tekst w obrazach i dokumentach. Możesz na przykład wysłać jej wersję PDF tego artykułu i poprosić o jego streszczenie.

Możesz na przykład poprosić ją o streszczenie cennika. Zrzut ekranu: DeepSeek / Skillbox Media

Jak korzystać z DeepSeek

W momencie pisania tego tekstu platforma DeepSeek tymczasowo zawiesiła rejestrację użytkowników z powodu dużego ruchu i ataku DDoS. Jeśli napotkasz trudności podczas rejestracji, nie martw się – spróbuj ponownie później.

Nawiązanie komunikacji z DeepSeek jest szybkie i proste – wystarczy otworzyć aplikację internetową. Ten prosty krok umożliwia dostęp do funkcji platformy i rozpoczęcie interakcji.

Krok 1: Wejdź na oficjalną stronę DeepSeek i zaloguj się za pomocą konta Google lub zarejestruj się za pomocą adresu e-mail. Tylko użytkownicy z Chin mogą się logować, używając numeru telefonu.

Zrzut ekranu: DeepSeek / Skillbox Media

Krok 2. Historia czatu jest przechowywana po lewej stronie ekranu, a zapytania można wpisywać w polu wprowadzania tekstu.

Interfejs chatbota DeepSeek. Wizualna ilustracja mema „tylko nie kopiuj dokładnie” :) Zrzut ekranu: DeepSeek / Skillbox Media

Dostęp do sieci neuronowej można uzyskać za pośrednictwem oficjalnej aplikacji mobilnej, dostępnej zarówno na Androida, jak i iOS (Google Play, App Store). W tym artykule omówimy proces instalacji aplikacji na iPhonie. Po pobraniu i zainstalowaniu aplikacji użytkownicy będą mogli korzystać ze wszystkich funkcji sieci neuronowych, co znacznie uprości pracę z danymi i zwiększy efektywność realizacji zadań.

Krok 1. Zainstaluj aplikację ze sklepu App Store i uruchom ją.

Zrzut ekranu: DeepSeek / Skillbox Media

Krok 2. Zaloguj się za pomocą konta Google lub Apple albo zarejestruj się przez e-mail.

Zrzut ekranu: DeepSeek / Skillbox Media

Krok 3. Interfejs aplikacji jest intuicyjny i przypomina ChatGPT. Możesz włączyć model R1 za pomocą przycisku Głębokie Myślenie.

Zrzut ekranu: DeepSeek / Skillbox Media

DeepSeek-R1 można uruchomić lokalnie za pomocą Ollama. Należy jednak pamiętać, że pełna praca z oryginalną siecią neuronową, z jej 671 miliardami parametrów, jest niemożliwa na laptopie lub komputerze domowym. Do lokalnego uruchomienia DeepSeek zaleca się korzystanie z modeli destylowanych, które lepiej nadają się do tego celu. Aby jednak uzyskać wysokiej jakości rezultaty, wymagana jest wydajna karta graficzna i wystarczająca ilość pamięci RAM.

Uruchomienie DeepSeek na komputerze za pomocą Ollama jest dość proste. Najpierw upewnij się, że masz zainstalowane wszystkie niezbędne komponenty. Pobierz i zainstaluj Ollama, postępując zgodnie z instrukcjami na oficjalnej stronie internetowej. Po zainstalowaniu otwórz terminal lub wiersz poleceń. Wprowadź polecenie, aby pobrać DeepSeek, który jest dostępny na platformie Ollama. Po zakończeniu pobierania możesz uruchomić DeepSeek za pomocą odpowiedniego polecenia. Upewnij się, że Twój komputer spełnia minimalne wymagania systemowe dla optymalnej wydajności. Wykonując te kroki, możesz pomyślnie uruchomić DeepSeek i korzystać z jego możliwości analizy danych.

Krok 1: Pobierz Ollamę z oficjalnej strony internetowej. Uruchom plik i postępuj zgodnie z instrukcjami instalatora.
Krok 2. Przejdź do strony DeepSeek w Ollamie.
Krok 3. Skopiuj polecenie uruchomienia dla odpowiedniej sieci neuronowej. Będziemy uruchamiać najmniejszą wersję DeepSeek z 1,5 miliarda parametrów — DeepSeek-R1-Distill-Qwen-1.5B. Wymaga to nieco ponad gigabajta wolnego miejsca na dysku.

Zrzut ekranu: Ollama / Skillbox Media

Krok 3. Wklej polecenie do terminala i uruchom je. Poczekaj na zakończenie ładowania modelu.
Krok 4. Wyślij żądanie do terminala, a sieć neuronowa wygeneruje odpowiedź.

Wybraliśmy najbardziej kompaktowy model, więc wnioskowanie jest niskiej jakości. Zrzut ekranu: macOS / Skillbox Media

Jakie inne sieci neuronowe oferuje DeepSeek?

DeepSeek rozwija nie tylko duże modele językowe, ale także inne typy sieci neuronowych. Nasz zespół koncentruje się na tworzeniu innowacyjnych rozwiązań w dziedzinie sztucznej inteligencji, co pozwala nam rozszerzać możliwości przetwarzania danych i poprawiać jakość interakcji użytkownika. Eksplorujemy różne obszary, w tym widzenie komputerowe, przetwarzanie języka naturalnego i uczenie przez wzmacnianie, aby oferować skuteczne narzędzia i technologie dla biznesu i badań naukowych.

DeepSeekCoder-V2 to model uczenia maszynowego do generowania kodu, porównywalny pod względem wydajności do GPT4-Turbo.
DeepSeek-Math to sieć neuronowa do rozwiązywania problemów matematycznych.
Janus-Pro to model uczenia maszynowego do rozpoznawania i generowania obrazów. W teście GenEval przewyższa DALL-E 3 firmy OpenAI i Stable Diffusion 3 Medium.

Najważniejsze

DeepSeek to sieć neuronowa opracowana przez chińską firmę o tej samej nazwie. W niektórych testach przewyższa GPT-4o firmy OpenAI.
Firmy technologiczne nie spodziewały się, że DeepSeek będzie pierwszą chińską siecią neuronową, która będzie rozumować.
Premiera modelu językowego R1 spowodowała spadek cen akcji firm IT, na czym szczególnie ucierpiała firma NVIDIA.
OpenAI i Microsoft uważają, że DeepSeek został wytrenowany z wykorzystaniem wnioskowania GPT.
Wszystkie sieci neuronowe DeepSeek są dostępne jako oprogramowanie typu open source, dzięki czemu programiści mogą je ulepszać, a użytkownicy mogą uruchamiać je lokalnie.
Interfejs API DeepSeek jest 27 razy tańszy niż interfejs API OpenAI, co sprawia, że chiński model językowy jest korzystny w zastosowaniach.

Sieci neuronowe. Kurs praktyczny

Dowiedz się więcej