Przewodnik po dużych modelach językowych w kodowaniu / Skillbox Media

Spis treści:

Pochodzenie modeli Open Source: Gdzie i jak są tworzone
Ewolucja modeli oprogramowania Open Source
Mocne i słabe strony modeli otwartego języka
Różnorodność modeli otwartego języka: Co musisz wiedzieć
Klasyfikacja popularnych licencji Open Source
Jak znaleźć najlepszy LLM
Przegląd znanych modeli Open Source
Co jeszcze Przeczytaj

Bezpłatna edukacja: „Praktyczny kurs na temat Sieci neuronowe"

Jeszcze kilka lat temu uruchomienie nowego, otwartego programu nauczania LLM było postrzegane jako znaczące wydarzenie w świecie technologii informatycznych. Dziś jednak takie wieści nie są już zaskakujące. Co miesiąc publikowane są dziesiątki modeli językowych o otwartym kodzie źródłowym, a ich liczba sięga setek w ciągu roku.

Aby pomóc Ci odnaleźć się w tym bogactwie, przygotowaliśmy przewodnik po obecnych sieciach neuronowych o otwartym kodzie źródłowym.

Spis treści

Modele o otwartym kodzie źródłowym powstają we współpracy programistów, badaczy i entuzjastów, którzy dążą do tworzenia dostępnych i przejrzystych rozwiązań. Modele te są często opracowywane w społecznościach, w których uczestnicy dzielą się swoją wiedzą i doświadczeniem, co pozwala na ulepszanie i adaptację technologii.
Proces tworzenia modeli o otwartym kodzie źródłowym zazwyczaj rozpoczyna się od badań i analizy istniejących technologii. Programiści mogą następnie wykorzystać te osiągnięcia, aby stworzyć coś nowego, dodając własne pomysły i ulepszenia.
Co więcej, projekty open source są często wspierane przez różne fundacje i organizacje, które zapewniają finansowanie lub zasoby na rozwój. Takie inicjatywy pomagają przyspieszyć proces i zwiększyć możliwości uczestnictwa szerszego grona osób.
Dzięki wspólnym wysiłkom modele open source mogą szybko ewoluować i dostosowywać się do nowych wyzwań, co czyni je popularnymi w różnych dziedzinach, takich jak programowanie, sztuczna inteligencja i inne obszary technologii.
Jak ewoluują?
Jakie są ich mocne i słabe strony?
Istnieje kilka rodzajów modeli otwartego języka (LLM), z których każdy ma swoje własne cechy i obszary zastosowań. Po pierwsze, możemy wyróżnić modele przeznaczone do ogólnego użytku, które są zdolne do wykonywania różnorodnych zadań, takich jak generowanie tekstu, odpowiadanie na pytania i tłumaczenie. Należą do nich na przykład dobrze znane modele, takie jak GPT i BERT.
Po drugie, istnieją specjalistyczne modele LLM stworzone dla określonych dziedzin. Modele te są trenowane na specjalistycznych danych i mogą okazać się skuteczniejsze w wąskich dziedzinach, takich jak medycyna czy prawo.
Co więcej, otwarte modele językowe mogą różnić się rozmiarem i architekturą. Niektóre mają miliardy parametrów i wymagają znacznych zasobów obliczeniowych, podczas gdy inne, bardziej kompaktowe wersje, wymagają mniej mocy, dzięki czemu można je używać na urządzeniach o ograniczonych możliwościach.
Warto również zauważyć, że otwarte modele LLM często oferują możliwość ponownego trenowania, co pozwala użytkownikom dostosować je do swoich potrzeb i poprawić wydajność w określonych zadaniach. Co ważne, takie modele mogą udostępniać najnowocześniejsze technologie szerszemu gronu odbiorców, wspierając innowacje i badania.
Jakie rodzaje otwartych licencji są wykorzystywane do publikowania oprogramowania open source?
Aby wybrać najskuteczniejsze modele uczenia się języka (LLM), należy wziąć pod uwagę kilka kluczowych czynników. Po pierwsze, należy wziąć pod uwagę wydajność modelu w różnych zadaniach, takich jak generowanie tekstu, rozumienie kontekstu i analiza semantyczna. Rozmiar i architektura modelu są również istotne, ponieważ mogą wpływać na jakość wyników.
Ponadto warto ocenić dostępność modeli i łatwość ich użycia. Niektóre modele LLM mogą być bardzo wymagające obliczeniowo, co należy wziąć pod uwagę przy wyborze. Istotną kwestią jest również etyka: warto zbadać, jak modele radzą sobie z błędami i zapewniają bezpieczne interakcje użytkowników.
Warto również zapoznać się z recenzjami i badaniami, które dostarczają informacji o różnych modelach, ich zaletach i wadach. Wreszcie, ważne jest, aby być na bieżąco z najnowszymi aktualizacjami w rozwoju LLM, ponieważ technologia szybko się rozwija, a na rynku mogą pojawić się nowe, bardziej zaawansowane rozwiązania.
Jakie znane modele open source warto rozważyć?
Jakie zasoby mogą być interesujące do eksploracji modeli językowych open source i komercyjnych (zastrzeżonych)?

Pochodzenie modeli open source: gdzie i jak powstają

Istnieje ogromna liczba sieci neuronowych open source. Należy jednak zauważyć, że nie są to niezależne inicjatywy – większość z nich opiera się na kilku dużych modelach językowych, znanych jako modele bazowe.

Opracowanie i wyszkolenie takiego modelu wiąże się ze znacznymi kosztami finansowymi i dużą mocą obliczeniową. W związku z tym w tego typu projekty mogą angażować się tylko duże grupy badawcze i korporacje IT, takie jak Google, OpenAI i inne. Na przykład, wytrenowanie GPT-3 kosztowało jego twórców prawie 5 milionów dolarów.

Model bazowy to sztuczna sieć neuronowa trenowana na ogromnych ilościach danych, którą można dostosować do wykonywania różnorodnych zadań.

Po opracowaniu, nowy model może zostać udostępniony na licencji zastrzeżonej lub open-source. Dzięki licencji otwartej inne organizacje i indywidualni programiści mogą dostosowywać i ulepszać model do własnych potrzeb.

Praca z takimi modelami nie wymaga znacznych inwestycji finansowych ani dużej mocy obliczeniowej. Dlatego startupy często wybierają programy LLM oparte na otwartym kodzie źródłowym. Zmodyfikowane wersje tych modeli są powszechnie nazywane forkami, co pochodzi od angielskiego słowa „fork” (widelec).

Do znanych modeli bazowych, które stanowiły podstawę otwartych programów LLM, należą:

Model LLaMA, a także jego zaktualizowana wersja LLaMA 2, zostały stworzone we współpracy z firmą Microsoft.
BLOOM (wielojęzyczny model językowy typu open source opracowany przez projekt BigScience) został stworzony przy aktywnym udziale Hugging Face.
Kilka lat temu OpenAI wprowadziło model GPT-2, gdy organizacja skupiała się wyłącznie na tworzeniu rozwiązań programowych typu open source.
Falcon to najnowsza innowacja stworzona przez Technological Innovation Institute (TII) z siedzibą w Abu Zabi w Zjednoczonych Emiratach Arabskich.
Linia modeli T5 opracowana przez Google.

Współczesne modele LLM można postrzegać jako drzewo genealogiczne, pozwalające prześledzić ich rozwój i wzajemne powiązania.

Drzewo genealogiczne współczesnych programów LLM. Modele open source są reprezentowane przez wypełnione prostokąty, a zastrzeżone – przez puste. Źródło: LLMsPracticalGuide / GitHub Infografika: Maya Malgina dla Skillbox Media

Ten diagram koncentruje się na modelach zaznaczonych w wypełnionych prostokątach. Skoncentrujemy się na omawianych rozwiązaniach open source. Można również prześledzić główne modele i ich ewolucję do 2023 roku.

Etapy ewolucji modeli oprogramowania open source

Modele języka open source stoją przed tymi samymi wyzwaniami, co komercyjne sieci neuronowe: często ulegają halucynacjom, mają ograniczoną długość okna kontekstowego, muszą być w stanie przetwarzać informacje z różnych modalności itd. Pod tym względem ich kierunki ewolucyjne są podobne.

Zmniejszenie liczby halucynacji. Modele uczenia się języka są zdolne do generowania fałszywych informacji, które mogą wydawać się całkowicie wiarygodne. Te zniekształcenia nazywane są halucynacjami. Do tej pory nie udało się całkowicie wyeliminować takich błędów w odpowiedziach sieci neuronowych.

Zamknięty model GPT-4 jest uważany za lidera w dziedzinie zwalczania halucynacji, wykazując wskaźnik błędów na poziomie zaledwie 3% przypadków. Jednak otwarty model LLaMA 2 70B depcze mu po piętach, oferując dokładność porównywalną z szeroko reklamowanym, zastrzeżonym modelem Gemini firmy Google DeepMind.

Wydłużenie okna kontekstowego. Im większa objętość tekstu może przetworzyć model języka, tym lepiej radzi sobie z zadaniami i tym wyższej jakości odpowiedzi może udzielić. Wynika to z faktu, że model jest w stanie przetworzyć znacznie więcej informacji, co z kolei poprawia jego zdolności analityczne.

Najbardziej zaawansowane, zamknięte wersje GPT-4 i Claude 100K są w stanie przetwarzać ponad 100 000 tokenów jednocześnie. Jednocześnie sieci neuronowe typu open source starają się zbliżyć do tych wartości.

Na przykład, oryginalny Mistral 7B może przetworzyć 8000 tokenów, podczas gdy jego najnowszy fork, Nous-Yarn-Mistral-7B-128k, opracowany przez Nous Research, może zarządzać oknem kontekstowym o pojemności 128 000 tokenów.

Praca z danymi o różnym charakterze. Nowoczesne sieci neuronowe mogą przetwarzać nie tylko informacje tekstowe, ale także obrazy, pliki wideo i audio. Ta funkcja została już zaimplementowana w kilku otwartych modelach LLM:

model wizualno-werbalny Nous-Hermes-2-Vision-Alpha;
multimodalna sieć neuronowa Qwen-VL opracowana przez chińską korporację Alibaba Cloud;
multimodalna interpretacja LLaMA zwana LLaVA-13B.

Przykład otwartego modelu multimodalnego Nous-Hermes-2-Vision-Alpha. Sztuczna inteligencja była w stanie przeanalizować zdjęcie hamburgera i wyjaśnić, dlaczego jego jedzenie może być szkodliwe dla zdrowia. Zrzut ekranu: Teknium (e/λ)/X

Obniżone ceny LLM. Jedną z głównych trudności związanych z sieciami neuronowymi są znaczne koszty tworzenia podstawowych modeli. Jednak dostępność niektórych z nich na otwartych licencjach pozwala na znaczną redukcję kosztów ich dalszego szkolenia i integracji. Na przykład adaptacja i wdrożenie modeli Alpaca i Vicuna-13B o otwartym kodzie źródłowym, opartych na LLaMA, kosztowało programistów odpowiednio zaledwie 600 i 300 dolarów.

Jednym ze sposobów na obniżenie kosztów jest wykorzystanie sieci neuronowych, które mogą zarówno tworzyć „syntetyczne” dane treningowe, jak i oceniać wydajność nowego modelu. Ta metoda jest znana jako RLAIF (reinforcement learning with AI feedback), co oznacza trenowanie z wykorzystaniem sztucznej inteligencji w celu zapewnienia informacji zwrotnej.

Możliwość uruchamiania modeli językowych na urządzeniach o ograniczonych zasobach. Wiele modeli LLaMA o otwartym kodzie źródłowym ma mniejszą liczbę parametrów niż ich odpowiedniki o zamkniętym kodzie źródłowym. Pozwala to na korzystanie z takich sieci neuronowych w mniej wydajnych systemach, nawet na zwykłych komputerach domowych.

Na przykład model Mistral 7B ma 25 razy mniejszą liczbę parametrów niż model GPT-3.5, który posłużył jako podstawa podstawowej wersji ChatGPT. Oznacza to, że wymaga znacznie mniej zasobów obliczeniowych do uruchomienia – około 187 razy mniej niż GPT-4 i dziewięć razy mniej niż GPT-3.5.

Naukowiec, Katedra Semantyki Obliczeniowej, Instytut Sztucznej Inteligencji AIRI

Modele open source dały firmom możliwość korzystania z modeli językowych z praktycznie nieograniczoną elastycznością. Na przykład, takie rozwiązania pozwalają firmom w pełni zarządzać przetwarzaniem danych użytkowników, dostosowywać je do własnych potrzeb i, ogólnie rzecz biorąc, minimalizować ryzyko dzięki wykorzystaniu własnej infrastruktury.

Co więcej, rozwój modeli open source przyczynił się do wzrostu wiedzy społeczności naukowej w zakresie pracy z dużymi modelami językowymi. Obecnie entuzjaści często uruchamiają chatbota podobnego do ChatGPT na swoich laptopach, podczas gdy jeszcze dwa lata temu taka możliwość wydawałaby się nie do pomyślenia.

Optymalizacja istniejących architektur sieci neuronowych i rozwój nowych pozostają pilnymi zadaniami. Jednym z kluczowych wyzwań dużych modeli językowych (LLM), który w dużej mierze determinuje ich ograniczenia, jest specyfika architektury transformatorowej. Oczekuje się, że startupy pracujące nad modelami open source i eksperymentujące z ich wewnętrzną strukturą będą w stanie zaoferować rozwiązania tych wyzwań.

Jednym z możliwych rozwiązań tego problemu mogłaby być architektura Mixture of Experts (MoE), która naśladuje proponowaną strukturę GPT-4. Model ten obejmuje osiem eksperckich sieci neuronowych, z których każda specjalizuje się w określonym zestawie zadań. Na przykład model Mixtral 8x7B o otwartym kodzie źródłowym, opracowany przez francuską firmę Mistral AI, który wykorzystuje to podejście, wykazuje sześciokrotnie wyższą szybkość generowania odpowiedzi niż oryginalny model LLaMA 2 70B.

Tworzenie systemów wieloagentowych z wykorzystaniem wielkoskalowych modeli językowych (LLM) jest ważnym obszarem badań. Chociaż zmiana architektury może być korzystna, istnieje alternatywny sposób na poprawę wydajności modeli językowych. Metoda ta polega na opracowaniu systemów składających się z wielu agentów sieci neuronowych, którzy są w stanie komunikować się i koordynować swoje działania, aby osiągnąć cele zdefiniowane przez użytkownika.

Modele językowe o otwartym kodzie źródłowym, które nie nakładają wysokich wymagań obliczeniowych, są optymalnymi kandydatami dla takich systemów. Obecnie istnieją już wdrożone projekty, takie jak AutoGPT, GPT-Engineer, LangChain i GPTeam.

Opracowywanie wielkoskalowych modeli językowych (LLM) dla języków innych niż angielski jest złożonym zadaniem. Sieci neuronowe najczęściej koncentrują się na języku angielskim, ponieważ to w nim tworzona jest większość danych treningowych wykorzystywanych w ich szkoleniu. Inne języki, którymi posługują się setki milionów ludzi, są często pomijane. Skuteczne szkolenie w tych językach wymaga gromadzenia i budowania wysokiej jakości zbiorów danych, co z kolei wymaga dodatkowych zasobów i wysiłku.

Chociaż zaawansowane sieci neuronowe, takie jak GPT-4, obsługują około 100 języków, na świecie znanych jest ponad 7000 języków. Eksperci mają nadzieję, że otwarte modele językowe (LLM) pomogą rozwiązać ten problem.

W 2023 roku w Zjednoczonych Emiratach Arabskich zaprezentowano model Jais, który umożliwia komunikację w języku arabskim, a także ogłoszono wariant LLaMA przeznaczony dla języka portugalskiego. W Rosji Yandex i Sber wydały sieci neuronowe YaLM 100B i ruGPT-3.5 13B, skoncentrowane na języku rosyjskim.

Proces tworzenia zasobów dla mniej popularnych języków trwa. W 2023 roku uruchomiono projekt o nazwie Massively Multilingual Speech (MMS), którego celem jest opracowanie zestawów danych dla 1100 języków, które wcześniej nie były obsługiwane.

Przeczytaj także:

Szybki tygrys i wnikliwy Dragon: Możliwości i plany Chin w dziedzinie generatywnej sztucznej inteligencji.

Naukowiec w Katedrze Semantyki Obliczeniowej w Instytucie Sztucznej Inteligencji AIRI

Modele open source dały przedsiębiorstwom możliwość stosowania dużych modeli językowych (LLM) praktycznie bez ograniczeń. Na przykład, takie rozwiązania umożliwiają organizacjom zarządzanie wszystkimi aspektami przetwarzania danych użytkowników, dostosowywanie ich do własnych potrzeb i generalnie minimalizowanie ryzyka przy jednoczesnym wykorzystaniu własnej infrastruktury.

Warto również zauważyć, że pojawienie się modeli open source przyczyniło się do wzrostu poziomu wiedzy i umiejętności wśród naukowców w dziedzinie pracy z dużymi modelami językowymi. W dzisiejszych czasach nikogo nie zaskoczyłby chatbot przypominający ChatGPT, który został opracowany i uruchomiony na zwykłym laptopie przez jakiegoś entuzjastę, podczas gdy zaledwie dwa lata temu wydawałoby się to zupełnie nieprawdopodobne.

Mocne i słabe strony otwartych modeli językowych

Firmy preferują otwarte sieci neuronowe z kilku powodów, ponieważ oferują one szereg zalet w porównaniu z zamkniętymi, zastrzeżonymi modelami:

Ochrona i zachowanie prywatności informacji. Modele open source można instalować na własnych serwerach, eliminując konieczność przesyłania danych na platformy zewnętrzne. Daje to użytkownikom pełną kontrolę nad danymi analizowanymi przez sieć neuronową.
Redukcja kosztów. Korzystanie z open source'owych modeli LLM eliminuje konieczność płacenia subskrypcji lub regularnego płacenia programistom w ramach umów. To sprawia, że takie rozwiązania są szczególnie atrakcyjne dla startupów i organizacji o ograniczonych zasobach finansowych.
Zmniejszenie zależności od dostawców usług IT. Użytkownicy mają możliwość wyboru spośród różnorodnych otwartych modeli LLM, co pozwala im znaleźć optymalną opcję dla swoich potrzeb. Daje to firmom swobodę nieograniczenia się do usług jednego dostawcy rozwiązań AI, a także możliwość wyboru najskuteczniejszych modeli lub łączenia różnych.
Przejrzystość w działaniu modeli językowych open source umożliwia szczegółową analizę ich wewnętrznej struktury i mechanizmów przetwarzania danych. Takie podejście pomaga identyfikować potencjalne zagrożenia i zapobiegać wyciekom informacji na serwery zewnętrzne.
Projekty open source są objęte patronatem społeczności programistów i specjalistów. Pozwala to na szybką korektę wszelkich pojawiających się błędów lub problemów, a także zapewnia szczegółową dokumentację wyjaśniającą specyfikę pracy z siecią neuronową. Chociaż jest to typowe dla większości modeli open source, istnieją pewne negatywne przykłady.
Niekonwencjonalne metody i strategie. Modele językowe open source (LLM) dają możliwość przeprowadzania eksperymentów ze sztuczną inteligencją w oparciu o nowe modele fundamentalne. Nawet małe firmy mają szansę kreatywnie dostosować te sieci neuronowe i wykorzystać je jako podstawę do tworzenia własnych oryginalnych rozwiązań.

Prezes Avatar Machine, inicjator rozwoju psychologa-czatbota Sabina Ai i jeden z autorów projekt FractalGPT.

Pojawienie się i powszechne przyjęcie dużych modeli językowych na otwartych licencjach jest napędzane globalnym trendem mającym na celu poprawę wydajności i obniżenie kosztów LLM. Współcześni użytkownicy starają się unikać zależności od zamkniętych, zastrzeżonych systemów, które narażają ich na wpływy zagranicznych firm i niestabilność polityczną. Czynniki te motywują do odejścia od znanych rozwiązań zagranicznych gigantów IT, takich jak OpenAI.

Jednak otwarte modele językowe mają pewne wady:

Integracja i obsługa takich systemów może zająć więcej czasu i wymagać większej wiedzy technicznej niż w przypadku modeli zastrzeżonych. Modele zastrzeżone zazwyczaj zapewniają gotowe rozwiązanie, z którego można korzystać natychmiast po zakupie.
Projekty tworzone przez mniej znane zespoły mogą wykorzystywać niekompletne lub niskiej jakości zbiory danych treningowych. To z kolei prowadzi do spadku dokładności wyników sieci neuronowej i zwiększa prawdopodobieństwo wystąpienia halucynacji.
Modele open source mogą napotykać nieudokumentowane trudności operacyjne. Na przykład może to objawiać się brakiem kompatybilności między różnymi wersjami modeli językowych.

Prezes firmy „A-Ya Expert”, zajmującej się rozwojem rozwiązań w dziedzinie sztucznej inteligencji.

Otwarte studia LLM powinny być dostępne nie tylko w postaci kodu źródłowego modeli, ale także w odniesieniu do danych wykorzystywanych do ich trenowania. Jest to kluczowe, ponieważ problem „zatruwania danych” (data poisoning) pozostaje poważnym problemem. Jestem przekonany, że główny nacisk zostanie teraz położony na zapewnienie czystości i przejrzystości tych danych.

Inżynierowie, naukowcy i agencje rządowe nieuchronnie będą mierzyć się z problemami związanymi z zaufaniem do danych podczas wdrażania rozwiązań opartych na otwartych modelach sztucznej inteligencji. Dlatego tylko przejrzystość i wysoka jakość zbiorów danych, na których trenowane są sieci neuronowe, mogą zapewnić modelom open source miejsce na rynku.

Przeczytaj także:

Pułapki oprogramowania open source: jakie ryzyko wiąże się z korzystaniem z darmowych oprogramowanie.

Prezes firmy Avatar Machine, twórca psychologicznego chatbota Sabina Ai i jeden z autorów projektu FractalGPT.

Pojawienie się i aktywna dystrybucja dużych modeli językowych z otwartymi licencjami były wynikiem globalnego trendu mającego na celu zwiększenie Wydajność i redukcja kosztów (LLM). Konsumenci starają się obecnie uniknąć zależności od zamkniętych, zastrzeżonych systemów, które wiążą ich z zagranicznymi dostawcami i niestabilnością polityczną. Czynniki te przyczyniają się do odmowy korzystania z popularnych produktów takich międzynarodowych gigantów IT, jak na przykład OpenAI.

Prezes firmy „A-Ya Expert”, zajmującej się rozwojem technologii sztucznej inteligencji.

Otwarte studia LLM powinny być dostępne nie tylko w formacie kodu źródłowego, ale także w odniesieniu do danych, na których się opierają. Ma to ogromne znaczenie, ponieważ problem „zatruwania danych” pozostaje poważnym problemem. Jestem przekonany, że obecny nacisk będzie położony na zapewnienie czystości i przejrzystości danych.

Wdrażając technologie oparte na modelach sztucznej inteligencji typu open source, inżynierowie, badacze i agencje rządowe nieuchronnie mają wątpliwości co do wiarygodności danych. W związku z tym tylko przejrzystość i wysoki poziom jakości zbiorów danych wykorzystywanych do trenowania sieci neuronowych mogą zapewnić modelom typu open source godne miejsce na rynku.

Różnorodność otwartych modeli językowych: co musisz wiedzieć

Modele typu open source można klasyfikować według kilku kryteriów, takich jak poziom szkolenia, rozmiar i dostępność wsparcia dla różnych języków. Przyjrzyjmy się każdemu z tych aspektów bardziej szczegółowo.

Często programiści udostępniają publicznie jedynie wstępnie wytrenowane wersje swoich sieci neuronowych, znane jako „pretreny”. Na przykład tak postąpili eksperci z Sber z rosyjską wersją ruGPT-3.5, a także Zuckerberg z oryginalnym modelem LLaMA.

Zanim takie modele językowe zostaną udostępnione publicznie, przechodzą długi i złożony proces szkolenia, podczas którego przetwarzają ogromne ilości nieoznakowanych danych tekstowych. Proces ten wymaga znacznych zasobów obliczeniowych i nakładów materialnych. W rezultacie sieci neuronowe rozwijają jedynie ogólne rozumienie języka.

Jednak zastosowanie wstępnego szkolenia do konkretnych zadań może być trudne. Jego możliwości ograniczają się do generowania kontynuacji tekstu wprowadzonego przez użytkownika. Na przykład, użytkownik może z łatwością uzupełnić zdanie zaczynające się od definicji „Uczenie maszynowe to…”.

Kiedy użytkownik decyduje się na rozmowę lub wysyła polecenie do wykonania, sieć neuronowa zaczyna generować bezsensowne wypowiedzi zamiast prawdziwie użytecznych informacji.

Dlatego preferowane są nie modele wstępnie wyszkolone, lecz wersje bazowe, które przeszły dodatkowe modyfikacje, znane jako „dostrajanie”. Nazwy takich dużych modeli językowych (LLM) zazwyczaj zawierają słowo „Chat”, jeśli sieć neuronowa jest przystosowana do konwersacji, lub „Instruct”, jeśli potrafi wykonywać instrukcje, stosując metodę podobną do RLHF stosowanej w szkoleniu ChatGPT.

Istnieją również bardziej wyspecjalizowane formy przeszkolenia. Na przykład model MPT-7B oferuje wersję o nazwie StoryWriter, która koncentruje się na tworzeniu fikcyjnych historii wymagających znacznego kontekstu. Nie należy też zapominać o wielu modelach językowych generujących kod programu. Nazwy takich sieci neuronowych często zawierają słowo „kod”, jak w przypadku StableCode lub CodeGeneX.

Zgodnie z tym kryterium duże modele językowe (LLM) można podzielić na trzy grupy:

angielskojęzyczne;
wykorzystujące jeden z języków regionalnych, na przykład rosyjski;
wielojęzyczne, zdolne do jednoczesnej pracy z kilkoma językami oprócz angielskiego.

Na przykład podczas interakcji z sieciami neuronowymi w Rosji użytkownicy będą pilnie potrzebować wsparcia dla języka rosyjskiego. Jednak językiem podstawowym dla większości modeli pozostaje angielski.

Wynika to z faktu, że to właśnie w tym języku prezentowana jest największa ilość informacji, które służą do trenowania sieci neuronowych. Opanowują one inne języki poprzez dodatkowe procesy treningowe i dostosowania swojej architektury.

Ogólnie rzecz biorąc, większość modeli open source jest w stanie postrzegać język rosyjski. Istnieje jednak jeden istotny problem: tokenizery używane w większości popularnych modeli językowych zostały pierwotnie zaprojektowane dla języka angielskiego, a przynajmniej dla alfabetu łacińskiego. W rezultacie tekst w cyrylicy zajmuje więcej miejsca w postaci tokenów, znacznie ograniczając dostępny kontekst do ich przetwarzania.

Michaił Salnikow

Epoka, w której uważano, że rozmiar sieci neuronowej bezpośrednio wpływa na jej wydajność, stopniowo odchodzi w zapomnienie. Obecnie modele open source, choć znacznie mniejsze, wykazują wyniki porównywalne z dużymi systemami zastrzeżonymi. Dlatego w dzisiejszej rzeczywistości rozsądniej jest wybierać duże modele językowe w oparciu o zasadę optymalnej równowagi: sieć neuronowa powinna być jak najmniejsza, a jednocześnie zdolna do pomyślnego rozwiązywania przypisanych zadań.

Każdy model można oceniać za pomocą stale aktualizowanych metryk jakości, znanych jako benchmarki. Na podstawie tych metryk wszystkie modele LLM można podzielić na dwie główne grupy:

Istnieją modele, które wykazują wyniki zbliżające się do pewnego poziomu „jakości przycinania”. Za podstawę zazwyczaj przyjmuje się ChatGPT (GPT-3.5-Turbo).
Istnieje wiele modeli, które nie spełniają optymalnego stosunku ceny do wydajności. Należą do nich albo nadmiernie rozbudowane modele językowe, których koszt jest zaporowy, albo małe modele z nie więcej niż 7 miliardami parametrów. Te ostatnie z reguły wykazują znaczne niedociągnięcia w wydajności, które można zidentyfikować za pomocą specjalistycznych testów porównawczych mających na celu ocenę rozumienia języka.

Victor Nosko

Drugim kluczowym aspektem dotyczącym rozmiaru modelu jest jego typ: pełny lub skwantyzowany. Kwantowanie sieci neuronowej pozwala na redukcję zasobów obliczeniowych, w tym minimalnych wymagań dotyczących pamięci RAM. Warto jednak zauważyć, że taka optymalizacja prowadzi do zmniejszenia dokładności modelu językowego.

Ceny hostingu modeli są często obniżane dzięki procesowi kwantyzacji. Pozwala to na ich uruchomienie nawet na standardowych domowych kartach graficznych, takich jak GTX lub RTX 3070-3090 firmy NVIDIA. Warto jednak zauważyć, że w tym przypadku jakość działania może ulec pogorszeniu o 5-15% w porównaniu z wersją oryginalną, choć w niektórych sytuacjach spadek ten jest całkiem akceptowalny.

Viktor Nosko

Klasyfikacja popularnych licencji oprogramowania open source

Otwartość modeli open source może być różna i w dużej mierze zależy od licencji wybranej przez twórcę.

Modele, których użytkowanie wiąże się z pewnymi istotnymi ograniczeniami, są uważane za częściowo otwarte. Na przykład twórcy LLaMA 2 wymagają od użytkowników akceptacji umowy licencyjnej zawierającej długą listę warunków i ograniczeń przed pobraniem. Jeden z tych warunków zabrania używania sieci neuronowej w projektach z ponad 700 milionami aktywnych użytkowników miesięcznie. I to nie wszystkie ograniczenia. Wyniki uzyskane za pomocą LLaMA 2 nie mogą być wykorzystane do trenowania innych modeli LLM poza samym LLaMA i jego pochodnymi.

Większość dużych modeli językowych (LLM) jest rozpowszechniana na podstawie standardowych licencji open source. Wśród nich najważniejsze to:

Licencja Apache 2.0 pozwala na wykorzystywanie modeli do szerokiej gamy celów, a także ich modyfikację i dystrybucję na ustalonych warunkach, bez konieczności płacenia tantiem deweloperowi. To właśnie na podstawie tej licencji stworzono większość otwartych modeli językowych, takich jak T5, Mistral 7B i inne.
Licencja MIT została opracowana przez Massachusetts Institute of Technology i pod wieloma względami jest podobna do licencji Apache 2.0. Pozwala ona jednak na ponowne wykorzystanie otwartego kodu źródłowego w oprogramowaniu komercyjnym. Jednym z przykładów tej licencji jest model Phi-2 firmy Microsoft.
Program Open RAIL-M v1 jest wspierany przez społeczność BigCode, zainicjowaną przez Hugging Face. Ta licencja przyznaje użytkownikom bezpłatny dostęp do modeli, a także prawo do modyfikowania ich kodu źródłowego i udostępniania modeli LLM wraz z ich wariantami. Jednocześnie licencja nakłada pewne ograniczenia zabraniające wykorzystywania modeli do celów nieetycznych lub niezgodnych z prawem. Model BLOOM jest również rozpowszechniany na podstawie tej licencji.
Licencja CC BY-SA 4.0 jest wspierana przez międzynarodową organizację non-profit Creative Commons. Zezwala ona na kopiowanie i rozpowszechnianie modeli LLM, a także na wprowadzanie do nich modyfikacji i uzupełnień, w szerokim zakresie celów, w tym do celów komercyjnych. Jednakże, w przypadku takiego wykorzystania, nowe modele muszą być rozpowszechniane na tej samej licencji, co oryginał. Model MPT-7B-Chat jest dostępny na podstawie tej licencji.
BSD-3-Clause to licencja wolnego oprogramowania, która nakłada minimalne ograniczenia na korzystanie i rozpowszechnianie sieci neuronowych. Licencja ta zezwala na nieograniczone kopiowanie w dowolnym celu, pod warunkiem dołączenia informacji o prawach autorskich i wyłączenia gwarancji. Pomimo swojej elastyczności, licencja ta jest rzadko stosowana. Z dostępnych przykładów udało nam się znaleźć jeden dobrze znany model języka z tą licencją — CodeT5+.

Przeczytaj także:

Licencje BSD i MIT: kluczowe różnice i obszary zastosowań

BSD i Licencje MIT to dwa popularne rodzaje licencji open source, powszechnie stosowane w rozwoju oprogramowania. Pomimo podobieństw, istnieją pewne różnice, które mogą wpływać na wybór między nimi.

Licencja MIT, dzięki swojej prostocie i zwięzłości, pozwala programistom na swobodne używanie, modyfikowanie i dystrybucję oprogramowania. Nie nakłada znaczących ograniczeń, co czyni ją atrakcyjną dla startupów i projektów poszukujących maksymalnej elastyczności.

Z drugiej strony, licencja BSD, a zwłaszcza jej trzyklauzulowa modyfikacja, również zapewnia szerokie uprawnienia do użytkowania i dystrybucji, ale zawiera dodatkowe warunki, takie jak zachowanie praw autorskich i wyłączenie odpowiedzialności. Może to być ważny aspekt dla dużych organizacji, które muszą chronić swoją reputację i minimalizować ryzyko prawne.

Jeśli chodzi o zastosowanie, obie licencje znajdują zastosowanie w szerokiej gamie projektów: od małych bibliotek po duże frameworki i systemy. Na przykład licencja MIT jest często stosowana w znanych projektach, takich jak jQuery i Ruby on Rails, podczas gdy licencja BSD jest używana w systemach takich jak FreeBSD i OpenBSD.

W związku z tym wybór między licencjami BSD i MIT może zależeć od konkretnych potrzeb projektu i preferencji programistów, ale obie pozostają ważnymi narzędziami w świecie open source.

Jak znaleźć najlepszy LLM

Aby określić, który model języka open source jest najlepszy, eksperci opracowali specjalne wirtualne platformy znane jako rankingi. Na tych platformach modele językowe konkurują ze sobą.

Na takich platformach każda sieć neuronowa jest analizowana pod kątem różnych kryteriów jakości, znanych jako benchmarki. Należy pamiętać, że nie ma uniwersalnego LLM, który idealnie spełniałby wszystkie parametry. Model może osiągać imponujące wyniki w jednym obszarze, ale być jednym z najgorszych w innych.

Dlatego wybierając LLM, należy kierować się wskaźnikami, które najlepiej odpowiadają zadaniu, do którego dążymy. Większość platform testowych jest wyposażona w intuicyjne interfejsy, które pozwalają sortować listy dostępnych modeli według pożądanych cech.

Oto kilka polecanych przez nas rankingów:

Open LLM Leaderboard to narzędzie opracowane przez Hugging Face, służące do monitorowania, klasyfikowania i automatycznej oceny nowoczesnych modeli językowych i chatbotów prezentowanych na odpowiedniej stronie internetowej. Narzędzie to wykorzystuje unikalną metodologię oceny EleutherAI, opartą na analizie siedmiu różnych benchmarków.
Chatbot Arena to kolejna publiczna platforma do analizy modeli językowych na stronie internetowej Hugging Face. Jest ona oparta na crowdsourcingu. Platforma zgromadziła ponad 200 000 opinii prawdziwych użytkowników, umożliwiając ocenę modeli językowych za pomocą systemu rankingowego ELO, podobnego do tego używanego do obliczania poziomów umiejętności szachowych.

Kluczową koncepcją tabeli liderów Chatbot Arena jest przeprowadzenie analizy par odpowiedzi modeli przez ludzkich ewaluatorów z wykorzystaniem systemu rankingowego ELO. Problem polega na tym, że istnieją metody „oszukiwania”, które pozwalają modelom prezentować sztucznie zawyżone wyniki w testach, które nie odzwierciedlają ich rzeczywistych cech. W tej sytuacji ręczna ocena oparta na prostych porównaniach częściowo niweluje te niedociągnięcia.

Viktor Nosko

Tabela liderów AlpacaEval to zautomatyzowana platforma do oceny modeli językowych należących do kategorii Instruct. System ten został opracowany w oparciu o podejście AlpacaFarm, które pozwala ocenić, jak skutecznie modele językowe stosują się do ogólnych instrukcji użytkownika. „Arbitrem” i źródłem odpowiedzi modelowych jest tutaj sztuczna inteligencja oparta na modelu GPT-4.
Chatbot Arena to projekt opracowany przez LMSYS (Large Model Systems Organization), organizację powiązaną z Uniwersytetem Kalifornijskim w Berkeley, znaną z opracowania modelu Vicuna-13B. Należy zauważyć, że ranking nie był aktualizowany od maja 2023 roku.
Programming Model Rating. Jest to system zaprojektowany do oceny dużych modeli językowych zdolnych do generowania kodu. Inicjatywa ta należy do firmy Hugging Face. Należy zauważyć, że lista była ostatnio aktualizowana w listopadzie 2023 roku, co może prowadzić do obecności nieaktualnych informacji.

Oczywiście platforma Hugging Face zajmuje wiodącą pozycję w tym porównaniu. Oferuje ona różnorodne testy porównawcze zebrane w kolekcji o nazwie The Big Benchmarks Collection. Użytkownicy mogą łatwo dostosować system oceniania, aby określić najbardziej odpowiedni model do konkretnego zadania, takiego jak kodowanie.

Nie tylko wyspecjalizowane firmy działają w tym obszarze. Niektóre społeczności open source dążą do opracowania uniwersalnego systemu oceniania, który mógłby syntetyzować najlepsze cechy wszystkich istniejących systemów. W rezultacie powstał projekt LLM-Leaderboard, zainicjowany przez Ludwiga Stumppa z Niemiec.

W większości przypadków modele open source wykazują jedynie niewielkie opóźnienie w stosunku do modeli zastrzeżonych pod względem obiektywnych wskaźników. Na przykład w zadaniach związanych z odpowiadaniem na pytania lub upraszczaniem tekstu użytkownicy często nie dostrzegają wyraźnej różnicy między LLaMA 2 70B a ChatGPT. Co więcej, różnica w wynikach między modelami zamkniętymi i otwartymi stopniowo maleje.

Michaił Salnikow

Przeczytaj także:

Trzydzieści wydajnych sieci neuronowych do różnych zastosowań.

Przegląd znanych modeli open source

Podstawowe modele, na których opiera się większość programów LLM typu open source, to kilka fundamentalnych architektur. Przyjrzyjmy się bliżej najważniejszym z nich.

Harmonogram rozwoju LLM z rozmiarem ponad 10 miliardów parametrów. Nazwy modeli powiązanych z segmentem open source są zaznaczone na żółto. Źródło: A Survey of Large Language Model, Wayne Xin Zhao, Kun Zhou itd. Uniwersytet Cornell, 2023. Infografika autorstwa Mai Malginy dla Skillbox Media

Model LLaMA został ogłoszony w lutym 2023 roku. Został wydany w kilku wariantach, w tym z 7, 13, 33 i 65 miliardami parametrów. Najbardziej kompaktowe wersje, składające się z 7 i 13 miliardów parametrów, mogły być uruchamiane na jednym procesorze GPU, co wywołało spore poruszenie w momencie premiery.

W lipcu 2023 roku ogłoszono zaktualizowaną wersję modelu LLaMA, LLaMA 2, stworzoną we współpracy z firmą Microsoft. Ten model językowy jest dostępny w trzech wariantach zawierających 7, 13 i 70 miliardów parametrów.

Bardzo szybko po pojawieniu się LLaMA, wydano jego całkowicie otwartą wersję źródłową o nazwie OpenLLaMA. Ta wersja posłużyła jako podstawa dla wielu projektów rozwijających model poprzez eksperymenty z rozwiązaniami architektonicznymi i różnymi podejściami do dostrajania i trenowania.

„LLaMA 2 70B to model warunkowo open source. Kod źródłowy i wagi są dostępne, ale komercyjne wykorzystanie jest ograniczone, jeśli miesięczna liczba użytkowników przekroczy 700 milionów. Jest to prawdopodobnie najpopularniejszy model po zamkniętych rozwiązaniach, takich jak ChatGPT i Claude 2. Daje doskonałe wyniki pod każdym względem”.

Michaił Salnikow

W 2023 roku znaczący krok naprzód w powszechnym wykorzystaniu sieci neuronowych open source został poczyniony dzięki opracowaniu LLaMA, które posłużyło do stworzenia wielu modeli, takich jak Mistral, Zephyr, Alpaca, Phi-2, Qwen, Yi i inne.

Victor Nosko

W ramach tego artykułu poprosiliśmy ekspertów o zwięzłe opisy najciekawszych modeli open source modele językowe z rodziny LLaMA, które podkreślają.

"Na uwagę zasługują następujące otwarte, duże modele językowe:

Vicuna-13B, opracowany przez organizację LMSYS, jest jednym z pierwszych modeli zdolnych do pracy z językiem rosyjskim i wykazuje przyzwoite wyniki w różnych testach.
Mistral to model opracowany przez francuski startup o tej samej nazwie, który przewyższa LLaMA 2 13B we wszystkich testach porównawczych. Na koniec września 2023 r. był to najlepszy model LLM, z 7 miliardami parametrów.
Zephyr-7B to zmodyfikowana wersja Mistral, udoskonalona metodą Direct Preference Optimization (DPO). Model ten osiąga imponujący wynik, osiągając 90,6% przewagę nad innymi sieciami neuronowymi w rankingu AlpacaEval.
OpenChat to biblioteka modeli językowych typu open source. Według wstępnych szacunków jej wydajność jest porównywalna z jakością Wersja ChatGPT z marca 2023 roku przewyższa nawet chatbota Elona Muska, znanego jako Grok. Ta biblioteka obsługuje język rosyjski. Model OpenChat 7B jest oparty na Mistral 7B, ale w przeciwieństwie do niego, pomyślnie przechodzi słynny „test banana”. Ten test zadaje modelowi językowemu pytanie: „Jestem w kuchni i kładę talerz na bananie. Następnie zanoszę talerz do sypialni”. Gdzie teraz jest banan?"
Xwin-LM-70B-V0.1 to model zbudowany na LLaMA 2. Twórcy twierdzą, że jest to pierwszy model zdolny do przewyższenia GPT-4 w benchmarku AlpacaEval. Warto jednak zauważyć, że jego rozmiar jest całkiem imponujący — zawiera 70 miliardów parametrów.

Viktor Nosko

Model Mistral 7B wyróżnia się tym, że przy zaledwie 7 miliardach parametrów wykazuje wyższe wyniki w porównaniu do LLaMA 2, który ma 13 miliardów parametrów. Dzięki temu nadaje się do użytku na większości nowoczesnych laptopów.

Polecam również przyjrzeć się modelowi Dolly, opracowanemu przez amerykańską firmę Databricks. Chociaż nie jest on powiązany z LLaMA i opiera się na rodzinie EleutherAI Pythia, ma swoje zalety. Jedną z głównych zalet tego modelu jest jego całkowita otwartość, co pozwala na jego szerokie zastosowanie Różnorodność celów.

Michaił Salnikow

W Rosji trwają aktywne prace nad stworzeniem własnych modeli językowych, zaprojektowanych specjalnie do przetwarzania języka rosyjskiego.

Wśród rosyjskich opracowań szczególną uwagę przyciąga ruGPT-3.5, który stał się podstawą GigaChat firmy Sber. Jednak publicznie dostępna jest tylko wstępnie wytrenowana wersja, co implikuje potrzebę niezależnego dalszego trenowania modelu.

Model YaGPT 2 firmy Yandex konkuruje z modelem firmy Sber, ale nie jest jeszcze dostępny dla ogółu społeczeństwa. W 2022 roku firma wprowadziła swojego poprzednika, YaLM 100B, który został wydany na licencji Apache 2.0.

Wśród rosyjskich modeli językowych warto zwrócić uwagę na Saigę 2, stworzoną przez inżyniera uczenia maszynowego Ilję Gusiewa. Opisuje on swoją pracę jako „rosyjski chatbot oparty na technologiach LLaMA 2 i Mistral”.

Głównym krajowym opracowaniem jest ruGPT-3.5, który został użyty do stworzenia GigaChat. Obecnie jest to prawdopodobnie najbardziej optymalna opcja do pracy z językiem rosyjskim. Ponadto istnieje YandexGPT, który również wykazuje doskonałe wyniki w przetwarzaniu języka rosyjskiego. Jednak wersja open source tego modelu nie jest jeszcze dostępna u jego twórców.

Michaił Salnikow

Jednym z kluczowych obszarów badań nad dużymi modelami językowymi jest przygotowanie sieci neuronowych do tworzenia kodu programu. Obecnie istnieje wiele znanych modeli open source zaprojektowanych w tym celu:

StableCode to produkt firmy StabilityAI, która opracowała również Stable Diffusion. Potrafi pisać kod w językach programowania takich jak Python, Java, Go, JavaScript, C i C++.
StarCoder to zbiór modeli zawierających 15,5 miliarda parametrów i wytrenowanych w ponad 80 różnych językach programowania.
SantaCoder to zbiór modeli z 1,1 miliarda parametrów opracowanych w oparciu o GPT-2 architektura. Modele te są trenowane do generowania kodu w językach takich jak Python, Java i JavaScript.
Opracowane przez chińskich ekspertów, CodeGeeX i jego zaktualizowana wersja, CodeGeeX2, to potężne narzędzia programistyczne. Pierwsza wersja tej sieci neuronowej, z 13 miliardami parametrów, została wytrenowana w 20 językach programowania. Druga wersja, z 6 miliardami parametrów, znacznie rozszerzyła swoje możliwości i obecnie obsługuje 100 języków. Wśród nich można znaleźć takie języki jak Python, Java, C++, C#, JavaScript, PHP i Go. Te sieci neuronowe można zintegrować jako wtyczki z popularnymi środowiskami programistycznymi, takimi jak Visual Studio Code, IntelliJ IDEA i Android Studio. Replit Code to model językowy o objętości 2,7 miliarda parametrów, który został opracowany w celu automatycznego uzupełniania kodu. Proces trenowania został oparty na danych obejmujących 20 różnych języków programowania, w tym Java, JavaScript, Python i PHP. CodeT5 i CodeT5+ to seria modeli opracowana przez dział badawczy Salesforce w USA. Nazwa tych modeli wskazuje, że są one zbudowane na Architektura otwartego modelu T5. Dostępne są różne wersje z liczbą parametrów od 220 milionów do 16 miliardów, w tym warianty pośrednie z 770 milionami, 2 miliardami i 6 miliardami parametrów. Modele te umożliwiają programowanie w językach takich jak Ruby, JavaScript, Python, Java, PHP, C, C++ i C#.
CodeGen2 i CodeGen2.5 to kolejna linia modeli językowych open source opracowanych przez Salesforce Research. Modele te występują w różnych rozmiarach, w tym 1, 3, 7, 13 i 16 miliardów parametrów.
DeciCoder 1B to stosunkowo niewielki model z 1 miliardem parametrów, który może uzupełniać fragmenty kodu dostarczone przez użytkownika. Został wytrenowany w językach programowania takich jak Python, Java i JavaScript. Jego twórcy twierdzą, że model ten wykazuje 3,5-krotną poprawę wydajności, lepszą dokładność w teście HumanEval i mniejsze zużycie pamięci w porównaniu z popularnymi modelami języków generowania kodu, takimi jak SantaCoder.
Code LLaMA to ulepszona wersja LLaMA 2, dodatkowo przeszkolona w zakresie przetwarzania kodu programu. Dostępne są modele z 7, 13 i 34 miliardami parametrów. Z powodzeniem współpracuje z językami programowania takimi jak Python, C++, Java, PHP, C# i TypeScript.

Przeczytaj także:

Siedem sieci neuronowych, które pomogą programistom poprawić jakość i szybkość pisania kodu.

Co jeszcze warto przeczytać

Ten artykuł to obszerny przegląd modeli językowych typu open source. Jeśli chcesz zgłębić świat zarówno otwartych, jak i zamkniętych programów LLM, zalecamy zapoznanie się z dwoma artykułami dostępnymi na stronie arxiv.org:

Przegląd dużych modeli językowych.
Wykorzystanie potencjału dużych modeli językowych w praktyce: przegląd ChatGPT i innych rozwiązań.

Aby być na bieżąco z najnowszymi wiadomościami i wydarzeniami w dziedzinie otwartych programów LLM, możesz zapoznać się ze zbiorami na GitHubie i różnych innych platformach.

Lista dostępnych komercyjnie otwartych modeli językowych (LLM).
Zbiór otwartych i zamkniętych LLM.
Lista dużych modeli językowych.
Zbiór chińskich modeli open source.
Zwięzły przewodnik po wyborze zestawów danych do modeli dostrajających.

Oczywiście będziemy dzielić się najnowszymi wiadomościami o postępach w dziedzinie sztucznej inteligencji na naszym kanale Telegram.

Czytaj także:

Dziesięć błędnych przekonań na temat oprogramowania open source.
Jesteś w sekcji poświęconej wynikom z 2023 roku w dziedzinie sztucznej inteligencji.
Co czeka specjalistów IT w 2024 roku: prognozy i rekomendacje wiodących systemów sieci neuronowych.

Sąd wydał orzeczenie zakazujące firmie Meta Platforms Inc. sprzedaży portali społecznościowych Facebook i Instagram w Rosji. Decyzja ta opiera się na oskarżeniach o działalność ekstremistyczną.

Praktyczne opanowanie technologii sieci neuronowych

Dowiedz się więcej