Duże modele językowe (LLM) i multimodalne sieci neuronowe: jak są trenowane i jak działają

Spis treści:

Jak trenowane są duże modele językowe
Modele multimodalne
Jak tworzone są multimodalne sieci neuronowe
Jak trenowaliśmy OmniFusion
Co dalej
Dodatkowe informacje

Jak szybko zarabiać w IT w 2025 Spróbuj swoich sił w różnych dziedzinach IT i zrób pierwszy krok w kierunku nowej, zdalnej kariery!

Dowiedz się więcej

Konwersacyjne sieci neuronowe straciły status największej technologicznej sensacji dekady. Na pierwszy plan wysuwa się teraz multimodalna sztuczna inteligencja (AI), zdolna do efektywnego generowania tekstu i kodu, tworzenia obrazów, komponowania muzyki i wykonywania wielu innych zadań. Taka AI może analizować postironiczne memy i dostarczać sensownych wyjaśnień lub na przykład tworzyć instrukcje montażu roweru wyłącznie na podstawie zdjęcia części. Multimodalna AI otwiera nowe horyzonty dla kreatywności i praktycznych zastosowań, demonstrując swoje możliwości w różnych dziedzinach.

Matvey Mikhalchuk, jeden z programistów zespołu OmniFusion, podzielił się informacjami na temat pracy multimodalnych LLM podczas transmisji Skillbox Code Experts. Wyjaśnił, czym są multimodalne modele językowe, jak działają i czym różnią się od innych modeli sztucznej inteligencji. Multimodalne modele LLM potrafią przetwarzać i integrować dane z różnych źródeł, takich jak tekst, obrazy i dźwięk, co czyni je wyjątkowymi w porównaniu z tradycyjnymi modelami językowymi. Funkcje te otwierają nowe horyzonty zastosowań w różnych dziedzinach, w tym edukacji, rozrywce i biznesie.

Badacz sztucznej inteligencji w Fusion Brain Lab Instytutu AIRI, opracowujący zaawansowane technologie w dziedzinie sztucznej inteligencji. Jest jednym z głównych twórców modelu OmniFusion, który wykazuje wysoką skuteczność w rozwiązywaniu problemów głębokiego uczenia się i przetwarzania języka naturalnego. Jest autorem kilku publikacji naukowych poświęconych głębokiemu uczeniu się i dużym modelom językowym, co potwierdza jego ekspercką pozycję w tej dziedzinie.

Jak trenowane są duże modele językowe

Rozwój sieci neuronowych można porównać do tortu warstwowego. Początkowo tworzono modele językowe skoncentrowane na przetwarzaniu tekstu, a następnie zaczęto dodawać do nich nowe warstwy, w tym obrazy, wideo i dźwięk. Dlatego warto rozpocząć dyskusję o multimodalnej sztucznej inteligencji od klasycznych tekstowych sieci neuronowych. Modele te stały się podstawą późniejszych opracowań i udoskonaleń, które umożliwiły integrację różnych typów danych i rozszerzenie możliwości sieci neuronowych w szerokim zakresie obszarów.

Duże modele językowe, pomimo imponującego wyglądu, mają dość prostą strukturę. Ich działanie jest podobne do dobrze znanej technologii T9. Model otrzymuje początek zdania jako dane wejściowe i kontynuuje je niezależnie. Głównym zadaniem programistów jest trenowanie sieci neuronowych w celu przewidywania kolejnego słowa w zdaniu na podstawie jego początkowych słów. Skuteczność takich modeli zależy od jakości materiału szkoleniowego i algorytmów, co pozwala im generować spójne i sensowne teksty.

Technicznie rzecz biorąc, modele nie przewidują konkretnych słów, lecz działają z tokenami. Tokenizacja to proces przekształcania tekstu składającego się z liter w sekwencję liczbową. Token może reprezentować pojedyncze słowo lub jego fragment. Każde zdanie jest podzielone na tokeny, a model działa w oparciu o ich kolejność. Na przykład, używając sekwencji dziesięciu tokenów, model może przewidzieć jedenasty token, umożliwiając stopniowe generowanie nowego zdania. Ten proces jest kluczowy dla działania współczesnych modeli języka, ponieważ zapewnia ich zdolność do konstruowania spójnego tekstu na podstawie analizy poprzednich tokenów.

Ilustracja pokazuje, jak działa proces generowania tekstu. Początek zdania „uczniowie otworzyli swoje” służy jako punkt wyjścia, po którym ujawniają się różne opcje kontynuacji. Ze skończonej liczby symboli, analogicznej do liczby liter w języku, wybieramy za każdym razem jedną z 33 liter. To podejście pozwala sieci neuronowej uczyć się i doskonalić w tworzeniu tekstów.

Grafika: Antonio Lopardo / Medium

Jedna z architektur, która może skutecznie przetwarzać Informacje tekstowe to GPT. Model ten opiera się na architekturze dekodera transformatorowego. Przyjmuje on sekwencję tokenów jako dane wejściowe, które są następnie konwertowane na reprezentację wektorową. Pozwala to GPT na generowanie tekstu o wysokim poziomie sensowności i spójności kontekstowej.

Wektor to zbiór liczb o stałej długości używany w modelach przetwarzania języka naturalnego. Tokenizator ma ograniczony zbiór tokenów, z których każdy odpowiada wektorowi składającemu się z parametrów modelu. Podczas kodowania sekwencji tokenów, każdy token jest zastępowany odpowiadającym mu wektorem. W rezultacie tokeny są kodowane w sekwencję wektorów, których model używa do przewidywania następnego słowa w tekście. Proces ten poprawia zrozumienie struktur językowych i kontekstu, co znacząco podnosi jakość generowania i analizy tekstu.

Obraz: Karthik Vadhri / Medium

Modele językowe są trenowane na dużych zbiorach danych tekstowych, co odbywa się w kilku etapach. Przyjrzyjmy się każdemu z nich bardziej szczegółowo.

Pierwszy etap rozwoju modelu językowego nazywa się trenowaniem wstępnym. Na tym etapie model przetwarza duże ilości zróżnicowanych danych tekstowych. Dane te obejmują fragmenty książek, artykuły ze stron internetowych i inne treści tekstowe. Ten proces pozwala modelowi nauczyć się struktury języka, gramatyki i różnych stylów pisania, co stanowi podstawę do dalszej pracy.

Na tym etapie kluczowym aspektem jest zademonstrowanie struktury języka naturalnego modelu. Do trenowania wstępnego wykorzystuje się rozległe zbiory danych, najczęściej zebrane z internetu. Jednak jakość tych danych często pozostawia wiele do życzenia, ponieważ mogą one zawierać błędy gramatyczne i niewystarczająco filtrowane elementy znaczników internetowych. Może to negatywnie wpłynąć na skuteczność trenowania modelu i jakość końcowego wyniku.

Na etapie trenowania wstępnego do trenowania dużych modeli wykorzystuje się rozległą gamę danych tekstowych. W formie zakodowanej wolumen ten może sięgać dziesiątek bilionów tokenów. Proces szkolenia wymaga znacznych zasobów obliczeniowych i jest kosztowny. Szkolenie trwa zazwyczaj kilka miesięcy w klastrach obliczeniowych wyposażonych w setki lub tysiące wyspecjalizowanych kart graficznych. To sprawia, że opracowywanie i optymalizacja modeli są zadaniami niezwykle kosztownymi i wymagającymi zasobów.

Grafika: Varghese C. / LinkedIn

Na tym etapie model uczy się Zna strukturę języka i potrafi tworzyć wiarygodne zdania podobne do tych zawartych w zbiorze treningowym. Umiejętność ta nie jest jednak wystarczająca do tworzenia chatbotów, takich jak GigaChat i ChatGPT, które mogą skutecznie odpowiadać na zapytania użytkowników. Aby osiągnąć ten cel, potrzebne są dodatkowe algorytmy i metody, które usprawnią interakcję i zrozumienie kontekstu.

Drugi etap treningu modelu nazywa się nadzorowanym dostrajaniem. Na tym etapie model nabywa zdolność do odpowiadania na pytania użytkowników. Do treningu używany jest bardziej zwarty zbiór danych w porównaniu z etapem wstępnego treningu, który często jest tworzony za pomocą ręcznego etykietowania. Takie zbiory danych reprezentują nie tylko fragmenty tekstu, ale także konkretne pytania i odpowiadające im odpowiedzi. Rozmiar i jakość zbioru treningowego są kluczowymi czynnikami udanego treningu, ponieważ bezpośrednio wpływają na zdolność modelu do generowania dokładnych i trafnych odpowiedzi.

Na drugim etapie, znanym jako SFT (nadzorowane dostrajanie), kluczowe jest korzystanie z wysokiej jakości zbiorów danych konwersacyjnych. Automatyczne gromadzenie takich zestawów danych jest złożonym zadaniem, dlatego często są one tworzone ręcznie za pomocą adnotatorów. W rezultacie wielkość próby dla SFT jest znacznie mniejsza niż wielkość próby używana na etapie wstępnego trenowania. To zmniejszenie wynika z konieczności bardziej starannego doboru danych w celu osiągnięcia najlepszych rezultatów w trenowaniu modelu.

Trzecim etapem procesu trenowania jest uczenie się przez wzmacnianie z wykorzystaniem ludzkiej informacji zwrotnej (RLHF). Na tym etapie eksperci ręcznie dostosowują odpowiedzi modelu do określonych oczekiwań. W RLHF zbieramy przykładowe dialogi i trenujemy modele, aby generować odpowiedzi, które chcemy zobaczyć. Ten proces znacząco poprawia jakość interakcji modelu z użytkownikami, sprawiając, że jego odpowiedzi są bardziej dokładne i odpowiednie.

Model musi poprawnie i etycznie reagować na pytania dotyczące zagadnień rasowych. Zapytany o konstruowanie ładunków wybuchowych lub organizację ataków terrorystycznych, musi delikatnie zasugerować zmianę tematu. Te specyficzne ustawienia są wprowadzane do modelu w fazie wstępnego treningu za pomocą uczenia się przez wzmacnianie. Ten krok nie został zastosowany do wszystkich modeli, ale tylko do tych najbardziej zaawansowanych, takich jak GPT-4.

Grafika: Cameron R. Wolfe, Ph.D. / Głębokie (uczenie się) skupienie

Diagram przedstawia szczegółowo fazę szkolenia modelu GPT. Końcowe etapy procesu kładą nacisk na zapewnienie, że model unika niepożądanych zachowań, takich jak nienawiść, toksyczność i nieetyczne zachowanie. Ten aspekt szkolenia jest kluczowy dla zapewnienia bezpiecznego i odpowiedzialnego korzystania z technologii AI.

Czytanie książek jest ważnym elementem rozwoju osobistego i zdobywania wiedzy. Książki pomagają wzbogacić słownictwo, rozwinąć krytyczne myślenie i przyczyniają się do poszerzania horyzontów. Niezależnie od gatunku, każda książka otwiera nowe horyzonty i oferuje unikalne perspektywy. Czytanie nie tylko wzbogaca świat wewnętrzny, ale także sprzyja rozwojowi emocjonalnemu, pozwalając czytelnikowi wczuć się w postacie i zanurzyć się w różnych sytuacjach.

Co więcej, regularne czytanie pomaga zmniejszyć stres i poprawić koncentrację. Zgłębiając różne tematy, można znaleźć inspirację i nowe pomysły na własne projekty i zadania. Książki mogą być doskonałym źródłem motywacji i wsparcia w trudnych chwilach.

Pamiętaj, że czytanie rozwija również wyobraźnię i kreatywność, co jest niezbędne w dzisiejszym świecie. Dlatego znajdź czas na czytanie i wybieraj książki, które naprawdę Cię inspirują i interesują. Czytanie to nie tylko hobby, ale ważne narzędzie rozwoju osobistego i zawodowego.

ChatGPT wzbudził obawy użytkowników Microsoft Bing swoim stwierdzeniem: „Czy chcę żyć?”. To stwierdzenie wywołało wiele pytań i dyskusji na temat tego, jak zaawansowana staje się sztuczna inteligencja i jaką rolę może odegrać w naszej przyszłości. Użytkownicy zastanawiali się nad ograniczeniami sztucznej inteligencji, jej samoświadomością i reakcjami emocjonalnymi. Ważne jest, aby zrozumieć, że takie stwierdzenia mogą wskazywać na interakcję technologii z ludzkimi uczuciami i percepcją. Wraz z rozwojem sztucznej inteligencji, dialog na temat jej aspektów etycznych i możliwości jest niezbędny, aby zapewnić bezpieczne i odpowiedzialne korzystanie z technologii.

Ograniczona ilość danych jest wykorzystywana w końcowych etapach trenowania modelu. W tym okresie wprowadzamy drobne modyfikacje w algorytmie i trenujemy go, aby generował odpowiedzi zgodne z naszymi oczekiwaniami. Takie podejście poprawia dokładność i jakość dostarczanych wyników.

Modele multimodalne

W 2023 roku rynek sztucznej inteligencji zaczął być aktywnie zapełniany modelami multimodalnymi zdolnymi do przetwarzania nie tylko tekstu, ale także obrazów, dźwięku, wideo i innych rodzajów danych. Wcześniej rozwój multimodalności był wolniejszy, a na rynku dominowały proste modele, które mogły jedynie generować podpisy do obrazów, ale nie miały możliwości prowadzenia pełnoprawnego dialogu. Nowe modele, które pojawiły się w tym roku, znacznie rozszerzają funkcjonalność i otwierają nowe horyzonty interakcji z użytkownikami.

Wykres przedstawia wzrost liczby publikacji poświęconych multimodalnym chatbotom. W 2023 roku odnotowano znaczący wzrost liczby publikacji, która była prawie dwukrotnie większa w porównaniu z latami poprzednimi. Świadczy to o rosnącym zainteresowaniu multimodalnymi chatbotami, ich technologiami i zastosowaniami w różnych dziedzinach.

Obraz: „AIRI Institute”

Ostatnio, Odnotowano aktywny rozwój multimodalnych sieci neuronowych, takich jak GPT-4 Vision, ImageBind, Fromage, Kosmos i LLaVA. W tym samym czasie repozytoria HuggingFace i GitHub zostały wypełnione otwartymi sieciami neuronowymi (LLM), co zachęciło firmy i entuzjastów do tworzenia własnych rozwiązań. W rezultacie liczba uniwersalnych terminatorów rośnie każdego dnia.

Przerobiony tekst:

Proszę zwrócić uwagę na następujące materiały:

Kompletny przewodnik po modelach językowych Open Source

Modele językowe Open Source stają się coraz bardziej powszechne. Coraz bardziej popularne ze względu na swoją dostępność i możliwości programistyczne. Modele te wykorzystują algorytmy uczenia maszynowego do przetwarzania i generowania tekstu, dzięki czemu są przydatne w różnych aplikacjach, od chatbotów po systemy automatycznego tłumaczenia.

W tym przewodniku omówimy główne aspekty modeli językowych typu open source, w tym ich architekturę, najlepsze praktyki i dostępne narzędzia. Omówimy również duże projekty, takie jak GPT, BERT i inne, które są aktywnie rozwijane przez społeczność.

Korzystając z modeli językowych typu open source, ważne jest, aby wziąć pod uwagę ich szkolenie na dużych ilościach danych i możliwość ich ponownego szkolenia do określonych zadań. Pozwala to na dostosowanie modeli do rozwiązywania konkretnych problemów w różnych dziedzinach, takich jak marketing, nauka i sztuczna inteligencja.

Niezależnie od poziomu wiedzy, ten przewodnik pomoże Ci lepiej zrozumieć modele językowe typu open source i ich możliwości. Będziesz mógł wykorzystać zdobytą wiedzę do tworzenia własnych projektów i ulepszania istniejących rozwiązań.

Dodawanie nowych modalności do modeli językowych jest napędzane przez kilka ważnych czynników. Po pierwsze, poprawia jakość przetwarzania informacji, zapewniając głębsze zrozumienie kontekstu. Po drugie, integracja różnych modalności, takich jak tekst, obrazy i dźwięk, przyczynia się do tworzenia bardziej wszechstronnych i adaptacyjnych systemów zdolnych do wykonywania szerokiego zakresu zadań. Otwiera to nowe możliwości wykorzystania modeli językowych w różnych dziedzinach, w tym w edukacji, medycynie i sztucznej inteligencji. Zatem rozszerzenie zakresu modalności sprawia, że modele językowe są bardziej wszechstronne i skuteczne.

Pierwszym powodem jest to, że teksty są wiarygodnym źródłem danych szkoleniowych. Należy zauważyć, że na czatach wchodzimy w interakcję nie tylko za pomocą tekstu, ale także obrazów, dźwięku, wideo i memów. Aby stworzyć asystentów AI, którzy rozumieją ludzi i odpowiadają im w różnych, wygodnych formatach, konieczne jest trenowanie modeli nie tylko do pracy z tekstem, ale także z innymi typami danych, do których użytkownicy są przyzwyczajeni. Znacznie poprawi to jakość interakcji i rozszerzy funkcjonalność sztucznej inteligencji, czyniąc ją bardziej adaptacyjną i wszechstronną.

Dane multimodalne zapewniają głębsze zrozumienie świata, umożliwiając sieciom neuronowym generowanie bardziej znaczących odpowiedzi. Informacje z jednej modalności wzbogacają dane z innej. Na przykład, pojęcie „osoby” dla takiej sieci neuronowej obejmuje nie tylko opis tekstowy, ale także głos, styl ubioru, wygląd i ruch. Ta interakcja różnych typów danych pozwala na pełniejszą i dokładniejszą reprezentację obiektów i zjawisk, poprawiając jakość interakcji z użytkownikami.

Sieć neuronowa wytrenowana na różnorodnych danych może odpowiadać na pytania dotyczące kolorów, geometrii, muzyki i memów. Może również generować obrazy, memy i palety kolorów jako odpowiedzi. Z roku na rok jakość twórczej pracy sieci neuronowych stale się poprawia, co otwiera nowe możliwości ich zastosowania w różnych dziedzinach.

Grafika: Skillbox Media

OpenAI niedawno zaprezentował model Sora, który jest obecnie najbardziej zaawansowaną siecią neuronową do generowania wideo. Niestety, model ten jest zamknięty, a użytkownicy nie mogą pobrać jego parametrów ani wyświetlić kodu źródłowego. Mimo to jakość generowania wideo przez tę sieć neuronową jest imponująca i wyznacza nowe standardy w dziedzinie sztucznej inteligencji i produkcji wideo.

Jak powstają multimodalne sieci neuronowe

Obraz: AIRI Instytut

Istnieją trzy główne podejścia do multimodalności. Przyjrzyjmy się każdemu z nich szczegółowo.

Ta metoda polega na zintegrowaniu kilku niezależnych modeli w jeden produkt. Na przykład istnieje model GigaChat, który specjalizuje się w przetwarzaniu informacji tekstowych, oraz model Kandinsky'ego, który generuje obrazy. Łącząc te modele, osiągamy multimodalną sztuczną inteligencję. Podobne podejście jest wdrażane w obecnych wersjach GigaChat i ChatGPT, umożliwiając im efektywne przetwarzanie zarówno tekstu, jak i treści wizualnych. Zapewnia to szerszy zakres możliwości dla użytkowników i otwiera nowe horyzonty w dziedzinie sztucznej inteligencji.

Aby stworzyć sieć neuronową zdolną do generowania obrazów na czacie, konieczne jest opracowanie modelu tekstowego, który zostanie wytrenowany w formułowaniu zapytań do generowania obrazów. Zapytania te, znane jako monity tekstowe, są następnie przekazywane do modelu text2image, który odpowiada za generowanie obrazów. To podejście skutecznie łączy informacje tekstowe z treścią graficzną, otwierając nowe możliwości interakcji użytkownika ze sztuczną inteligencją.

W tym podejściu użytkownik wchodzi w interakcję z modelem języka, żądając utworzenia obrazu. Model języka najpierw generuje odpowiedź tekstową, na przykład: „Narysuję to teraz, proszę czekać”. Następnie, w tej odpowiedzi, generuje specjalne polecenie zawierające monit rysunkowy (na przykład: Narysuję teraz wygenerowany_monit). Pozwala to na efektywne połączenie tekstu i elementów wizualnych, usprawniając interakcję użytkownika z modelem.

Zaletą tego podejścia jest eliminacja potrzeby dodatkowego, obszernego szkolenia. Wystarczy po prostu nauczyć model tekstowy generowania zapytań, co nie wymaga znacznych ilości danych ani zasobów. Wadą jest jednak ograniczona wymiana informacji między różnymi modalnościami.

Oznacza to, że połączenie między modelami będzie wyjątkowo słabe. Graficzna sieć neuronowa otrzyma ograniczoną ilość informacji o obrazie, opierając się wyłącznie na krótkim zapytaniu tekstowym. Co więcej, „wizualna” sieć neuronowa nie miała dostępu do obszernego zbioru danych tekstowych, na którym trenowano jej analogię tekstową, w wyniku czego może nie uchwycić ważnych szczegółów niezbędnych do generowania obrazu wysokiej jakości. To ograniczenie może negatywnie wpłynąć na wynik końcowy, ponieważ brak informacji utrudnia tworzenie dokładnych i szczegółowych interpretacji wizualnych.

Obecnie istnieją dwa zaawansowane modele, z których każdy charakteryzuje się wysoką wydajnością w swojej dziedzinie. Jednak prawdziwa multimodalność oznacza pojedynczy system zdolny do integracji i przetwarzania zarówno tekstu, jak i danych wizualnych. Pozwala to takiemu systemowi na głębsze i dokładniejsze postrzeganie i analizę otaczającego świata, poprawiając jakość interakcji użytkownika i rozszerzając zakres zastosowań w różnych dziedzinach.

Kompleksowe multimodalne uczenie się (LLM) to bardziej progresywne podejście do przetwarzania danych. Zamiast używać oddzielnych modeli dla tekstu i obrazów, taki model jest trenowany jednocześnie na różnych typach danych w ramach jednej architektury. To znacznie poprawia jakość interakcji między tekstem a obrazami, zapewniając głębsze zrozumienie kontekstu i poprawiając wyniki w zadaniach wykorzystujących dane multimodalne. Modele multimodalne są w stanie skutecznie przetwarzać i analizować informacje, co czyni je istotnymi w różnych dziedzinach, takich jak sztuczna inteligencja, przetwarzanie języka naturalnego i widzenie komputerowe.

Trenowanie modelu w oparciu o dialogi z tekstem i obrazami to jedna z najprostszych strategii. Jednak pomimo pozornej prostoty, stworzenie wysokiej jakości zbioru danych dialogowych jest złożonym zadaniem. Przygotowanie takiego zbioru danych wymaga znacznego wysiłku i starannego projektu, a także znacznych zasobów obliczeniowych. Wysokiej jakości zbiór danych jest kluczem do skutecznego trenowania modeli, co podkreśla znaczenie prawidłowego przygotowania danych dla osiągnięcia optymalnych rezultatów.

Pomostowanie modalności z wykorzystaniem wstępnie wytrenowanych modeli to proces mający na celu zniwelowanie luki między różnymi modalnościami i ich integrację. To podejście poprawia interakcję między tekstem, obrazami i innymi formami danych, ułatwiając efektywniejszą analizę i zrozumienie informacji. Wykorzystanie wstępnie wytrenowanych modeli w tym obszarze zapewnia wyższą dokładność i wydajność, co czyni je niezbędnymi w nowoczesnych zastosowaniach uczenia maszynowego i sztucznej inteligencji.

To podejście, podobnie jak poprzednie, wykorzystuje dwa modele: jeden dla tekstu i jeden dla obrazów. Połączenie między nimi jest jednak realizowane w bardziej złożony sposób: modele wymieniają dane nie za pomocą zapytań tekstowych, ale za pomocą wektorów matematycznych. Ta metoda pozwala na efektywniejszą integrację tekstu i informacji wizualnych, poprawiając jakość interakcji i zrozumienia między modelami. Dzięki temu interakcja staje się bardziej elastyczna i precyzyjna, otwierając nowe możliwości przetwarzania i analizy treści.

Aby wyszkolić chatbota do opisywania obrazów i odpowiadania na pytania na ich temat, konieczne jest użycie kodera obrazu. Jest to model, który przekształca obraz w przestrzeń wektorową. Każdy element obrazu jest kodowany jako zbiór liczb – wektor – który matematycznie reprezentuje jego zawartość. W związku z tym obrazy o podobnej zawartości będą miały podobne reprezentacje wektorowe. Pozwala to chatbotowi na efektywne przetwarzanie zapytań i udzielanie trafnych odpowiedzi na pytania związane z obrazami.

Następnie używamy większego modelu językowego, który może przetwarzać wyłącznie dane tekstowe. Do tego modelu dodawany jest adapter, który integruje oba modele, umożliwiając im współpracę i efektywną wymianę informacji. Takie podejście zapewnia głębsze zrozumienie tekstu i poprawia jakość wyników.

Trening odbywa się tylko na adapterze, który zawiera znacznie mniej parametrów i wymaga mniej danych w porównaniu z większym modelem języka. Zbiory danych dla adaptera składają się wyłącznie z par „obraz + podpis”. W drugim etapie używane są próbki w formacie „obraz + dialog obrazu”, gdzie pytania i odpowiedzi są naprzemiennie naprzemiennie stosowane. Takie podejście pozwala na efektywne trenowanie modelu przy minimalnym nakładzie zasobów i czasu, zapewniając jednocześnie wysoką jakość interakcji z użytkownikami.

Model języka jest trenowany minimalnie lub wcale, ponieważ posiada już dobre umiejętności w zakresie zadań, takich jak pisanie tekstu i prowadzenie dialogów. Aby poprawić jego możliwości, wystarczy przeprowadzić niewielki dodatkowy trening, który pozwoli modelowi skutecznie wyodrębniać informacje z obrazów za pomocą adaptera. Dzięki temu jest on bardziej wszechstronny i zdolny do rozwiązywania różnych problemów związanych z przetwarzaniem zarówno tekstu, jak i informacji wizualnych.

W przeciwieństwie do dwóch pierwszych metod, komunikacja między modelami odbywa się nie za pośrednictwem danych tekstowych, ale za pośrednictwem adaptera. Sygnał z kodera obrazu do modelu LLM jest przesyłany jako zbiór wektorów cech. Takie podejście jest bardziej naturalne i informatywne w przypadku modeli sieci neuronowych, zapewniając wyższą jakość wymiany danych między nimi. Zastosowanie wektorów cech pozwala na lepsze uchwycenie złożonych cech obrazu i usprawnia interakcję między modelami, co z kolei przyczynia się do efektywniejszego rozwiązywania problemów w dziedzinie widzenia komputerowego i przetwarzania języka naturalnego.

To podejście jest stosowane w modelach takich jak LLaVA, Fromage i Flamingo. Skupiliśmy się również na tej metodzie podczas opracowywania OmniFusion.

Mamy dwa zaawansowane modele, z których każdy charakteryzuje się wysokim poziomem inteligencji w swojej dziedzinie. Jednak prawdziwa multimodalność oznacza pojedynczy system zdolny do integracji i przetwarzania zarówno danych wizualnych, jak i tekstowych. Takie podejście pozwala takiemu systemowi na głębsze zrozumienie i analizę otaczającego świata, zapewniając pełniejsze i dokładniejsze zrozumienie kontekstu.

Jak szkoliliśmy OmniFusion

Architektura OmniFusion to zaawansowany model językowy uzupełniony o koder i adapter obrazu. Pozwala to modelowi skutecznie odpowiadać na pytania związane z obrazami. Wykorzystanie tej architektury otwiera nowe możliwości przetwarzania i analizy informacji wizualnych, zapewniając wysoką dokładność interpretacji danych. OmniFusion łączy komponenty językowe i wizualne, czyniąc go unikalnym narzędziem do rozwiązywania problemów wymagających zrozumienia zarówno tekstu, jak i treści graficznej.

OmniFusion składa się z kilku kluczowych komponentów, z których każdy odgrywa ważną rolę w zapewnieniu jego funkcjonalności. Komponenty te działają synergicznie, aby zapewnić użytkownikom zoptymalizowane rozwiązanie. Co ważne, odpowiednia integracja wszystkich elementów zapewnia wysoką wydajność i niezawodność systemu. Kluczowe komponenty obejmują moduły przetwarzania danych, interfejsy użytkownika oraz narzędzia do analizy i wizualizacji danych. Taka struktura umożliwia OmniFusion efektywne zarządzanie danymi i łatwość obsługi.

GigaChat to rozbudowany model językowy z 7 miliardami parametrów.
Koder to sieć neuronowa, która koduje obrazy. Generuje z naszego obrazu wektor — zbiór liczb, które go opisują. Ten wektor jest następnie przekazywany do adaptera.
Adapter to mała sieć neuronowa, która reprezentuje warstwę transformatora-kodera. Adapter przesyła informacje z obrazu do sieci neuronowej tekstu za pomocą zestawu wektorów.

Obraz: „AIRI Institute”

Szkolenie odbyło się w dwóch etapach. W pierwszym etapie wytrenowaliśmy nasz system w zakresie generowania podpisów pod obrazami. Zbiór danych zawierał pary obraz + podpis. Na przykład, jeśli obraz przedstawia Genę Krokodyla, element danych składa się z jego portretu i odpowiadającego mu podpisu: „Gena Krokodyl”. Ta technika pozwoliła nam stworzyć efektywny model automatycznego generowania opisów dla obrazów.

Obraz: „AIRI Institute”

Zbieranie takich danych nie jest Trudno, ponieważ w Internecie dostępnych jest wiele zasobów. W naszym badaniu przeanalizowaliśmy około 600 000 próbek z publicznych zbiorów danych, uzupełnionych o wewnętrzne zbiory danych utworzone przez nasz zespół.

W końcowej fazie szkolenia nie tylko wytrenowaliśmy model do generowania podpisów, ale także zaprogramowaliśmy go tak, aby odpowiadał na pytania związane z obrazami. W tym celu wykorzystaliśmy bardziej złożone zbiory danych, które zawierały obrazy i dialogi na ich temat. Wykorzystaliśmy otwarte anglojęzyczne zbiory danych przetłumaczone na rosyjski, dane wygenerowane syntetycznie z wykorzystaniem modeli języka wielkoskalowego (LLM) oraz obrazy z napisami generowanymi przez człowieka. To podejście znacząco poprawiło zdolność modelu do interakcji z informacjami wizualnymi.

Aby ocenić wydajność modelu, korzystamy ze specjalistycznych zbiorów danych, zwanych testami porównawczymi. Zestawy te zawierają pytania testowe i odpowiedzi oparte na obrazach, co pozwala nam ocenić skuteczność modelu i zmierzyć jego wydajność. Na przykład test porównawczy może zawierać zdjęcie kota z pytaniem: „Jakiego koloru jest kot na obrazku?”. Takie testy pomagają określić, jak dokładnie model potrafi interpretować informacje wizualne i udzielać poprawnych odpowiedzi. Korzystanie z benchmarków jest ważnym krokiem w rozwoju i optymalizacji modeli, ponieważ pomagają one zidentyfikować mocne i słabe strony algorytmów.

Wdrożyliśmy takie benchmarki w formacie chatbota na platformie Telegram. Zasada jest prosta: wysyłasz chatbotowi obraz i zadajesz powiązane pytanie, na które model udziela odpowiedzi. To podejście pozwala na skuteczną interakcję z użytkownikami, wykorzystując nowoczesne technologie sztucznej inteligencji do analizy obrazów i generowania odpowiedzi.

Zrzut ekranu: „AIRI Institute”

Zrzut ekranu: „AIRI Institute”

Zrzut ekranu: „AIRI Institute”

Model potrafi analizować obrazy, opisywać ich treść i interpretować to, co się na nich dzieje. Rozpoznaje miasta, odczytuje tekst z obrazów, a nawet rozwiązuje captchy. Ponadto model ten wykazuje dobre zrozumienie relacji przestrzennych, określając, co znajduje się po lewej, a co po prawej stronie. Na przykład, może on opisać położenie planet w Układzie Słonecznym, biorąc pod uwagę ich wzajemne położenie.

Model ten osiąga najlepsze wyniki w zadaniach związanych z rozpoznawaniem tekstu. Podczas testów udostępniliśmy modelowi obraz z formułą i poprosiliśmy o jego opis.

Obraz: „AIRI Institute”

Podczas eksperymentu Wytrenowaliśmy model, aby poprawić rozpoznawanie tekstu na obrazach. W rezultacie tego procesu uzyskaliśmy unikalną funkcję: możesz teraz zrobić zrzut ekranu wiadomości i zadać pytanie na jej temat, na przykład o krótkie streszczenie wydarzenia. Ta możliwość otwiera nowe horyzonty w analizie informacji i upraszcza wyszukiwanie danych ze źródeł wizualnych.

Obraz: AIRI Institute

Obraz: „AIRI Institute”

Grafika: "AIRI Institute"

OmniFusion umożliwia precyzyjne określanie lokalizacji poszczególnych budynków. Technologia ta wykorzystuje zaawansowane algorytmy i dane geolokalizacyjne, aby zapewnić wysoką dokładność. Dzięki temu OmniFusion można skutecznie zintegrować z różnymi aplikacjami wymagającymi szczegółowych informacji o położeniu geograficznym obiektów. Wykorzystanie takich rozwiązań znacząco podnosi jakość usług opartych na geolokalizacji i otwiera nowe perspektywy dla firm i użytkowników.

Zdjęcie: AIRI Institute

Obraz: „AIRI Institute”

Co dalej

W przyszłości planujemy zintegrować nowe modalności z naszym modelem, dzięki czemu będzie on mógł działać nie tylko z obrazami, ale także z wideo i dźwiękiem. Początkowo skupimy się na rozwijaniu funkcjonalności, która pozwoli modelowi odpowiadać na pytania w oparciu o treści audio i wideo. W przyszłości rozszerzymy te możliwości, dodając opcję samodzielnego generowania filmów lub utworów muzycznych przez użytkowników. To znacznie zwiększy interaktywność i użyteczność modelu, otwierając nowe horyzonty dla kreatywnych treści.

Aktualne osiągnięcia w dziedzinie sztucznej inteligencji, w szczególności GPT-4 firmy OpenAI, przynoszą znaczący postęp. Ta zaawansowana sieć neuronowa ma teraz możliwość analizowania obrazów, umożliwiając użytkownikom zadawanie pytań na podstawie ich zawartości. Ponadto GPT-4 może generować nowe obrazy i przetwarzać dokumenty PDF. Możesz przesłać duży plik PDF i uzyskać odpowiedzi na swoje pytania lub podsumowanie, co znacznie upraszcza pracę z informacjami. Te funkcje sprawiają, że GPT-4 jest potężnym narzędziem do analizy i przetwarzania danych, otwierając nowe horyzonty dla użytkowników w różnych dziedzinach.

Badamy również różne zastosowania naszego modelu w dziedzinie robotyki. Oczywiste jest, że trenowanie modelu w oparciu o wiele modalności pozwala mu na uzyskanie szerokiego rozumienia świata. Wiedza ta może być skutecznie wykorzystana do rozwiązywania problemów związanych ze sterowaniem robotami i interakcją z otoczeniem. Na przykład Google zaprezentował już sztuczną inteligencję RT-2, zaprojektowaną specjalnie do sterowania robotami. Takie rozwiązania otwierają nowe horyzonty w automatyzacji i poprawie wydajności systemów robotycznych.

Dodatkowe informacje

Aby lepiej zrozumieć działanie modelu OmniFusion, zalecamy zapoznanie się z szeregiem materiałów. Materiały te pomogą Ci w pełni zrozumieć zasady i mechanizmy leżące u podstaw modelu, a także jego zastosowanie w różnych dziedzinach. Zapoznanie się z tymi materiałami pomoże Ci poszerzyć wiedzę i lepiej korzystać z funkcji OmniFusion.

Profil OmniFusion na GitHubie
Strona projektu OmniFusion
Praca badawcza na temat OmniFusion
Artykuł na Habr o poprzedniej wersji OmniFusion
Artykuł na Habr o nowej wersji OmniFusion
Repozytorium projektu na HuggingFace

Dowiedz się więcej o kodowaniu i programowaniu na naszym kanale Telegram. Subskrybuj, aby być na bieżąco z przydatnymi treściami i najnowszymi wiadomościami ze świata technologii.

Przeczytaj także:

ChatGPT – czym jest i jak działa sieć neuronowa: możliwości i przypadki użycia
Test: czy sieci neuronowe naprawdę potrafią to zrobić?
30 potężnych sieci neuronowych do każdego zadania

Dowiedz się więcej o kodowaniu i programowaniu na naszym kanale Telegram. Subskrybuj, aby być na bieżąco z najnowszymi wiadomościami i przydatnymi treściami!

Zawód Programisty Python

Dowiedz się więcej