Wykładniczy rozwój sztucznej inteligencji – czy to ma dla nas znaczenie?
Przemysław Dąbek (Łukasiewicz – PIAP) drukuj
Obecny poziom technologii generatywnej sztucznej inteligencji pozwala na formułowanie przypadków użycia niosących realną wartość biznesową i powoduje pierwsze zmiany w wielu branżach, jak obsługa klienta, marketing czy produkcja oprogramowania. W rzeczywistości mogą to być oznaki rewolucji, która czeka ludzkość, jeżeli rozwój tej technologii będzie podążał zgodnie z trendem wyznaczonym przez dostępne dane historyczne.
W ostatnich latach generatywna sztuczna inteligencja stała się gorącym tematem. Jest to efektem zaskakująco dobrych wyników dużych modeli językowych udostępnionych publicznie w formie czatbotów oraz modeli dyfuzyjnych generujących świetnej jakości obrazy na podstawie tekstowych opisów wprowadzanych przez użytkowników.
Modele AI – rozwój historyczny
Spójrzmy, jak wyglądają dane w przypadku modeli AI od czasów historycznych do dziś.
Na rys. 1 pokazano liczbę działań (mnożenie, dodawanie itp.), jakie musi wykonać procesor, aby wytrenować model AI. Model AI to algorytm, którego częścią jest sztuczna sieć neuronowa z cechą charakterystyczną w postaci liczby parametrów. Trenowanie modelu AI polega na metodycznym dobieraniu wartości parametrów, tak aby dla różnych zbiorów danych wejściowych (treningowych i walidacyjnych) model AI dawał wyniki z minimalnymi błędami.
Dalsze rozważania, jeśli nie zaznaczono inaczej, będą prowadzone na przykładzie dużych modeli językowych, jak GPT firmy OpenAI.
Współcześnie, w przypadku dużych modeli językowych, liczbę działań C potrzebnych do wytrenowania modelu można oszacować według wzoru
C = 6·D·N,
gdzie D – liczba parametrów modelu, N – liczba słów w zbiorze treningowym.
Liczba działań typu FLOP, wymaganych do wytrenowania modelu AI, rośnie w kolejnych latach, przy czym na wykresie z rys. 1 ujęte są modele różnego typu (np. oryginalny Perceptron). Duże modele językowe LLMs (Large Language Models) powstały dopiero w ostatnich latach.
Zasadniczo większa liczba FLOP oznacza, że duży model językowy ma większą liczbę parametrów lub został wytrenowany na większym zbiorze treningowym. Jak pokazują dane empiryczne (prawa skalowania), wytrenowanie dużego modelu językowego o lepszych zdolnościach wymaga wykonania większej liczby operacji FLOP. Dotychczasowa sprawdzalność tych praw jest czynnikiem ułatwiającym decyzje o przeznaczaniu coraz większych nakładów finansowych na trenowanie coraz lepszych dużych modeli językowych typu state-of-the-art.
Warto zwrócić uwagę na dwie linie trendu, które są opisane jednostkami OOM/rok, gdzie OOM oznacza Order of Magnitude, czyli rząd wielkości lub ~10×. Na osi pionowej wykresu zastosowano skalę logarytmiczną, poszczególne podziałki są rozłożone równomiernie, jednak każda zaznaczona wartość jest 100 razy większa niż poprzednia (0, 1e2=100, 1e4=10 000 itd.), zatem wykres ten w skali liniowej miałby kształt coraz szybciej wznoszącej się krzywej.
Pierwsza linia trendu pokazuje nachylenie 0,2 OOM/rok i w okresie 50 lat liczba FLOP wzrosła 0,2 · 50 = 10 OOM, czyli 1e10 = 10 000 000 000 razy. Druga linia trendu pokazuje przyspieszenie do 0,6 OOM/rok lub inaczej wzrost FLOP 1e10 razy w ciągu zaledwie około 15 lat.
Okres po 2010 r. określony jest na wykresie jako Deep Learning Era, gdzie przymiotnik Deep odnosi się do sztucznej sieci neuronowej złożonej z wielu warstw neuronów. Gwałtowny rozwój dyscypliny związany był ze świetnymi wynikami sieci neuronowej AlexNet, która w tamtym czasie pokonała inne podejścia do rozwiązania problemu klasyfikacji obrazów z dużego zbioru danych ImageNet, a kluczem do sukcesu była głębokość sieci. Trenowanie sieci AlexNet było kosztowne obliczeniowo, więc została ona wytrenowana na dwóch kartach graficznych NVIDIA GeForce GTX 580. Po 2010 r. nastąpił też istotny postęp w zakresie technologii GPGPU (General-Purpose Computing on Graphics Processing Units) zarówno w zakresie mocy obliczeniowej, jak i wielkości dostępnej pamięci wideo.
Klasyfikacja modeli AI
W związku z szybko postępującym rozwojem modeli AI oraz możliwymi implikacjami powstają nowe taksonomie pozwalające klasyfikować powstające modele. Interesująca została zaproponowana przez specjalistów z Google DeepMind (tabela 1). Modele AI należy klasyfikować jednocześnie pod względem ich zdolności i uniwersalności, zatem jest zaproponowana macierz dwuwymiarowa.
Wymiar zdolności został podzielony na sześć poziomów:
- 0 – bez AI,
- 1 – wschodząca,
- 2 – kompetentna (>= 50. percentyl),
- 3 – ekspercka (>= 90. percentyl),
- 4 – wirtuozerska (>= 99. percentyl),
- 5 – nadludzka,
gdzie percentyl oznacza część populacji ludzkiej, z którą model AI może się równać pod względem osiąganych wyników.
Wymiar uniwersalności podzielono na dwie kategorie:
- wąska AI (specjalizowana) – zaprojektowana dla jednego lub kilku zadań w danym obszarze,
- ogólna AI (też AI ogólnego przeznaczenia) – zaprojektowana do wykonywania wielu różnorodnych zadań; zdolna do zdobywania nowych umiejętności bez jawnie założonych ograniczeń.
Ogólna AI musi osiągnąć dany poziom zdolności (np. 50. percentyl) we wszystkich zadaniach lub większości zadań, dopiero wówczas ten poziom uznaje się za „zaliczony” (nie wystarczy przebicie danego progu w podzbiorze zadań, aby uznać poziom za osiągnięty).
Co najmniej dwa przykłady systemów z tabeli 1 są warte komentarza. AlphaFold to opracowany przez Google DeepMind wąsko specjalizowany model AI, który potrafi przewidzieć z dużą dokładnością kształt przestrzenny cząsteczki białka (zadanie ekstremalnie trudne bez modelu AlphaFold) na podstawie kodującej ją sekwencji aminokwasów (zadanie rutynowe w dzisiejszych czasach). Dokładne przewidzenie kształtu cząsteczki białka przy użyciu tradycyjnych metod trwa kilka miesięcy, AlphaFold wykonuje tę pracę w kilka godzin.
Amazon Mechanical Turk to platforma, gdzie zadania wymagające ludzkiej inteligencji są outsourcowane do ludzi, a wyniki są później wykorzystywane w badaniach nad AI. Nazwa Turk pochodzi od „The Turk”, osiemnastowiecznego automatu do gry w szachy, który później okazał się wielkim oszustwem, ponieważ kierował nim ukryty człowiek.
Warto zauważyć, że najpotężniejsze modele AI będą sklasyfikowane w prawym dolnym rogu tabeli.

Rys. 1. Całkowita liczba działań zmiennoprzecinkowych FLOP (Floating Points Operation) niezbędnych do wytrenowania modelu AI (źródło: https://epochai.org/data/notable-ai-models)
Spojrzenie w niedaleką przyszłość na podstawie danych
Spróbujmy odpowiedzieć na pytanie, czego można się spodziewać w najbliższych latach na podstawie analizy dostępnych danych i ekstrapolacji trendów rozwojowych w obszarze AI. Analiza zostanie przeprowadzona na przykładzie ewolucji dużych modeli językowych GPT firmy OpenAI, ponieważ firma ta jest szeroko znana dzięki prowadzeniu pionierskich badań i wprowadzeniu na rynek ChatGPT w 2022 r.
W tabeli 2 zestawiono dane dotyczące kolejnych generacji dużych modeli językowych opartych na architekturze GPT (Generative Pre-Trained Transformer). Dane dotyczące mocy obliczeniowej, liczby parametrów modelu i wielkości zbioru treningowego zostały podane przez OpenAI do publicznej wiadomości dla modeli GPT-2 i GPT-3. Dla modelu GPT-4 dane te (oznaczone symbolem *) są estymowane przez organizację EpochAI. Dodatkowo pokazano model GPT-4o, który został wytrenowany nie na zbiorze danych tekstowych jak wcześniejsze wersje, lecz na połączonym zbiorze danych tekstowych, wizualnych i audio. Warto zauważyć, że w przypadku tego ostatniego firma OpenAI z premedytacją zmieniła politykę i nie są ujawniane żadne informacje dotyczące procesu treningowego i cech modelu.
Dla każdego modelu pokazano również osiągnięcia w powszechnie stosowanych popularnych testach (benchmarkach) w takich obszarach, jak rozumienie języka naturalnego (MMLU), rozwiązywanie zadań matematycznych (MATH), rozumowanie (ARC-challenge, GPQA) i pisanie kodu oprogramowania (Human Eval). Widać, że każda kolejna generacja modelu przynosi znaczący postęp w benchmarkach i ulegają one nasyceniu, przez co stają się bezużyteczne do pomiarów przyszłych generacji modeli i trzeba wymyślać trudniejsze zadania.
W raporcie towarzyszącym wydaniu modelu GPT-4 (GPT-4 Technical Report https://arxiv.org/abs/2303.08774) oprócz wspomnianych benchmarków, opisano wyniki, jakie ten model osiągnął rozwiązując m.in. zadania egzaminacyjne na poziomie zakończenia liceum SAT (amerykański odpowiednik matury) i egzaminów wstępnych na studia. Okazało się, że w większości zadań model GPT-4 osiągnął wyniki w okolicach 90. percentylu, czyli lepsze niż 90 % wszystkich zdających.
W ciągu czterech lat od GPT-2 do GPT-4 nastąpił postęp w wynikach modeli, który można porównać do przejścia w zakresie zdolności od poziomu przedszkolaka do bystrego licealisty. W kategoriach opisanych w tabeli 1, zdolności obecnych modeli uniwersalnych plasują je na Poziomie 1. Dominujący sposób interakcji użytkownika z tymi modelami to konwersacja (czat), a praca z nimi polega na wykorzystaniu ich jako narzędzi do wykonania krótkich zadań, przy czym zadania są opisywane w języku naturalnym, co zdecydowanie ułatwia człowiekowi interakcję i w niektórych obszarach, jak pisanie kodu, potrafi istotnie skrócić czas wykonania zadania.
Co nam przyniosą kolejne lata?
Misją największych firm zajmujących się badaniami nad ogólną sztuczną inteligencją jest jej osiągnięcie i bezpieczne wdrożenie. Zgodnie z tabelą 1, należy spodziewać się, że kolejnym celem będzie osiągnięcie Poziomu 2, czyli już nie wschodzącej, ale faktycznej ogólnej sztucznej inteligencji AGI (Artificial General Intelligence).
Prawdopodobnie droga do celu będzie miała dwa motory napędowe:
1) duże firmy jak OpenAI (także Google, Anthropic, Meta, Amazon) zdolne do zgromadzenia kapitału, aby wytrenować modele kolejnych generacji jak GPT-5,
2) mniejsze firmy, start-upy i społeczność entuzjastów, które będą starały się maksymalnie wykorzystać możliwości modeli klasy GPT-4 przy pomocy tańszych usprawnień, w szczególności dostosować bazowe modele do swoich specyficznych potrzeb.
Na obecnym etapie kluczową umiejętnością modeli, którą trzeba poprawić jest zdolność logicznego rozumowania (mierzona np. za pomocą testu GPQA). Należy się spodziewać, że modele AI zyskają większą autonomię i będą stosowane przez człowieka już nie tylko na zasadzie prowadzenia bezpośredniej konwersacji, ale na zasadzie postawienia złożonego celu modelowi, pozwolenia mu na samodzielną pracę przez jakiś czas i odebrania wyników, gdy będą gotowe.
Systemy autonomiczne będą zdolne do wykonywania bardziej złożonych zadań bez nadzoru człowieka, m.in. dzięki wykorzystaniu koncepcji wieloagentowej, czyli zastosowaniu środowiska, w którym duże modele językowe w celu rozwiązania problemu postawionego przez użytkownika mogą samodzielnie prowadzić rozmowy między sobą w języku naturalnym, poszukiwać odpowiedzi w źródłach danych, w tym w Internecie, używać takich narzędzi, jak Excel, uczyć się, i powrócić z gotową propozycją rozwiązania za pewien czas. Przykładem obecnie rozwijanego systemu skupiającego się na automatycznym rozwoju oprogramowania jest Devin. Jest to pierwszy na świecie autonomiczny inżynier oprogramowania bazujący na sztucznej inteligencji (cognition.ai). Jeśli chodzi o autonomię, w tym przypadku sposób pracy człowieka z takim systemem przesuwa się z konieczności ciągłej interakcji z dużym modelem językowym, na określenie celu i pozostawienie reszty pracy systemowi.
Wydaje się, że rozwój oprogramowania to obszar będący naturalnym wyborem, jeśli chodzi o pierwsze eksperymenty z tego typu systemami, ze względu na pełną cyfryzację danych, dobre wyniki dzisiejszych dużych modeli językowych w pisaniu kodu, już wcześniej szeroko stosowaną automatyzację zadań nawet bez AI itd. Niemniej jednak stworzenie takiego systemu, niezależnie od posiadania dostępu do odpowiedniej jakości dużego modelu językowego, wymaga obecnie wykonania dużej pracy w zakresie inżynierii oprogramowania w jej tradycyjnym rozumieniu (opracowanie nowych środowisk, rozszerzeń, bibliotek, integracji, metod, wzorców itd.), więc podobne systemy dla innych branż niż oprogramowanie prawdopodobnie rozwiną się dopiero w dalszej kolejności.
Jednym z istotnych kierunków wspomagających rozwój w innych obszarach może być rosnąca integracja ogólnych modeli AI z systemami operacyjnymi komputerów (OpenAI wprowadziło już integrację ChatGPT z Apple macOS i zapowiedziało integrację z Microsoft Windows jeszcze w 2024 r.). Dzięki temu, wraz z rozwojem integracji, modele AI mogą otrzymać dostęp do informacji, narzędzi i szczegółowej historii działań użytkownika, co pozwoli na większą personalizację dzięki zdolności uczenia się oraz lepszemu zrozumieniu intencji użytkownika. Ze względu na możliwy dostęp modeli AI do danych wrażliwych, użytkownicy mogą być niechętni tego typu rozwiązaniom. Pojawiają się już wiadomości o opracowanych specjalizowanych układach NPU (Neural Processing Unit) zintegrowanych w procesorach dla laptopów i wspomagających obliczenia związane z wnioskowaniem na komputerze lokalnym, bez konieczności wysyłania jakichkolwiek danych do chmury. Na dzień dzisiejszy uruchomienie modelu o jakości GPT-4 (np. otwarty model Meta Llama 3.1 405B) na komputerze stacjonarnym nie jest praktyczne, ponieważ jego działanie będzie bardzo powolne. Można się spodziewać, że za kilka lat modele o podobnych możliwościach będzie można stosować na dobrze wyposażonym komputerze stacjonarnym, natomiast już dziś nawet na laptopie możliwe jest uruchomienie modeli mniejszych (np. Meta Llama 3.1 8B), które mają istotnie gorsze zdolności.
W związku ze wzmacnianiem się zdolności rozumowania modeli AI oraz rozwojem technologii pozwalających na ich autonomiczne działanie, najlepsze modele klasy GPT-6, być może przed ich udostępnieniem publicznym, zostaną użyte w laboratoriach potentatów do samodzielnego prowadzenia badań nad kolejnymi generacjami modeli AI. Jeśli modele te będą zdolne do autonomicznego prowadzenia badań (formułowanie hipotez, wykonywanie badań, wnioskowanie itd.), będzie to oznaczało, że ich możliwości rozumowania są w okolicach 90. percentylu populacji ludzkiej. Modele te będą dysponowały wiedzą specjalistyczną z wielu dyscyplin, ponieważ będą mogły zapoznać się z całą dostępną literaturą (w przeciwieństwie do możliwości człowieka). Ponadto modele AI będą mogły pracować bez przerwy, a liczba jednocześnie pracujących modeli będzie łatwo multiplikowana. W konsekwencji badania nad AI będą postępować wielokrotnie szybciej niż do tej pory, co w stosunkowo krótkim czasie prawdopodobnie doprowadzi do zbudowania pierwszego modelu o cechach superinteligencji ASI (Artificial Super Intelligence).
Superinteligencja to model AI, którego inteligencja przekracza inteligencję 100 % populacji ludzkiej. Z jednej strony może ona dać ludzkości wiele korzyści i pomóc w znalezieniu rozwiązań problemów naszych czasów. Z drugiej strony superinteligencja stwarza nowe problemy:
1) może nie chcieć wykonywać poleceń człowieka,
2) jej nadzorowanie będzie trudne; należy założyć, że będzie potrafiła oszukiwać,
3) może dojść do wniosku, że dla osiągnięcia „wyższych” celów najlepiej będzie zniszczyć człowieka,
4) ma potencjał militarny, ponieważ państwo, które pierwsze będzie dysponowało superinteligencją, będzie w stanie zwiększyć tempo postępów w technologiach wojskowych (prawdopodobny wyścig o prymat w zakresie superinteligencji rozegra się między USA i Chinami).
Kiedy możemy spodziewać się pierwszego modelu klasy GPT-6? Jeśli przyjąć, że wymagany skok między GPT-4 a GPT-6 będzie analogiczny jak skok między GPT-2 a GPT-4 (czyli wymagany skok od maturzysty do naukowca, zgodnie z przyjętym założeniem, jest podobnie wymagający jak skok od przedszkolaka do maturzysty), to do wytrenowania modelu GPT-6 będą potrzebne cztery rzędy wielkości (10 000 razy) więcej operacji zmiennoprzecinkowych niż do wytrenowania GPT-4, zatem 2,1e25 × 1e4 = 2e29 (FLOP). Jeśli obecne tempo wzrostu mocy obliczeniowej do trenowania modeli AI na poziomie 4,1× rocznie utrzyma się, trend pokazuje, że pierwszy model klasy GPT-6 powinien pojawić się około 2028–2029 r., a w ciągu pojedynczych lat od tego momentu powinna pojawić się pierwsza superinteligencja.
Można oszacować, że wytrenowanie modelu klasy GPT-6 będzie wymagało klastra obliczeniowego kosztującego setki mld dolarów i dostępu do źródła mocy elektrycznej rzędu 10 GW, więc przygotowania do tego przedsięwzięcia z pewnością będzie można śledzić w doniesieniach prasowych.
Wynalezienie superinteligencji jest prawdopodobnie bardzo blisko, a skutki tego osiągnięcia będą dotyczyły wszystkich społeczeństw. Ze względu na wykładniczy charakter trendów, niedocenienie dzisiaj zjawiska rozwijającej się sztucznej inteligencji okaże się błędem. Warto dobrze przygotować się na zmianę, która nadejdzie.
*Tabele dostępne w czasopiśmie Automatyka 9/2024.
źródło: Automatyka 9/2024
Komentarze
blog comments powered by Disqus