Bielik, nowy polski model językowy, doskonale radzi sobie z naszym językiem i kontekstem kulturowym, co stanowi wyzwanie dla zagranicznych modeli – tłumaczą twórcy projektu. Bielik powstał dzięki grupie entuzjastów oraz mocom najszybszych superkomputerów w Polsce, Heliosa i Atheny z AGH.
ChatGPT to narzędzie, o którym słyszał już niemal każdy. Choć jest to najbardziej popularny produkt wykorzystujący duży model językowy, oparty na zasobach firmy OpenAI i używany na całym świecie, ma on swoje minusy.
– ChatGPT potrafi mówić po polsku, ale jest nasycony treściami w języku angielskim. W związku z tym ma ograniczoną wiedzę na temat polskiej kultury czy literatury – podkreśla Marek Magryś, zastępca Dyrektora ACK Cyfronet AGH ds. Komputerów Dużej Mocy. – Nie radzi sobie również ze zrozumieniem bardziej skomplikowanych tekstów, np. prawnych czy medycznych. Aby stworzyć model językowy, który dobrze rozumie polski i odpowiada poprawną polszczyzną, nie możemy polegać wyłącznie na zagranicznych modelach.
Pomysł entuzjastów
Z tego powodu narodził się pomysł na Bielika, nowy polski model językowy, który powstał dzięki współpracy Fundacji SpeakLeash oraz Akademickiego Centrum Komputerowego Cyfronet AGH. SpeakLeash to fundacja, która połączyła ludzi różnych profesji, mających na celu stworzenie największego polskiego zbioru danych tekstowych, wzorując się na zagranicznych inicjatywach jak The Pile. Zespół projektowy składa się z pracowników polskich przedsiębiorstw, badaczy z ośrodków naukowych oraz studentów kierunków związanych z AI. Prace nad modelem trwały ponad rok i obejmowały zbieranie, przetwarzanie oraz klasyfikację danych. W ten sposób powstał Bielik, duży model językowy (LLM) z 11 miliardami parametrów.
– Najtrudniejsze było pozyskanie danych w języku polskim. Musimy operować wyłącznie na danych źródłowych, co do których mamy pewność, jakie jest ich pochodzenie – tłumaczy Sebastian Kondracki z fundacji SpeakLeash.
Superkomputery na pomoc
Projekt Bielik rozwinął się dzięki superkomputerom z Akademickiego Centrum Komputerowego Cyfronet AGH. Współpraca z AGH umożliwiła wykorzystanie odpowiednich mocy obliczeniowych oraz wsparcie zespołu SpeakLeash wiedzą ekspercką i naukową, co gwarantowało sukces projektu.
Wsparcie zespołu ACK Cyfronet dotyczyło optymalizacji i skalowania procesów treningowych, prac nad potokami przetwarzania danych oraz rozwoju metod generowania danych syntetycznych i testowania modeli. Wynikiem tego jest Polski ranking modeli (Polish OpenLLM Leaderboard). Doświadczenia i wiedza zebrane w wyniku tej współpracy umożliwiły zespołowi PLGrid przygotowanie wytycznych oraz zoptymalizowanych rozwiązań do pracy z modelami językowymi na bazie klastrów Athena i Helios.
– Zasoby Heliosa, najszybszej maszyny w Polsce, wykorzystaliśmy do uczenia modeli językowych – precyzuje Marek Magryś. – Nasza rola polega na wsparciu wiedzą ekspercką, doświadczeniem i mocą obliczeniową procesu katalogowania, zbierania, przetwarzania danych oraz na wspólnym przeprowadzeniu procesu uczenia modeli językowych. Dzięki pracy zespołu SpeakLeash i AGH udało nam się stworzyć Bielika, model LLM, który doskonale radzi sobie z naszym językiem oraz kontekstem kulturowym i może być kluczowym elementem przetwarzania danych tekstowych w zastosowaniach naukowych i biznesowych. Potwierdzeniem jakości Bielika są wysokie lokaty uzyskane przez model na listach rankingowych dla języka polskiego.
Potężne moce z AGH
Moc obliczeniowa Heliosa i Atheny w tradycyjnych symulacjach komputerowych to łącznie ponad 44 PFLOPS, a dla obliczeń z zakresu AI w niższej precyzji to aż 2 EFLOPS.
– Jeśli operujemy tak dużymi danymi jak w przypadku projektu Bielik, to infrastruktura potrzebna do pracy przekracza zdolności zwykłego komputera. Musimy dysponować mocą obliczeniową potrzebną do przygotowywania danych, porównywania ich, trenowania modeli. Bariera dostępności tego typu superkomputerów powoduje, że mało która firma jest w stanie takie prace prowadzić samodzielnie. Szczęśliwie AGH dysponuje takim zapleczem – wyjaśnia prof. Kazimierz Wiatr, Dyrektor ACK Cyfronet AGH.
Jak podaje AGH, równolegle z zasobów superkomputerów z ACK Cyfronet AGH korzysta kilka tysięcy naukowców reprezentujących wiele dziedzin. Zaawansowane modelowanie i obliczenia numeryczne są wykorzystywane głównie w chemii, biologii, fizyce, medycynie i technologii materiałowej, a także astronomii, geologii i ochronie środowiska. Superkomputery w Cyfronecie dostępne w ramach infrastruktury PLGrid są również wykorzystywane na potrzeby fizyki wysokich energii (projekty ATLAS, LHCb, ALICE i CMS), astrofizyki (CTA, LOFAR), nauk o Ziemi (EPOS), europejskiego źródła spalacyjnego (ESS), badań fal grawitacyjnych (LIGO/Virgo) czy biologii (WeNMR).
– Wykorzystujemy do trenowania Bielika dwa najszybsze superkomputery w Polsce, Athenę i Heliosa, ale i tak w porównaniu z infrastrukturą światowych liderów mamy dużo mniejsze zaplecze. Do tego, w tym samym czasie z zasobów superkomputerów korzysta kilkuset innych użytkowników – wyjaśnia Marek Magryś. – Nasze systemy umożliwiają jednak przeprowadzenie w kilka godzin lub dni obliczeń, które na zwykłych komputerach mogłyby trwać lata lub, w niektórych przypadkach, nawet stulecia.
Bielik a ChatGPT
Choć Bielik ma swoje ograniczenia, jego twórcy są dumni z osiągnięć. – Zbiór danych zasilających Bielika cały czas rośnie, jednak trudno będzie nam się ścigać z zasobami wykorzystywanymi przez inne modele, które funkcjonują w języku angielskim. Poza tym liczba treści w internecie w języku polskim jest znacznie mniejsza niż w angielskim – wyjaśniają twórcy.
Wersja, którą mogą testować użytkownicy, jest dostępna nieodpłatnie w domenie publicznej i jest wciąż udoskonalana. Autorzy udostępnili pełne wersje opracowanych modeli oraz wersje skwantyzowane w najpopularniejszych formatach, umożliwiające uruchomienie modelu na własnym komputerze.
– Bielik sprawdza się w zakresie streszczania treści. Już teraz nasz model ma swoją użyteczność w obszarze naukowym oraz biznesowym, może służyć do usprawnienia komunikacji z użytkownikami podczas obsługi zgłoszeń w Helpdesku – tłumaczy Szymon Mazurek z ACK Cyfronet AGH.
Po co polskie modele językowe?
Twórcy Bielika wyjaśniają, że usługi AI funkcjonujące w internecie, w tym te najpopularniejsze jak ChatGPT, utrzymywane są na serwerach zewnętrznych. Jeśli firma rozwija rozwiązanie operujące na specjalistycznych danych, np. medycznych, które nie mogą opuścić firmy, jedyną możliwością jest uruchomienie takiego modelu u siebie. Ten model nie musi być tak doskonały jak ChatGPT, ale nie musi też być tak ogólny.
Dodatkową korzyścią z uruchomienia modeli językowych typu Bielik jest wzmocnienie pozycji Polski w obszarze innowacji w sektorze AI. Ponadto, budując własne narzędzia, uniezależniamy się od zewnętrznych firm, które mogą ograniczać dostęp do swoich zasobów. – Rozwijając i udoskonalając narzędzia w Polsce, budujemy stabilne zaplecze i zabezpieczamy wiele sektorów – bankowy, administracyjny, medyczny czy prawniczy – podkreślają twórcy.
Jan Maria Kowalski z Fundacji SpeakLeash dodaje: – Intensywne działania nad rozwojem AI, modelami językowymi typu Bielik czy innymi narzędziami opartymi o AI są w interesie wszystkich dobrze działających gospodarek. Obserwujemy wzmożone prace nad tego typu rozwiązaniami w wielu krajach.
Możliwość testowania Bielika: https://bielik.ai/