Polskie Duże Modele Językowe

Spis treści

Aktywnie uczestniczymy w rozwoju dwóch polskich Dużych Modeli Językowych (LLM): Bielika oraz PLLuM (HIVE AI). Polskie modele językowe są trenowane na polskich danych i z tego względu są lepiej od zagranicznych dostosowane do języka polskiego. To znacząco ułatwia ich użycie w różnych sektorach, takich jak edukacja, biznes czy administracja publiczna. Z szerszej perspektywy, rozwój polskich modeli językowych może pomóc w ochronie i promowaniu języka polskiego, co jest ważne dla tożsamości narodowej i kulturowej.

Rozwój LLM wymaga wymaga ogromnych zasobów obliczeniowych, głównie ze względu na złożoność zadań, które muszą być wykonane podczas treningu. Kluczowa jest infrastruktura zapewniająca wiele nowoczesnych procesorów graficznych (GPU), ponieważ pozwalają one na szybsze niż w przypadku CPU przetwarzanie zbiorów tekstów liczących miliardy słów, jak i wykonywanie operacji na macierzach o rozmiarach rzędu milionów lub miliardów elementów. Dodatkowo biblioteki do uczenia maszynowego, takie jak TensorFlow i PyTorch, są zoptymalizowane pod kątem wykorzystania GPU. Dzięki temu można wykorzystać pełny potencjał tych procesorów w treningu modeli językowych.

Z tego względu Cyfronet udostępnia zasoby superkomputerów - w szczególności Heliosa, do trenowania Bielika i PLLuM. Dodatkowo eksperci Cyfronetu wspierają proces merytorycznie.


Bielik


Bielik to rodzina polskich modeli językowych, która powstała dzięki współpracy Fundacji SpeakLeash oraz ACK Cyfronet AGH. Bielik występuje w różnych wersjach, obejmujących od 1,5 do 11 miliardów parametrów.


SpeakLeash – grupa pasjonatów i twórców Bielika

Fundacja SpeakLeash zrzesza ludzi z różnych profesji, którzy postawili sobie za cel stworzenie największego polskiego zbioru danych tekstowych. Zespół projektowy składa się z pracowników polskich przedsiębiorstw, badaczy z ośrodków naukowych oraz studentów kierunków związanych z AI. Prace nad pierwszym oficjalnie i szeroko udostępnionym modelem (Bielik-11B-v2) trwały ponad rok i obejmowały zbieranie, przetwarzanie oraz klasyfikację danych. W 2025 roku udostępniono wersje 2,5 oraz 3.


Model otwarty i dostępny do użytku firmowego

Bielik jest projektem open source i z tego względu może zostać wykorzystany zarówno do użytku prywatnego, jak i biznesowego. może być wykorzystywany do rozwoju firmy i wsparcia procesów biznesowych. Przykładowe zastosowania to:

  • Automatyzacja obsługi klienta: chatboty, odpowiadanie na często zadawane pytania.
  • Analiza danych: przetwarzanie i analiza dużych zbiorów danych, generowanie raportów.
  • Tworzenie treści: artykuły, opisy produktów, materiały marketingowe.
  • Wsparcie w procesach decyzyjnych: generowanie scenariuszy, analiza ryzyka, rekomendacje.


Bielik dostępny w PLGrid

Naukowcy afiliowani w polskich jednostkach naukowych mogą korzystać z Bielika w ramach usług dostępnych przez Portal PLGrid.


Zachęcamy też do odwiedzenia poniższych stron:

Porozmawiaj z Bielikiem

Poznaj rodzinę Bielików na Hugging Face

Testuj model na stronie NVIDIA

PLLuM (HIVE AI)

logo PLLuM

W 2025 roku Cyfronet dołączył do konsorcjum HIVE, które powstało jako kontynuacja konsorcjum PLLuM, rozwijającego rodzinę modeli językowych o tej samej nazwie. PLLuM powstaje na zlecenie Ministerstwa Cyfryzacji. Opublikowane zostały wersje wykorzystujące od 8 do 70 miliardów parametrów, co daje dużą elastyczność zastosowania.


Konsorcjum HIVE

Obecnie w rozwój projektu HIVE AI zaangażowanych jest 8 jednostek wiodących:

  • Politechnika Wrocławska (lider projektu)
  • Instytut Podstaw Informatyki PAN
  • Instytut Slawistyki PAN
  • Naukowa i Akademicka Sieć Komputerowa (NASK-PIB)
  • Ośrodek Przetwarzania Informacji (OPI-PIB)
  • Uniwersytet Łódzki
  • Centralny Ośrodek Informatyki
  • ACK Cyfronet AGH


Etyczny i dla społeczeństwa

PLLuM, podobnie jak Bielik, bazuje na etycznie pozyskanych danych – dane treningowe były wykorzystane zgodnie z przepisami o prawie autorskim. Dodatkowo w projekcie wykorzystano dane pozyskane bezpośrednio od właścicieli, którzy udzielili licencji na ich wykorzystanie. Model PLLuM jest z założenia modelem bezpiecznym i wolnym od szkodliwych treści. Planowane jest jest jego szerokie udostępnienie społeczeństwu w postaci Asystenta wbudowanego w aplikację mObywatel. W ten sposób PLLuM ma ułatwiać dostęp do przepisów oraz zapewniać wygodniejsze załatwianie spraw urzędowych.

Porozmawiaj z PLLuM

Poznaj rodzinę PLLuM na Hugging Face

Więcej na temat projektu HIVE AI