Strona główna Projekty i Inicjatywy Inicjatywy Polskie Duże Modele Językowe

Polskie Duże Modele Językowe

Bielik
PLLuM (HIVE AI)

Aktywnie uczestniczymy w rozwoju dwóch polskich Dużych Modeli Językowych (LLM): Bielika oraz PLLuM (HIVE AI). Polskie modele językowe są trenowane na polskich danych i z tego względu są lepiej od zagranicznych dostosowane do języka polskiego. To znacząco ułatwia ich użycie w różnych sektorach, takich jak edukacja, biznes czy administracja publiczna. Z szerszej perspektywy, rozwój polskich modeli językowych może pomóc w ochronie i promowaniu języka polskiego, co jest ważne dla tożsamości narodowej i kulturowej.

Rozwój LLM wymaga wymaga ogromnych zasobów obliczeniowych, głównie ze względu na złożoność zadań, które muszą być wykonane podczas treningu. Kluczowa jest infrastruktura zapewniająca wiele nowoczesnych procesorów graficznych (GPU), ponieważ pozwalają one na szybsze niż w przypadku CPU przetwarzanie zbiorów tekstów liczących miliardy słów, jak i wykonywanie operacji na macierzach o rozmiarach rzędu milionów lub miliardów elementów. Dodatkowo biblioteki do uczenia maszynowego, takie jak TensorFlow i PyTorch, są zoptymalizowane pod kątem wykorzystania GPU. Dzięki temu można wykorzystać pełny potencjał tych procesorów w treningu modeli językowych.

Z tego względu Cyfronet udostępnia zasoby superkomputerów - w szczególności Heliosa, do trenowania Bielika i PLLuM. Dodatkowo eksperci Cyfronetu wspierają proces merytorycznie.

Bielik

Bielik to rodzina polskich modeli językowych, która powstała dzięki współpracy Fundacji SpeakLeash oraz ACK Cyfronet AGH. Bielik występuje w różnych wersjach, obejmujących od 1,5 do 11 miliardów parametrów.

SpeakLeash – grupa pasjonatów i twórców Bielika

Fundacja SpeakLeash zrzesza ludzi z różnych profesji, którzy postawili sobie za cel stworzenie największego polskiego zbioru danych tekstowych. Zespół projektowy składa się z pracowników polskich przedsiębiorstw, badaczy z ośrodków naukowych oraz studentów kierunków związanych z AI. Prace nad pierwszym oficjalnie i szeroko udostępnionym modelem (Bielik-11B-v2) trwały ponad rok i obejmowały zbieranie, przetwarzanie oraz klasyfikację danych. Od tamtej pory udostepniono liczne kolejne modele.

Model otwarty i dostępny do użytku firmowego

Bielik jest projektem open source i z tego względu może zostać wykorzystany zarówno do użytku prywatnego, jak i biznesowego. może być wykorzystywany do rozwoju firmy i wsparcia procesów biznesowych. Przykładowe zastosowania to:

Automatyzacja obsługi klienta: chatboty, odpowiadanie na często zadawane pytania.
Analiza danych: przetwarzanie i analiza dużych zbiorów danych, generowanie raportów.
Tworzenie treści: artykuły, opisy produktów, materiały marketingowe.
Wsparcie w procesach decyzyjnych: generowanie scenariuszy, analiza ryzyka, rekomendacje.

Bielik dostępny w PLGrid

Naukowcy afiliowani w polskich jednostkach naukowych mogą korzystać z Bielika w ramach usług dostępnych przez Portal PLGrid.

Zachęcamy też do odwiedzenia poniższych stron:

Odwiedź stronę Bielika

Porozmawiaj z Bielikiem

Poznaj rodzinę Bielików na Hugging Face

PLLuM (HIVE AI)

logo PLLuM

W 2025 roku Cyfronet dołączył do konsorcjum HIVE, które powstało jako kontynuacja konsorcjum PLLuM, rozwijającego rodzinę modeli językowych o tej samej nazwie. PLLuM powstaje na zlecenie Ministerstwa Cyfryzacji. Opublikowane zostały wersje wykorzystujące od 4 do 70 miliardów parametrów, co daje dużą elastyczność zastosowania.

Konsorcjum HIVE

Obecnie w rozwój projektu HIVE AI zaangażowanych jest 8 jednostek wiodących:

Politechnika Wrocławska (lider projektu)
Instytut Podstaw Informatyki PAN
Instytut Slawistyki PAN
Naukowa i Akademicka Sieć Komputerowa (NASK-PIB)
Ośrodek Przetwarzania Informacji (OPI-PIB)
Uniwersytet Łódzki
Centralny Ośrodek Informatyki
ACK Cyfronet AGH

Etyczny i dla społeczeństwa

PLLuM, podobnie jak Bielik, bazuje na etycznie pozyskanych danych – dane treningowe były wykorzystane zgodnie z przepisami o prawie autorskim. Dodatkowo w projekcie wykorzystano dane pozyskane bezpośrednio od właścicieli, którzy udzielili licencji na ich wykorzystanie. Model PLLuM jest z założenia modelem bezpiecznym i wolnym od szkodliwych treści. Pod koniec 2025 roku model został szeroko udostępniony społeczeństwu w postaci Asystenta wbudowanego w aplikację mObywatel. W ten sposób PLLuM ułatwia dostęp do przepisów oraz zapewnia wygodniejsze załatwianie spraw urzędowych.

Porozmawiaj z PLLuM

Poznaj rodzinę PLLuM na Hugging Face

Więcej na temat projektu HIVE AI

Polskie Duże Modele Językowe

Bielik

SpeakLeash – grupa pasjonatów i twórców Bielika

Model otwarty i dostępny do użytku firmowego

Bielik dostępny w PLGrid

PLLuM (HIVE AI)

Konsorcjum HIVE

Etyczny i dla społeczeństwa

O nas

Oferta

Superkomputery

Sieci

Projekty i Inicjatywy

Wydarzenia

Szkolenia

Newsletter

Polskie Duże Modele Językowe

Spis treści

Bielik

SpeakLeash – grupa pasjonatów i twórców Bielika

Model otwarty i dostępny do użytku firmowego

Bielik dostępny w PLGrid

PLLuM (HIVE AI)

Konsorcjum HIVE

Etyczny i dla społeczeństwa