ACK Cyfronet AGH, NAC, NASK i SpeakLeash wytworzą polskie modele sztucznej inteligencji nowej generacji
ACK Cyfronet AGH, Narodowe Archiwum Cyfrowe (NAC), NASK oraz projekt SpeakLeash rozpoczęły współpracę, która może otworzyć nowy rozdział w rozwoju sztucznej inteligencji w Polsce. Wspólnie chcą wykorzystać ogromne zasoby archiwalne NAC - miliony zdjęć, map i skanów, aby tworzyć nowoczesne zestawy danych potrzebne do trenowania zaawansowanych modeli AI.
W Polsce powstały już dwa duże modele językowe (LLM – Large Language Models): Bielik.AI, rozwijany przede wszystkim z myślą o środowisku biznesowym, oraz PLLuM, którego głównymi użytkownikami mają być instytucje publiczne i administracja. Oba potrafią analizować i generować tekst, wspierać w pracy z dokumentami czy ułatwiać wyszukiwanie informacji. To jednak dopiero początek drogi. Przyszłość należy do modeli multimodalnych, czyli takich, które potrafią jednocześnie rozumieć różne rodzaje danych - tekst, obraz, dźwięk czy wideo. W tej grupie znajdują się m.in. VLM (Vision-Language Models), łączące język i obraz. Dzięki nim komputer może nie tylko przeczytać tekst, ale też zrozumieć, co przedstawia zdjęcie, opisać je słowami, a nawet odpowiedzieć na pytania dotyczące ilustracji czy mapy.
Żeby jednak takie modele powstały, potrzebne są ogromne, starannie opisane zbiory danych. I właśnie tutaj kluczową rolę odgrywa Narodowe Archiwum Cyfrowe, które gromadzi petabajty zdigitalizowanych zasobów – fotografii, dokumentów, map i skanów. Dzięki współpracy z Cyfronetem, NASK i SpeakLeash archiwa te będą mogły być udostępniane i opracowywane w taki sposób, aby stały się fundamentem badań nad sztuczną inteligencją w Polsce. To pozwoli na budowę ekosystemu danych multimodalnych, prowadzenie pierwszych projektów badawczo-rozwojowych, a także trening nowych modeli językowych i multimodalnych. Z czasem mogą powstać narzędzia, które ułatwią obywatelom dostęp do zasobów kultury i historii, czyniąc archiwa cyfrowe bardziej użytecznymi i dostępnymi niż kiedykolwiek wcześniej.
Co ważne, ta inicjatywa nie ogranicza się wyłącznie do aspektów technologicznych. SpeakLeash, wspólnie z Cyfronetem, już dziś prowadzi projekt Obywatel Bielik - pierwszą w Polsce inicjatywę crowdsourcingową, w której każdy może włączyć się w budowanie przyszłości AI. Obywatele przesyłają własne zdjęcia i pomagają je opisywać, współtworząc w ten sposób dane potrzebne do treningu modeli multimodalnych. Te doświadczenia i mechanizmy partycypacyjne zostaną teraz włączone także do działań konsorcjum z udziałem NAC i NASK. Oznacza to, że rozwój polskiej sztucznej inteligencji będzie odbywał się nie tylko w laboratoriach badawczych i centrach danych, lecz również przy aktywnym udziale obywateli.
Tak silne partnerstwo – łączące twórców polskich modeli językowych, ogromne archiwum zdigitalizowanych zasobów oraz unikatowe komponenty obywatelskie - stanowi ewenement w skali światowej. Wpisuje się ono doskonale w strategie rozwoju sztucznej inteligencji, a także w koncepcję AI fabryk i giga fabryk, w których budowa modeli odbywa się w sposób zorganizowany, odpowiedzialny i wsparty współdziałaniem wielu środowisk. To krok, który może nadać polskiej AI zupełnie nową dynamikę i znaczenie na arenie międzynarodowej.
grafika: Ministerstwo Cyfryzacji