HIVE AI
Akronim: | HIVE AI |
Pełna nazwa: | HIVE AI: Rozwój i pilotażowe wdrożenie dużych modeli językowych w polskiej administracji publicznej |
Logotyp: | |
Czas trwania: | 20.02.2025 - 31.12.2025 |
Cel: |
Celem Projektu jest wsparcie cyfryzacji i automatyzacji powtarzalnych czynności urzędniczych w Polsce poprzez pilotażowe wdrożenie polskich dużych modeli językowych (ang. Large Language Models, LLMs) do systemów administracji publicznej. Zadanie stanowi bezpośrednią kontynuację projektu pn. Polish Large Language Model (PLLuM): zakłada rozwój wytworzonych rozwiązań i zasobów, a zarazem przejście z fazy badawczej w fazę wdrożeniową. W ramach Zadania przewidziano wsparcie procesu przygotowawczego do wdrożenia polskich modeli językowych w aplikacji mObywatel, utworzenie asystenta urzędniczego dla Ministerstwa Cyfryzacji i testowe wdrożenie modeli w wybranym urzędzie miasta lub urzędzie wojewódzkim. Na potrzeby wdrożeń i w celu dostosowania modeli do potrzeb administracji publicznej, ujawnionych m.in. w trakcie pilotażu, zgromadzone zostaną nowe zbiory danych językowych, a także opracowane będą nowe zbiory instrukcji do dostrajania modeli (ang. instruction fine tuning), czyli promptów (zapytań lub poleceń) i oczekiwanych odpowiedzi (w zależności od typu instrukcji elementami dodatkowymi mogą być argumentacja, kontekst czy słowa kluczowe), oraz nowe zbiory preferencji do wychowania modeli (ang. alignment), a więc zestawy promptów i różnych odpowiedzi ocenianych pod kątem jakościowym. Na ich bazie rodzina modeli PLLuM rozbudowana zostanie o nowe modele o różnych rozmiarach, w tym (i) modele ogólnego zastosowania, przystosowane do realizacji różnorodnych zadań językowych, ze szczególnym naciskiem na domenę urzędową oraz (ii) generatory, czyli wyspecjalizowane modele RAG-owe (ang. Retrieval Augmented Generation), które na podstawie zapytania w języku naturalnym oraz wyszukanych kontekstów (tj. dokumentów najbardziej pasujących do zapytania) generują końcową odpowiedź. Zadanie realizowane będzie w ścisłej współpracy z instytucjami publicznymi, w których przeprowadzony zostanie pilotaż, co pozwoli na skuteczne wsparcie i automatyzację ich prac. |
Rola ACK Cyfronet AGH: |
ACK Cyfronet AGH jako członek konsorcjum realizującego projekt bierze udział w następujących działaniach:
W ramach prac nad korpusem danych zespół ACK Cyfronet AGH koncentrował się będzie na procesie pozyskania, oczyszczenia oraz oceny danych treningowych na potrzeby pre treningu oraz procesów strojenia. Zespół ACK Cyfronet AGH zapewni wsparcie infrastrukturalne oraz eksperckie w zakresie przetwarzania danych oraz konfiguracji i utrzymania środowiska na potrzeby zadania. W ramach zadania związanego z treningami modeli ACK Cyfronet AGH zapewnia wsparcie infrastrukturalne (zasoby) oraz eksperckie w przygotowaniu, utrzymaniu oraz stroniejeniu środowiska treningowego oraz wsparcie merytoryczne w zakresie procesów treningu oraz oprogramowania. W zakresie wdrożeń pilotażowych ACK Cyfronet AGH będzie koncentrować się na przygotowaniu infrastruktury, a w szczególności rozwiązań związanych z inferencją oraz utrzymaniem niezbędnych elementów architektury wypracowanych rozwiązań. Prace obejmą też projektowanie rozwiązań informatycznych związanych z wdrożeniem z uwzględnieniem skalowania i wysokiej dostępności. |
Kontakt: |
Łukasz Flis |