Polska będzie miała swój wielki otwarty model językowy

1 lat temu 114

Z artykułu dowiesz się:

Co to są wielkie językowe modele generatywne Jakie jest zastosowanie LLMs Dlaczego powstaje pierwszy polski otwarty model językowy Czym ma się charakteryzować PLLUM Co się może zmienić po debiucie polskiego modelu językowego

Co to są wielkie językowe modele generatywne i dlaczego Polacy chcą mieć swój?

Całkiem niedawno minął rok, odkąd Chat GPT pojawił się w użytku. Nie można mu odmówić, że zrewolucjonizował środowisko sztucznej inteligencji. Przekonał do siebie miliony ludzi, którzy poszli za nim, korzystają z jego funkcjonalności i czerpią z tego niemałe korzyści. No dobrze, ale czy tak po prostu kiedyś zastanawialiśmy się, jak działa ten ChatGPT i co ma pod maską?

Za jego działanie, jak również innych podobnych narzędzi, odpowiada LLM, czyli generatywny model językowy, rodzaj algorytmu sztucznej inteligencji. Generuje on nowe treści, wykorzystując przy tym potężne zbiory danych i techniki deep learningu. Wydaje się być to zupełnie nową technologią na miarę XXI wieku. Tymczasem pierwsze modele językowe AI pojawiły się znacznie wcześniej. Przykład? Model językowy ELIZA, który swój debiut miał w 1966 roku. To były początki rozwoju tej zaawansowanej technologii, która swoje czasy renesansu przeżywa właśnie teraz. Wszystkie modele językowe, od początku swojego istnienia, były szkolone na konkretnym zestawie danych. Na dalszym etapie wykorzystywały różne techniki do wnioskowania o zależnościach. Ostatecznie generowały nowe treści…i tak jest do dzisiaj, w tej kwestii niewiele się zmieniło. Na pewno jednak zmiana jest widoczna w skuteczności automatycznego tworzenia nowych treści. Dzisiaj AI potrafi stworzyć naprawdę wysoko jakościowy tekst czy zaawansowaną grafikę, z powodzeniem zastępując ludzki umysł. Dzisiaj zwykle LLM wykorzystuje do szkolenia zbiór danych zawierający przynajmniej miliard parametrów, a niekiedy nawet więcej. To potężne narzędzie, które z roku na rok potrafi coraz więcej.

Istnieje już wiele wielkich modeli językowych. Dlaczego więc Polacy postanowili, że stworzą kolejny? Co było ich motywacją i czy właściwie jest racjonalny i solidny powód, dla którego warto podejmować tak duży trud i inwestycję? A no jest! Istniejące modele językowe mają duże ograniczenia, wciąż według naukowców daleko im do ideału, do stworzenia którego są obecnie całkiem dobre warunki. Ponadto są to modele językowe zamknięte i płatne (częściowo lub w całości). Największym jednak problemem dla naszego polskiego społeczeństwa jest to, że są one trenowane ze zbyt małym udziałem polskojęzycznych treści. To sprawia, że nie jesteśmy w stanie w pełni wykorzystywać potencjału AI. Pociąga to za sobą pewne konsekwencje – inne kraje mają lepszy i większy dostęp do narzędzi bazujących na sztucznej inteligencji, a my musimy się pogodzić z tym, że jesteśmy zawsze krok za nimi. Właśnie dzięki PLLUM ma się to zmienić. Jesteśmy na dobrej drodze, aby mieć swój własny otwarty wielki model językowy i tym samym przyspieszyć rozwój technologiczny w naszym kraju.

Zastosowanie LLMs

Jeśli chodzi o współczesne LLMs, to pojawiły się one w 2017 roku i to właśnie one są nam bliskie i dobrze znane. Bazują na transformerach wyposażonych w duże ilości parametrów, co pozwala im na błyskawiczne generowanie zaawansowanych treści. To sprawia, że sztuczna inteligencja znalazła zastosowanie w bardzo wielu dziedzinach, a może nawet we wszystkich sferach naszego życia.

Podstawowym zastosowaniem LLMs jest generowanie tekstu na określony temat, na który model językowy został wcześniej przeszkolony. Tak potężne narzędzia jak np. ChatGPT są w stanie stworzyć teksty praktycznie na każdy temat. Ich zaplecze danych jest niewyobrażalnie duże, co czyni ich wszechstronnymi botami. LLMs od dłuższego już czasu wykorzystuje się przy tłumaczeniach językowych. Są wsparciem dla tłumaczy, przyspieszając cały proces przekładania tekstu z jednego języka na drugi. Co więcej, LLM potrafi tworzyć podsumowania większych bloków tekstów oraz klasyfikować treści.

To, co wciąż jeszcze niektórych zaskakuje, to umiejętność prowadzenia rozmowy przez LLM. Takim przykładem jest chatbot ChatGPT. Użytkownik kieruje w jego stronę zapytanie, a on z kolei odpowiada, a czasem też odwrotnie. Prowadzona jest rozmowa i zostaje nawiązana komunikacja między dwoma stronami – człowiekiem i botem. Ta funkcjonalność AI znalazła swoje zastosowanie w obsłudze klienta, szczególnie w Internecie na stronach internetowych z usługami czy też w e-sklepach. Dobrym przykładem jest bot firmy kurierskiej Inpost, który jest dostępny na stronie www firmy. Jest on w stanie odpowiedzieć na pytania dotyczące lokalizacji paczki czy też sposobu jej nadania. Został tak wyszkolony, aby z powodzeniem obsłużyć klienta bez udziału pracownika. Oczywiście nie poradzi sobie ze wszystkim, ale jego pomoc w znaczącym stopniu usprawnia cały proces komunikacji z klientami.

Pierwszy polski otwarty wielki model językowy PLLUM to dla nas szansa

Polacy już od dłuższego czasu są postrzegani jako jedni z najlepszych specjalistów w zakresie zaawansowanej technologii w Europie. Możemy więc pochwalić się bardzo solidnym zapleczem technologicznym, co udaje nam się w niektórych projektach całkiem dobrze wykorzystywać. Stworzenia pierwszego polskiego otwartego modelu językowego podjęło się sześć jednostek naukowych specjalizujących się w obszarze sztucznej inteligencji i językoznawstwa, czyli Politechnika Wrocławska (lider konsorcjum), Państwowy Instytut Badawczy NASK, Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy (OPI PIB), Instytut Podstaw Informatyki PAN, Uniwersytet Łódzki oraz Instytut Slawistyki PAN. Zawiązały one konsorcjum PLLuM (Polish Large Language Universal Model).

Prof. Maciej Piasecki, kierownik projektu po stronie Politechniki Wrocławskiej, lidera konsorcjum tak komentuje motywacje do stworzenia PLLUM:

Wielkie modele językowe stały się uniwersalnymi, podstawowymi silnikami dla przetwarzania języka naturalnego, ale ich zbudowanie czy dotrenowanie przekracza możliwości polskich przedsiębiorców. Dlatego stworzenie otwartego polskiego wielkiego modelu językowego w połączeniu z dostępną już w Polsce infrastrukturą obliczeniową dla AI (np. na PWr.) jest takie ważne, bo może wesprzeć rozwój nauki, ale także małe i średnie przedsiębiorstwa, które w obszarze IT oraz AI są motorem napędowym polskiej gospodarki.

Polski model językowy ma być dostępny dla każdego. Oznacza to, że będą mogli z niego korzystać zarówno naukowcy i przedsiębiorcy, jak również ogół społeczeństwa. Inteligentny asystent, który jest ważnym integralnym elementem całego projektu, ma pomóc zwiększyć dostępność usług publicznych, co dotyczy nie tylko usług cyfrowych, ale też świadczonych w sposób tradycyjny np. bezpośrednio w urzędzie czy sklepie stacjonarnym.

Obecne modele językowe, które są w ograniczony sposób trenowane na źródłach polskojęzycznych, nie nadają się do użytku komercyjnego w naszym kraju ze względu na zbyt małą ilość danych możliwych do wykorzystania. PLLUM ma rozwiązać ten problem, jak podkreśla dr inż. Jarosław Protasiewicz, dyrektor Ośrodka Przetwarzania Informacji:

Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy (OPI PIB) bardzo chętnie dołączył do konsorcjum PLLuM, gdyż już od wielu lat pracuje nad rozwijaniem narzędzi do przetwarzania języka naturalnego. W interesie nas wszystkich leży dynamiczny rozwój branży IT i środowiska naukowego w Polsce. Istotne jest, aby opracowywać nowe narzędzia IT i udostępniać je wszystkim za darmo. W OPI opracowaliśmy m.in. model Polish RoBERTa large, który według KLEJ Benchmark jest najlepszym modelem reprezentacyjnym dla języka polskiego. Cieszę się, że teraz nasza wiedza i doświadczenie będą wykorzystane do opracowania modelu PLLuM. Potrzebne są nam modele trenowane na tekstach polskojęzycznych, niezbędne są one m.in. do analizy polskiego Internetu.

Jest to więc również duży krok w kierunku rozwoju nauki i procesów badawczych w naszym kraju. Model językowy wytrenowany na polskojęzycznych źródłach stwarza ogromne możliwości pracy nad zaawansowanymi projektami. Poza tym większy udział tekstów napisanych w języku polskim, a także zawierających informacje o naszym kraju z zakresu gospodarki, polityki, historii czy sztuki może pozytywnie wpłynąć na widoczność Polski na arenie międzynarodowej.

Tworzymy swój AI, ponieważ chcemy stawać w szeregach z najlepszymi

Wiele wskazuje na to, że polscy naukowcy AI mają w genach. Są ku temu twarde dowody. Przykładem niech będzie Wojciech Zaremba, współzałożyciel OpenAI. To genialny specjalista wywodzący się z Uniwersytetu Warszawskiego. Dowiadujemy się również, że na początku istnienia OpenAI na ok. 50 zatrudnionych pracowników 20% to byli Polacy. Całkiem niezły wynik. Takich omnibusów w naszym kraju jest znacznie więcej. Talenty rodzą się już bardzo wcześnie. Polscy studenci odnoszą niebywałe sukcesy w międzynarodowych konkursach programistycznych.

No właśnie, skoro mamy tak wybitnych naukowców, to grzechem byłoby tego nie wykorzystać. Dotychczas korzystaliśmy z zagranicznych dużych modeli językowych i nie zawsze wychodziło nam to na dobre. Chodzi o to, że są takie obszary, jak bankowość czy dokumentacja medyczna, które są objęte tajemnicą i niektóre informacje nie mogą być przesyłane poza granice naszego kraju. Zatem w tej kwestii mieliśmy dotąd związane ręce.

Nie chodzi o to, aby boty leczyły ludzi, ale aby były wsparciem dla lekarzy, np. podczas automatycznego wypełnienia e-recepty. Na PLLUM zyskać mogą więc kluczowe obszary, jak bankowość, wojsko, medycyna czy obrona narodowa. Było nam to potrzebne, jednak nikt do tej pory nie zdecydował się na tak odważny krok i nie zaproponował polskiego otwartego wielkiego modelu językowego. Może po prostu potrzebowaliśmy dojrzeć do tego projektu…

No dobrze, to kiedy wreszcie polski model językowy PLLUM będzie dostępny? Tego jeszcze nie wiemy, prace nad nim wciąż trwają. To proces, na efekty, którego warto czekać, tak przynajmniej obiecują sami twórcy. Już się jednak o nim mówi na arenie międzynarodowej. Kolejny raz polscy naukowcy zaskoczyli świat.

Czytaj więcej