Wyszukaj

JEDYNKA

EUREKA

Tłumaczą teksty, wykrywają spam. Czym są neuronowe modele języka?

Data publikacji: 30.11.2021 21:30

Ostatnia aktualizacja: 01.12.2021 09:03

Ten tekst przeczytasz w 3 minuty

Dzięki neuronowym modelom języka internauci mają m.in. dostęp do usług tłumaczenia tekstu na różne języki, Autor - Sashkin/shutterstock

Dzięki nim użytkownicy internetu mają dostęp do usług tłumaczenia tekstu na różne języki, możliwe jest wykrywanie spamu, realizowane są badania nastrojów społecznych w sieci, a także z ich pomocą każdy ma dostęp do automatycznej korekty tekstu czy też może porozmawiać z chatbotem. Mowa o neuronowych modelach języka, których popularność w ostatnich latach znacznie wzrosła.

Prace nad neuronowymi modelami języka

Prace nad rozwojem neuronowych modeli języka trwają w wielu ośrodkach informatycznych i firmach na całym świecie. Branża IT już od dłuższego czasu dostrzega w nich duży potencjał. Mają one coraz większe zastosowanie w życiu każdego użytkownika internetu.

- Neuronowy model języka to algorytm statystyczny, który modeluje (czy też uczy) rozkładu prawdopodobieństwa słów w teście, w danym języku, poprzez rozwiązywanie sztucznie skonstruowanego zadania lingwistycznego - mówi na antenie Programu 1 Polskiego Radia Sławomir Dadas, zastępca kierownika Laboratorium Inteligentnych Systemów Informatycznych w OPI PIB. - Dzięki temu jest w stanie nauczyć się składni oraz relacji semantycznych pomiędzy słowami w danym języku - tłumaczy.

POSŁUCHAJ

24:09

Czym są neuronowe modele języka? (Eureka/Jedynka)

Pół miliona książek w jednym modelu

Większość modeli opracowanych jest dla języka angielskiego, dlatego naukowcy z Ośrodka Przetwarzania Informacji - Państwowego Instytutu Badawczego (OPI PIB) stale rozwijają i udostępniają polskojęzyczne modele. W tym roku oddali oni do użytku dwa kolejne - Polish RoBERTa v2 oraz GPT-2.

Model Polish RoBERTa wytrenowano na największym w Polsce korpusie tekstów, który obejmuje 130 GB danych. Odpowiada to prawie pół milionowi książek. - Trenowanie modeli neuronowych wiąże się z tym, że należy zgromadzić duży korpus tekstu. Model neuronowy, aby nauczyć się danego języka, potrzebuje bardzo dużego zbioru tekstów w danym języku - wyjaśnia gość Jedynki.

Naukowcy, trenując Polish RoBERTa, skonstruowali korpus składający się z dwóch części. - W pierwszej części zgromadziliśmy wysokiej jakości teksty, np. teksty pochodzące z Wikipedii, zapisów polskiego parlamentu, wypowiedzi z mediów społecznościowych, dłuższe formy pisane - wylicza Sławomir Dadas. - W drugiej części zgromadziliśmy ekstrakty z polskojęzycznych stron internetowych - dodaje.

źródło: OPI - PIB/Youtube

GPT-2 i generowanie tekstu

Model GPT-2 przeznaczony jest do zadań związanych głównie z generowaniem tekstu. Ekspert w rozmowie z Dorotą Truszczak wyjaśnia, czym polskie modele różnią się od siebie.

- Ośrodek Przetwarzania Informacji - Państwowy Instytut Badawczy (OPI PIB) udostępnił trzy modele. Jeden z nich to Polish RoBERTa v2, drugi GPT-2 i trzeci z modeli to jest BART - mówi gość audycji. - Posiadają podobną architekturę, różnią się technikaliami, z których wynika, do czego te modele mogą być stosowane. Polish RoBERTa jest przeznaczony do rozumienia tekstu, BART przeznaczony do zadań "sequence to sequence" czyli takich, gdzie wejściem i wyjściem modelu jest tekst i GPT-2 do zadań związanych z generowaniem tekstu - słyszymy.

Czytaj też:

Poza tym w audycji:

"Dlaczego w niedzielę 13 grudnia 1981 roku w telewizji nie pokazano dobranocki dla dzieci "Pszczółki Mai"? Ponieważ nie udało się znaleźć właściwego rozmiaru munduru dla Gucia" czy "Puk, puk… Kto tam? Interniści! Ale ja jestem zdrów! A my nie przyszliśmy was leczyć, tylko internować!" to tylko dwa z licznych dowcipów powstałych po ogłoszeniu stanu wojennego, które zostały przypomniane w książce "Nikczemność i honor. Stan wojenny w stu odsłonach".

To wydarzenie sprzed 40 lat, w niedzielną mroźną zimę 13 grudnia 1981 roku, którym władze komunistyczne brutalnie zakończyły karnawał Solidarności, kiedy na ulicach pojawiły się czołgi, skoty, ma wiele obliczy. Każdy, kto żył w tamtych czasach, doświadczył stanu wojennego, może opowiedzieć swoją historię. Nierzadko dramatyczną. W stu odsłonach opisali ją trzej historycy z Uniwersytetu Mikołaja Kopernika w Toruniu: prof. Wojciech Polak, prof. Sylwia Galij-Skarbińska i ks. Michał Damazyn. Dlaczego autorzy wybrali takie, a nie inne wydarzenia? Opowiedział o tym historyk prof. Wojciech Polak.

Zobacz także:

Tytuł audycji: Eureka

Prowadzi: Dorota Truszczak

Goście: Sławomir Dadas (zastępca kierownika Laboratorium Inteligentnych Systemów Informatycznych w OPI PIB), prof. Wojciech Polak (historyk, UMK w Toruniu)

Data emisji: 30.11.2021 r.

Godzina emisji: 19.30

mat. prasowe/ans

Dorota Truszczak

języki obce

internet

sztuczna inteligencja

informatyka

Zobacz także