Tłumaczą teksty, wykrywają spam. Czym są neuronowe modele języka?

Data publikacji: 30.11.2021 21:30
Ostatnia aktualizacja: 01.12.2021 09:03
Ten tekst przeczytasz w 3 minuty
Dzięki neuronowym modelom języka internauci mają m.in. dostęp do usług tłumaczenia tekstu na różne języki
Dzięki neuronowym modelom języka internauci mają m.in. dostęp do usług tłumaczenia tekstu na różne języki, Autor - Sashkin/shutterstock
Dzięki nim użytkownicy internetu mają dostęp do usług tłumaczenia tekstu na różne języki, możliwe jest wykrywanie spamu, realizowane są badania nastrojów społecznych w sieci, a także z ich pomocą każdy ma dostęp do automatycznej korekty tekstu czy też może porozmawiać z chatbotem. Mowa o neuronowych modelach języka, których popularność w ostatnich latach znacznie wzrosła. 

Prace nad neuronowymi modelami języka 

Prace nad rozwojem neuronowych modeli języka trwają w wielu ośrodkach informatycznych i firmach na całym świecie. Branża IT już od dłuższego czasu dostrzega w nich duży potencjał. Mają one coraz większe zastosowanie w życiu każdego użytkownika internetu. 

- Neuronowy model języka to algorytm statystyczny, który modeluje (czy też uczy) rozkładu prawdopodobieństwa słów w teście, w danym języku, poprzez rozwiązywanie sztucznie skonstruowanego zadania lingwistycznego - mówi na antenie Programu 1 Polskiego Radia Sławomir Dadas, zastępca kierownika Laboratorium Inteligentnych Systemów Informatycznych w OPI PIB. - Dzięki temu jest w stanie nauczyć się składni oraz relacji semantycznych pomiędzy słowami w danym języku - tłumaczy. 


POSŁUCHAJ

24:09

Czym są neuronowe modele języka? (Eureka/Jedynka)

 

Pół miliona książek w jednym modelu    

Większość modeli opracowanych jest dla języka angielskiego, dlatego naukowcy z Ośrodka Przetwarzania Informacji - Państwowego Instytutu Badawczego (OPI PIB) stale rozwijają i udostępniają polskojęzyczne modele. W tym roku oddali oni do użytku dwa kolejne - Polish RoBERTa v2 oraz GPT-2.

Model Polish RoBERTa wytrenowano na największym w Polsce korpusie tekstów, który obejmuje 130 GB danych. Odpowiada to prawie pół milionowi książek. - Trenowanie modeli neuronowych wiąże się z tym, że należy zgromadzić duży korpus tekstu. Model neuronowy, aby nauczyć się danego języka, potrzebuje bardzo dużego zbioru tekstów w danym języku - wyjaśnia gość Jedynki.

Naukowcy, trenując Polish RoBERTa, skonstruowali korpus składający się z dwóch części. - W pierwszej części zgromadziliśmy wysokiej jakości teksty, np. teksty pochodzące z Wikipedii, zapisów polskiego parlamentu, wypowiedzi z mediów społecznościowych, dłuższe formy pisane - wylicza Sławomir Dadas. - W drugiej części zgromadziliśmy ekstrakty z polskojęzycznych stron internetowych - dodaje. 

źródło: OPI - PIB/Youtube 

GPT-2 i generowanie tekstu 

Model GPT-2 przeznaczony jest do zadań związanych głównie z generowaniem tekstu. Ekspert w rozmowie z Dorotą Truszczak wyjaśnia, czym polskie modele różnią się od siebie. 

- Ośrodek Przetwarzania Informacji - Państwowy Instytut Badawczy (OPI PIB) udostępnił trzy modele. Jeden z nich to Polish RoBERTa v2, drugi GPT-2 i trzeci z modeli to jest BART - mówi gość audycji. - Posiadają podobną architekturę, różnią się technikaliami, z których wynika, do czego te modele mogą być stosowane. Polish RoBERTa jest przeznaczony do rozumienia tekstu, BART przeznaczony do zadań "sequence to sequence" czyli takich, gdzie wejściem i wyjściem modelu jest tekst i GPT-2 do zadań związanych z generowaniem tekstu - słyszymy. 

Czytaj też: 

Poza tym w audycji:

"Dlaczego w niedzielę 13 grudnia 1981 roku w telewizji nie pokazano dobranocki dla dzieci "Pszczółki Mai"? Ponieważ nie udało się znaleźć właściwego rozmiaru munduru dla Gucia" czy "Puk, puk… Kto tam? Interniści! Ale ja jestem zdrów! A my nie przyszliśmy was leczyć, tylko internować!" to tylko dwa z licznych dowcipów powstałych po ogłoszeniu stanu wojennego, które zostały przypomniane w książce "Nikczemność i honor. Stan wojenny w stu odsłonach".

To wydarzenie sprzed 40 lat, w niedzielną mroźną zimę 13 grudnia 1981 roku, którym władze komunistyczne brutalnie zakończyły karnawał Solidarności, kiedy na ulicach pojawiły się czołgi, skoty, ma wiele obliczy. Każdy, kto żył w tamtych czasach, doświadczył stanu wojennego, może opowiedzieć swoją historię. Nierzadko dramatyczną. W stu odsłonach opisali ją trzej historycy z Uniwersytetu Mikołaja Kopernika w Toruniu: prof. Wojciech Polak, prof. Sylwia Galij-Skarbińska i ks. Michał Damazyn. Dlaczego autorzy wybrali takie, a nie inne wydarzenia? Opowiedział o tym historyk prof. Wojciech Polak.

Zobacz także:

Tytuł audycji: Eureka

Prowadzi: Dorota Truszczak

Goście: Sławomir Dadas (zastępca kierownika Laboratorium Inteligentnych Systemów Informatycznych w OPI PIB), prof. Wojciech Polak (historyk, UMK w Toruniu)

Data emisji: 30.11.2021 r. 

Godzina emisji: 19.30

mat. prasowe/ans 

Sygnały dnia
Sygnały dnia
cover
Odtwarzacz jest gotowy. Kliknij aby odtwarzać.