Prace nad neuronowymi modelami języka
Prace nad rozwojem neuronowych modeli języka trwają w wielu ośrodkach informatycznych i firmach na całym świecie. Branża IT już od dłuższego czasu dostrzega w nich duży potencjał. Mają one coraz większe zastosowanie w życiu każdego użytkownika internetu.
- Neuronowy model języka to algorytm statystyczny, który modeluje (czy też uczy) rozkładu prawdopodobieństwa słów w teście, w danym języku, poprzez rozwiązywanie sztucznie skonstruowanego zadania lingwistycznego - mówi na antenie Programu 1 Polskiego Radia Sławomir Dadas, zastępca kierownika Laboratorium Inteligentnych Systemów Informatycznych w OPI PIB. - Dzięki temu jest w stanie nauczyć się składni oraz relacji semantycznych pomiędzy słowami w danym języku - tłumaczy.
Pół miliona książek w jednym modelu
Większość modeli opracowanych jest dla języka angielskiego, dlatego naukowcy z Ośrodka Przetwarzania Informacji - Państwowego Instytutu Badawczego (OPI PIB) stale rozwijają i udostępniają polskojęzyczne modele. W tym roku oddali oni do użytku dwa kolejne - Polish RoBERTa v2 oraz GPT-2.
Model Polish RoBERTa wytrenowano na największym w Polsce korpusie tekstów, który obejmuje 130 GB danych. Odpowiada to prawie pół milionowi książek. - Trenowanie modeli neuronowych wiąże się z tym, że należy zgromadzić duży korpus tekstu. Model neuronowy, aby nauczyć się danego języka, potrzebuje bardzo dużego zbioru tekstów w danym języku - wyjaśnia gość Jedynki.
Naukowcy, trenując Polish RoBERTa, skonstruowali korpus składający się z dwóch części. - W pierwszej części zgromadziliśmy wysokiej jakości teksty, np. teksty pochodzące z Wikipedii, zapisów polskiego parlamentu, wypowiedzi z mediów społecznościowych, dłuższe formy pisane - wylicza Sławomir Dadas. - W drugiej części zgromadziliśmy ekstrakty z polskojęzycznych stron internetowych - dodaje.
źródło: OPI - PIB/Youtube
GPT-2 i generowanie tekstu
Model GPT-2 przeznaczony jest do zadań związanych głównie z generowaniem tekstu. Ekspert w rozmowie z Dorotą Truszczak wyjaśnia, czym polskie modele różnią się od siebie.
- Ośrodek Przetwarzania Informacji - Państwowy Instytut Badawczy (OPI PIB) udostępnił trzy modele. Jeden z nich to Polish RoBERTa v2, drugi GPT-2 i trzeci z modeli to jest BART - mówi gość audycji. - Posiadają podobną architekturę, różnią się technikaliami, z których wynika, do czego te modele mogą być stosowane. Polish RoBERTa jest przeznaczony do rozumienia tekstu, BART przeznaczony do zadań "sequence to sequence" czyli takich, gdzie wejściem i wyjściem modelu jest tekst i GPT-2 do zadań związanych z generowaniem tekstu - słyszymy.
Czytaj też:
Poza tym w audycji:
"Dlaczego w niedzielę 13 grudnia 1981 roku w telewizji nie pokazano dobranocki dla dzieci "Pszczółki Mai"? Ponieważ nie udało się znaleźć właściwego rozmiaru munduru dla Gucia" czy "Puk, puk… Kto tam? Interniści! Ale ja jestem zdrów! A my nie przyszliśmy was leczyć, tylko internować!" to tylko dwa z licznych dowcipów powstałych po ogłoszeniu stanu wojennego, które zostały przypomniane w książce "Nikczemność i honor. Stan wojenny w stu odsłonach".
To wydarzenie sprzed 40 lat, w niedzielną mroźną zimę 13 grudnia 1981 roku, którym władze komunistyczne brutalnie zakończyły karnawał Solidarności, kiedy na ulicach pojawiły się czołgi, skoty, ma wiele obliczy. Każdy, kto żył w tamtych czasach, doświadczył stanu wojennego, może opowiedzieć swoją historię. Nierzadko dramatyczną. W stu odsłonach opisali ją trzej historycy z Uniwersytetu Mikołaja Kopernika w Toruniu: prof. Wojciech Polak, prof. Sylwia Galij-Skarbińska i ks. Michał Damazyn. Dlaczego autorzy wybrali takie, a nie inne wydarzenia? Opowiedział o tym historyk prof. Wojciech Polak.
Zobacz także:
Tytuł audycji: Eureka
Prowadzi: Dorota Truszczak
Goście: Sławomir Dadas (zastępca kierownika Laboratorium Inteligentnych Systemów Informatycznych w OPI PIB), prof. Wojciech Polak (historyk, UMK w Toruniu)
Data emisji: 30.11.2021 r.
Godzina emisji: 19.30
mat. prasowe/ans
Tłumaczą teksty, wykrywają spam. Czym są neuronowe modele języka? - Jedynka - polskieradio.pl