Duszekjk Jacek Kałużny

Zajęcia 1 – Wprowadzenie + Tokenizacja + „Rzadkie słowa”

Czas trwania: 1,5h | Cele: C1, C7, C8 | Efekty: U1

Tematy:

Wprowadzenie do przedmiotu, repozytorium, biblioteki (transformers, datasets, tokenizers).
Problem rzadkich słów w NLP.
Byte Pair Encoding (BPE) – jak działa, zalety, ograniczenia.
SentencePiece – czym różni się od BPE, użycie w T5.
Ćwiczenia: tokenizacja tekstu, porównanie wyników.

Publikacje:

Sennrich et al. – Neural Machine Translation of Rare Words with Subword Units – https://arxiv.org/abs/1508.07909 Artykuł ten wprowadza metodę BPE do przetwarzania języka naturalnego, pokazując jej skuteczność w radzeniu sobie z rzadkimi słowami w tłumaczeniu maszynowym.
Taku Kudo – Subword Regularization – https://arxiv.org/abs/1804.10959 Autor proponuje technikę urozmaicania segmentacji subwordowej, co przekłada się na większą odporność modeli na nadmierne dopasowanie oraz poprawia uogólnianie.
Philipp Koehn – Neural Machine Translation (rozdz. 13) – https://arxiv.org/abs/1709.07809 Rozdział 13 tej książki stanowi przegląd podstawowych technik neuronowego tłumaczenia maszynowego, w tym problemów związanych z rzadkimi słowami.

Zajęcia 2 – Architektura Transformer + typy modeli

Czas trwania: 1,5h | Cele: C2 | Efekty: W1

Tematy:

Self-attention, multi-head attention, pozycjonowanie.
Różnice: enkoder / dekoder / enkoder-dekoder.
Omówienie schematu z artykułu 'Attention is All You Need'.
Wizualizacje, pytania, interpretacja kodu w transformers.

Publikacje:

Vaswani et al. – Attention is All You Need – https://arxiv.org/abs/1706.03762 To fundamentalna publikacja wprowadzająca architekturę Transformer, na której opierają się współczesne modele językowe.

Zajęcia 3 – Modele językowe: BERT, RoBERTa, GPT, T5, T0, OPT

Czas trwania: 1,5h | Cele: C3, C4, C5 | Efekty: W2

Tematy:

Modele: BERT (enkoder), GPT-2/3 (dekoder), T5/OPT (enkoder-dekoder).
Pretraining vs. fine-tuning – jak to wygląda w praktyce.
Zadania: maskowane modelowanie, autoregresja, seq2seq.

Publikacje:

Devlin et al. – BERT – https://arxiv.org/abs/1810.04805 BERT to pierwszy popularny model wykorzystujący enkoderową część Transformera i pretraining przez maskowanie słów (MLM).
Liu et al. – RoBERTa – https://arxiv.org/abs/1907.11692 RoBERTa pokazuje, że odpowiednie ustawienia pretrainingu mogą znacząco poprawić wyniki BERT-a, bez zmiany architektury.
Radford et al. – GPT-2 – https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf GPT-2 to autoregresyjny model dekoderowy, który wprowadza uniwersalne podejście do wielu zadań NLP bez fine-tuningu.
Brown et al. – GPT-3 – https://arxiv.org/abs/2005.14165 GPT-3 rozszerza ideę GPT-2 do miliardów parametrów, umożliwiając few-shot i zero-shot learning bez uczenia na konkretnym zadaniu.
Raffel et al. – T5 – https://arxiv.org/abs/1910.10683 T5 przedstawia ujednolicony framework Text-to-Text i porównuje różne sposoby pretrainingu modeli językowych.

Zajęcia 4 – Modele wielojęzyczne + modele dla długich sekwencji

Czas trwania: 1,5h | Cele: C6 | Efekty: W3, W4

Tematy:

Wielojęzyczne modele: XLM, XLM-R, mT5, ByT5, XGLM.
Kiedy warto stosować modele wielojęzyczne?
Problem długości sekwencji: Longformer, LongT5, FlashAttention.
Praktyka: przetwarzanie długiego dokumentu.

Publikacje:

Xue et al. – mT5 – https://arxiv.org/abs/2010.11934 mT5 to wersja modelu T5 trenowana na 101 językach, wykazująca wysoką skuteczność w zadaniach wielojęzycznych.
Beltagy et al. – Longformer – https://arxiv.org/abs/2004.05150 Longformer wprowadza efektywny mechanizm self-attention, który pozwala przetwarzać bardzo długie dokumenty.
Lample & Conneau – XLM – https://arxiv.org/abs/1901.07291 XLM łączy uczenie maskowane (MLM) z tłumaczeniem maszynowym, umożliwiając transfer między językami.
Conneau et al. – XLM-R – https://arxiv.org/abs/1911.02116 XLM-R jest rozszerzeniem XLM, trenowanym na dużym korpusie CommonCrawl w 100 językach.

Zajęcia 5 – Modele dziedzinowe vs. ogólne + modele PL

Czas trwania: 1.5h | Cele: C4, C5, C6 | Efekty: W5

Tematy:

Czym są modele dziedzinowe (np. medBERT, bioGPT)?
Polish RoBERTa, Polish T5, HerBERT – przegląd modeli dla j. polskiego.
Ćwiczenie: uruchomienie modelu PL i analiza wyników.

Publikacje:

Sławomir Dadas et al. – Polish RoBERTa – https://arxiv.org/abs/2006.04229 Model językowy wytrenowany dla języka polskiego, oparty na architekturze RoBERTa i dużym polskim korpusie KGR10.
Wang et al. – MiniLM – https://arxiv.org/abs/2002.10957 MiniLM to kompaktowy model uczony przez destylację, który umożliwia szybkie i wydajne wdrażanie modeli NLP.

Zajęcia 6 – Fine-tuning i trenowanie modeli

Czas trwania: 1,5h | Cele: C1, C5 | Efekty: U2

Tematy:

Pretraining vs. fine-tuning — czym się różnią.
Transfer learning — jak przenieść wiedzę na nowe zadanie.
Praktyka: fine-tuning modelu do klasyfikacji tekstu.

Publikacje:

Raffel et al. – T5 – https://arxiv.org/abs/1910.10683 T5 analizuje wpływ różnych metod pretrainingu i pokazuje, jak dostosować model do nowego zadania przez fine-tuning.
Wolf et al. – HuggingFace Transformers – https://arxiv.org/abs/1910.03771 Publikacja opisująca bibliotekę 🤗 Transformers, która umożliwia szybkie wdrażanie i fine-tuning modeli NLP.

Zajęcia 7 – Few-shot / one-shot / zero-shot learning

Czas trwania: 1.5h | Cele: C8 | Efekty: W6, U4

Tematy:

Przykłady z GPT-3, FLAN-T5, T0.
Jak promptować modele? In-context learning.
Warsztat: budowanie promptów i analiza wyników.

Publikacje:

Brown et al. – GPT-3 – https://arxiv.org/abs/2005.14165 GPT-3 umożliwia wykonywanie zadań NLP bez fine-tuningu, wyłącznie na podstawie promptów w stylu few-shot/zero-shot.

Zajęcia 8 – Zastosowania: klasyfikacja + QA

Czas trwania: 1,5h | Cele: C1, C5 | Efekty: U3

Tematy:

Zadanie klasyfikacji (np. wykrywanie sentymentu).
Zadanie pytanie-odpowiedź (QA) – SQuAD, HuggingFace datasets.
Praktyka: implementacja, ewaluacja, analiza wyników.

Publikacje:

Sanh et al. – DistilBERT – https://arxiv.org/abs/1910.01108 DistilBERT to zredukowany model BERT, który zachowuje 95% jakości przy dużo szybszym działaniu — idealny do QA i klasyfikacji.
Wang et al. – MiniLM – https://arxiv.org/abs/2002.10957 MiniLM pozwala na skuteczną klasyfikację i QA przy niewielkich wymaganiach obliczeniowych — ważne dla realnych aplikacji.

Uczenie Głębokie W Przetwarzaniu Tekstu