Plan może ulec zmianie
- Wprowadzenie do przedmiotu, repozytorium, biblioteki (transformers, datasets, tokenizers).
- Problem rzadkich słów w NLP.
- Byte Pair Encoding (BPE) – jak działa, zalety, ograniczenia.
- SentencePiece – czym różni się od BPE, użycie w T5.
- Ćwiczenia: tokenizacja tekstu, porównanie wyników.
- Sennrich et al. – Neural Machine Translation of Rare Words with Subword Units – https://arxiv.org/abs/1508.07909 Artykuł ten wprowadza metodę BPE do przetwarzania języka naturalnego, pokazując jej skuteczność w radzeniu sobie z rzadkimi słowami w tłumaczeniu maszynowym.
- Taku Kudo – Subword Regularization – https://arxiv.org/abs/1804.10959 Autor proponuje technikę urozmaicania segmentacji subwordowej, co przekłada się na większą odporność modeli na nadmierne dopasowanie oraz poprawia uogólnianie.
- Philipp Koehn – Neural Machine Translation (rozdz. 13) – https://arxiv.org/abs/1709.07809 Rozdział 13 tej książki stanowi przegląd podstawowych technik neuronowego tłumaczenia maszynowego, w tym problemów związanych z rzadkimi słowami.
- Self-attention, multi-head attention, pozycjonowanie.
- Różnice: enkoder / dekoder / enkoder-dekoder.
- Omówienie schematu z artykułu 'Attention is All You Need'.
- Wizualizacje, pytania, interpretacja kodu w transformers.
- Vaswani et al. – Attention is All You Need – https://arxiv.org/abs/1706.03762 To fundamentalna publikacja wprowadzająca architekturę Transformer, na której opierają się współczesne modele językowe.
- Modele: BERT (enkoder), GPT-2/3 (dekoder), T5/OPT (enkoder-dekoder).
- Pretraining vs. fine-tuning – jak to wygląda w praktyce.
- Zadania: maskowane modelowanie, autoregresja, seq2seq.
- Devlin et al. – BERT – https://arxiv.org/abs/1810.04805 BERT to pierwszy popularny model wykorzystujący enkoderową część Transformera i pretraining przez maskowanie słów (MLM).
- Liu et al. – RoBERTa – https://arxiv.org/abs/1907.11692 RoBERTa pokazuje, że odpowiednie ustawienia pretrainingu mogą znacząco poprawić wyniki BERT-a, bez zmiany architektury.
- Radford et al. – GPT-2 – https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf GPT-2 to autoregresyjny model dekoderowy, który wprowadza uniwersalne podejście do wielu zadań NLP bez fine-tuningu.
- Brown et al. – GPT-3 – https://arxiv.org/abs/2005.14165 GPT-3 rozszerza ideę GPT-2 do miliardów parametrów, umożliwiając few-shot i zero-shot learning bez uczenia na konkretnym zadaniu.
- Raffel et al. – T5 – https://arxiv.org/abs/1910.10683 T5 przedstawia ujednolicony framework Text-to-Text i porównuje różne sposoby pretrainingu modeli językowych.
- Wielojęzyczne modele: XLM, XLM-R, mT5, ByT5, XGLM.
- Kiedy warto stosować modele wielojęzyczne?
- Problem długości sekwencji: Longformer, LongT5, FlashAttention.
- Praktyka: przetwarzanie długiego dokumentu.
- Xue et al. – mT5 – https://arxiv.org/abs/2010.11934 mT5 to wersja modelu T5 trenowana na 101 językach, wykazująca wysoką skuteczność w zadaniach wielojęzycznych.
- Beltagy et al. – Longformer – https://arxiv.org/abs/2004.05150 Longformer wprowadza efektywny mechanizm self-attention, który pozwala przetwarzać bardzo długie dokumenty.
- Lample & Conneau – XLM – https://arxiv.org/abs/1901.07291 XLM łączy uczenie maskowane (MLM) z tłumaczeniem maszynowym, umożliwiając transfer między językami.
- Conneau et al. – XLM-R – https://arxiv.org/abs/1911.02116 XLM-R jest rozszerzeniem XLM, trenowanym na dużym korpusie CommonCrawl w 100 językach.
- Czym są modele dziedzinowe (np. medBERT, bioGPT)?
- Polish RoBERTa, Polish T5, HerBERT – przegląd modeli dla j. polskiego.
- Ćwiczenie: uruchomienie modelu PL i analiza wyników.
- Sławomir Dadas et al. – Polish RoBERTa – https://arxiv.org/abs/2006.04229 Model językowy wytrenowany dla języka polskiego, oparty na architekturze RoBERTa i dużym polskim korpusie KGR10.
- Wang et al. – MiniLM – https://arxiv.org/abs/2002.10957 MiniLM to kompaktowy model uczony przez destylację, który umożliwia szybkie i wydajne wdrażanie modeli NLP.
- Pretraining vs. fine-tuning — czym się różnią.
- Transfer learning — jak przenieść wiedzę na nowe zadanie.
- Praktyka: fine-tuning modelu do klasyfikacji tekstu.
- Raffel et al. – T5 – https://arxiv.org/abs/1910.10683 T5 analizuje wpływ różnych metod pretrainingu i pokazuje, jak dostosować model do nowego zadania przez fine-tuning.
- Wolf et al. – HuggingFace Transformers – https://arxiv.org/abs/1910.03771 Publikacja opisująca bibliotekę 🤗 Transformers, która umożliwia szybkie wdrażanie i fine-tuning modeli NLP.
- Przykłady z GPT-3, FLAN-T5, T0.
- Jak promptować modele? In-context learning.
- Warsztat: budowanie promptów i analiza wyników.
- Brown et al. – GPT-3 – https://arxiv.org/abs/2005.14165 GPT-3 umożliwia wykonywanie zadań NLP bez fine-tuningu, wyłącznie na podstawie promptów w stylu few-shot/zero-shot.
- Zadanie klasyfikacji (np. wykrywanie sentymentu).
- Zadanie pytanie-odpowiedź (QA) – SQuAD, HuggingFace datasets.
- Praktyka: implementacja, ewaluacja, analiza wyników.
- Sanh et al. – DistilBERT – https://arxiv.org/abs/1910.01108 DistilBERT to zredukowany model BERT, który zachowuje 95% jakości przy dużo szybszym działaniu — idealny do QA i klasyfikacji.
- Wang et al. – MiniLM – https://arxiv.org/abs/2002.10957 MiniLM pozwala na skuteczną klasyfikację i QA przy niewielkich wymaganiach obliczeniowych — ważne dla realnych aplikacji.