```
Back to list
Uczenie głębokie w przetwarzaniu tekstu

Uczenie Głębokie W Przetwarzaniu Tekstu

AMU Poznań #DeepLearning #NLP #Transformers #AIinEducation #MachineLearning #LanguageModels #GPT #BERT #ZeroShotLearning #FewShotLearning

Uczenie głębokie w przetwarzaniu tekstu
Przedmiot fakultatywny prowadzony na studiach II stopnia (niestacjonarnych) z informatyki. Celem zajęć jest zapoznanie studentów z nowoczesnymi modelami językowymi opartymi na architekturze Transformer, takimi jak BERT, RoBERTa, GPT-2, T5 czy mT5. Omawiane są zarówno modele enkoderowe, dekoderowe, jak i enkoder-dekoder oraz podejścia few-shot, one-shot i zero-shot learning. Studenci uczą się trenować i dostrajać modele językowe oraz stosować je m.in. w klasyfikacji tekstu i zadaniach typu pytanie-odpowiedź. Zajęcia mają formę laboratoriów, w których realizowane są praktyczne projekty.

Wymagania wstępne: podstawowa znajomość Pythona.
Punkty ECTS: 3

Ćwiczenia:
1. https://colab.research.google.com/drive/1hvg8jiYpTDWGqLaJxlMD0EuxlUnX8vyl?usp=sharing

Plan zajęć: Uczenie głębokie w przetwarzaniu tekstu

Plan może ulec zmianie

Zajęcia 1 – Wprowadzenie + Tokenizacja + „Rzadkie słowa”
Czas trwania: 1,5h | Cele: C1, C7, C8 | Efekty: U1
Tematy:
  • Wprowadzenie do przedmiotu, repozytorium, biblioteki (transformers, datasets, tokenizers).
  • Problem rzadkich słów w NLP.
  • Byte Pair Encoding (BPE) – jak działa, zalety, ograniczenia.
  • SentencePiece – czym różni się od BPE, użycie w T5.
  • Ćwiczenia: tokenizacja tekstu, porównanie wyników.
Publikacje:
  • Sennrich et al. – Neural Machine Translation of Rare Words with Subword Unitshttps://arxiv.org/abs/1508.07909 Artykuł ten wprowadza metodę BPE do przetwarzania języka naturalnego, pokazując jej skuteczność w radzeniu sobie z rzadkimi słowami w tłumaczeniu maszynowym.
  • Taku Kudo – Subword Regularizationhttps://arxiv.org/abs/1804.10959 Autor proponuje technikę urozmaicania segmentacji subwordowej, co przekłada się na większą odporność modeli na nadmierne dopasowanie oraz poprawia uogólnianie.
  • Philipp Koehn – Neural Machine Translation (rozdz. 13)https://arxiv.org/abs/1709.07809 Rozdział 13 tej książki stanowi przegląd podstawowych technik neuronowego tłumaczenia maszynowego, w tym problemów związanych z rzadkimi słowami.
Zajęcia 2 – Architektura Transformer + typy modeli
Czas trwania: 1,5h | Cele: C2 | Efekty: W1
Tematy:
  • Self-attention, multi-head attention, pozycjonowanie.
  • Różnice: enkoder / dekoder / enkoder-dekoder.
  • Omówienie schematu z artykułu 'Attention is All You Need'.
  • Wizualizacje, pytania, interpretacja kodu w transformers.
Publikacje:
  • Vaswani et al. – Attention is All You Needhttps://arxiv.org/abs/1706.03762 To fundamentalna publikacja wprowadzająca architekturę Transformer, na której opierają się współczesne modele językowe.
Zajęcia 3 – Modele językowe: BERT, RoBERTa, GPT, T5, T0, OPT
Czas trwania: 1,5h | Cele: C3, C4, C5 | Efekty: W2
Tematy:
  • Modele: BERT (enkoder), GPT-2/3 (dekoder), T5/OPT (enkoder-dekoder).
  • Pretraining vs. fine-tuning – jak to wygląda w praktyce.
  • Zadania: maskowane modelowanie, autoregresja, seq2seq.
Publikacje:
Zajęcia 4 – Modele wielojęzyczne + modele dla długich sekwencji
Czas trwania: 1,5h | Cele: C6 | Efekty: W3, W4
Tematy:
  • Wielojęzyczne modele: XLM, XLM-R, mT5, ByT5, XGLM.
  • Kiedy warto stosować modele wielojęzyczne?
  • Problem długości sekwencji: Longformer, LongT5, FlashAttention.
  • Praktyka: przetwarzanie długiego dokumentu.
Publikacje:
  • Xue et al. – mT5https://arxiv.org/abs/2010.11934 mT5 to wersja modelu T5 trenowana na 101 językach, wykazująca wysoką skuteczność w zadaniach wielojęzycznych.
  • Beltagy et al. – Longformerhttps://arxiv.org/abs/2004.05150 Longformer wprowadza efektywny mechanizm self-attention, który pozwala przetwarzać bardzo długie dokumenty.
  • Lample & Conneau – XLMhttps://arxiv.org/abs/1901.07291 XLM łączy uczenie maskowane (MLM) z tłumaczeniem maszynowym, umożliwiając transfer między językami.
  • Conneau et al. – XLM-Rhttps://arxiv.org/abs/1911.02116 XLM-R jest rozszerzeniem XLM, trenowanym na dużym korpusie CommonCrawl w 100 językach.
Zajęcia 5 – Modele dziedzinowe vs. ogólne + modele PL
Czas trwania: 1.5h | Cele: C4, C5, C6 | Efekty: W5
Tematy:
  • Czym są modele dziedzinowe (np. medBERT, bioGPT)?
  • Polish RoBERTa, Polish T5, HerBERT – przegląd modeli dla j. polskiego.
  • Ćwiczenie: uruchomienie modelu PL i analiza wyników.
Publikacje:
  • Sławomir Dadas et al. – Polish RoBERTahttps://arxiv.org/abs/2006.04229 Model językowy wytrenowany dla języka polskiego, oparty na architekturze RoBERTa i dużym polskim korpusie KGR10.
  • Wang et al. – MiniLMhttps://arxiv.org/abs/2002.10957 MiniLM to kompaktowy model uczony przez destylację, który umożliwia szybkie i wydajne wdrażanie modeli NLP.
Zajęcia 6 – Fine-tuning i trenowanie modeli
Czas trwania: 1,5h | Cele: C1, C5 | Efekty: U2
Tematy:
  • Pretraining vs. fine-tuning — czym się różnią.
  • Transfer learning — jak przenieść wiedzę na nowe zadanie.
  • Praktyka: fine-tuning modelu do klasyfikacji tekstu.
Publikacje:
  • Raffel et al. – T5https://arxiv.org/abs/1910.10683 T5 analizuje wpływ różnych metod pretrainingu i pokazuje, jak dostosować model do nowego zadania przez fine-tuning.
  • Wolf et al. – HuggingFace Transformershttps://arxiv.org/abs/1910.03771 Publikacja opisująca bibliotekę 🤗 Transformers, która umożliwia szybkie wdrażanie i fine-tuning modeli NLP.
Zajęcia 7 – Few-shot / one-shot / zero-shot learning
Czas trwania: 1.5h | Cele: C8 | Efekty: W6, U4
Tematy:
  • Przykłady z GPT-3, FLAN-T5, T0.
  • Jak promptować modele? In-context learning.
  • Warsztat: budowanie promptów i analiza wyników.
Publikacje:
  • Brown et al. – GPT-3https://arxiv.org/abs/2005.14165 GPT-3 umożliwia wykonywanie zadań NLP bez fine-tuningu, wyłącznie na podstawie promptów w stylu few-shot/zero-shot.
Zajęcia 8 – Zastosowania: klasyfikacja + QA
Czas trwania: 1,5h | Cele: C1, C5 | Efekty: U3
Tematy:
  • Zadanie klasyfikacji (np. wykrywanie sentymentu).
  • Zadanie pytanie-odpowiedź (QA) – SQuAD, HuggingFace datasets.
  • Praktyka: implementacja, ewaluacja, analiza wyników.
Publikacje:
  • Sanh et al. – DistilBERThttps://arxiv.org/abs/1910.01108 DistilBERT to zredukowany model BERT, który zachowuje 95% jakości przy dużo szybszym działaniu — idealny do QA i klasyfikacji.
  • Wang et al. – MiniLMhttps://arxiv.org/abs/2002.10957 MiniLM pozwala na skuteczną klasyfikację i QA przy niewielkich wymaganiach obliczeniowych — ważne dla realnych aplikacji.
— Jacek Kałużny
```