Widzenie komputerowe — część wykładowa (niestacjonarne)
Plan wykładów przypięty do kalendarza (TK1–TK6)
Tylko wykłady. Każdy blok jest przypięty do konkretnej daty i mapuje się na jedną z sześciu Treści kształcenia (TK1–TK6).
TK1 — Wprowadzenie do widzenia komputerowego: definicja, cele, zastosowania w różnych dziedzinach
1.5h wykładu- Definicja CV: automatyczna analiza obrazów/wideo w celu pozyskania informacji semantycznej; miejsce CV w ekosystemie AI.
- Cele CV: detekcja/rozpoznawanie/segmentacja/rekonstrukcja/śledzenie; co mierzymy i jak raportujemy wyniki.
- Zastosowania (przegląd): medycyna (segmentacja organów, CAD), przemysł (inspekcja), mobilność/autonomika (percepcja sceny), bezpieczeństwo (rozpoznawanie twarzy), media (super-resolution, odszumianie), AR/VR (śledzenie, SLAM).
- Typowy pipeline: akwizycja → wstępne przetwarzanie → ekstrakcja cech / modele DL → wnioskowanie → ewaluacja → wdrożenie.
- Historia w pigułce: od filtrów konwolucyjnych (Sobel/Prewitt, Marr–Hildreth, Canny) przez cechy lokalne (SIFT/SURF/ORB) do rewolucji CNN (LeNet→VGG→ResNet).
- Ramka metryk: dokładność/IoU/mAP/PSNR/SSIM/LPIPS — po co różne metryki i dlaczego „jedna nie rządzi wszystkimi”.
- Konsekwencje produktowe: prywatność, bias, dostępność danych, ślad obliczeniowy; jak „myśleć produkcyjnie” od pierwszych zajęć.
Literatura (wybór):
- Szeliski — Computer Vision: Algorithms and Applications (2nd) Szerokie, nowoczesne wprowadzenie, które spina wszystkie moduły kursu.
- Canny — Edge Detection (PAMI 1986) Pokazuje, jak z formalnych kryteriów budować praktyczne algorytmy.
- He et al. — ResNet (CVPR 2016) Ilustruje przejście od klasycznego CV do dominacji CNN w zadaniach wizji.
Powiązanie: TK1 — Wprowadzenie, definicja i cele CV, zastosowania w różnych dziedzinach.
TK2 — Reprezentacja obrazu, I/O i operacje punktowe + przekształcenia geometryczne
1.5h wykładu- Reprezentacja: głębia bitowa, zakres dynamiczny, gamma/OGC, przestrzenie barw (RGB/HSV/Lab) i ΔE.
- I/O: PNG (bezstratne, filtry + DEFLATE), JPEG (DCT, kwantyzacja, entropia) — kiedy które; artefakty i ich wpływ na CV.
- Operacje punktowe: normalizacja, histogram, CLAHE; kiedy poprawiają, a kiedy psują detekcję/segmentację.
- Przekształcenia: affine/perspective, homografia; interpolacje (nearest/bilinear/bicubic/Lanczos), aliasing i prefiltering.
- Wydajność: separowalne jądra vs. FFT (kiedy opłaca się przejść do dziedziny częstotliwości).
Literatura (wybór):
- ITU-T T.81 — JPEG Standard (1992)Źródłowa specyfikacja DCT→kwantyzacja→Huffman.
- RFC 2083 — PNG (1997)Filtry pre-kompresyjne i DEFLATE; kiedy warto wybrać PNG.
- Hartley & Zisserman — Multiple View GeometryHomografia, kalibracja i interpolacje w praktyce.
Powiązanie: TK2 — Reprezentacja, I/O, operacje punktowe i przekształcenia.
TK3 — Segmentacja klasyczna: progowanie, morfologia, watershed
1.5h wykładu- Otsu (dwumodalność, wariancja wewnątrzklasowa) i adaptacyjne progowanie; wpływ oświetlenia/szumu.
- Morfologia: B-elementy, erozja/dylatacja/otwarcie/zamknięcie; top-hat/black-hat; gradient morfologiczny.
- Watershed: koncepcja linii wododziału, markery, przeciwdziałanie oversplittingowi, łączenie z morfologią.
- Ewaluacja: IoU/Dice; artefakty brzegowe i jak je mierzyć; walidacja na różnych domenach.
Literatura (wybór):
- Otsu — Threshold Selection (1979)Bazowy algorytm progowania globalnego.
- Vincent & Soille — Watersheds (1991)Klasyczna i efektywna implementacja watershed.
- Serra — Mathematical MorphologyTeoretyczne podstawy operatorów morfologicznych.
Powiązanie: TK3 — Metody segmentacji.
TK4 — Cechy lokalne i dopasowanie: SIFT/SURF/ORB + RANSAC
1.5h wykładu- Detektory: Harris/Shi–Tomasi (narożniki), DoG/LoG (bloby) — czułość na skalę i szum.
- Deskryptory: SIFT (float, scale/rotation invariance), SURF (szybkość), ORB (binarny, mobilny) — kompromisy.
- Dopasowanie: KNN + ratio test, cross-check; filtrowanie dopasowań; wpływ rozmiaru i skali.
- RANSAC/LMeds: estymacja homografii/F-matrycy; dobór progu inliera i liczby iteracji.
- HOG jako baseline bez DL; panorama/resekcja jako mini-case.
Literatura (wybór):
- Lowe — SIFT (IJCV 2004)Odporne cechy w wielu skalach.
- Bay et al. — SURF (ECCV 2006)Szybkość przy dobrej jakości dopasowań.
- Rublee et al. — ORB (ICCV 2011)Binarne cechy i odległość Hamming.
- Fischler & Bolles — RANSAC (CACM 1981)Odporna estymacja modeli.
- Dalal & Triggs — HOG (CVPR 2005)Historyczny punkt porównawczy.
Powiązanie: TK4 — Detektory cech i dopasowanie.
TK5 — Deep learning w CV: CNN → detekcja (2-stage vs 1-stage)
1.5h wykładu- Architektury: LeNet→VGG→ResNet; rola normalizacji, aktywacji, skip-connections; kiedy i jak korzystać z transfer learningu.
- Detekcja 2-stage (Faster R-CNN): RPN, ROI pooling/align; kiedy celujemy w najwyższą dokładność.
- Detekcja 1-stage (YOLO/RetinaNet): FPN, anchors, Focal Loss; kompromis dokładność–latencja.
- Metryki i procedury: IoU, mAP@[.5:.95], NMS/Soft-NMS; anchor-based vs anchor-free (wzmianka).
- Wdrożenie: rozdzielczość wejścia, mixed precision, ONNX/TensorRT i inferencja realtime.
Literatura (wybór):
- LeCun et al. — Gradient-Based Learning (1998)Historyczny fundament CNN.
- Simonyan & Zisserman — VGG (ICLR 2015)Wpływ głębokości i 3×3.
- He et al. — ResNet (CVPR 2016)Skip-connections i głębokie sieci.
- Ren et al. — Faster R-CNN (NeurIPS 2015)Wzorzec 2-stage.
- Redmon et al. — YOLO (CVPR 2016)Jednoprzejściowa detekcja.
- Lin et al. — Focal Loss/RetinaNet (ICCV 2017)Radzi sobie z nierównowagą klas.
Powiązanie: TK5 — Wykorzystanie deep learningu i detekcja obiektów.
TK6 — Zastosowania: medycyna, twarze, autonomika + poprawa jakości (SR) + JPEG/PNG + percepcyjna jasność
1.5h wykładu- Medycyna: U-Net/DeepLab; straty (Dice/BCE/Tversky), augmentacje dla masek, klasa tła.
- Twarze: detekcja (MTCNN/RetinaFace), embeddingi (FaceNet/ArcFace), różnice: weryfikacja vs. identyfikacja; aspekty etyczne.
- Autonomika: segmentacja jezdni, detekcja znaków; dataset-landscape (Cityscapes/KITTI) i metryki.
- Super-resolution: EDSR (PSNR) vs. ESRGAN (percepcja); halucynacje vs. rekonstrukcja; raportowanie PSNR/SSIM/LPIPS.
- „Naturalna” jasność: Retinex, Reinhard (globalny operator), bilateral i fast-bilateral (tone-mapping HDR→LDR).
- Kompresje: JPEG (DCT/kwantyzacja/entropia) — artefakty (blokowość, ringing) vs. PNG (filtry + DEFLATE); wpływ wyboru formatu na pipeline CV.
- Wdrożenia: standaryzacja prezentacji „przed/po”, checklist ewaluacyjny i ablations.
Literatura (wybór):
- Ronneberger et al. — U-Net (MICCAI 2015)Standard segmentacji biomedycznej.
- Chen et al. — DeepLabv3+ (ECCV 2018)Silny segmenter scen.
- Schroff et al. — FaceNet (CVPR 2015)Embeddingi twarzy (triplet loss).
- Deng et al. — ArcFace (CVPR 2019)Separowalność klas w rozpoznawaniu twarzy.
- Lim et al. — EDSR (CVPRW 2017)Baseline SR pod PSNR/SSIM.
- Wang et al. — ESRGAN (ECCV W 2018)Lepsza jakość percepcyjna SR.
- Zhang et al. — LPIPS (CVPR 2018)Metryka zbieżna z oceną ludzką.
- Reinhard et al. — Photographic Tone Reproduction (SIGGRAPH 2002)Globalny operator jasności.
- Durand & Dorsey — Fast Bilateral (SIGGRAPH 2002)HDR→LDR bez hal przy zachowaniu krawędzi.
- ITU-T T.81 — JPEG (1992)Specyfikacja kompresji stratnej obrazu.
- RFC 2083 — PNG (1997)Bezstratny format z filtrami pre-kompresyjnymi.
Powiązanie: TK6 — Zastosowania i przełomowe elementy (tone-mapping, SR, JPEG/PNG).