Duszekjk Jacek Kałużny

TK1 — Wprowadzenie do widzenia komputerowego: definicja, cele, zastosowania w różnych dziedzinach

1.5h wykładu

📅 12 paź 2025 (ndz) 🕗 08:00–09:30 📍 N.307 Analiza i przetwarzanie obrazów (W)

Definicja CV: automatyczna analiza obrazów/wideo w celu pozyskania informacji semantycznej; miejsce CV w ekosystemie AI.
Cele CV: detekcja/rozpoznawanie/segmentacja/rekonstrukcja/śledzenie; co mierzymy i jak raportujemy wyniki.
Zastosowania (przegląd): medycyna (segmentacja organów, CAD), przemysł (inspekcja), mobilność/autonomika (percepcja sceny), bezpieczeństwo (rozpoznawanie twarzy), media (super-resolution, odszumianie), AR/VR (śledzenie, SLAM).
Typowy pipeline: akwizycja → wstępne przetwarzanie → ekstrakcja cech / modele DL → wnioskowanie → ewaluacja → wdrożenie.
Historia w pigułce: od filtrów konwolucyjnych (Sobel/Prewitt, Marr–Hildreth, Canny) przez cechy lokalne (SIFT/SURF/ORB) do rewolucji CNN (LeNet→VGG→ResNet).
Ramka metryk: dokładność/IoU/mAP/PSNR/SSIM/LPIPS — po co różne metryki i dlaczego „jedna nie rządzi wszystkimi”.
Konsekwencje produktowe: prywatność, bias, dostępność danych, ślad obliczeniowy; jak „myśleć produkcyjnie” od pierwszych zajęć.

Literatura (wybór):

Szeliski — Computer Vision: Algorithms and Applications (2nd) Szerokie, nowoczesne wprowadzenie, które spina wszystkie moduły kursu.
Canny — Edge Detection (PAMI 1986) Pokazuje, jak z formalnych kryteriów budować praktyczne algorytmy.
He et al. — ResNet (CVPR 2016) Ilustruje przejście od klasycznego CV do dominacji CNN w zadaniach wizji.

Powiązanie: TK1 — Wprowadzenie, definicja i cele CV, zastosowania w różnych dziedzinach.

TK2 — Reprezentacja obrazu, I/O i operacje punktowe + przekształcenia geometryczne

1.5h wykładu

📅 12 paź 2025 (ndz) 🕘 09:40–11:10 📍 N.307 Analiza i przetwarzanie obrazów (W)

Reprezentacja: głębia bitowa, zakres dynamiczny, gamma/OGC, przestrzenie barw (RGB/HSV/Lab) i ΔE.
I/O: PNG (bezstratne, filtry + DEFLATE), JPEG (DCT, kwantyzacja, entropia) — kiedy które; artefakty i ich wpływ na CV.
Operacje punktowe: normalizacja, histogram, CLAHE; kiedy poprawiają, a kiedy psują detekcję/segmentację.
Przekształcenia: affine/perspective, homografia; interpolacje (nearest/bilinear/bicubic/Lanczos), aliasing i prefiltering.
Wydajność: separowalne jądra vs. FFT (kiedy opłaca się przejść do dziedziny częstotliwości).

Literatura (wybór):

ITU-T T.81 — JPEG Standard (1992)Źródłowa specyfikacja DCT→kwantyzacja→Huffman.
RFC 2083 — PNG (1997)Filtry pre-kompresyjne i DEFLATE; kiedy warto wybrać PNG.
Hartley & Zisserman — Multiple View GeometryHomografia, kalibracja i interpolacje w praktyce.

Powiązanie: TK2 — Reprezentacja, I/O, operacje punktowe i przekształcenia.

TK3 — Segmentacja klasyczna: progowanie, morfologia, watershed

1.5h wykładu

📅 19 paź 2025 (ndz) 🕚 11:20–12:50 🖥️ Online Analiza i przetwarzanie obrazów (W)

Otsu (dwumodalność, wariancja wewnątrzklasowa) i adaptacyjne progowanie; wpływ oświetlenia/szumu.
Morfologia: B-elementy, erozja/dylatacja/otwarcie/zamknięcie; top-hat/black-hat; gradient morfologiczny.
Watershed: koncepcja linii wododziału, markery, przeciwdziałanie oversplittingowi, łączenie z morfologią.
Ewaluacja: IoU/Dice; artefakty brzegowe i jak je mierzyć; walidacja na różnych domenach.

Literatura (wybór):

Otsu — Threshold Selection (1979)Bazowy algorytm progowania globalnego.
Vincent & Soille — Watersheds (1991)Klasyczna i efektywna implementacja watershed.
Serra — Mathematical MorphologyTeoretyczne podstawy operatorów morfologicznych.

Powiązanie: TK3 — Metody segmentacji.

TK4 — Cechy lokalne i dopasowanie: SIFT/SURF/ORB + RANSAC

1.5h wykładu

📅 19 paź 2025 (ndz) 🕐 13:00–14:30 🖥️ Online Analiza i przetwarzanie obrazów (W)

Detektory: Harris/Shi–Tomasi (narożniki), DoG/LoG (bloby) — czułość na skalę i szum.
Deskryptory: SIFT (float, scale/rotation invariance), SURF (szybkość), ORB (binarny, mobilny) — kompromisy.
Dopasowanie: KNN + ratio test, cross-check; filtrowanie dopasowań; wpływ rozmiaru i skali.
RANSAC/LMeds: estymacja homografii/F-matrycy; dobór progu inliera i liczby iteracji.
HOG jako baseline bez DL; panorama/resekcja jako mini-case.

Literatura (wybór):

Lowe — SIFT (IJCV 2004)Odporne cechy w wielu skalach.
Bay et al. — SURF (ECCV 2006)Szybkość przy dobrej jakości dopasowań.
Rublee et al. — ORB (ICCV 2011)Binarne cechy i odległość Hamming.
Fischler & Bolles — RANSAC (CACM 1981)Odporna estymacja modeli.
Dalal & Triggs — HOG (CVPR 2005)Historyczny punkt porównawczy.

Powiązanie: TK4 — Detektory cech i dopasowanie.

TK5 — Deep learning w CV: CNN → detekcja (2-stage vs 1-stage)

1.5h wykładu

📅 30 lis 2025 (ndz) 🕚 11:20–12:50 🖥️ Online Analiza i przetwarzanie obrazów (W)

Architektury: LeNet→VGG→ResNet; rola normalizacji, aktywacji, skip-connections; kiedy i jak korzystać z transfer learningu.
Detekcja 2-stage (Faster R-CNN): RPN, ROI pooling/align; kiedy celujemy w najwyższą dokładność.
Detekcja 1-stage (YOLO/RetinaNet): FPN, anchors, Focal Loss; kompromis dokładność–latencja.
Metryki i procedury: IoU, mAP@[.5:.95], NMS/Soft-NMS; anchor-based vs anchor-free (wzmianka).
Wdrożenie: rozdzielczość wejścia, mixed precision, ONNX/TensorRT i inferencja realtime.

Literatura (wybór):

LeCun et al. — Gradient-Based Learning (1998)Historyczny fundament CNN.
Simonyan & Zisserman — VGG (ICLR 2015)Wpływ głębokości i 3×3.
He et al. — ResNet (CVPR 2016)Skip-connections i głębokie sieci.
Ren et al. — Faster R-CNN (NeurIPS 2015)Wzorzec 2-stage.
Redmon et al. — YOLO (CVPR 2016)Jednoprzejściowa detekcja.
Lin et al. — Focal Loss/RetinaNet (ICCV 2017)Radzi sobie z nierównowagą klas.

Powiązanie: TK5 — Wykorzystanie deep learningu i detekcja obiektów.

TK6 — Zastosowania: medycyna, twarze, autonomika + poprawa jakości (SR) + JPEG/PNG + percepcyjna jasność

1.5h wykładu

📅 30 lis 2025 (ndz) 🕐 13:00–14:30 🖥️ Online Analiza i przetwarzanie obrazów (W)

Medycyna: U-Net/DeepLab; straty (Dice/BCE/Tversky), augmentacje dla masek, klasa tła.
Twarze: detekcja (MTCNN/RetinaFace), embeddingi (FaceNet/ArcFace), różnice: weryfikacja vs. identyfikacja; aspekty etyczne.
Autonomika: segmentacja jezdni, detekcja znaków; dataset-landscape (Cityscapes/KITTI) i metryki.
Super-resolution: EDSR (PSNR) vs. ESRGAN (percepcja); halucynacje vs. rekonstrukcja; raportowanie PSNR/SSIM/LPIPS.
„Naturalna” jasność: Retinex, Reinhard (globalny operator), bilateral i fast-bilateral (tone-mapping HDR→LDR).
Kompresje: JPEG (DCT/kwantyzacja/entropia) — artefakty (blokowość, ringing) vs. PNG (filtry + DEFLATE); wpływ wyboru formatu na pipeline CV.
Wdrożenia: standaryzacja prezentacji „przed/po”, checklist ewaluacyjny i ablations.

Literatura (wybór):

Ronneberger et al. — U-Net (MICCAI 2015)Standard segmentacji biomedycznej.
Chen et al. — DeepLabv3+ (ECCV 2018)Silny segmenter scen.
Schroff et al. — FaceNet (CVPR 2015)Embeddingi twarzy (triplet loss).
Deng et al. — ArcFace (CVPR 2019)Separowalność klas w rozpoznawaniu twarzy.
Lim et al. — EDSR (CVPRW 2017)Baseline SR pod PSNR/SSIM.
Wang et al. — ESRGAN (ECCV W 2018)Lepsza jakość percepcyjna SR.
Zhang et al. — LPIPS (CVPR 2018)Metryka zbieżna z oceną ludzką.
Reinhard et al. — Photographic Tone Reproduction (SIGGRAPH 2002)Globalny operator jasności.
Durand & Dorsey — Fast Bilateral (SIGGRAPH 2002)HDR→LDR bez hal przy zachowaniu krawędzi.
ITU-T T.81 — JPEG (1992)Specyfikacja kompresji stratnej obrazu.
RFC 2083 — PNG (1997)Bezstratny format z filtrami pre-kompresyjnymi.

Powiązanie: TK6 — Zastosowania i przełomowe elementy (tone-mapping, SR, JPEG/PNG).

Analiza I Przetwarzanie Obrazów

Plan wykładów przypięty do kalendarza (TK1–TK6)

TK1 — Wprowadzenie do widzenia komputerowego: definicja, cele, zastosowania w różnych dziedzinach

TK2 — Reprezentacja obrazu, I/O i operacje punktowe + przekształcenia geometryczne

TK3 — Segmentacja klasyczna: progowanie, morfologia, watershed

TK4 — Cechy lokalne i dopasowanie: SIFT/SURF/ORB + RANSAC

TK5 — Deep learning w CV: CNN → detekcja (2-stage vs 1-stage)

TK6 — Zastosowania: medycyna, twarze, autonomika + poprawa jakości (SR) + JPEG/PNG + percepcyjna jasność