```
Back to list
Analiza i przetwarzanie obrazów

Analiza I Przetwarzanie Obrazów

CDV Poznań #widzeniek komputerowe #computerVision #CV #AI #DeepLearning #MachineLearning #DataScience #ImageProcessing #SztucznaInteligencja #YOLO #ResNet #U-Net #OpenCV #PyTorch #AIinEducation

Widzenie komputerowe

Widzenie komputerowe — część wykładowa (niestacjonarne)

Plan wykładów przypięty do kalendarza (TK1–TK6)

Tylko wykłady. Każdy blok jest przypięty do konkretnej daty i mapuje się na jedną z sześciu Treści kształcenia (TK1–TK6).

TK1 — Wprowadzenie do widzenia komputerowego: definicja, cele, zastosowania w różnych dziedzinach

1.5h wykładu
📅 12 paź 2025 (ndz) 🕗 08:00–09:30 📍 N.307 Analiza i przetwarzanie obrazów (W)
  • Definicja CV: automatyczna analiza obrazów/wideo w celu pozyskania informacji semantycznej; miejsce CV w ekosystemie AI.
  • Cele CV: detekcja/rozpoznawanie/segmentacja/rekonstrukcja/śledzenie; co mierzymy i jak raportujemy wyniki.
  • Zastosowania (przegląd): medycyna (segmentacja organów, CAD), przemysł (inspekcja), mobilność/autonomika (percepcja sceny), bezpieczeństwo (rozpoznawanie twarzy), media (super-resolution, odszumianie), AR/VR (śledzenie, SLAM).
  • Typowy pipeline: akwizycja → wstępne przetwarzanie → ekstrakcja cech / modele DL → wnioskowanie → ewaluacja → wdrożenie.
  • Historia w pigułce: od filtrów konwolucyjnych (Sobel/Prewitt, Marr–Hildreth, Canny) przez cechy lokalne (SIFT/SURF/ORB) do rewolucji CNN (LeNet→VGG→ResNet).
  • Ramka metryk: dokładność/IoU/mAP/PSNR/SSIM/LPIPS — po co różne metryki i dlaczego „jedna nie rządzi wszystkimi”.
  • Konsekwencje produktowe: prywatność, bias, dostępność danych, ślad obliczeniowy; jak „myśleć produkcyjnie” od pierwszych zajęć.
Literatura (wybór):

Powiązanie: TK1 — Wprowadzenie, definicja i cele CV, zastosowania w różnych dziedzinach.

TK2 — Reprezentacja obrazu, I/O i operacje punktowe + przekształcenia geometryczne

1.5h wykładu
📅 12 paź 2025 (ndz) 🕘 09:40–11:10 📍 N.307 Analiza i przetwarzanie obrazów (W)
  • Reprezentacja: głębia bitowa, zakres dynamiczny, gamma/OGC, przestrzenie barw (RGB/HSV/Lab) i ΔE.
  • I/O: PNG (bezstratne, filtry + DEFLATE), JPEG (DCT, kwantyzacja, entropia) — kiedy które; artefakty i ich wpływ na CV.
  • Operacje punktowe: normalizacja, histogram, CLAHE; kiedy poprawiają, a kiedy psują detekcję/segmentację.
  • Przekształcenia: affine/perspective, homografia; interpolacje (nearest/bilinear/bicubic/Lanczos), aliasing i prefiltering.
  • Wydajność: separowalne jądra vs. FFT (kiedy opłaca się przejść do dziedziny częstotliwości).
Literatura (wybór):

Powiązanie: TK2 — Reprezentacja, I/O, operacje punktowe i przekształcenia.

TK3 — Segmentacja klasyczna: progowanie, morfologia, watershed

1.5h wykładu
📅 19 paź 2025 (ndz) 🕚 11:20–12:50 🖥️ Online Analiza i przetwarzanie obrazów (W)
  • Otsu (dwumodalność, wariancja wewnątrzklasowa) i adaptacyjne progowanie; wpływ oświetlenia/szumu.
  • Morfologia: B-elementy, erozja/dylatacja/otwarcie/zamknięcie; top-hat/black-hat; gradient morfologiczny.
  • Watershed: koncepcja linii wododziału, markery, przeciwdziałanie oversplittingowi, łączenie z morfologią.
  • Ewaluacja: IoU/Dice; artefakty brzegowe i jak je mierzyć; walidacja na różnych domenach.
Literatura (wybór):

Powiązanie: TK3 — Metody segmentacji.

TK4 — Cechy lokalne i dopasowanie: SIFT/SURF/ORB + RANSAC

1.5h wykładu
📅 19 paź 2025 (ndz) 🕐 13:00–14:30 🖥️ Online Analiza i przetwarzanie obrazów (W)
  • Detektory: Harris/Shi–Tomasi (narożniki), DoG/LoG (bloby) — czułość na skalę i szum.
  • Deskryptory: SIFT (float, scale/rotation invariance), SURF (szybkość), ORB (binarny, mobilny) — kompromisy.
  • Dopasowanie: KNN + ratio test, cross-check; filtrowanie dopasowań; wpływ rozmiaru i skali.
  • RANSAC/LMeds: estymacja homografii/F-matrycy; dobór progu inliera i liczby iteracji.
  • HOG jako baseline bez DL; panorama/resekcja jako mini-case.
Literatura (wybór):

Powiązanie: TK4 — Detektory cech i dopasowanie.

TK5 — Deep learning w CV: CNN → detekcja (2-stage vs 1-stage)

1.5h wykładu
📅 30 lis 2025 (ndz) 🕚 11:20–12:50 🖥️ Online Analiza i przetwarzanie obrazów (W)
  • Architektury: LeNet→VGG→ResNet; rola normalizacji, aktywacji, skip-connections; kiedy i jak korzystać z transfer learningu.
  • Detekcja 2-stage (Faster R-CNN): RPN, ROI pooling/align; kiedy celujemy w najwyższą dokładność.
  • Detekcja 1-stage (YOLO/RetinaNet): FPN, anchors, Focal Loss; kompromis dokładność–latencja.
  • Metryki i procedury: IoU, mAP@[.5:.95], NMS/Soft-NMS; anchor-based vs anchor-free (wzmianka).
  • Wdrożenie: rozdzielczość wejścia, mixed precision, ONNX/TensorRT i inferencja realtime.
Literatura (wybór):

Powiązanie: TK5 — Wykorzystanie deep learningu i detekcja obiektów.

TK6 — Zastosowania: medycyna, twarze, autonomika + poprawa jakości (SR) + JPEG/PNG + percepcyjna jasność

1.5h wykładu
📅 30 lis 2025 (ndz) 🕐 13:00–14:30 🖥️ Online Analiza i przetwarzanie obrazów (W)
  • Medycyna: U-Net/DeepLab; straty (Dice/BCE/Tversky), augmentacje dla masek, klasa tła.
  • Twarze: detekcja (MTCNN/RetinaFace), embeddingi (FaceNet/ArcFace), różnice: weryfikacja vs. identyfikacja; aspekty etyczne.
  • Autonomika: segmentacja jezdni, detekcja znaków; dataset-landscape (Cityscapes/KITTI) i metryki.
  • Super-resolution: EDSR (PSNR) vs. ESRGAN (percepcja); halucynacje vs. rekonstrukcja; raportowanie PSNR/SSIM/LPIPS.
  • „Naturalna” jasność: Retinex, Reinhard (globalny operator), bilateral i fast-bilateral (tone-mapping HDR→LDR).
  • Kompresje: JPEG (DCT/kwantyzacja/entropia) — artefakty (blokowość, ringing) vs. PNG (filtry + DEFLATE); wpływ wyboru formatu na pipeline CV.
  • Wdrożenia: standaryzacja prezentacji „przed/po”, checklist ewaluacyjny i ablations.
Literatura (wybór):

Powiązanie: TK6 — Zastosowania i przełomowe elementy (tone-mapping, SR, JPEG/PNG).

— Jacek Kałużny
```