Seminarium magisterskie
IS2, 2 rok, semestr letni 2024
 Wtorek 8:30-10.00

Rok IV s 7, 20 g. Seminarium mgr 2024 USOS - 22 godziny z udziałem nauczyciela (20 godzin udziału w seminarium i 2 godziny konsultacji indywidualnych),Szanowni, mamy w naszej grupie na seminarium mgr 8 osób. 1 Maciej Koniecko 296762@stud.umk.pl 2 Daniel Lesiński 303162@stud.umk.pl 3 Konrad Lipka 303165@stud.umk.pl 4 Mateusz Skarupski 296790@stud.umk.pl 5 Julia Szczuczko 303191@stud.umk.pl 6 Patryk Tajs 303193@stud.umk.pl 7 Jacek Wierzejewski 303199@stud.umk.pl 8. Organiak Klaudia 303172@stud.umk.pl W USOS mamy: - 22 godziny z udziałem nauczyciela (20 godzin udziału w seminarium i 2 godziny konsultacji indywidualnych), + 38 godzin pracy własnej nad przygotowaniem referatów, prezentacji, pracy pisemnej. 20 godzin to jest 10 zajęć, zrobimy 4 z referatami, godzina dyskusji o tym co przedstawiliście, potem znowu 4+1. Podobnie jak na sem inżynierskim każdy powinien dwa razy zrobić prezentację po godzinie lekcyjnej, czyli 45 min, więc dwie osoby na każde zajęcia. Możemy to robić w trybie mieszanym tj. czasami spotykać się zdalnie na moim Webex. Pierwsza prezentacja nie musi być ściśle powiązana z pracą mgr, ale powinna mieć informatyczny charakter. Jest wiele dobrych tematów, ostatnio warto się przyjrzeć narzędziom sztucznej inteligencji, których jest wiele na stronach https://www.futurepedia.io https://theresanaiforthat.com https://huggingface.co Proponuję, żeby każdy wybrał sobie jakieś narzędzie i je potestował, spróbował zrozumieć jak to działa i nam to przedstawił. Zwykle na pierwszym spotkaniu rozdzielamy tylko tematy, więc uznajemy to za konsultacje i ustalamy sobie tematy zdalnie. Spotkamy się więc 27.02. Przyślijcie mi proszę propozycję tematów. Na razie załóżmy, że kolejka jest taka, jak na liście, ale jeśli Wam to nie pasuje możecie ustalić między sobą jak się pozamieniać. Jeśli ktoś nie chce za tydzień niech znajdzie chętnego -:)

Kolejka 1,

  1. 1 Maciej Koniecko sterowanie aplikacji komendami głosowymi (ChatGPT, Whisper). Stworzyłem bibliotekę C# i aplikację demo. Prof. Jacek Matulewski (CC).
    Stable Diffusion.
    Liaon-5B, q mld w innych językach opsanych.
  2. 2 Daniel Lesiński 303162@stud.umk.pl, "Śledzenie obiektów w przestrzeni 2D i 3D na podstawie danych z czujników IOT" Opiekunami pracy są: mgr inż. Piotr Ablewski oraz dr hab. Jacek Matulewski.
    Microsoft XNA oraz jego kontynuacji MonoGame.
    MS XNA do gier. Historia wprowadzania.
  3. 3 Konrad Lipka 303165@stud.umk.pl Temat pracy magisterskiej : "Analiza ruchu człowieka w przestrzeni 3D wspomagana metodami uczenia maszynowego" Opiekunowie: Mgr. Inż. Piotr Ablewski oraz dr Hab Jacek Matulewski, prof. UMK
    "Motion capture oraz czujniki detekcji ruchu", 66 min
    MOCAP, czujniki motion capture. Modele generyczne, używane w grach. Markery, większe i mniejsze. Przechwytywanie. Kostium Golluma. 100-240 Hz, kamery obserwujące trzeba skalibrować. 16 kamer ale niewidocznych dla siebie. Marker(x,y,x,t), potrzeba 50-60 punktów. Różdżka kalibracyjna. Interpolacja brakujących danych w modelu. Unscented Kalman Filter model. Bez markerów ML do estymacji postawy. Kalibracja trudna. Są kamery z kalibracją automatyczną. Zwykłe mają kalibrację ciągłą. Problem odbiciami od stroju. Model 11 kości. Zgięcie, pochylenie boczne, obroty. OPtiTrack stosowany przez wiele firm. Rubust i precision solver. Pluginy: unity, unreal, motion builder ... Ruchy dłoni z rękawiczką. Sensory ruchu: pasywna podczerwień, mikrofale, Hybrid, dual Tech. Lidar do teledetekcji. Droga technologia. Telefony Apple mają lidar i potrafi przechwytywać.
  4. 4 Mateusz Skarupski 296790@stud.umk.pl "Shor algorithm for non-abelian hidden subgroup problem". Opiekunem pracy jest prof. Gniewomir Sarbicki.
    "Testowanie typu fuzz (fuzzing)". Testy jednostkowe/intregracyjne. Proces analizy losowych danych, co daje błąd? Wyciek pamięci badają fuzzery. Języki niepewne memory-nonsafe, C, C++. W C# czy JS nie ma bezpośredniego alokowania pamięci. Generuj pliki max pokryć, różnorodne transformacje. Pokrycie do testów, nie wystarczy uruchomić wszystkie linie kodu, ważne są ścieżki. Analiza przejsć, głębokości programu. Heurystyczne reguły by wejść głęboko. American Fuzzy Lop (AFL), długi czas testowania. Przyjmuje słowniki. AI generuje takie słowniki i pliki testowe. OpenSSL, Putty, LibreOffice, FLAC, 5 Julia Szczuczko 303191@stud.umk.pl, dr Katarzyna Marak, Katedra Kulturoznawstwa, Temat: Gry
    Foveated rendering. Głównie w kontekście VRu, co to jest, po co to jest, jakie są możliwe rozwiązania teoretyczne, a także istniejące już realizacje komercyjne.
    RT rendering, VRchat? VR - ograniczenia. REndering na żółtą plamkę, 2 stopnie. Krąg ostry, otoczenie, peryferia. Ruch oczami czy głową? Jeśli okiem potrzebny eye tracking.
    KFR, kernel foviated rendering. Sigma =piksel center/all, alfa = n piksels center. Log-polar kernels pozwoli przyspieszyć 2-3 razy l. klatek, ale tego nie ma komercyjnie. Nvidia => software => standards. Warping. lens-map trading, VRS. 4x4 raster shading. Supersampling. PICO solution. META - Vulkan extension, unity, unreal. Foveation map. OpenXR Toolkit standard ale na Nvidia, predictive eye tracking. dynamic foveated rendering. Q: minimalizacja błędów w ET. WD: Ile obliczeń na klatkę VR? Ostrość wzroku? Szybkośc sakad u staruszków. ruch. 6 Patryk Tajs 303193@stud.umk.pl, "Stochastyczna redukcja wymiarowości złożonych układów", dr inż. Jakub Rydzewski.
    Whisper on OpenAI. TRenowany na 680k godzin mowy, 438k ang, 117 inne języki, reszta to tłumaczenia na ang, usuwa zakłocenia, techniczne słownictwo. Wave2Vec 2, nienadzorowane, ale dostrajanie konieczne na końcowych warstwach. Generalizacja może być słaba. Lepiej nadzorowane ale drogo. Słaby nadzór - niekompletny, nieprecyzyjny (w klastrach), niedokładny (z błędami). Mel spectrogram. Predykcja słów, detekcja głosu, diaryzacja - odróznianie rozmówców, odwrotna normalizacja. Model na wejściu log-mels spectrogram, encoder działa równolegle, positional encoding, self-attention do przewidywania, cross-attention relacja słów w tekście, transformer. Modele od 39M do 1550 M, VRAM 10GB. Miara WER. 5% błędów dla polskiego, 25% dla perskiego, ludzie 3%. Obniżyć o połowę WER trzeba 16x więcej danych. Whisper+Pytorch+ffmpeg. Transkrypcja/translacja. Python i karta graficzna. Dostajemy kilka plików, json dodatkowe dane. Transkrypcaj muzyki WhisperHallu. Parametry programu. Amara.org 7 Jacek Wierzejewski 303199@stud.umk.pl, 60 min. "Analiza skuteczności algorytmów wykrywania wartości odstających w określonych zbiorach danych", a promotorem dr inż. Sebastian Meszyński.
    Leonardo.ai. Wyrosło ze stable diffusion. Tworzenie i modyfikacja obrazów. Możliwości. img2img, txt2img, realtime canvas, img2motion, tekstury, upscaler. ControNet image guidance. Własny styl - Lora. Alchemy dla wysokiej jakości, i prompty dla fragmentów. Wiele ciekawych możliwości. Własne modele, 8. Organiak Klaudia 303172@stud.umk.pl
    Wytwarzanie grafiki 2d i 3d dla gier. Ogólnie grafika 2D/3D w grach. Narzędzia: crisa, blender, unity, toon boom, wiele różnych. Rigging, składanie postaci z pojedynczych ruchomych części. Światło w 2D - normal mapping, generowanie map za pomocą Laigter, mapy cieniowania i konturów. Emission mapping.
    3D: Maya, Blender, EazyBrush. Optymalizacja modeli konieczna by rozmiary gier są wielkie. 3-5 skał i cały świat z tych modeli. Rzeźbienie. Animowanie szkieletu.

Druga Kolejka - praca mgr. Od 9.04

1. 30.04. --Patryk Tajs
Maciej Koniecko (Matulewski). Biblioteka .NET sterowania głosem. OpenAI, Whisper i GPT. Motoryzacja, edukacja, rozrywka, mobilne
Whisper od OpenAI, T2S, etc. ChatGPT => Jason. Aplikacja .NET GPT <=>Biblioteka<=>Whisper. JSON commands, parms. ChatGPT podsuwał rozwiązanie w trakcie działania. Analogicznie dodał poporzednie zdjęcie. API, język, parametry, wybór głosu i model GPT. Maui.NET na Android. Zalety i wady, przewiduje sama dodatkowe możliwości. Kontekstowa interpretacja. Opłata OpenAI, połączenie z internetem, samodzielne dostosowanie parametrów przez GPT, błędy w transkrypcji. Błędy w testowaniu transkrypcji. Demo. Wolno działa, po angielsku. Q: Skarupski, zakotwiczenie. Jak na Blade Runner, move, zoom photo ...

2. 30.04, Mateusz Skarupski (Gniewko Skarbicki). Shor algorithm for non-abelian hidden subgroup problems
Shor - krypto, log. dyskretny, faktoryzacja zagrożenia komputerm kwantowym. p^a=q, dla niektórych grup (np. modulo) to trudne. Bramki logiczne odwracalne, Fredkin, Toffoli, min 3 wejscia/wyjścia. Każdy układ logiczny daje się symulować kwantowo. Sfera Blocha. Bramka Hadamarda.
Problem Simona, klasycznie 2^N operacji by określić, że f jest 1-1. Kwantowo liniowo. DLP - krata, widać periodyczność. grupa D40, czyli 40-kąt foremny z odbiciami i obrotami, reprezentacja tej grupy. Algorym shora szczegółny przypadek HSP. Ale transf Fouriera zle w grupach nieabelowych działa. Własne: oszacowanie prawdopodobieństw. Shor - 2000 bitów w kluczu, wiele wersji tego algorytmu, to wymaga tysięcy kubitów. Nie wiadomo kiedy ... Konkursy CTF jeszcze w szkole krytptografią się zaintersował, od kilku lat się tym intersuje. Doktorat na Pol Eindhoffen, Tania Lange. Kandydaci? Dalsze: 28.05, 4.06, 11.06

28.05 Patryk Tajs, Stochastyczna redukcja wymiarowści, J Rydzewski. 65 min!
Klasyfikacja metod, tSNE vs PCA. Własna implementacja na podstawie klasycznej, Python, PyTorch. NJ? Lighting.ai for ML methods, optymalizacja kodu dla tensorów.
Mapowanie sympleksów. Crowding. Perplexity. Chignolina w reprezentacji kątów w cząsteczkach, milion wierszy, 40 cech, ewolucja w czasie. 12 godzin obliczeń, krok 20 czyli 20%. Dipteyd dialanina. Też nie wiadomo co to ma robić. Nie widać interpretacji. Ale z MNIST i fashion MNISt widac wpływ perplexity. Sieć neuronowa? Ma zrobić model mapowania tSNE. To może pozwolić na mapowanie całych danych. Testy jednostkowe. Pokrycie kodu, l. linii wykonanych kodu. CI/CD narzędzia do automatycznego testowania Nasze MDS.

28.05 Klaudia Organiak, Gra platformowa R. Adamczak
Gra Spark. Prezentacja Prezi. Fabuła tylko częściowa, kontynuacja od inż. 3 zakończenia. Dużo drobnych dodatków, wiele klas. Uczenie RL. Unity, Visual Studio, liczne dodatkowe programy do grafiki i pisanie, Jason to opakuje i Unity analizuje. Logika - uwzględnia fizykę, Unity ma komponent, uwzględnia siły. Kontroler efektów. Dialogi i cutscenki. Głosy i dźwięki? tylko liter. Grafika w Asterlight, ręcznie. Przeciwnik groźniejszy, opis postaci i kontrola walki, narzędzi i uszkodzeń postaci.
Uczenie RL agenta, sama napisała używając równania Bellmana. Wiele stanów postaci, przed w trakcie i po ataku, selekcja przydatnych stanów do uczenia. Testowanie, po 200 iteracjach widać efekty uczenia.
https://ludo.ai/ Empowering Game Studios with Artificial Intelligence
https://charmed.ai/ 3D video game art

04.06 Jacek Wierzejewski, wykrywanie wartości odstających.
Wartosci odstające. Różne typy danych. Balans czułóśc i swoistości. Porównanie algorytmów. Predykacja i porównanie metod. PyQty GUI do Python. Pliki CSV, preprocessing i proste charakterystyki, wypełnianie wartośc ibrakujących.
Statytyczne: QIR - kwartyle i odchylenia od górnej i dolnej granicy Q1,Q4, Z-score, wpływ ekstremalnych wartości.
ML: LOF, lokalne anomalie. gęstość lokalna jest miarą. Brakujące w oparciu o LOF, uśrednić po znanych zmiennych wszystkie wektory by znaleźć brakującą. LRD, local reachability distance.
Isolation forest. Ścieżki do izolowanych punktów.
1Class SVM, Eliptic envelope. Min elipsa 90% danych. DBSCAN, Density based spatial clustering with noise. Głosowanie dla wielu algorytmów.
Statystyki F1. Ataki, oszustwa, duże zbiory.

Daniel Lesiński, Sedzenie obiektów w 2D i 3D czujniki IOD.
Celownik i tracker. Środowisko testowe. Wiekość obiektu na ekranie. W czasie rzeczywistym. 60 HX gubi po 3 pikseli, 30 Hz 10 px. Czmu tak działa? wiecej danych mniej pomyłek. Kontrast kolorów, zmieniające się tło. 3 modele wykrywania na ekranie. Badanie opóźnień.

11.06, Konrad Lipka, Motion capture. Abewski/Matulweski
Optitrack - koszty kamera teraz 26 kzł, 6 kamer, oprogramowanie trudne do użytku, kalibracja trudna, idealne warunki oświetleniowe. Jeden program w OpenCV jest celem, Python.
MediaPipe Google lib, alfa version. Wykrywa twarz, ciało, szkielet. Krople - markery na twarzy, szkieletu 33. Dłonie 21 markerów. CV2 + Media Pipe. Garnet darmowy, cache danych. Problem głębi. Potrzebna kalibracja, obliczanie odległości. Błędy rzędu 0.5 m, tanie kamery wymagają obliczeń ogniskowej. Dokładność odległości ok 10 cm. Uśrednienie z kilku klatek poprawia, może kilka cm. Dołożyć Lidar?
Jakie kamery? 20 zł tanie, nie supersprzęt. Zakończenie do września.

11.06 Julia Szczuczko, Practical apps of eye tracking for VR, Marak/Matulewski.
Typy ET, VOg, PSOG-VOG, PSOG, odblaski (glints) z IR. Fotosensory, bateria. PSOG-VOG dopiero wchodzi. Zbieranie danych może być wrażliwe. Skupianie jest uciążliwe bo są sakady. Wygładzanie surowych danych, filtr Kalmana. Projekty w Unity z ET.