Scientific
Publications
Details and downloads publications, technical reports and thesis papers.
Media Processing
Diese Seite präsentiert aktuelle Themen für Praktika, Diplomarbeiten, Dissertationen sowie Stellenangebote aus dem Arbeitsbereich Media Processing. Wir freuen uns immer über Ihr Interesse. Wenn also keines der Themen Ihren Vorstellungen entspricht oder Sie eigene Themenvorschläge haben, wenden Sie sich bitte an einen unserer wissenschaftlichen Mitarbeiter. Gegebenenfalls kann durch Anpassen der Aufgabenstellung und/oder Gruppengröße auch ein Praktikumsthema als Diplomarbeit vergeben werden und umgekehrt.
Praktikumsthemen
Analyse von yourturn.fm Derzeit vergeben!
Beschreibung:
Content-basierte Analyse von Video-Mixen, die im Spiel yourturn.fm zusammengestellt wurden. Es soll festgestellt werden, ob/wie sich die Clips, die einen Mix bilden, ähneln. Mögliche Dimensionen der Ähnlichkeit sind: Geschwindigkeit, Farbgebung, Rhythmus, Lautstärke der Musik, Sprache, Bewegungen, Gesichter von DarstellerInnen etc. Inhalt der Arbeit ist die Festlegung von Merkmals-Dimensionen sowie ihre Implementierung durch content-basierte Features und geeignete Methoden zur Ähnlichkeitsmessung.
Entwicklung eines automatisierten Systems zur Nachbearbeitung von Videoaufnahmen von Laientheater. Einerseits soll der Hintergrund ersetzt werden, andererseits Emotionen - unter Verwendung bereits existierender Software - hervorgehoben werden.
Comparison of the two standard bases for local interest point detection: auto-correlation matrix and Hesse matrix. What are the similairties and differences of these matrices for different types of data?
Implementation of a demo for our brain computer interface (EEG, ECG, etc.) that allows to do P300 recognition for sets of cards (e.g. face images). Requires profound knowledge in multimedia signal processing and classification.
Nutzung der drei Kanäle von Börsenkursen (Open/Close, Min, Max) zur Erzeugung von Musik. Hauptschwierigkeit ist die Extrapolation vom schmalbandigen Wiener-Prozess zum breitbandigen Audiosignal. Details bei Interesse in der Sprechstunge
Implementierung einer rudimentären open-source Videoschnitt-Software, die unter Windows und Linux laufen soll und über PlugIn-Schnittstellen für Effekte, Übergänge und Komponenten verfügen soll. Für die üblichen Aufgaben sollen - wo verfügbar - Standardkomponenten verwendet werden (zB VLC als Monitor, ffmpeg für Coding etc.). Vorrangige Aufgaben sind gute Dokumentation, Unit-Tests und sorgfältiger Softwarentwurf. Dieses PR wird auch an Gruppen vergeben.
Implementierung eines Latex- und/oder PDF-Export-Filters, der eine eBook-kompatible Ausgabe erzeugt. Dazu müssen insbesondere Lösungen für die hgochwertige Darstellung von Abbildungen und Formeln sowie für Querverweise und Verzeichnisse gefunden werden.
Investigation of the limits of state-of-the-art categorization algorithms. Comparison of their perofrmance for gaussian-distributed artificial inputs with varying means and variances. Requires usage of Weka and a scripting language.
Implementation of a web application that provides a map based on OpenStreetMap, allows to annotate points with textual descriptions of important personal romatinc momemts (e.g. how I met my wife) and displays trails and density maps of similar descriptions. Requires text information retrieval, basic understanding of GIS.
Implementierung eines Demos, das Kindern ab acht Jahren verständlich macht, was Media Understanding ist. Dazu soll es möglich sein, aus Legosteinen (die über Farben und Beschriftungen Bausteine von Features und Classifiern repräsentieren) Anwendungen zu bauen, diese mit einer Webcam zu scannen und in Matlab-Code umzusetzen. Anhand einiger kleiner Datenbanken soll dann die Qualität der Anwendung dargestellt werden. Hauptproblem ist dabei, geeignete Schnittstellen der Bausteintypen zu definieren (nicht alles kann beliebig kombiniert werden).
Überprüfung der gängigen Cloud-Systeme von Amazon, Microsoft etc. auf ihre Anwendbarkeit zur Medienverarbeitung mit Java (JMF etc.), C (ffmpeg) und Matlab.
Ziel ist die Entwicklung einer Video-Analyse-Software, der es gelingt, aus allen Episoden der Serie "Muppets Show" die Beiträge "Pigs in Space" sowie die Kommentare von Waldorf & Statler zu extrahieren. Der empfohlene Ansatz sind lokalisierte Farbfeatures sowie generische Gesichtserkennung.
Viele Menschen sind trotz Schulfach Musik nicht dazu in der Lage, Melodien aufgrund der Noten richtig zu erfassen. Der notenlesende Melodiensummer soll einfache Notenfolgen lesen können und sie korrekt in Musik umsetzen (zB mit MIDI-Ausgabe). Die Hauptschwierigkeit besteht im Erkennen der Notation (zB durch Template-Matching).
Automated composing based on pattern recognition in MIDI-Files. Exisiting themes should be recognized, varied and composed in order to create a new pleasent sound experience.
Plagiate am Schreibstil erkennen Derzeit vergeben!
Beschreibung:
Klassifikation von Textsegmenten anhand ihres Schreibstils (Satzlänge, Satzbau, Verwendung von Beifügungen, häufige Wörter etc.) und Beurteilung, ob eine Arbeit aus einer oder mehreren Quellen stammt. Diese Arbeit kann wahlweise für Englisch oder Deutsch durchgeführt werden.
Ziel dieser Diplomarbeit ist es, eine Anwendung zu entwickeln, die historische Karten scannt und Landesgrenzen sowie markante Punkte in geographische Ortsangaben umwandelt. Dazu ist die Erkennung von Kanten und Interest Points notwendig sowie ihre korrekte Klassifikation und Gruppierung. Das XML-Ausgabeformat ist vorgegeben.
Implementierung eines Schachprogramms, das mittels eines Genetischen Algorithmus' lernt, der Stellungen nach Ähnlichkeit zu bekannten Partien bewertet und nach deren Ergebnis epigenetisch die Fortpflanzung 'starker' Genome fördert.
Similarity Measurement for Fingerprints Derzeit vergeben!
Beschreibung:
Goal is the implementation of a novel fingerprint identification method (based on the NIST database) that makes use of the most recent development in psychological similarity research (dual process models, transformation models etc.). Students of the courses Similarity Modeling 1/2 and Media and Brain 1/2 preferred.
Further development of an existing approach for the optimization of feature vectors in media understanding applications. Existing features should be re-combined with the goal of increasing their discriminative value. The exsiting software has been implemented in Perl and uses the goal function introduced in the Similarity Modeling 2 lecture.
Implementation of an application that grabs the teletext pages from the ORF website, does OCR recognition, stores the text with a timestamp in a database and displays it in a small Android application.
Summarization of video content by the extraction of the main objects (e.g. large faces, cars, etc.) and their organization in an object map similar to a topic map. The map should be clickable, for example, by clicking on a face the longest scene with this character should be shown.
Praktikum in Zusammenarbeit mit dem Institut für Biomechanik der TU Wien:
Ziel ist es, ein 3D Modell des Kniegelenks auf der Basis von kinematischen Daten einer Kniebeuge zu animieren.
Content-basierte Analyse von Video-Mixen, die im Spiel yourturn.fm zusammengestellt wurden. Es soll festgestellt werden, ob/wie sich die Clips, die einen Mix bilden, ähneln. Mögliche Dimensionen der Ähnlichkeit sind: Geschwindigkeit, Farbgebung, Rhythmus, Lautstärke der Musik, Sprache, Bewegungen, Gesichter von DarstellerInnen etc. Inhalt der Arbeit ist die Festlegung von Merkmals-Dimensionen sowie ihre Implementierung durch content-basierte Features und geeignete Methoden zur Ähnlichkeitsmessung.
Implementation of a demo for our brain computer interface (EEG, ECG, etc.) that allows to do P300 recognition for sets of cards (e.g. face images). Requires profound knowledge in multimedia signal processing and classification.
Development of a system that can capture facial expressions (recorded by a webcam under changing lightning conditions) with as few markers as possible, creation of a data stream of of face parameters over time (from video) and export of this data for usage in a 3D modeling software. Furthermore, implementation of a 3D modeling environment (in an exisiting 3D modeling software) for the rendering of a cartoon character that shows the captured expressions. The system should be fully automated.
Investigation of the limits of state-of-the-art categorization algorithms. Comparison of their perofrmance for gaussian-distributed artificial inputs with varying means and variances. Requires usage of Weka and a scripting language.
Implementation of a web application that provides a map based on OpenStreetMap, allows to annotate points with textual descriptions of important personal romatinc momemts (e.g. how I met my wife) and displays trails and density maps of similar descriptions. Requires text information retrieval, basic understanding of GIS.
Implementierung eines Demos, das Kindern ab acht Jahren verständlich macht, was Media Understanding ist. Dazu soll es möglich sein, aus Legosteinen (die über Farben und Beschriftungen Bausteine von Features und Classifiern repräsentieren) Anwendungen zu bauen, diese mit einer Webcam zu scannen und in Matlab-Code umzusetzen. Anhand einiger kleiner Datenbanken soll dann die Qualität der Anwendung dargestellt werden. Hauptproblem ist dabei, geeignete Schnittstellen der Bausteintypen zu definieren (nicht alles kann beliebig kombiniert werden).
Überprüfung der gängigen Cloud-Systeme von Amazon, Microsoft etc. auf ihre Anwendbarkeit zur Medienverarbeitung mit Java (JMF etc.), C (ffmpeg) und Matlab.
Entwicklung einer Software, die aus dem Audio-Datenstrom des Radionsenders Ö1 alle Musikbeiträge herausfiltert und durch ein Genre nach Wahl des Benutzers ersetzt. Sprachbeiträge dürfen davon nicht beeinträchtigt werden.
Ziel ist die Entwicklung einer Video-Analyse-Software, der es gelingt, aus allen Episoden der Serie "Muppets Show" die Beiträge "Pigs in Space" sowie die Kommentare von Waldorf & Statler zu extrahieren. Der empfohlene Ansatz sind lokalisierte Farbfeatures sowie generische Gesichtserkennung.
Viele Menschen sind trotz Schulfach Musik nicht dazu in der Lage, Melodien aufgrund der Noten richtig zu erfassen. Der notenlesende Melodiensummer soll einfache Notenfolgen lesen können und sie korrekt in Musik umsetzen (zB mit MIDI-Ausgabe). Die Hauptschwierigkeit besteht im Erkennen der Notation (zB durch Template-Matching).
Within the project IV-ART different techniques to model, collect, and use the visual appearance of objects within videos and the relations of objects in specific video domains will be investigated for the task of video retrieval.
Automated composing based on pattern recognition in MIDI-Files. Exisiting themes should be recognized, varied and composed in order to create a new pleasent sound experience.
Plagiate am Schreibstil erkennen Derzeit vergeben!
Beschreibung:
Klassifikation von Textsegmenten anhand ihres Schreibstils (Satzlänge, Satzbau, Verwendung von Beifügungen, häufige Wörter etc.) und Beurteilung, ob eine Arbeit aus einer oder mehreren Quellen stammt. Diese Arbeit kann wahlweise für Englisch oder Deutsch durchgeführt werden.
Ziel dieser Diplomarbeit ist es, eine Anwendung zu entwickeln, die historische Karten scannt und Landesgrenzen sowie markante Punkte in geographische Ortsangaben umwandelt. Dazu ist die Erkennung von Kanten und Interest Points notwendig sowie ihre korrekte Klassifikation und Gruppierung. Das XML-Ausgabeformat ist vorgegeben.
Similarity Measurement for Fingerprints Derzeit vergeben!
Beschreibung:
Goal is the implementation of a novel fingerprint identification method (based on the NIST database) that makes use of the most recent development in psychological similarity research (dual process models, transformation models etc.). Students of the courses Similarity Modeling 1/2 and Media and Brain 1/2 preferred.
Further development of an existing approach for the optimization of feature vectors in media understanding applications. Existing features should be re-combined with the goal of increasing their discriminative value. The exsiting software has been implemented in Perl and uses the goal function introduced in the Similarity Modeling 2 lecture.
Summarization of video content by the extraction of the main objects (e.g. large faces, cars, etc.) and their organization in an object map similar to a topic map. The map should be clickable, for example, by clicking on a face the longest scene with this character should be shown.
Development of a system that can capture facial expressions (recorded by a webcam under changing lightning conditions) with as few markers as possible, creation of a data stream of of face parameters over time (from video) and export of this data for usage in a 3D modeling software. Furthermore, implementation of a 3D modeling environment (in an exisiting 3D modeling software) for the rendering of a cartoon character that shows the captured expressions. The system should be fully automated.
We’re looking for a Computer Vision expert with skills in C++ and Matlab who’s going to improve the Jumio OCR software, back-testing software and also takes a pro-active role in improving the OCR quality by organising and workflows and specifying requirements to improve the OCR software next to pro-active development of the OCR software.
Research & Development Project at www.robertsugar.com
Beschreibung:
If You are ambitious of climbing up to the difficult, and in a manner inaccessible, and if You are motivated to join a top research project, please e-mail us Your application to research@robertsugar.com (www.robertsugar.com, +43 66 47617727).