Interactive Media Systems, TU Vienna

Stilometrie: Plagiate am Schreibstil erkennen

Master Thesis

About This Topic

Es soll ein Prototyp entwickelt werden, welcher es ermöglicht, markante Stiländerungen innerhalb eines Textes zu erkennen und hervorzuheben. Es handelt sich um ein Mustererkennungsproblem auf Textbasis. Die Herausforderung wird schlussendlich darin liegen, aussagekräftige Features zu finden, die eine gute Klassifizierung der zu prüfenden Textsegmente zulassen. Dabei geht es nicht darum, diese Textsegmente jeweils einem bestimmten Autor zuzuweisen (Identity-Level Identification), sondern vielmehr um das Vergleichen des Stils (Similarity Detection) innerhalb des Textes. Zeichnet sich der analysierte Text durch einen homogenen Schreibstil aus, kann davon ausgegangen werden, dass der Text von einem einzigen Autor stammt. Unterscheiden sich Segmente innerhalb des Textes jedoch im Schreibstil, so kann man von mehreren Autoren ausgehen. Es handelt sich also genau genommen um ein Clustern eines Textes, ohne explizite Zuordnung vorher definierter Klassen (Autoren). (Daniel Schneider)

Downloads

Master Thesis 3.13 MB PDF document Download
Source Code, Binary, Documentation 82.3 MB Zip archive Download