Erweiterte
Suche ›

Temporal Video Segmentation

Jörg Vogt Verlag,
Buch
59,00 € Lieferbar in 2-3 Tagen

Kurzbeschreibung

The presence and availability of video and multimedia data has steadily grown
over the past years. Enabled by advances in storage and transmission capabilities,
the huge amount of media content now triggers the need for technologies for video
and multimedia content management. Simple and effective access to the content is
needed. The objective of this thesis is to present steps toward simple and effective
video access and browsing, to work towards technologies that can simplify annotation,
automatic analysis, or video editing. This is done by developing methods and
algorithms for the extraction of structural units in video on different hierarchical
levels.
The first problem examined is the extraction of video shots. This is a fundamental
task because shots are an important structural unit in video and most
algorithms and techniques for further structuring, analysis, search and retrieval
build upon the knowledge of shot boundaries. Extracting video shots is equivalent
to detecting the shot boundaries in a video. The characteristics of the four different
types of shot transitions are investigated, i.e. cut, fade, dissolve, and wipe,
and a system of novel algorithms is presented with each algorithm specifically tailored
to detect one of the shot transition types. The algorithms are designed to
offer high detection rates with low computational complexity. They proved their
performance in the TRECVID shot boundary detection task. The current version
had the best overall detection results of the 18 shot detection systems that were
evaluated on the official test set. The system is approximately twenty times faster
than real time. It was one of the fastest in the contest.
While visually simple shots with little variance in content may well be regarded
as basic units of video, there also exist visually complex shots with significant
object or camera motion and a large variance in visual content. Such visually
complex shots cannot sufficiently be represented by a single key-frame. A richer
and adaptive representation is needed. This second problem is investigated and as
a result a new level in the hierarchy of temporal video segments, named sub-shots,
is proposed. Sub-shots are parts of shots. They are limited to small variations
in semantic and visual content and are therefore suited as basic units for search
and retrieval and for key-frame extraction. Three different algorithms for the
automatic extraction of sub-shots are presented and evaluated. They are based on
on clustering and motion analysis outperformed the simple thresholding algorithm.
The third problem addressed is the extraction of scenes. While shots and subshots
are low-level units of video, humans will perceive the story or narrative of
a video in terms of higher semantic units. Talking about the content of a video
is usually based on entire scenes, not on single shots. Various types of known
approaches to scene detection are investigated. A set of low-level visual features
is evaluated based on their suitability for scene detection. Additionally, important
aspects of film grammar regarding the composition of scenes are detailed.
One important point regarding film grammar is that the types of shot transitions
used by film editors in video are not randomly chosen. Cuts, fades, dissolves, and
wipes are devices used to structure video and to provide local hints for the global
structuring. An approach is presented suggesting improvements to known scene
detection algorithms in two ways: First, to appropriately choose representative
frames used for scene detection based on the position of detected gradual shot
transitions; and second, to interpret gradual shot transitions as film grammar cues
that have a separating or merging effect upon shots in their temporal proximity. A
discussion is presented indicating how different thresholding mechanisms influence
scene detection quality and experimental results are presented comparing different
segmentation algorithms. As a last point approaches to multi-modal scene detection
are discussed and a framework is presented that could be used for further
research on this topic.
Die Verfügbarkeit von Video und multimedialen Daten ist in den vergangenen Jahren
immer weiter gestiegen. Durch Fortschritte bei der Entwicklung von Speicherund
Übertragungsmöglichkeiten existiert eine solche Menge an Mediendaten, dass
auch die Technologien zu ihrer Verwaltung immer wichtiger werden. Ein einfacher
und effektiver Zugriff auf die Inhalte ist notwendig. Das Ziel dieser Dissertation
ist es, Schritte in Richtung eines einfachen und effektiven Zugriffs auf Videoinhalte
aufzuzeigen. Außerdem werden Technologien entwickelt, die Vereinfachungen
bei Annotation, automatischer Analyse oder auch beim Videoschnitt ermöglichen.
Dies geschieht durch die Entwicklung von Methoden und Algorithmen zur automatischen
Extraktion von zeitlichen Einheiten auf unterschiedlichen hierarchischen
Ebenen in einem Video.
Das erste in dieser Arbeit behandelte Themenfeld ist die Extraktion von Videoshots.
Dies ist eine grundlegende und wichtige Aufgabe, da Shots die Basiseinheiten
in einem Video sind und die meisten Algorithmen und Methoden zur Strukturerkennung,
Analyse und Suche in Videos auf Shotinformationen aufbauen. Extraktion
von Videoshots bedeutet, die Übergänge zwischen Shots zu finden. Die Charakteristika
von vier verschiedenen Shotübergangstypen werden untersucht. Das sind
harter Schnitt, Ein-/Ausblendung, Überblendung und Wischblende. Es wird ein
System neuer Algorithmen präsentiert mit jeweils einem spezialisierten Algorithmus
für jeden Shotübergangstyp. Die Algorithmen sind auf hohe Erkennungsqualität
bei gleichzeitig niedriger Rechenkomplexität ausgelegt. Sie haben ihre Leistungfähigkeit
beim internationalen TRECVID-Wettbewerb für Shoterkennungssysteme
bewiesen. Die aktuelle Version erreichte, bezogen auf alle Shotübergänge, die beste
Erkennungsleistung auf dem offiziellen Testset. Gleichzeitig ist das Verfahren etwa
zwanzigmal schneller als Echtzeit und damit eines der schnellsten im Feld.
Während visuell einfache Shots, also Shots mit nur kleinen Änderungen des
Bildinhalts, Basiseinheiten in einem Video sind, gibt es auch visuell komplexe
Shots mit umfangreicher Objekt- oder Kamerabewegung und starker Änderung
des Bildinhalts. Diese visuell komplexen Shots können nicht hinreichend durch ein
einzelnes Keyframe repräsentiert werden. Eine umfassendere und adaptive Repräsentation
wird benötigt. Dies ist das zweite behandelte Themenfeld. Als Lösung
wird in dieser Arbeit die Segmentierung von Shots auf einer neuen Hierarchiestufe
der zeitlichen Videosegmente, in sogenannte Subshots, vorgeschlagen. Subshots
sind Teile von Shots. Sie sind begrenzt auf nur kleine Änderungen im semantischen
und visuellen Inhalt und sind daher geeignet, als Basiseinheiten bei der Vidoesuche
oder für die Keyframeextraktion verwendet zu werden. Drei verschiedene Algorithmen
für die automatische Extraktion von Subshots werden präsentiert und
evaluiert. Sie basieren auf der Analyse von visuellem Inhalt bzw. Bewegung. Der
Clusteralgorithmus und der Bewegungsanalysealgorithmus zur Subshoterkennung
liefern dabei bessere Ergebnisse als der Schwellwertalgorithmus.
Das dritte behandelte Themenfeld ist die Erkennung von Szenen in einem Video.
Während Shots und Subshots kleine einfache Videoeinheiten sind, basiert die
menschliche Wahrnehmung des Videoinhalts eher auf größeren semantischen Einheiten.
Wird beispielsweise über einen Film erzählt, so erfolgt das normalerweise
mit Hilfe von Szenen. Verschiedene Typen bekannter Szenenerkennungsverfahren
werden analysiert.Mehrere Videomerkmale werden bezüglich ihrer Tauglichkeit für
die Szenenerkennung evaluiert. Zusätzlich werden wichtige Aspekte der Filmgrammatik
bei der Komposition von Szenen beschrieben. Ein wichtiger Punkt, bezogen
auf Filmgrammatik, ist, dass der Typ eines Shotübergangs beim Filmschnitt nicht
willkürlich gewählt wird. Harte Schnitte, Ein-, Aus-, Über- und Wischblenden sind
Bausteine für die Strukturierung eines Videos und liefern lokal Hinweise auf die
globale Szenenstruktur. Es wird ein Verfahren entwickelt und präsentiert, das Verbesserungen
zu bekannten Szenenerkennungsverfahren auf zweierleiWeise erreicht:
Erstens werden geeignete Bilder für die Analyse in Szenenerkennungsverfahren unter
Beachtung der Lage der graduellen Shotübergänge ausgewählt. Zweitens werden
graduelle Shotübergänge als filmgrammatische Hinweise interpretiert, die sowohl
trennende als auch vereinende Wirkung auf die zeitlich benachbarten Shots haben
können. Es wird untersucht, wie verschiedene Schwellwertverfahren die Qualität
der Szenenerkennung beeinflussen. Messergebnisse für den Vergleich mehrerer
Segmentierungsverfahren werden präsentiert. Schließlich werden noch Ansätze zur
multimodalen Szenenerkennung diskutiert und ein entsprechendes Rahmenwerk
vorgestellt, das für weitere Untersuchungen in diesem Themenfeld genutzt werden
kann.

Details
Schlagworte

Titel: Temporal Video Segmentation
Autoren/Herausgeber: Christian Petersohn
Ausgabe: 1. Auflage

ISBN/EAN: 9783938860397

Seitenzahl: 292
Format: 21 x 14,8 cm
Produktform: Hardcover/Gebunden
Gewicht: 450 g
Sprache: Englisch

buchhandel.de - Newsletter
Möchten Sie sich für den Newsletter anmelden?


Bitte geben Sie eine gültige E-Mail-Adresse ein.
Lieber nicht