Detektion, Verfolgung und Klassifikation bewegter Objekte in monokularen Bildfolgen am Beispiel von Straßenverkehrsszenen.

Dieter Koller

Dissertation, Juni 1992, Fakultät für Informatik der Universität Karlsruhe (TH),
erschienen in Dissertationen zur Künstlichen Intelligenz, DISKI 13 , infix-Verlag, Sankt Augustin, 1992.


Das Ergebnis der Detektion und Verfolgung von Fahrzeugen innerhalb einer 2 Sekunden Videosequenz: das linke Bild zeigt die letzte Aufnahme dieser Sequenz, das rechte Bild die detektierten Fahrzeuge, ihre erfaßte Modellbeschreibung sowie die ermittelten Trajektorien


Zusammenfassung

Die Bildfolgenauswertung beschäftigt sich mit der Interpretation und Beschreibung der Umgebung aus Sensordaten, wie sie beispielsweise von einer Kamera erfaßt werden. Zur Rekonstruktion der durch die perspektivische Projektion in der Kamera verlorengegangenen räumlichen Tiefe verwendet man entweder A-priori-Wissen über die Umgebung, oder man nutzt verschiedene Ansichten. Verschiedene Ansichten erhält man dabei durch ein Mehrkamerasystem oder durch eine Relativbewegung zwischen Kamera und den zu beschreibenden abgebildeten Objekten der Szene.

In dieser Arbeit wird ein integriertes System vorgestellt, welches unter Ausnutzung der Relativbewegung von Objekten gegenüber einem stationären Hintergrund und mit Hilfe von A-priori-Wissen über die Umgebung den zeitlich veränderlichen Anteil einer Szenenbeschreibung aus monokularen Bildfolgen vollautomatisch extrahiert. Als Diskursbereich werden Straßenverkehrsszenen verwendet, von denen Bildfolgen mit einer stationären Kamera aufgezeichnet worden sind.

Die Relativbewegung eines Objektes gegenüber einem stationären Hintergrund verursacht eine Grauwertverschiebung im Bild, deren Bereich sich --- unter der Annahme einer zeitlich und räumlich glatten, vorwiegend translatorischen Objektbewegung --- aufgrund paralleler Verschiebungen von Bildmerkmalen vom Hintergrund segmentieren läßt. Die zeitliche Verfolgung der Gruppe dieser Bildmerkmale ermöglicht bereits die Ermittlung von Verschiebungstrajektorien im Bild --- ohne zusätzliches Hintergrundwissen.

Die Rückprojektion der Beschreibungsmerkmale eines Verschiebungsbereiches vom Bild in die 3D-Szene liefert eine Ausgangsbasis zur Formulierung der Hypothese eines Objektkandidaten. Die Verifikation dieser Hypothese erfolgt mit Hilfe einer Adaption generischer Modelle für die Form und Bewegung der Objekte, deren Parameter in einem zeitlich rekursiven Optimierungsprozeß geschätzt werden. Eine so ermittelte Formausprägung der Objekte ermöglicht letztendlich eine Zuordnung zu einer Fahrzeugklasse mit Hilfe eines Bayes-Klassifikators.

Auf diese Weise konnte ein iterativer modellgestützter Interpretationszyklus mit vollautomatischer Initialisierung sowohl für die Form als auch die für die Bewegung von Objekten realisiert werden.

Mit Hilfe eines Modells der Beleuchtung konnte der auf die Fahrbahnebene geworfene Schatten von Fahrzeugen in die Modellbildung integriert und im Anpassungsprozeß berücksichtigt werden. Die Qualität der Ergebnisse ist damit ausreichend, um in weiterführenden Verarbeitungsschritten begriffliche Beschreibungen von Bewegungsvorgängen in der Szene zu berechnen.

Sämtliche Verarbeitungsschritte wurden in ein interaktiv nutzbares Programmsystem integriert, um das Zusammenwirken der einzelnen Systemkomponenten in einem Gesamtsystem zu analysieren. Die Tragfähigheit des Ansatzes konnte mit Hilfe verschiedener Realweltbildfolgen von Straßenverkehrsszenen konsolidiert werden.


Last modified on Tuesday, November 20, 1996, Dieter Koller (koller@vision.caltech.edu)