Ob auf einem Foto ein Chihuahua oder ein Muffin abgebildet ist, können wir Menschen auf den ersten Blick problemlos feststellen. Maschinen fällt es dagegen noch immer schwer, den Inhalt oder gar die Stimmung von Bildern zu begreifen. Abhilfe könnte ein Verfahren schaffen, das Björn Barz und Prof. Dr. Joachim Denzler vom Lehrstuhl für Digitale Bildverarbeitung der Universität Jena entwickelt haben. Um einer Künstlichen Intelligenz (KI) die Bedeutung hinter den Pixeln eines Bildes näherzubringen, kombinieren die beiden Informatiker Maschinelles Lernen mit menschlichem Vorwissen. Für diese Forschungsleistung sind sie jetzt im Rahmen einer internationalen Tagung des Institute of Electrical and Electronics Engineers (IEEE) auf Hawaii mit dem „Best Paper Award“ ausgezeichnet worden. Bei der renommierten Konferenz konnten sie sich gegen mehr als 500 andere wissenschaftliche Arbeiten durchsetzen, die eingereicht wurden.

Suchmaschinen könnten von Jenaer Methode profitieren

Von der neuen Methode sollen insbesondere Suchmaschinen profitieren, die im Internet angesichts der Verbreitung ständig griffbereiter Kameras eine wachsende Bilderflut durchkämmen müssen. Üblicherweise verwenden diese Suchprogramme Schlüsselwörter, mit deren Hilfe sie die gewaltigen Datenmengen auf Ergebnisse abklopfen. Eine textbasierte Arbeitsweise birgt jedoch Probleme: Einerseits können Suchanfragen mehrdeutig sein und zu völlig falschen Resultaten führen, andererseits werden unzureichend beschriebene Bilder überhaupt nicht gefunden.

Die beiden Jenaer Informatiker vermeiden solche Engpässe, indem sie im Austausch für die Begriffe eine Analyse des Bildinhaltes selbst vornehmen. „Bilder besitzen den Vorteil, dass sie gegenüber Schlüsselwörtern wesentlich aussagekräftiger sind“, erklärt Björn Barz, Doktorand am Lehrstuhl für Digitale Bildverarbeitung und Erstautor der prämierten Arbeit. „Für die Suchanfrage setzen wir daher auf ein Bild, das der Benutzer zur Verfügung stellt, und ermitteln davon ausgehend Bilder mit ähnlichen Inhalten.“ Herkömmliche Verfahren vergleichen Inhalte anhand visueller Gesichtspunkte wie Farbe, Form und Textur. Die Jenaer Methode bestimmt indes die Ähnlichkeit von Bildern, indem sie menschliches Wissen über die Bedeutung gewisser Dinge in den Lernprozess einer Maschine integriert.

Björn Barz, Doktorand am Lehrstuhl für Digitale Bildverarbeitung der Universität Jena und Erstautor der prämierten Arbeit. (Foto: Jan-Peter Kasper/FSU)

Björn Barz, Doktorand am Lehrstuhl für Digitale Bildverarbeitung der Universität Jena und Erstautor der prämierten Arbeit. (Foto: Jan-Peter Kasper/FSU)

Auszeichnung für neuartiges Verfahren der Bildersuche .. Informatiker der Universität Jena erhalten Auszeichnung für neuartiges Verfahren der Bildersuche Wie die Maschine die Bedeutung der Pixel erkennt

Informatiker füttern KI mit Bedeutungsketten

Zur Aufnahme dieses Wissens füttern die Forscher die Künstliche Intelligenz mit Folgen von Zahlen, denen Bedeutungen zugeordnet wurden. Auf diese Weise bringen sie ihr bei, dass die Objekte der Welt in einem hierarchischen Verhältnis zueinanderstehen. Zum Beispiel, dass Chihuahua zur Familie der Hunde gehören, welche ihrerseits der Klasse der Säugetiere und ganz allgemein den Lebewesen unterstehen. Mithilfe solcher Bedeutungsketten versteht das Programm schließlich, dass ein Chihuahua einer Dogge ähnlicher sein muss als einem Muffin. In ersten Tests überzeugte die Methode und führte bei der Bildersuche zu erheblich besseren Ergebnissen.

Gorillas sind keine Menschen  

„Wir denken, dass dieser Ansatz zur Integration semantischen Vorwissens in maschinelle Lernverfahren auch für andere Anwendungsgebiete fruchtbar gemacht werden kann“, blickt Denzler in die Zukunft. Als Beispiel führt er den Fall einer von Google entwickelten KI an, die in die Kritik geriet, weil sie Menschen mit dunkler Hautfarbe als Gorillas bezeichnete. Die von den Jenaer Informatikern erdachte Methode könnte dabei helfen, solche schwerwiegenden Fehler in Zukunft zu vermeiden.

Original-Publikation:

Barz B., Denzler J. (2019): Hierarchy-based Image Embeddings for Semantic Image Retrieval. IEEE Winter Conference on Applications of Computer Vision (WACV) 2019, pp. 638-647, doi: 10.1109/WACV.2019.00073

 

Kontakt:

  • Prof. Dr. Joachim Denzler
  • Institut für Informatik der Friedrich-Schiller-Universität Jena
  • Ernst-Abbe-Platz 2, 07743 Jena
  • Tel.: 03641 / 946301
  • E-Mail: joachim.denzler@uni-jena.de

Info, FSU JENA // Axel Burchardt

28.02.2019