Geben Sie YouTube eine Runde [Beifall] - Sounds werden jetzt automatisch beschriftet

Start des YouTube-TV-Live-Streaming-Dienstes 28691186 mlYouTube verdient Applaus - denn die Videoplattform kann jetzt automatisch [APPLAUSE] und andere Soundeffekte in die Untertitel eines Videos aufnehmen. Die am Donnerstag, dem 23. März, angekündigte Erweiterung der Untertitel wird durch tiefe neuronale Netze ermöglicht, eine Form der künstlichen Intelligenz.

Derzeit kann YouTube Applaus, Musik und Lachen nur automatisch kennzeichnen. Diese drei Soundeffekte waren jedoch die Beschreibungen, die die Ersteller von Inhalten manuell über alle anderen Untertitelgeräusche hinzugefügt haben. Die neueste Funktion baut auf der 2009 eingeführten automatischen Untertitelungsfunktion für Text auf, fügt dem System jedoch die ersten Soundeffekte hinzu.

Laut YouTube funktioniert das Programm ähnlich wie das Erkennen von Objekten in Bildern, hatte jedoch einige weitere Schwierigkeiten bei der Objekterkennung. Damit das Programm nur diese drei Geräusche erkennt, mussten die YouTube-Ingenieure dem Programm beibringen, diese Geräusche zu erkennen, sie vorübergehend zu trennen und diesen erkannten Ton dann in die Untertitel einzufügen.

Das System hatte auch Probleme mit Soundeffekten, die gleichzeitig mit anderen Sounds auftraten, wie Lachen und Sprechen. Eine weitere Herausforderung bestand darin, einen ausreichend großen Datensatz zu finden, um das System zu trainieren, der durch manuelle Eingabe der Daten noch nicht ausreichend gekennzeichnet war.

Das Deep-Learning-Netzwerk analysiert kurze Segmente nacheinander und kann die Wahrscheinlichkeit dieser Geräuscheffekte mit einer Rate von etwa 100 Bildern pro Sekunde vorhersagen. Die YouTube-Ingenieure haben das System jedoch so aufgebaut, dass später zusätzliche Soundeffekte zum System hinzugefügt werden können.

Warum also Applaus, Musik und Lachen? Jeder dieser Sounds ist nicht nur die am häufigsten manuell angepasste Beschriftung im Untertitelsystem, sondern hat auch nur eine Bedeutung. Ein „Klingeln“, erklärte YouTube in einem Beispiel, könnte ein Klingeln von einer Türklingel, einem Telefon oder einem Alarm sein, was eine ganz neue Herausforderung für die Software darstellt.

Laut YouTube werden täglich über 15 Millionen Videos mit automatischen Untertiteln angesehen. Bei einem Test des neuesten Updates für die automatischen Untertitel gaben zwei Drittel an, dass die Soundeffekt-Labels das Gesamterlebnis verbessert haben.