DC_Tastatur
Semantic Engine

So wie jedes Zeitungsarchiv ohne Ordner oder Schubladen ein undurchschaubarer Papierdschungel wäre, wären digitale Dokumente ohne Metadaten eine virtuelle Bleiwüste. Verschlagwortung (Tagging) von Texten und Bildern gehört seit Langem zu den „wichtigsten Aufgaben einer Nachrichtenredaktion“, so formuliert es das Forschungs- und Entwicklungsteam der New York Times (www.nytlabs.com). Und weiter: „Die Tags, mit denen wir Artikel versehen, legen den Grundstein für fast alles, was nach der Veröffentlichung mit dem Artikel passiert: wie wir Lesern verwandte Artikel (Related Content) empfehlen, wie Suchmaschinen unsere Website indizieren, wie gezielt Anzeigen geschaltet werden usw.“

Die Semantic Engine (SE) von Digital Collections hilft dabei, das Potenzial von Content auszuschöpfen. Auf Basis von ca. 500 Millionen Wissensfragmenten analysiert die SE digitale Informationen. Themen, Personen, Organisationen, Events und geografische Merkmale werden automatisch erkannt. Komplexe heuristische, statistische, semantische und linguistische Verfahren analysieren die wesentlichen inhaltlichen Merkmale eines Dokuments und ordnen diesem automatisch die signifikanten Thesaurus-Begriffe und Schlagworte zu.

Ein Beispiel aus dem Redaktionsalltag. Der Kulturredakteur der Mittelbayerischen Zeitung schreibt einen Artikel über Bob Dylans Tourneestop in der Oberpfalz: „Bob Dylan kommt nach Regensburg“ (erschienen im Juli 2015). Der eingetippte Text wird in Bruchteilen von Sekunden durch die Semantic Engine analysiert, die die folgenden Keywords vorschlägt:

Person: Bob Dylan, Manfred Stuber, John Lennon, Joan Baez, Albert Einstein, Pete Seeger
Organisation: Grammy
Stadt: Regensburg, Hibbing, New York, Duluth

Der Redakteur kann die Keywords in die Metadaten des Artikels übernehmen, weniger passende Begriffe ausschließen und weitere hinzufügen. Außerdem kann der Verlag eigene Listen mit lokalspezifischen Personen und Orten pflegen. So wird dann beispielsweise die „Donau-Arena“ im Redaktionssystem der MZ als Veranstaltungsort erkannt.

Dem Redakteur bleibt viel Recherche-Aufwand erspart, denn auf Basis der hinterlegten Metadaten schlägt das System ihm automatisch verwandte Inhalte vor: Artikel seiner eigenen und anderer Zeitungen, Agenturmeldungen, Fotos, Videos oder weitere themenrelevante Dokumente. Die passenden Bilder zum Text muss er so nicht extra suchen – sie werden ihm auf dem Silbertablett serviert. Hinzu kommt externer Content zum gleichen Thema, der z.B. über Flickr, YouTube oder auf Blogs veröffentlicht wurde und im Zusammenhang des Artikels interessant sein kann.

Die Semantic Engine klassifiziert auf intelligente Weise. Sie erkennt nicht nur explizit im Text vorkommende Bausteine, sondern auch übergeordnete Zusammenhänge. So ordnet sie z.B. den Artikel „Drei Hürden für neue Griechenland-Kredite“ (Süddeutsche Zeitung, 28.7.15) automatisch den Themenfeldern Wirtschaft/Finanzpolitik/Staatsverschuldung sowie Politik/Internationales/Organisationen und Politik/Ressorts/Finanzpolitik zu und legt damit den perfekten Grundstein für die Erstellung von Dossiers und Themenseiten. Diese themenspezifischen Landing Pages werden von Suchmaschinen besser gefunden, bringen somit mehr Leser auf die Website Ihrer Zeitung und erhöhen gleichzeitig die Verweildauer.

Testen Sie die Semantic Engine: www.semanticengine.ws/demo