hamburg-ai-gathering

Zum dritten mal fand am 17. Januar 2018 das Hamburg AI Gathering statt. Rund 170 Teilnehmer tummelten sich im Mindspace – ungefähr die Hälfte von ihnen identifizierte sich durch Handzeichen als Entwickler. Nach einer kurzen Begrüßung von Host Steve Emecz (CCO bei collectAI) starteten die Vorträge der 3 Speaker …

Vortrag #1 – „Watson Discovery“

Speaker: Dr. Dirk Michelsen, Managing Consultant bei IBM Germany

Im ersten Vortrag stellte Dr. Dirk Michelsen zunächst die IBM Cloud und die dazugehörenden IBM Watson Services kurz vor.

Einen Überblick darüber, welche Watson Services bereits die deutsche Sprache unterstützen, bekommst du auf unserer Übersichtsseite: IBM Watson Services – Verfügbare Sprachen.

Slide 1 - Watson Services

Darauf folgte eine ausführlichere Vorstellung von Watson Discovery. Mit diesem Service lassen sich vorhandene Informationen aus verschiedenen Quellen (z.B. PDF, Word, HTML etc.) automatisiert in von Watson Natural Language verarbeitbare JSON Daten umwandeln, dann mit Watson NLU annotieren und als über die API durchsuchbaren Index speichern.

Um die Möglichkeiten zu demonstrieren, die eine Datenverarbeitung mit Watson Discovery bietet, zeigte Michelsen einige Use Cases:

Vortrag #2 – „Sparse Data – Don’t mind the Gap“

Speaker: Daniel Pape, Senior Data Scientist bei codecentric AG

Der zweite Vortrag handelte vom Thema Sparsity (engl., deutsch in etwa „Seltenheit“). Diese beschreibt das Problem, dass oftmals nicht genügend Daten oder nur Daten zu geringer Qualität vorhanden sind und dadurch der Einsatz von Systemen mit künstlicher Intelligenz erschwert oder verhindert wird.

Als Fallstudie diente das Thema Ad Targeting, bei dem sich alles um die zentrale Frage dreht, welchem Website-User zu welchem Zeitpunkt welche Anzeige ausgespielt wird. Konkret wurde in diesem Fall eine künstliche Intelligenz dazu eingesetzt, die Aussteuerung der Anzeigen auf Basis des Nutzerverhaltens zu optimieren.

Slide 2 - Sparsity

Die Ausgangslage:

  • Viele Möglichkeiten (verschiedene Anzeigen)
  • Wenige Events (Nutzerverhalten)
  • Lange Beobachtungszeiträume
  • Wenige bekannte Werte

Die Knappheit der Daten rührt in diesem Fall daher, dass es nur eine begrenzte Anzahl an Werbeplätzen gibt und dass nur ein sehr geringer Teil der Nutzer auf die Anzeigen klickt. Pape präsentierte als Lösung für dieses Problem folgenden Ansatz:

Data Readiness Levels

Neil D. Lawrence, Machine Learning Professor an der University of Sheffield, entwickelte mit den Data Readiness Levels einen Ansatz, um Daten anhand bestimmter Merkmale in mehrere Qualitätsgruppen (Band A bis C) zu unterteilen und sie so nutzbar machen.

Data readiness levels are designed to deal with a challenge for human cognitive information processing. It’s difficult for us to reason about concepts when we haven’t developed a language to describe them. The idea of data readiness levels is to correct this issue and make it easier for us to reason about the state of our data.

The challenges of data quality arise before modeling even starts. Both questions and data are badly characterized. This is particularly true in the era of Big Data, where one gains the impression that the depth of data-discussion in many decision making forums is of the form “We have a Big Data problem, do you have a Big Data solution?”, “Yes, I have a Big Data solution.” Of course in practice it also turns out to be a solution that requires Big Money to pay for because no one bothered to scope the nature of the problem, the data, or the solution.

Auszug aus dem Paper „Data Readiness Levels“ (PDF) von Neil D. Lawrence

  • Gruppe C: In Gruppe C geht es um die Zugänglichkeit der Daten. In welchem Format liegen sie vor? Sind sie maschinenlesbar? Gibt es rechtliche Einschränkungen, die der Verwendung im Wege stehen?
  • Gruppe B: In Gruppe B prüft man die Daten auf Genauigkeit und die Repräsentation der Daten. Wie geht man mit fehlenden Datensätze um? Gibt es Kalkulationsfehler aus vorgelagerten Analyse-Schritten? Herrscht eine Verzerrung der Daten vor?
  • Gruppe A: Daten in dieser Klasse sind machinenlesbar und können genutzt werden, um erste Ergebnisse zu erzielen. Sie qualifizieren sich für weitere Maßnahmen, um sie anzureichern (z.B. Annotation).

Laut Lawrence können nicht nur Datensets der obersten Ebene, sondern auch die darunter liegenden Subsets jeweils einer Gruppe zugeordnet werden. Das Ergebnis ist eine Gruppierung unvollständiger Datensätze, um so das Problem der Datenknappheit zu umgehen.

Nachfolgend noch ein Buchtipp aus dem Vortrag:

Vortrag #3 – „Make Data visual“

Speaker: Christo Zonnev, CTO bei Interone GmbH

Die interaktive Visualisierung von Daten ist normalerweise mit großem Aufwand verbunden. Als Lösung für diese zeitraubende Arbeit präsentierte Christo Zonnev von Interone die Brunel Library, mit der ohne große Vorkenntnisse in kürzester Zeit statische und interaktive Visualisierungen erstellt werden können.

Brunel definiert eine Sprache, die interaktive Datenvisualisierungen basierend auf Tabellendaten definiert. Die Sprache eignet sich sowohl für Datenwissenschaftler als auch für Geschäftsanwender. Das System interpretiert die Sprache und erstellt Visualisierungen unter Verwendung der vom Benutzer gewählten vorhandenen Visualisierungstechnologien auf niedrigerer Ebene, die typischerweise von Anwendungstechnikern wie RAVE oder D3 verwendet werden.


Das nächste Hamburg AI Gathering findet am 28.03.2018 statt – Details dazu findest du auf unserer KI-Eventübersicht.