Sehr inkonsistente Benennung von Sensor-Daten

Torsten · 27. August 2019 um 19:03

Hi,

ich baue an verschiedenen Werkzeugen, um die Daten aus den Senseboxen in einem Stadtviertel auszuwerten.

Dabei habe ich festgestellt, dass selbst in Dresden die Phenomene nicht immer gleich benannt sind: einmal ist es “Luftfeuchtigkeit”, bei einer anderen Box “rel. Luftfeuchtigkeit” und bei einer dritten Box “Humidity”.

Um zu sehen, wie global die Benennung der Sensoren ist, habe ich die Daten aller Senseboxen gezogen, und stelle dabei fest, dass es KEINE Standards gibt. Jeder kann scheinbar seine Sensoren so bennenen, wie es ihm beliebt und das passiert dann auch.

Das bedeutet aber, dass es automatisch etwas knifflig wird, die Daten zu interpretieren, da es verschiedene Namen für die Sensoren und ihrer Maßeinheiten gibt.

Ich habe zur Verdeutlichung mal verschiedene Netzwerke erzeugt, um die Beziehungen bzw. verschiedenartigen Benennungen der Sensoren zu visualisieren. Dabei sind jeweils zwei Spalten miteinander verknüpft worden. Die Begriffe der ersten Spalte sind im Netz die grünen Knoten und zweite Spalte sind die blauen Knoten. Eine Linie bedeutet, dass diese Kombination in mindestens einem Sensor vorkommt.

Icon-Unit.pdf:

Icon-Type.pdf:

Type-Title.pdf:

Title-Unit.pdf:

Frage: hat jemand eine Idee, wie man eine verlässliche Zuordnung von diesen Daten zu den Maßeinheiten und Phänomenen herstellen kann?

Beste Grüße
Torsten

Benni · 2. September 2019 um 19:44

Hallo Torsten,

ich bin zur Zeit an dem Problem dran und kann dir gerne berichten was aktuell so passiert:

Das Problem hat seinen Ursprung mehr oder weniger darin, dass eben genau jeder Nutzer seine Sensoren/Phänomene/Einheiten benennen darf wie er möchte. Das hat wiederum damit zu tun, dass die openSenseMap eine offene Plattform für Sensordaten jeglicher Art sein soll. Aber natürlich hast Du vollkommen recht damit, dass das aktuell einige Unklarheiten und Mehrdeutigkeiten in der Datenfindung und Analyse mit sich bringt.

Das Problem liegt hauptsächlich darin, dass es aktuell keine wirklichen Instanzen von Phänomenen, Sensoren, etc gibt, sondern mittels Text-Eingabe diese Metadaten von jedem User während der Registrierung einzeln festgelegt werden.

Wir haben uns überlegt das Problem über eine Art Crowd-Sourced Wiki für Sensoren und Phänomene zu lösen. Dort wird man Instanzen von Sensoren, Phänomenen, Einheiten, Dömanen und Gerätetypen erstellen können, die einen festen Identifikator in Form einer URI haben. Zwischen den Instanzen können verschiedene Beziehungen festgelegt werden die aktuell wie folgt aussehen:

Außerdem wird es noch die Möglichkeit geben weitere Metadaten, eine Beschreibung und mehrer Namen (für Mehrsprachigkeit) anzugeben. Weiterhin soll man Hierarchien von verwandten Instanzen erstellen können. Dass heißt z.B. wenn es die Phänomen Lufttemperatur und Temperatur gibt kann man festlegen dass Lufttemperatur eine Unterart von Temperatur ist.

Die Einträge aus diesem Wiki sind dann über eine API abrufbar und werden in Zukunft für die Registrierung von neuen Boxen auf der openSenseMap benutzt. Das bedeutet man wird dann keine Texteingabe mehr haben, sondern aus einer Liste aktuell vorhandener Instanzen aus dem Wiki wählen können. Möchte man ein Sensor/Phänomen/etc erstellen, dass noch nicht vorhanden ist kann man das in dem Wiki machen. So soll auch sichergestellt werden, dass man nur Sensoren mit „passenden“ Phänomenen und Einheiten verknüpft.

Bestehende Boxen auf der openSenseMap müssen dann auf das neue Metadaten-System gemapped werden. Wobei hier die ursprünglichen Einträge in irgendeiner Form bestehen sollen, damit keine der eingetragenen Metadaten von openSenseMap-Nutzern verloren gehen. Dabei könnten deine Netzwerke sehr nützlich werden, wenn ich das auf den ersten Blick richtig erkenne

So erhoffen wir uns eine übersichtliche und nachhaltige Datenentdeckung

Falls Dich etwas technischere/genauere Details interessieren oder Du Ideen oder weitere Gedanken zu dem Thema hast, melde Dich gerne bei mir!

Viele Grüße
Benni

Torsten · 5. September 2019 um 09:14

Hi Benni,

das ist genau der richtige Ansatz!
Ich werde mal sehen, ob ich aus den bisherigen Daten in irgendeiner Form doch zuverlässig auf das gemessene Phenomenon schliessen kann und berichten

Hier sind mal die Ergebnisse der Server-Abfrage: alle Sensoren von allen bisher registrierten Boxen als Tab-separated Values-Textdatei (TSV) und den folgenden Spalten:

Beste Grüße
Torsten