Review SQL days: Wenn der Osterhase stolpert – Datenqualität als unterschätzter Erfolgsfaktor

Review SQL days: Wenn der Osterhase stolpert – Datenqualität als unterschätzter Erfolgsfaktor

English version

Eindrücke und Learnings aus dem Vortrag von Jasmin Simader und Christian Schneider bei den SQLDays Erding 2025

Die Geschichte beginnt mit einem augenzwinkernden Beispiel: Ein Osterfest gerät ins Chaos, weil die Osterhasen mit der Auslieferung nicht hinterherkommen. Körbchen bleiben leer, Routen sind doppelt belegt, und manche Adressen existieren gar nicht. Der Grund? Schlechte Datenqualität. Was humorvoll beginnt, trifft den Kern eines ernsten Problems: mangelhafte Daten kosten Zeit, Geld und Vertrauen – jeden Tag.

Dieser Einstieg stammt aus dem großartigen Vortrag von Jasmin Simader und Christian Schneider bei den SQLDays in Erding – und hat bei mir richtig Eindruck hinterlassen. Hier sind meine wichtigsten Learnings und Gedanken dazu.

TLDR

Datenqualität ist kein technisches Detail, sondern ein strategischer Erfolgsfaktor. Der Vortrag von Jasmin Simader und Christian Schneider hat das eindrucksvoll gezeigt – mit Humor, Tiefe und vielen praktischen Impulsen. Ich nehme mit: Wenn der Osterhase das nächste Mal losfährt, sollte er wissen, woher seine Daten kommen – und ob er ihnen wirklich trauen kann

Datenqualität ist kein Randthema – sie entscheidet über Effizienz und Glaubwürdigkeit

Fehlerhafte Daten verursachen nicht nur operative Probleme, sondern führen zu echten wirtschaftlichen Schäden. Sie belegen unnötig Speicherplatz, verfälschen Prognosen, gefährden KI-Projekte und können sogar den Ruf eines Unternehmens beschädigen. Ein besonders eindrückliches Beispiel stammt aus der Raumfahrt: Die NASA verlor 1999 rund 125 Millionen Dollar, weil ein Zulieferer imperiale Maße statt metrischer Einheiten verwendete. Der Mars Climate Orbiter stürzte ab – ein klassischer Fall von Dateninkonsistenz mit fatalen Folgen.

Was macht Daten eigentlich „qualitativ hochwertig“?

Datenqualität bedeutet weit mehr als nur korrekte Zahlen. Sie umfasst Vollständigkeit, Aktualität, Konsistenz, Eindeutigkeit und Verständlichkeit. Fehlende Werte, veraltete Informationen, doppelte Einträge oder semantisch falsche Inhalte sind typische Schwachstellen. Oft fehlt der Kontext, um Daten richtig zu interpretieren. Auch technische Probleme wie uneinheitliche Formate, fehlende Schlüsselbeziehungen oder unklare Datenherkunft spielen eine Rolle.

Hier setzt Data Governance an: Durch klare Businessregeln, systemübergreifende Standards und transparente Verantwortlichkeiten lassen sich viele dieser Probleme vermeiden. Besonders hilfreich ist dabei die sogenannte „Data Lineage“ – also die Nachverfolgbarkeit von Daten über ihren gesamten Lebenszyklus hinweg.

Vertrauen entsteht durch Transparenz – und geht schnell verloren

Daten sind die Grundlage für Entscheidungen. Wenn sie nicht stimmen, leidet nicht nur die Qualität der Ergebnisse, sondern auch das Vertrauen der Menschen, die mit ihnen arbeiten. Deshalb ist es wichtig, Fehler offen zu kommunizieren, ohne Schuldzuweisungen. Nur so entsteht eine Kultur der kontinuierlichen Verbesserung.

Wie lässt sich Datenqualität sichtbar und steuerbar machen?

Ein durchdachtes Dashboard kann helfen, die wichtigsten Qualitätskriterien zu überwachen. Es sollte nicht nur aggregierte Kennzahlen zeigen, sondern auch die Möglichkeit bieten, Probleme im Detail zu analysieren. Trends über die Zeit sind ebenso wichtig wie die Darstellung von Standardwerten für Lieferzeiten oder Mengen.

In Power BI lassen sich solche Checks gut umsetzen – etwa mit DAX Measures, die inhaltliche Regeln abbilden („Bestellgröße über 10 ist nicht zulässig“). Für jede Qualitätsdimension kann eine eigene Tabelle erstellt werden. Allerdings stößt man auch an Grenzen: Ein Abgleich gegen reguläre Ausdrücke ist in Power BI nicht direkt möglich, sondern nur über Listen. Auch die Entscheidung zwischen DAX und Power Query hat Einfluss auf Performance und Wartbarkeit – besonders in kleinen und mittleren Unternehmen, wo pragmatische Lösungen oft wichtiger sind als perfekte Architektur.

Datenverantwortung beginnt dort, wo Daten entstehen

Die Verantwortung für Datenqualität liegt nicht allein bei IT oder BI-Teams, sondern vor allem im Fachbereich. Wer die Daten erzeugt, kennt ihre Bedeutung und ihre Schwächen. Aussagen wie „Das System gibt nicht mehr her“ sind kein Hindernis, sondern ein Hinweis auf Optimierungspotenzial. Dabei gilt: Akkurate Daten sind wertvoller als unreflektiertes Datengold. Ein durchdachtes Löschkonzept – idealerweise nach DIN-Norm – hilft, Altlasten zu vermeiden.

Datenqualität braucht Haltung – und interdisziplinäre Zusammenarbeit

Organisationen müssen zukunftsfähig sein. Dazu gehört, dass sie Daten nicht nur sammeln, sondern auch verstehen und verantwortungsvoll nutzen. Der Fachbereich sollte die Priorität von Fehlern einschätzen können – nicht jeder Fehler ist gleich kritisch. Im Idealfall arbeiten Datenteams interdisziplinär zusammen, um gemeinsam tragfähige Lösungen zu entwickeln.

Ein Beispiel aus dem Vortrag: Ein Pharmakonzern mit CRM-Daten aus verschiedenen Ländern stand vor der Herausforderung, zentrale Regeln mit lokalen Besonderheiten zu vereinen. Die Lösung lag in einer „Hub-and-Spoke“-Architektur: zentrale Steuerung, aber dezentrale Umsetzung. Viele Prozesse funktionieren lokal besser – solange die übergreifende Qualität gesichert ist.

KI braucht gute Daten – sonst hebt sie nicht ab

Ein besonders inspirierender Moment im Vortrag war der Sticker, den Artur König passend verteilte:
„There’s no chicken and egg problem with Data and AI – it all starts with the data.“
Dieser Satz bringt es auf den Punkt: Gerade durch den Einsatz von KI wird Datenqualität zum entscheidenden Faktor. Denn KI-Anwendungen können nur so gut sein wie die Daten, auf denen sie basieren. Und nein – die KI kann sich nicht selbst aus schlechten Daten befreien, weil sie die idealen Daten schlicht nicht kennt. Wer also möchte, dass KI wirklich abhebt, muss zuerst die Datenbasis in Ordnung bringen.

Impressions and Takeaways from Jasmin Simader and Christian Schneider’s Talk at SQLDays Erding 2025

The story kicks off with a cheeky example: Easter descends into chaos because the Easter bunnies can’t keep up with deliveries. Baskets remain empty, routes are double-booked, and some addresses don’t even exist. The culprit? Poor data quality. What starts out as a humorous anecdote hits the heart of a serious issue: bad data costs time, money, and trust—every single day.

This intro came from the brilliant talk by Jasmin Simader and Christian Schneider at SQLDays in Erding—and it really stuck with me. Here are my key takeaways and reflections.

TLDR

Data quality isn’t a technical footnote—it’s a strategic success factor. Jasmin Simader and Christian Schneider made that crystal clear, with humor, depth, and loads of practical insights. My main takeaway? Next time the Easter Bunny hits the road, he’d better know where his data comes from—and whether he can actually trust it.

Data Quality Isn’t a Side Topic—It’s the Backbone of Efficiency and Credibility

Bad data doesn’t just cause operational hiccups—it leads to real financial damage. It clogs up storage, skews forecasts, derails AI projects, and can even tarnish a company’s reputation. One striking example came from space exploration: in 1999, NASA lost around $125 million because a supplier used imperial units instead of metric. The Mars Climate Orbiter crashed—a textbook case of data inconsistency with catastrophic consequences.

So What Makes Data “High Quality”?

It’s not just about correct numbers. Quality data is complete, up-to-date, consistent, unambiguous, and easy to understand. Missing values, outdated info, duplicate entries, or semantically incorrect content are common weak spots. Often, the context needed to interpret data is missing. Technical issues like inconsistent formats, missing key relationships, or unclear data origins also play a role.

This is where data governance steps in: clear business rules, cross-system standards, and transparent ownership can prevent many of these issues. One especially helpful tool is “data lineage”—the ability to trace data throughout its entire lifecycle.

Trust Comes from Transparency—and It’s Fragile

Data is the foundation for decision-making. If it’s flawed, not only do results suffer, but so does the trust of the people working with it. That’s why it’s crucial to communicate errors openly, without finger-pointing. Only then can a culture of continuous improvement take root.

How Can We Make Data Quality Visible and Controllable?

A well-designed dashboard can help monitor key quality metrics. It shouldn’t just show aggregated KPIs—it should allow for deep dives into specific issues. Tracking trends over time is just as important as visualizing standard values for delivery times or quantities.

Power BI is a great tool for implementing these checks—using DAX measures to enforce business rules (like “Order size over 10 is not allowed”). You can create separate tables for each quality dimension. But there are limits: regex checks aren’t natively supported in Power BI, only via lists. And choosing between DAX and Power Query affects performance and maintainability—especially in small and mid-sized businesses, where pragmatic solutions often trump perfect architecture.

Data Responsibility Starts Where Data Is Born

Responsibility for data quality doesn’t lie solely with IT or BI teams—it starts in the business units. The people who generate the data know its meaning and its flaws. Statements like “The system doesn’t give us more” aren’t roadblocks—they’re clues for optimization. And remember: accurate data is more valuable than unfiltered data gold. A thoughtful deletion strategy—ideally aligned with DIN standards—helps avoid legacy clutter.

Data Quality Requires Attitude—and Cross-Functional Collaboration

Organizations need to be future-ready. That means not just collecting data, but understanding and using it responsibly. Business units should be able to assess the severity of errors—not every mistake is equally critical. Ideally, data teams work together across disciplines to develop sustainable solutions.

One example from the talk: a pharmaceutical company with CRM data from multiple countries faced the challenge of aligning central rules with local nuances. The solution? A “hub-and-spoke” architecture: centralized governance, decentralized execution. Many processes work better locally—as long as overall quality is maintained.

AI Needs Good Data—Or It Won’t Take Off

One especially inspiring moment was a sticker handed out by Artur König: “There’s no chicken and egg problem with Data and AI – it all starts with the data.”

That line nails it: with the rise of AI, data quality becomes the make-or-break factor. AI applications are only as good as the data they’re built on. And no—AI can’t magically fix bad data, because it doesn’t know what “perfect” data looks like. So if we want AI to truly take flight, we need to get our data foundation in shape first.

Disclaimer

This article was created based on my personal notes with support from Microsoft Copilot. While Copilot assisted in structuring and refining the content, all technical details have been carefully reviewed and developed by me. All credit for the session go to Jasmin Simader and Christian Schneider.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.