ifbw22

informatica feminale Baden-Württemberg 2022 – ein Rückblick

Dieses Jahr fand die informatica feminale Baden-Württemberg an der technischen Fakultät der Universität in Freiburg statt, und wir scieneers durften dort mit einem Kurs zum Thema „Visualisierungsframeworks in Python“ das Angebot für die Teilnehmerinnen mitgestalten.

Konferenz-Rückblick: DataLift Summit

Nachdem 2021 Präsenz-Konferenzen die Ausnahme waren, boten die meisten Veranstalter dieses Jahr entweder Hybrid- oder auch reine Vorort-Konferenzen an. Neben der Pycon in Berlin und M3 (Minds Mastering Machines) in Karlsruhe durfte ich zudem auch dem Debüt des Datalift Summit beiwohnen.

Der DataLift Summit wird organisiert von der AI guild, einem Deutschland weit agierenden Community von “data practitioners”. Ein hipper Berliner Co-Workingspace bot Räumlichkeiten für drei parallele Tracks sowie einen Innenhof, in dem sich die rund 300 Teilnehmer kennenlernen konnten. Networking war erklärtes Ziel der Konferenz, aus diesem Grund waren die 45 Minuten Vorträge meist kurze 20 Minuten Impulse aus der Praxis, gefolgt von Q&A, die teils in eine muntere Gruppendiskussion mündete. Darüber hinaus enthielt das Programm viele Pausen, um ausreichend Raum für persönlichen Austausch zu schaffen sowie zusätzlich Meetups am Abend in den Räumlichkeiten der Sponsoren.

Inhaltliche Schwerpunkte:

MLOps war über alle drei Konferenzen hinweg eines der häufigst diskutieren Themen. Obwohl der Begriff allgegenwärtig ist, hat sich noch kein klarer Technologie-Stack hervorgetan. Zalando präsentierte auf dem DataLift Summit in einer dreiteiligen Vortragsreihe ihre interne Lösung, die vor allem auf zahlreichen Eigenentwicklungen wie etwa zflow basiert. GetYourGuide hingegen setzt mehr auf Open Source Lösungen rund um das generell sehr beliebte MLflow, kombiniert mit BentoML zwecks model serving. Generell beliebt war auch die Nutzung von Databricks Notebooks, nicht zur Daten Exploration sondern sogar zwecks Data Preprocessing innerhalb von ETL PipelinesFür mich überraschend setzt derzeit niemand der Anwesenden auf Kubeflow und die damit verbundenen Tools wie Katib (Hyperparameter Tuning), ArgoCD (Orchestrierung) und SeldonCore (model serving). Insbesondere dank Googles neuen VertexAI als managed Kubeflow für Google Cloud Nutzer bietet dieses nun eine mächtige Alternative im MLOps Bereich.

Weitere wichtige Themen waren Erklärbarkeit, Nutzer-Akzeptanz und Datenqualität. Footprint, ein Start-up zur Bestimmung der Schuhgröße, beschrieb die Herausforderung in der Nutzerkommunikation, um ein valides Foto der Füße zu erhalten. Tchibo beschrieb, wie sie Google’s neuen Temporal Fusion Transformer zur Abverkaufsprognose nutzen, auch da dieses Modell eine Feature-Eklärbarkeit bietet. Bezüglich Datenqualität möchte ich noch einen sehr guten

scieneers Workshop zu visueller Datenexploration

Nach eineinhalb Vortrag-Tagen war der Freitag für Workshops vorgesehen. Hier durfte ich die Teilnehmer drei Stunden durch Visual Data Exploration with Python führen. Hier das wichtigste in Kürze:

  • Visualisierungen werden typischerweise zur Ergebnisvorstellung eingesetzt und sollten daher in der Regel eine klare Nachricht vermitteln.
  • Bei explorativer Visualisierung hingegen müssen die Einsichten erst gefunden werden, weshalb einer schnelle Chart-Modifikation Vorzug vor Visualiserungsdetails gegeben werden sollte.
  • Für den Einstieg in eine EDA eignen sich Reports von dataprep oder pandas-profiling zur ersten Orientierung. Anschließend sollten die Daten mit Blick auf natürliche Gruppen (bpsw. Marken), zeitliche Aggregationen (bspw. Tage) und geographische Informationen (bspw. Standorte) analysiert werden.
  • Python bietet zahlreiche Bibliotheken zur Datenvisualiseriung, wobei sich für explorative Aufgaben vor allem interaktive, high-level Tools eignen:
    • Plotly-Express bietet zahlreiche mächtige Visualisierungen hinter einer kompakten, intuitiven API. Dabei sind alle Charts automatisch interaktiv, ermöglichen etwa das Filtern nach Farben oder das Zoomen in Scatter Charts.
    • Altair folgt der Grammer of Graphics und ermöglicht damit frei kombinierbare Visualisierungen, welche durch “Bindings” miteinander verbunden werden können. Dies ermöglicht es etwa in einem Chart einen Filter für die Daten eines anderen Charts zu konfigurieren.
  • Charts können mit Python zudem einfach in interaktive Dashboards verwandelt werden, um so bspw tiefer in einzelne Subgruppen einzutauchen. Tools hierfür sind:
    • streamlit: Intuitive Nutzung und große Community
    • Voilá: Minimalistische Umwandlung von Notebooks mit ipython-widgets in Dashboards
    • Panel: Flexibles Framework für jede Art von Dashboards, erfordert etwas Übung

Wer tiefer in den Workshop einsteigen möchte, dem sei das GitHub-Repo empfohlen. Ansonsten hoffen wir, euch im nächsten Jahr oder einer der anstehenden Herbst Konferenzen (etwa der Data2Day) persönlich kennenzulernen.

Partnerschaft MPDV – scieneers: MIP smart factory Daten in Power BI

Wir ergänzen die smart factory Plattform MIP unseres Partners MPDV um ein Basis-Lösungspaket in Power BI und der  Expertise, auch kundenspezfische Anforderungen sehr schnell in KPIs und Visuals umzusetzen.

Gruppenfoto_PASS_Camp

PASS Camp 2022 – Ein Einblick

Das PASS Camp fand nach zweijähriger Corona-Pause endlich wieder statt und auch wir waren dabei. In unserem Blog geben wir Euch einen kurzen Einblick.

Voll auf Kurs: optimierte Energieerzeugung dank KI

Datenoptimierte Wärmeprognosen und Fahrplanerzeugung bei KWK-Anlagen – unser spannendes Azure-Daten-Projekt mit Steag New Energies wird hier vorgestellt

Frühlingserwachen 2022

Zwei Tage lang haben wir uns in unserem Kölner Office zusammengefunden, um uns in vier Formaten über fachliche und persönliche Themen auszutauschen und das bisher Erreichte bis in die Abendstunden zu feiern.

BI Consultant Getting Started mit PySpark Notebooks

First steps um als BI Consultant Python zu lernen und in die Ladeprozesse zu integrieren am Beispiel Azure Synapse

Good data quality can save lives

In a pro-bono project facilitated by DataKind we had the great opportunity to join a team of volunteer data scientists to enable the Lwala Community Alliance to monitor the quality of their data.

Our talks at PyCon DE/PyData Berlin

At this year’s PyCon DE & PyData Berlin, we presented our learnings and experiences in two talks. These covered very different aspects of data work: On the one hand, we showcased predictive modeling applications in wind turbine maintenance and the challenges of anomaly detection. In a different presentation, we explained why code reviews are still important for data science tasks and how we can apply them to benefit from the effort.

Live Demo: MIP Daten in Power BI

Live-Demo mit smart factory Shopfloor-Daten verschiedener Maschinen die über die Integrationsplattform MIS von mpdv nach Power BI