htw saar Piktogramm QR-encoded URL
Zurück zur Hauptseite Version des Moduls auswählen:
Lernziele hervorheben XML-Code


Data Engineering

Modulbezeichnung:
Bezeichnung des Moduls innerhalb des Studiengangs. Sie soll eine präzise und verständliche Überschrift des Modulinhalts darstellen.
Data Engineering
Modulbezeichnung (engl.): Data Engineering
Studiengang:
Studiengang mit Beginn der Gültigkeit der betreffenden ASPO-Anlage/Studienordnung des Studiengangs, in dem dieses Modul zum Studienprogramm gehört (=Start der ersten Erstsemester-Kohorte, die nach dieser Ordnung studiert).
Praktische Informatik, Master, ASPO 01.10.2017
Code: PIM-DE
SAP-Submodul-Nr.:
Die Prüfungsverwaltung mittels SAP-SLCM vergibt für jede Prüfungsart in einem Modul eine SAP-Submodul-Nr (= P-Nummer). Gleiche Module in unterschiedlichen Studiengängen haben bei gleicher Prüfungsart die gleiche SAP-Submodul-Nr..
P222-0050
SWS/Lehrform:
Die Anzahl der Semesterwochenstunden (SWS) wird als Zusammensetzung von Vorlesungsstunden (V), Übungsstunden (U), Praktikumsstunden (P) oder Projektarbeitsstunden (PA) angegeben. Beispielsweise besteht eine Veranstaltung der Form 2V+2U aus 2 Vorlesungsstunden und 2 Übungsstunden pro Woche.
3V+1U (4 Semesterwochenstunden)
ECTS-Punkte:
Die Anzahl der Punkte nach ECTS (Leistungspunkte, Kreditpunkte), die dem Studierenden bei erfolgreicher Ableistung des Moduls gutgeschrieben werden. Die ECTS-Punkte entscheiden über die Gewichtung des Fachs bei der Berechnung der Durchschnittsnote im Abschlusszeugnis. Jedem ECTS-Punkt entsprechen 30 studentische Arbeitsstunden (Anwesenheit, Vor- und Nachbereitung, Prüfungsvorbereitung, ggfs. Zeit zur Bearbeitung eines Projekts), verteilt über die gesamte Zeit des Semesters (26 Wochen).
6
Studiensemester: 2
Pflichtfach: ja
Arbeitssprache:
Deutsch
Studienleistungen (lt. Studienordnung/ASPO-Anlage):
Übungen
Prüfungsart:
Klausur, Dauer 120 min.

[letzte Änderung 29.07.2024]
Verwendbarkeit / Zuordnung zum Curriculum:
Alle Studienprogramme, die das Modul enthalten mit Jahresangabe der entsprechenden Studienordnung / ASPO-Anlage.

DFI-DE (P610-0286) Informatik, Master, ASPO 01.10.2018 , 2. Semester, Pflichtfach
KIM-DE (P222-0050) Kommunikationsinformatik, Master, ASPO 01.10.2017 , 2. Semester, Pflichtfach
PIM-DE (P222-0050) Praktische Informatik, Master, ASPO 01.10.2017 , 2. Semester, Pflichtfach
Arbeitsaufwand:
Der Arbeitsaufwand des Studierenden, der für das erfolgreiche Absolvieren eines Moduls notwendig ist, ergibt sich aus den ECTS-Punkten. Jeder ECTS-Punkt steht in der Regel für 30 Arbeitsstunden. Die Arbeitsstunden umfassen Präsenzzeit (in den Vorlesungswochen), Vor- und Nachbereitung der Vorlesung, ggfs. Abfassung einer Projektarbeit und die Vorbereitung auf die Prüfung.

Die ECTS beziehen sich auf die gesamte formale Semesterdauer (01.04.-30.09. im Sommersemester, 01.10.-31.03. im Wintersemester).
Die Präsenzzeit dieses Moduls umfasst bei 15 Semesterwochen 60 Veranstaltungsstunden (= 45 Zeitstunden). Der Gesamtumfang des Moduls beträgt bei 6 Creditpoints 180 Stunden (30 Std/ECTS). Daher stehen für die Vor- und Nachbereitung der Veranstaltung zusammen mit der Prüfungsvorbereitung 135 Stunden zur Verfügung.
Empfohlene Voraussetzungen (Module):
Keine.
Als Vorkenntnis empfohlen für Module:
Modulverantwortung:
Prof. Dr. Klaus Berberich
Dozent/innen:
Prof. Dr. Klaus Berberich


[letzte Änderung 27.10.2016]
Lernziele:
Nach erfolgreichem Absolvieren dieses Moduls sind Studierende in der Lage große Mengen strukturierter und unstrukturierter Daten zu beherrschen. Sie kennen den grundsätzlichen Aufbau eines (relationalen) Datenbanksystems und sind mit Implementierungstechniken (z.B. Indexstrukturen und Sperrmechanismen) sowie deren Nutzen (z.B. Anfragebeschleunigung und Transaktionsisolation) vertraut. Die Studierenden können transaktionsorientierte (OLTP) und analytischen (OLAP) Anwendungsszenarien voneinander abgrenzen. Sie kennen die Grundbegriffe sogenannter Data Warehouses und können analytische Informationsbedürfnisse in einer geeigneten Anfragesprache (z.B. SQL und MDX) ausdrücken. Zur Beherrschung unstrukturierter Daten (z.B. Textdokumente) kennen die Studierenden grundlegende Modelle des Information Retrievals (z.B. Vektorraummodell) und können diese auf Beispieldaten anwenden. Sie kennen Gütemaße (z.B. Präzision und Ausbeute) und können diese für ermittelte Ergebnisse berechnen. Als Mittel zum Gewinn von Erkenntnissen aus Daten kennen die Studierenden Verfahren des Data Minings, beispielsweise zur Analyse von Warenkörben. Die Studierenden sind in der Lage, die Parameter solcher Verfahren systematisch festzulegen und die zurückgelieferten Ergebnisse kritisch zu beurteilen. Zur verteilten Verarbeitung großer Datenmengen kennen die Studierenden verschiedene verfügbare Plattformen (z.B. MapReduce und Spark). Sie sind in der Lage für eine gegebene analytische Aufgabe eine geeignete Plattform auszuwählen und die Aufgabe mit Hilfe dieser zu implementieren.

[letzte Änderung 04.07.2024]
Inhalt:
1. Einführung
 
2. Datenbanksysteme
2.1 Architektur
2.2 Pufferverwaltung
2.3 Zugriffsstrukturen
2.4 Anfragebearbeitung
2.5 Transaktionsverwaltung
 
3. Data Warehouses
3.1 Modellierung
3.2 Datenintegration
3.3 Anfragesprachen
3.4 Implementierungsaspekte
 
4. Information Retrieval
4.1 Retrievalmodelle
4.2 Gütemaße und Evaluation
4.3 Implementierungsaspekte
 
5. Data Mining
5.1 Klassifikation
5.2 Clustering
5.3 Assoziationsanalye
 
6. Big Data
6.1 Plattformen (z.B. MapReduce und Spark)
6.2 Schnittstellen (z.B. Pig und Hive)
6.3 Umsetzung ausgewählter Verfahren (z.B. k-Means und PageRank)

[letzte Änderung 04.07.2024]
Weitere Lehrmethoden und Medien:
Folien, vorlesungsbegleitende praktische und theoretische Übungen.

[letzte Änderung 18.10.2016]
Literatur:
Kemper Alfons und Eickler André: Datenbanksysteme - Eine Einführung, De Gruyter, 2015
 
Saake Gunter und Sattler Kai-Uwe: Datenbanken: Implementierungstechniken, mitp Professional, 2011
 
Martin Kleppmann: Designing Data-Intensive Applications, O´Reilly, 2017
 
Garcia-Molina Hector, Widom Jennifer, Ulmman Jeffrey D.: Database Systems: The Complete Book, Pearson Education, 2013
 
Leskovec Jure, Rajaraman Anand und Ullman Jeffrey D.: Mining of Massive Datasets, Cambridge University Press, 2014

[letzte Änderung 04.07.2024]
Modul angeboten in Semester:
SS 2024, SS 2023, SS 2022, SS 2021, SS 2020, ...
[Fri Dec 27 01:39:06 CET 2024, CKEY=kde, BKEY=pim2, CID=PIM-DE, LANGUAGE=de, DATE=27.12.2024]