htw saar Piktogramm QR-encoded URL
Zurück zur Hauptseite Version des Moduls auswählen:
Lernziele hervorheben XML-Code

Big Data

Modulbezeichnung:
Bezeichnung des Moduls innerhalb des Studiengangs. Sie soll eine präzise und verständliche Überschrift des Modulinhalts darstellen.
Big Data
Modulbezeichnung (engl.): Big Data
Studiengang:
Studiengang mit Beginn der Gültigkeit der betreffenden ASPO-Anlage/Studienordnung des Studiengangs, in dem dieses Modul zum Studienprogramm gehört (=Start der ersten Erstsemester-Kohorte, die nach dieser Ordnung studiert).
Praktische Informatik, Master, ASPO 01.10.2011
Code: PIM-WI71
SWS/Lehrform:
Die Anzahl der Semesterwochenstunden (SWS) wird als Zusammensetzung von Vorlesungsstunden (V), Übungsstunden (U), Praktikumsstunden (P) oder Projektarbeitsstunden (PA) angegeben. Beispielsweise besteht eine Veranstaltung der Form 2V+2U aus 2 Vorlesungsstunden und 2 Übungsstunden pro Woche.
3V+1U (4 Semesterwochenstunden)
ECTS-Punkte:
Die Anzahl der Punkte nach ECTS (Leistungspunkte, Kreditpunkte), die dem Studierenden bei erfolgreicher Ableistung des Moduls gutgeschrieben werden. Die ECTS-Punkte entscheiden über die Gewichtung des Fachs bei der Berechnung der Durchschnittsnote im Abschlusszeugnis. Jedem ECTS-Punkt entsprechen 30 studentische Arbeitsstunden (Anwesenheit, Vor- und Nachbereitung, Prüfungsvorbereitung, ggfs. Zeit zur Bearbeitung eines Projekts), verteilt über die gesamte Zeit des Semesters (26 Wochen).
5
Studiensemester: 2
Pflichtfach: nein
Arbeitssprache:
Deutsch
Prüfungsart:
Klausur

[letzte Änderung 17.02.2016]
Verwendbarkeit / Zuordnung zum Curriculum:
Alle Studienprogramme, die das Modul enthalten mit Jahresangabe der entsprechenden Studienordnung / ASPO-Anlage.

KI878 Kommunikationsinformatik, Master, ASPO 01.04.2016 , 2. Semester, Wahlpflichtfach, informatikspezifisch
PIM-WI71 Praktische Informatik, Master, ASPO 01.10.2011 , 2. Semester, Wahlpflichtfach, informatikspezifisch
Arbeitsaufwand:
Der Arbeitsaufwand des Studierenden, der für das erfolgreiche Absolvieren eines Moduls notwendig ist, ergibt sich aus den ECTS-Punkten. Jeder ECTS-Punkt steht in der Regel für 30 Arbeitsstunden. Die Arbeitsstunden umfassen Präsenzzeit (in den Vorlesungswochen), Vor- und Nachbereitung der Vorlesung, ggfs. Abfassung einer Projektarbeit und die Vorbereitung auf die Prüfung.

Die ECTS beziehen sich auf die gesamte formale Semesterdauer (01.04.-30.09. im Sommersemester, 01.10.-31.03. im Wintersemester).
Die Präsenzzeit dieses Moduls umfasst bei 15 Semesterwochen 60 Veranstaltungsstunden (= 45 Zeitstunden). Der Gesamtumfang des Moduls beträgt bei 5 Creditpoints 150 Stunden (30 Std/ECTS). Daher stehen für die Vor- und Nachbereitung der Veranstaltung zusammen mit der Prüfungsvorbereitung 105 Stunden zur Verfügung.
Empfohlene Voraussetzungen (Module):
Keine.
Als Vorkenntnis empfohlen für Module:
Modulverantwortung:
Prof. Dr. Klaus Berberich
Dozent/innen: Prof. Dr. Klaus Berberich

[letzte Änderung 10.02.2016]
Lernziele:
Over the last decade, a number of novel systems has emerged to cope
with the massive amounts of data available today. Our objective in
this lecture is threefold: students should (i) learn which systems are
out there, (ii) be able to use them effectively, and (iii) understand
the challenges, principles, and methods behind them.
 


[letzte Änderung 17.02.2016]
Inhalt:
1. Distributed Data Processing
 
- MapReduce
- Spark
- Bulk Synchronous Parallel
- Locality-Sensitive Hashing
- Algorithms in MapReduce (e.g., PageRank and Breadth-First Search)
- Systems: Hadoop, Hive, Pig, Pregel
 
2. Distributed Data Management
 
- Bloom Filters
- Distributed Hash Tables (e.g., Chord and Pastry)
- Distributed Transactions (e.g., 2-Phase Commit, CAP-Theorem)
- Consensus Protocols (e.g., Paxos)
- Systems: HBase, Cassandra, Riak, Redis
 
3. Data Streams
 
- Data synopses (e.g., Count-Min Sketches, KMVs)
- Continuous Query Language (CQL)
- Systems: Storm, Spark Streaming


[letzte Änderung 17.02.2016]
Literatur:
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman: Mining of Massive Datasets, Cambridge University Press, 2014
http://www.mmds.org
 
Jimmy Lin and Cris Dyer: Data-Intensive Text Processing with MapReduce, Morgan & Claypool, 2010
https://lintool.github.io/MapReduceAlgorithms/


[letzte Änderung 17.02.2016]
[Thu Apr 25 21:41:05 CEST 2024, CKEY=kbd, BKEY=pim, CID=PIM-WI71, LANGUAGE=de, DATE=25.04.2024]