Sections: 'GPU Databases' - Seminar Database Systems - Fall Semester 2017/18 | Teilnehmende, DBS (Themen) und Papers | Zeitplan | Benchmark und Daten | Lieferdokumente und Leistungsbewertung | Hardware | Quellen und Notizen | GPU Database Dockerfiles | !MapD and PG-Strom | Other GPU Database Software | Notizen |

Seminar Datenbanksysteme (Seminar Database Systems) in HS 2017/18 für Master (MSE) in ICT an der Master Research Unit Software & Systems, HSR Rapperswil und HTW Chur (FHO).

Quicklinks: SeminarDatenbanksysteme, SeminarDatenbanksystemeFS17, SeminarDatenbanksystemeHS1819

'GPU Databases' - Seminar Database Systems - Fall Semester 2017/18 ^

Introduction: GPU databases are the hottest new thing in the database systems world. GPU databases offer significant improvements over the conventional CPU database when performing repetitive operations on (big) data. This is because GPUs consist of thousands of cores and high bandwidth memory on each card. GPU databases shine when used for analytics with a fraction of the costs of pure CPU hardware. GPU databases are a perfect complement, especially in the Data Science (Data Engineering) software stack, since Hadoop & Spark & Co. were not designed for SQL, ACID, nor for relational data analytics. This seminar is part of the MSE Masters in ICT degree at HSR and it tries to give a better understanding of GPU databases, their architecture and pros & cons. It includes also a database benchmark of two selected open source products, MapD Community Edition and PG-Strom/PostgreSQL (unfortunately Kinetica, SQreamDB, BlazingDB and others didn't provide access to their software).

Ziele des Seminars:

Organisatorisches:

Untersuchte GPU DBS:

Teilnehmende, DBS (Themen) und Papers ^

Name Hochschule Hardware Gruppe DBS Paper
Samuel Kurath HSR Server Fujitsu (CPU Xeon E5, GPU K40) A MapD Open Source Ed. Download PDF
Philipp Koster HSR Server IBM (CPU Power8, GPU K100) B MapD Open Source Ed. Download PDF
Daniel Schmider HSR Server Fujitsu (CPU Xeon E5, GPU K40) A PG-Strom / PostgreSQL Download PDF
Martin Boos HSR Server Fujitsu (CPU Xeon E5, GPU K40) B PG-Strom / PostgreSQL Download PDF

Hinweis: Die Lizenz (Copyright) dieser Unterlagen ist CC-BY-SA.

Zeitplan ^

  1. Anfang Semester: Kickoff mit Erläuterungen udn Zuordnung der Themen => Fr. 22. Sept. 2017, 15 Uhr, HSR, Raum 1.275.
  2. Definitive Ausgabe des Benchmarks durch Betreuer und/oder Mitarbeiter.
  3. Vor der Zwischenpräsentation: eine, zwei Buddy-Sitzungen zum Stand (nicht zwingend face-to-face).
  4. Mitte Semester: Zwischenpräsentation alle. => 6. Nov. 2017, 9:00 - 10:30, HSR, Raum 8.225.
  5. Ggf. einzelne Zwischenbesprechungen nach Absprache des Studierenden mit Betreuer.
  6. Vor Semesterende: Buddy-Sitzung zum Manuskript-/Paper-Draft face-to-face.
  7. Abgabe Paper Draft an Betreuer, spätestens zwei Wochen vor Schlusspräsentation.
  8. Mail Paper Draft an alle ca. eine Woche vor Schlusspräsentation. => tba.
  9. Nach Semesterende: Schlusspräsentation/Vortrag => Mo. 22. Januar 2018, 14 - 16 Uhr, HSR, Raum 8.025.
  10. Verbesserungen an Paper und ggf. an Benchmark.
  11. Schlussabgabe Final Paper inkl. alle Lieferdokumente an Betreuer => gem. Absprache, jedoch sicher ein paar Tage vor Notenabgabe. => tba.
  12. Notenabgabe: vor Beginn des nächsten Semester (wie üblich, gem. Vorgaben HSR, bzw. HTW).
  13. Nach Notenabgabe: Upload des Papers auf Wiki (hier) durch Betreuer

Benchmark und Daten ^

Vorgehen des Benchmarks:

Daten (aus "NYC Taxi Rides mit Uber"):

Queries (aus NYC Taxi Rides und BigQuery):

Tipps:

  -- PostgreSQL: How to use pg_prewarm() 
  create extension pg_prewarm;
  select pg_prewarm('trips');

Lieferdokumente und Leistungsbewertung ^

Lieferdokumente / Deliveries:

Paper (bitte Original als LibreOffice/OpenOffice oder MS Word oder LaTeX oder Markdown - nebst PDF):

  1. Verständliche Einführung und Aufbereitung des Themas (ca. 8-12 Seiten).
  2. Gesamt-Dokumentation inkl. Einführung und Visualisierung/Diagramme (ca. 20 Seiten)
  3. Usage auf technischer Ebene (kein "Marketing-Talk"): Vorteile wie auch Nachteile/Einschränkungen
  4. Dokumentation und Zeitmessungen der Queries
  5. Lesson Learned und Conclusion
  6. Anhang: Hinweise zur Installation, um die SW mit den Queries selber nachvollziehen zu können.

Leistungsbewertung (und Layout/Titelblatt):

Tipps:

Hardware ^

Quellen und Notizen ^

GPU Database Dockerfiles ^

MapD and PG-Strom ^

Other GPU Database Software ^

Notizen ^

Alternative (ehemalige) Themen: