Benchmarking

Benchmarking

Benchmarking eines Software-Systems zielt auf die Bestimmung von Software-Produktmetriken um Systeme vergleichbar zu machen, Leistungsverbesserungen aufzuzeigen, etc. Wie wissenschaftliche Ergebnisse im Allgemeinen sollten Benchmarking-Ergebnisse ebenfalls wiederholbar und reproduzierbar sein. Wiederholbarkeit erfordert, dass die Wiederholung eines Benchmarks in derselben Umgebung (statistisch) äquivalente Ergebnisse liefert [3, 5]. Reproduzierbarkeit hingegen erfordert, dass die Wiederholung durch andere (in derselben oder ähnlichen Umgebung) zu (statistisch) äquivalenten Ergebnissen führt [5]. Allerdings sind die Voraussetzungen zur erfolgreichen Reproduzierbarkeit von Benchmarking-Ergebnissen, insbesondere von Micro-Benchmarks aktuell nicht umfassend erforscht.


Im Rahmen der Arbeitsfelder der Arbeitsgruppe Software Systems Engineering wird Benchmarking in verschiedenen Umgebungen durchgeführt, z.B., [1, 3, 4]. Auf dieser Seite versuchen wir die Experimente im Detail zu beschreiben, so dass insbesondere Reproduzierbarkeit ermöglicht bzw. unterstützt wird. Wir versuchen mit dieser Seite einen Beitrag zur Reproduzierbarkeit zu leisten, und planen die Informationen basierend auf neueren Erkenntnissen zu aktualisieren.

Performance-Experimente zu SPASS-meter (Details und Downloads folgen):

Literatur:

[1] H. Eichelberger and K. Schmid. “Flexible resource monitoring of Java programs”. In: J. Syst. Softw. 93 (2014), pp. 163–186.

[2] J. Waller. “Performance Benchmarking of ApplicationMonitoring Frameworks”. PhD thesis. University of Kiel, 2014.

[3] A. Sass, "Performanz-Optimierung des Ressourcen-Messwerkzeugs SPASS-meter", MSc-Abschlussarbeit, Universität Hildesheim, 2016

[4] H. Eichelberger, A. Sass, K. Schmid, "From Reproducibility Problems to Improvements: A journey", Symposion on Software Performance (SSP'16), 2016 (to appear)

[5] K. Kanoun, Y. Crouzet, A. Kalakech and A.-L. Rugina,  “Windows and Linux Robustness Benchmarks with Respect To Application Errneous Behavior”. In: Dependability Benchmarking for Computer Sys. 2008, pp. 227–254.