Partitioned Memory Parallel Programming Library (PMLIB) | |||||||||||||||||||||||||||||||||||||||||||||||||
Based on BSP-RAMP: Partitioned Memory Parallel Programming Framework | |||||||||||||||||||||||||||||||||||||||||||||||||
Prof. Subodh Kumar | Prof. Sorav Bansal | ||||||||||||||||||||||||||||||||||||||||||||||||
Tarun Beri | |||||||||||||||||||||||||||||||||||||||||||||||||
Indian Institute of Technology, Delhi | |||||||||||||||||||||||||||||||||||||||||||||||||
In-Memory Data Compression | |||||||||||||||||||||||||||||||||||||||||||||||||
Experimental Configuration | 2 | ||||||||||||||||||||||||||||||||||||||||||||||||
Four 64-bit Ubuntu Linux 8.04.2 Eight Core Machines [Intel Xeon CPU E5450 3.00 GHz with 16 GB physical memory]; | 1 | ||||||||||||||||||||||||||||||||||||||||||||||||
Two machines have one Tesla C1060 GPU Card each | 1 | ||||||||||||||||||||||||||||||||||||||||||||||||
Watch Dog/Kernel Execution Timeout Disabled; mpiexec with 4 processes on different machines; | |||||||||||||||||||||||||||||||||||||||||||||||||
CUDA Version 3.1; OpenMPI Version 1.78; OpenMP Version 3.0; gcc Version 4.2.4 | |||||||||||||||||||||||||||||||||||||||||||||||||
Equal task partitioning among all processing elements | |||||||||||||||||||||||||||||||||||||||||||||||||
Data Size (in MB) | Compression Time (in seconds) | ||||||||||||||||||||||||||||||||||||||||||||||||
Serial Task | 1 host CPU Task | 1 host GPU Task | 1 host Task CPU+GPU |
Cluster CPU Task | Cluster GPU Task | Cluster Task CPU+GPU |
|||||||||||||||||||||||||||||||||||||||||||
1024 | 141.78 | 18.57 | 24.68 | ||||||||||||||||||||||||||||||||||||||||||||||
2048 | 284.14 | 37.14 | 52.26 | ||||||||||||||||||||||||||||||||||||||||||||||
Comparison of Serial and PMLIB Tasks | |||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||
Comparison of PMLIB Tasks | |||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||
Comparison of Serial Task, Fastest PMLIB Task and Slowest PMLIB Task | |||||||||||||||||||||||||||||||||||||||||||||||||
Data Size (in MB) | Compression Time (in seconds) | ||||||||||||||||||||||||||||||||||||||||||||||||
Serial Task | 1 host CPU Task | 1 host GPU Task | 1 host Task CPU+GPU |
Cluster CPU Task | Cluster GPU Task | Cluster Task CPU+GPU |
Fastest PMLIB Task | Slowest PMLIB Task | |||||||||||||||||||||||||||||||||||||||||
1024 | 141.78 | 18.57 | 24.68 | 18.57 | 24.68 | ||||||||||||||||||||||||||||||||||||||||||||
2048 | 284.14 | 37.14 | 52.26 | 37.14 | 52.26 | ||||||||||||||||||||||||||||||||||||||||||||
Fastest LPC Task | Slowest LPC Task | ||||||||||||||||||||||||||||||||||||||||||||||||
Data Size (in MB) | Compression Time (in seconds) | % Speedup of PMLIB Task over Serial Task | |||||||||||||||||||||||||||||||||||||||||||||||
Serial Task | Fastest PMLIB Task | Slowest PMLIB Task | Fastest PMLIB Task | Slowest PMLIB Task | |||||||||||||||||||||||||||||||||||||||||||||
1024 | 141.78 | 18.57 | 24.68 | 763.49 | 574.47 | ||||||||||||||||||||||||||||||||||||||||||||
2048 | 284.14 | 37.14 | 52.26 | 765.05 | 543.70 | ||||||||||||||||||||||||||||||||||||||||||||
Max PMLIB Speedup over Serial Task | |||||||||||||||||||||||||||||||||||||||||||||||||
7.65x | |||||||||||||||||||||||||||||||||||||||||||||||||
PMLIB Tasks slower than Serial Task | PMLIB Tasks faster than Serial Task | ||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||