Added partial spatial_resource_waste results

2021-03-10 16:03:54 +00:00 · 2021-03-10 16:03:54 +00:00 · 344afc5391
commit 344afc5391
parent 5373284e57
11 changed files with 114 additions and 2 deletions
--- a/.gitignore
+++ b/.gitignore
@ -1 +1,2 @@
 **/.ipynb_checkpoints/
+task_slowdown/?_state_changes.json.gz
--- a/spatial_resource_waste/a_res_micros_requested.json
+++ b/spatial_resource_waste/a_res_micros_requested.json
--- a/spatial_resource_waste/b_res_micros_requested.json
+++ b/spatial_resource_waste/b_res_micros_requested.json
--- a/spatial_resource_waste/c_res_micros_requested.json
+++ b/spatial_resource_waste/c_res_micros_requested.json
--- a/spatial_resource_waste/d_res_micros_requested.json
+++ b/spatial_resource_waste/d_res_micros_requested.json
--- a/spatial_resource_waste/e_res_micros_requested.json
+++ b/spatial_resource_waste/e_res_micros_requested.json
--- a/spatial_resource_waste/f_res_micros_requested.json
+++ b/spatial_resource_waste/f_res_micros_requested.json
--- a/spatial_resource_waste/g_res_micros_requested.json
+++ b/spatial_resource_waste/g_res_micros_requested.json
--- a/spatial_resource_waste/spatial_resource_waste.py
+++ b/spatial_resource_waste/spatial_resource_waste.py
@ -0,0 +1,91 @@
+#!/usr/bin/env python3
+# coding: utf-8
+
+import json
+import pandas
+from IPython import display
+import findspark
+findspark.init()
+import pyspark
+import pyspark.sql
+import sys
+import gzip
+
+from pyspark import AccumulatorParam
+from pyspark.sql.functions import lit
+from pyspark.sql import Window
+from pyspark.sql.types import ByteType
+
+cluster=sys.argv[1]
+
+spark = pyspark.sql.SparkSession.builder \
+  .appName("task_slowdown") \
+  .config("spark.driver.maxResultSize", "32g") \
+  .config("spark.local.dir", "/run/tmpfiles.d/spark") \
+  .config("spark.driver.memory", "75g") \
+  .getOrCreate()
+sc = spark.sparkContext
+
+df = spark.read.json("/home/claudio/google_2019/instance_events/" + cluster + "/" + cluster + "_instance_events*.json.gz")
+#df = spark.read.json("/home/claudio/google_2019/instance_events/" + cluster + "/" + cluster + "_test.json")
+
+try:
+    df["collection_type"] = df["collection_type"].cast(ByteType())
+except:
+    df = df.withColumn("collection_type", lit(None).cast(ByteType()))
+
+RUN = set([(3,1), (3,4), (3,5), (3,6), (3,7), (3,8), (3,10), (10,1), (10,4), (10,5), (10,6), (10,7), (10,8), (10,10)])
+
+def is_res_none(tres):
+    return tres is None or tres["cpus"] is None or tres["memory"] is None
+
+def for_each_task(ts):
+    ts = sorted(ts, key=lambda x: x["time"])
+    last_term = None
+    last_resources = None
+    prev = None
+    cpu = 0
+    ram = 0
+
+    for i,t in enumerate(ts):
+        if t["type"] >= 4 and t["type"] <= 8:
+            last_term = t["type"]
+        if prev is not None:
+            if (prev["type"], t["type"]) in RUN:
+                if is_res_none(last_resources):
+                    last_resources = t["res"]
+                if not is_res_none(last_resources):
+                    delta = t["time"] - prev["time"]
+                    cpu += round(delta * last_resources["cpus"])
+                    ram += round(delta * last_resources["memory"])
+        prev = t
+        if not is_res_none(last_resources):
+            last_resources = t["res"]
+            
+    return [("cpu-" + str(last_term), cpu), ("ram-" + str(last_term), ram)]
+    
+def cleanup(x):
+    return {
+        "time": int(x.time),
+        "type": 0 if x.type is None else int(x.type),
+        "id": x.collection_id + "-" + x.instance_index,
+        "res": x.resource_request
+    }
+
+df2 = df.rdd \
+    .filter(lambda x: x.collection_type is None or x.collection_type == 0) \
+    .filter(lambda x: x.time is not None and x.instance_index is not None and x.collection_id is not None) \
+    .map(cleanup) \
+    .groupBy(lambda x: x["id"]) \
+    .mapValues(for_each_task) \
+    .flatMap(lambda x: x[1]) \
+    .groupBy(lambda x: x[0]) \
+    .mapValues(lambda xs: sum(n for _, n in xs)) \
+    .collect()
+
+result = {}
+for pair in df2:
+    result[pair[0]] = pair[1]
+
+with open(cluster + "_res_micros_requested.json", "w") as out:
+    json.dump(result, out, separators=(',', ':'))
--- a/task_slowdown/.gitignore
+++ b/task_slowdown/.gitignore
@ -1 +0,0 @@
-task_slowdown/?_state_changes.json.gz
--- a/thesis-dev.md
+++ b/thesis-dev.md
@ -38,7 +38,7 @@ Google drive.
 - (%) total wasted time per unsuccessful event type
 - (mins.) avg. wasted time per number of events for each event type
 - breakdown of wasted time per *submission*, *scheduling*, *queue*
- *III-A-I: Average slowdown per task*: (Table II)
+- [&#x2705; **task_slowdown**] *III-A-I: Average slowdown per task*: (Table II)
  For FINISH type tasks, compute *slowdown*, i.e. mean (**ask Rosa**) of all
  *response time* for each task event over *response time* of last event (which
  is by def. FINISH). Response time is defined as *Queue time* + *Exec time*