hkust-adsl
diff --git a/‎experiments/analysis/merge_alloc_discrete_0920.py
Lines changed: 87 additions & 0 deletions b/‎experiments/analysis/merge_alloc_discrete_0920.py
Lines changed: 87 additions & 0 deletions
diff --git a/‎experiments/analysis/merge_bash.sh
Lines changed: 9 additions & 0 deletions b/‎experiments/analysis/merge_bash.sh
Lines changed: 9 additions & 0 deletions
diff --git a/‎experiments/analysis/merge_fail_pods_1010.py
Lines changed: 100 additions & 0 deletions b/‎experiments/analysis/merge_fail_pods_1010.py
Lines changed: 100 additions & 0 deletions
diff --git a/‎experiments/analysis/merge_frag_discrete_0928.py
Lines changed: 95 additions & 0 deletions b/‎experiments/analysis/merge_frag_discrete_0928.py
Lines changed: 95 additions & 0 deletions
diff --git a/‎experiments/analysis/merge_frag_ratio_discrete_0928.py
Lines changed: 94 additions & 0 deletions b/‎experiments/analysis/merge_frag_ratio_discrete_0928.py
Lines changed: 94 additions & 0 deletions
@@ -0,0 +1,87 @@
+import pandas as pd
+from pathlib import Path
+from utils import move_tag_to_new_column
+RESULTDIR="analysis_results"
+DATADIR="data"
+root = Path(__file__).parents[1] # 0524
+data = root / DATADIR
+analysis = Path(__file__).parent # 0830
+resultDir = analysis / RESULTDIR
+# .
+# ├── README.md
+# ├── [d] analysis
+# │   ├── [d] analysis_results
+# │   │   ├── analysis_new.csv
+# │   │   └── analysis.csv
+# │   ├── [d] images
+# │   ├── merge_0913.py
+# │   ├── plot_0810_dotprod_extend.py
+# ├── [d] data
+# │   ├── [d] cluster_hhpai_na61-pod_hhpai_na61-0820_no_time
+# │   │   ├── [d] 01-FragShare
+# │   │   │   ├── [d] 0.6
+# │   │   │   │   ├── [d] 42
+# ......
+
+def exit_and_save_to_csv(dflist):
+    dfo = pd.concat(dflist)
+    resultDir.mkdir(exist_ok=True)
+    csvfile = resultDir / 'analysis_allo_discrete.csv'
+    dfo.to_csv(csvfile)
+    print("%d rows saved to: %s" % (len(dfo), csvfile))
+    exit()
+
+fileDirs = sorted([x for x in data.iterdir() if x.is_dir()])
+dflist = []
+for fdir in fileDirs:
+    policyDirs = sorted([x for x in fdir.iterdir() if x.is_dir()])
+    for pdir in policyDirs:            
+        tuneDirs = sorted([x for x in pdir.iterdir() if x.is_dir()])
+        for tdir in tuneDirs:
+            seedDirs = sorted([x for x in tdir.iterdir() if x.is_dir()])
+            for sdir in seedDirs:
+                afile = fdir / pdir / tdir / sdir / 'analysis_allo.csv'
+                print(afile)
+                if not afile.is_file():
+                    continue
+                try:
+                    df = pd.read_csv(afile)
+                    df.columns = [x.split('-')[-1] for x in df.columns]
+                    dfd = df.to_dict(orient="list")
+
+                    total_gpu_num = df.total_gpus.values[0]
+                    df['arrive_ratio'] = df.arrived_gpu_milli / total_gpu_num / 10
+                    df['arrive_ratio'] = df['arrive_ratio'].apply(lambda x: round(x, 0))
+                    df['alloc_ratio'] = df.used_gpu_milli / total_gpu_num / 10
+                    df['alloc_ratio'] = df['alloc_ratio'].apply(lambda x: round(x, 2))
+                    
+
+
+                    dfn = dict()
+                    # for k, v in dfd.items():
+                    #     dfn[k] = "-".join(str(x) for x in v)
+                    dfn["workload"] = fdir.name
+                    dfn["sc_policy"] = pdir.name
+                    dfn['tune']= tdir.name
+                    dfn['seed'] = sdir.name
+                    dfn['total_gpus'] = total_gpu_num
+                    for arrr in range(0, 131, 1):
+                        dfv = df[df.arrive_ratio==arrr]
+                        if len(dfv) == 0:
+                            dfv = df[(df.arrive_ratio>=arrr-1)&(df.arrive_ratio<=arrr+1)]
+                            if len(dfv) == 0:
+                                # print("No data:", arrr)
+                                continue
+                        val = round(dfv.alloc_ratio.mean(), 2)
+                        dfn[arrr] = val
+                    
+                    dfo = pd.DataFrame(dfn, index=[len(dflist)]).set_index(["workload", "sc_policy", "tune", "seed"])
+                    dflist.append(dfo)
+
+                    # if len(dflist) > 1:
+                    #     exit_and_save_to_csv(dflist)
+
+                except Exception as e:
+                    exit("ERROR file: %s\n%s" % (afile, e))
+
+exit_and_save_to_csv(dflist)
@@ -0,0 +1,9 @@
+#!/bin/bash
+DATE="2023_0511"
+TRACE="openb_pod_list_default"
+ln -s "../${DATE}/${TRACE}" ../data/
+
+python3 merge_alloc_discrete_0920.py &
+python3 merge_frag_discrete_0928.py &
+python3 merge_frag_ratio_discrete_0928.py &
+python3 merge_fail_pods_1010.py &
@@ -0,0 +1,100 @@
+import pandas as pd
+from pathlib import Path
+from utils import get_total_num_gpu
+
+DATADIR="data"
+IN_FILE="analysis_fail.out"
+RESULTDIR="analysis_results"
+OUT_CSV="analysis_fail.csv"
+root = Path(__file__).parents[1] # 0524
+data = root / DATADIR
+analysis = Path(__file__).parent # 0830
+resultDir = analysis / RESULTDIR
+# .
+# ├── README.md
+# ├── [d] analysis
+# │   ├── [d] analysis_results
+# │   │   ├── analysis_new.csv
+# │   │   └── analysis.csv
+# │   ├── [d] images
+# │   ├── merge_0913.py
+# │   ├── plot_0810_dotprod_extend.py
+# ├── [d] data
+# │   ├── [d] cluster_hhpai_na61-pod_hhpai_na61-0820_no_time
+# │   │   ├── [d] 01-FragShare
+# │   │   │   ├── [d] 0.6
+# │   │   │   │   ├── [d] 42
+# ......
+
+def parse_fail_out_file_to_df(ifile):
+    with open(ifile, 'r') as f:
+        start_signal = 0
+        out_list = []
+        for line in f.readlines():
+            beef = ""
+            if line.startswith('log-'):
+                start_signal = 1
+                continue
+            elif line.startswith('Failed No'):
+                break
+            elif start_signal == 1:
+                beef = line.strip()
+            else:
+                continue
+
+            num_pod, request = beef.split(';')
+            num_pod = int(num_pod)
+            cpu_q, gpu_q = request.split(', ')
+            cpu_m = int(float(cpu_q.split(':')[1].strip()) * 1000)
+            gpu_n = int(gpu_q.split(':')[1].split('x')[0].strip())
+            gpu_m = int(gpu_q.split(':')[1].split('x {')[1].split('}m')[0].strip())
+            gpu_t = gpu_q.split(':')[1].split('m (')[1].split(')>')[0].strip()
+            gpu_t = "<none>" if len(gpu_t) == 0 else gpu_t
+            result = [num_pod, cpu_m, gpu_n, gpu_m, gpu_t]
+            out_list.append(result.copy())
+    
+        df = pd.DataFrame(out_list)
+        if len(df) != 0:  # has failed pods
+            df.columns = ['num_pod', 'cpu_milli', 'num_gpu', 'gpu_milli', 'gpu_type_req']
+    return df
+
+def exit_and_save_to_csv(dflist):
+    dfo = pd.concat(dflist)
+    resultDir.mkdir(exist_ok=True)
+    csvfile = resultDir / OUT_CSV
+    dfo.to_csv(csvfile)
+    print("%d rows saved to: %s" % (len(dfo), csvfile))
+    exit()
+
+fileDirs = sorted([x for x in data.iterdir() if x.is_dir()])
+dflist = []
+for fdir in fileDirs:
+    policyDirs = sorted([x for x in fdir.iterdir() if x.is_dir()])
+    for pdir in policyDirs:            
+        tuneDirs = sorted([x for x in pdir.iterdir() if x.is_dir()])
+        for tdir in tuneDirs:
+            seedDirs = sorted([x for x in tdir.iterdir() if x.is_dir()])
+            for sdir in seedDirs:
+                ifile = fdir / pdir / tdir / sdir / IN_FILE
+                print(ifile)
+                if not ifile.is_file():
+                    continue
+                try:
+                    dff = parse_fail_out_file_to_df(ifile)
+                    fail_pod_cols = list(dff.columns)
+                    dff["workload"] = fdir.name
+                    dff["sc_policy"] = pdir.name
+                    dff['tune']= tdir.name
+                    dff['seed'] = sdir.name
+                    dff.index.names = ['order']
+                    meta_cols = ['workload', 'sc_policy', 'tune', 'seed']
+                    dff = dff[meta_cols + fail_pod_cols]
+                    dflist.append(dff)
+
+                    # if len(dflist) > 1:
+                    #     exit_and_save_to_csv(dflist)
+
+                except Exception as e:
+                    exit("ERROR file: %s\n%s" % (ifile, e))
+
+exit_and_save_to_csv(dflist)
@@ -0,0 +1,95 @@
+import pandas as pd
+from pathlib import Path
+from utils import get_total_num_gpu
+
+RESULTDIR="analysis_results"
+DATADIR="data"
+root = Path(__file__).parents[1] # 0524
+data = root / DATADIR
+analysis = Path(__file__).parent # 0830
+resultDir = analysis / RESULTDIR
+# .
+# ├── README.md
+# ├── [d] analysis
+# │   ├── [d] analysis_results
+# │   │   ├── analysis_new.csv
+# │   │   └── analysis.csv
+# │   ├── [d] images
+# │   ├── merge_0913.py
+# │   ├── plot_0810_dotprod_extend.py
+# ├── [d] data
+# │   ├── [d] cluster_hhpai_na61-pod_hhpai_na61-0820_no_time
+# │   │   ├── [d] 01-FragShare
+# │   │   │   ├── [d] 0.6
+# │   │   │   │   ├── [d] 42
+# ......
+
+def exit_and_save_to_csv(dflist):
+    dfo = pd.concat(dflist)
+    resultDir.mkdir(exist_ok=True)
+    csvfile = resultDir / 'analysis_frag_discrete.csv'
+    dfo.to_csv(csvfile)
+    print("%d rows saved to: %s" % (len(dfo), csvfile))
+    exit()
+
+fileDirs = sorted([x for x in data.iterdir() if x.is_dir()])
+dflist = []
+for fdir in fileDirs:
+    policyDirs = sorted([x for x in fdir.iterdir() if x.is_dir()])
+    for pdir in policyDirs:            
+        tuneDirs = sorted([x for x in pdir.iterdir() if x.is_dir()])
+        for tdir in tuneDirs:
+            seedDirs = sorted([x for x in tdir.iterdir() if x.is_dir()])
+            for sdir in seedDirs:
+                afile = fdir / pdir / tdir / sdir / 'analysis_allo.csv'
+                ffile = fdir / pdir / tdir / sdir / 'analysis_frag.csv'
+                print(afile)
+                if not afile.is_file():
+                    continue
+                try:
+                    dfa = pd.read_csv(afile)
+                    dfa.columns = [x.split('-')[-1] for x in dfa.columns]
+                    # [used_nodes, used_gpus, used_gpu_milli, total_gpus, arrived_gpu_milli]
+
+                    total_gpu_num = dfa.total_gpus.values[0]
+                    dfa['arrive_ratio'] = dfa.arrived_gpu_milli / total_gpu_num / 10
+                    dfa['arrive_ratio'] = dfa['arrive_ratio'].apply(lambda x: round(x, 0))
+                    dfa['alloc_ratio'] = dfa.used_gpu_milli / total_gpu_num / 10
+                    dfa['alloc_ratio'] = dfa['alloc_ratio'].apply(lambda x: round(x, 2))
+                    
+                    dff = pd.read_csv(ffile)
+                    dff.columns = [x.split('-')[-1] for x in dff.columns]
+                    # [origin_milli, origin_ratio, origin_q124, bellman_milli, bellman_ratio]
+
+                    df = dfa.join(dff)
+
+                    dfn = dict()
+                    dfn["workload"] = fdir.name
+                    dfn["sc_policy"] = pdir.name
+                    dfn['tune']= tdir.name
+                    dfn['seed'] = sdir.name
+
+                    for arrr in range(0, 131, 1):
+                        dfv = df[df.arrive_ratio==arrr]
+                        if len(dfv) == 0:
+                            dfv = df[(df.arrive_ratio>=arrr-1)&(df.arrive_ratio<=arrr+1)]
+                            if len(dfv) == 0:
+                                # print("No data:", arrr)
+                                continue
+
+                        frag_milli = dfv.origin_milli.mean()
+                        frag_ratio = dfv.origin_ratio.mean()
+                        # frag_milli = idle_milli * frag_ratio
+                        val = round(100 * frag_milli / 1000 / total_gpu_num, 2)
+                        dfn[arrr] = val
+                    
+                    dfo = pd.DataFrame(dfn, index=[len(dflist)]).set_index(["workload", "sc_policy", "tune", "seed"])
+                    dflist.append(dfo)
+
+                    # if len(dflist) > 1:
+                    #     exit_and_save_to_csv(dflist)
+
+                except Exception as e:
+                    exit("ERROR file: %s\n%s" % (afile, e))
+
+exit_and_save_to_csv(dflist)
@@ -0,0 +1,94 @@
+import pandas as pd
+from pathlib import Path
+from utils import get_total_num_gpu
+
+RESULTDIR="analysis_results"
+DATADIR="data"
+root = Path(__file__).parents[1] # 0524
+data = root / DATADIR
+analysis = Path(__file__).parent # 0830
+resultDir = analysis / RESULTDIR
+# .
+# ├── README.md
+# ├── [d] analysis
+# │   ├── [d] analysis_results
+# │   │   ├── analysis_new.csv
+# │   │   └── analysis.csv
+# │   ├── [d] images
+# │   ├── merge_0913.py
+# │   ├── plot_0810_dotprod_extend.py
+# ├── [d] data
+# │   ├── [d] cluster_hhpai_na61-pod_hhpai_na61-0820_no_time
+# │   │   ├── [d] 01-FragShare
+# │   │   │   ├── [d] 0.6
+# │   │   │   │   ├── [d] 42
+# ......
+
+def exit_and_save_to_csv(dflist):
+    dfo = pd.concat(dflist)
+    resultDir.mkdir(exist_ok=True)
+    csvfile = resultDir / 'analysis_frag_ratio_discrete.csv'
+    dfo.to_csv(csvfile)
+    print("%d rows saved to: %s" % (len(dfo), csvfile))
+    exit()
+
+fileDirs = sorted([x for x in data.iterdir() if x.is_dir()])
+dflist = []
+for fdir in fileDirs:
+    policyDirs = sorted([x for x in fdir.iterdir() if x.is_dir()])
+    for pdir in policyDirs:            
+        tuneDirs = sorted([x for x in pdir.iterdir() if x.is_dir()])
+        for tdir in tuneDirs:
+            seedDirs = sorted([x for x in tdir.iterdir() if x.is_dir()])
+            for sdir in seedDirs:
+                afile = fdir / pdir / tdir / sdir / 'analysis_allo.csv'
+                ffile = fdir / pdir / tdir / sdir / 'analysis_frag.csv'
+                print(afile)
+                if not afile.is_file():
+                    continue
+                try:
+                    dfa = pd.read_csv(afile)
+                    dfa.columns = [x.split('-')[-1] for x in dfa.columns]
+                    # [used_nodes, used_gpus, used_gpu_milli, total_gpus, arrived_gpu_milli]
+
+                    total_gpu_num = dfa.total_gpus.values[0]
+                    dfa['arrive_ratio'] = dfa.arrived_gpu_milli / total_gpu_num / 10
+                    dfa['arrive_ratio'] = dfa['arrive_ratio'].apply(lambda x: round(x, 0))
+                    dfa['alloc_ratio'] = dfa.used_gpu_milli / total_gpu_num / 10
+                    dfa['alloc_ratio'] = dfa['alloc_ratio'].apply(lambda x: round(x, 2))
+                    
+                    dff = pd.read_csv(ffile)
+                    dff.columns = [x.split('-')[-1] for x in dff.columns]
+                    # [origin_milli, origin_ratio, origin_q124, bellman_milli, bellman_ratio]
+
+                    df = dfa.join(dff)
+
+                    dfn = dict()
+                    dfn["workload"] = fdir.name
+                    dfn["sc_policy"] = pdir.name
+                    dfn['tune']= tdir.name
+                    dfn['seed'] = sdir.name
+
+                    for arrr in range(0, 131, 1):
+                        dfv = df[df.arrive_ratio==arrr]
+                        if len(dfv) == 0:
+                            dfv = df[(df.arrive_ratio>=arrr-1)&(df.arrive_ratio<=arrr+1)]
+                            if len(dfv) == 0:
+                                # print("No data:", arrr)
+                                continue
+
+                        frag_milli = dfv.origin_milli.mean()
+                        frag_ratio = dfv.origin_ratio.mean()
+                        # frag_milli = idle_milli * frag_ratio
+                        dfn[arrr] = frag_ratio
+                    
+                    dfo = pd.DataFrame(dfn, index=[len(dflist)]).set_index(["workload", "sc_policy", "tune", "seed"])
+                    dflist.append(dfo)
+
+                    # if len(dflist) > 1:
+                    #     exit_and_save_to_csv(dflist)
+
+                except Exception as e:
+                    exit("ERROR file: %s\n%s" % (afile, e))
+
+exit_and_save_to_csv(dflist)