refine code and remove redundant mkdir_if_not_exit function

HydrogenSulfate · HydrogenSulfate · commit d9958d20a695 · 2023-05-23T06:06:27.000Z
diff --git a/README.md b/README.md
@@ -58,7 +58,7 @@ PaddleScience 是一个基于深度学习框架 PaddlePaddle 开发的科学计
 
 ## 快速开始
 
-参考 [**快速开始**](https://paddlescience-docs.readthedocs.io/zh/latest/zh/quickstart/)
+请参考 [**快速开始**](https://paddlescience-docs.readthedocs.io/zh/latest/zh/quickstart/)
 
 ## 经典案例
 
diff --git a/ppsci/metric/l2_rel.py b/ppsci/metric/l2_rel.py
@@ -33,7 +33,7 @@ class L2Rel(base.Metric):
     """
 
     def __init__(self, keep_batch: bool = False):
-        if keep_batch is not False:
+        if keep_batch:
             raise ValueError(f"keep_batch should be False, but got {keep_batch}.")
         super().__init__(keep_batch)
 
diff --git a/ppsci/metric/rmse.py b/ppsci/metric/rmse.py
@@ -40,7 +40,7 @@ class RMSE(base.Metric):
     """
 
     def __init__(self, keep_batch: bool = False):
-        if keep_batch is not False:
+        if keep_batch:
             raise ValueError(f"keep_batch should be False, but got {keep_batch}.")
         super().__init__(keep_batch)
 
diff --git a/ppsci/solver/eval.py b/ppsci/solver/eval.py
@@ -24,7 +24,7 @@
 
 
 def _eval_by_dataset(solver, epoch_id: int, log_freq: int) -> float:
-    """Evaluation program by dataset.
+    """Evaluate with computing metric on total samples.
 
     Args:
         solver (solver.Solver): Main Solver.
@@ -96,12 +96,12 @@ def _eval_by_dataset(solver, epoch_id: int, log_freq: int) -> float:
             batch_cost = time.perf_counter() - batch_tic
             solver.eval_time_info["reader_cost"].update(reader_cost)
             solver.eval_time_info["batch_cost"].update(batch_cost)
-            total_batch_size = sum([v.shape[0] for v in input_dict.values()])
-            printer.update_eval_loss(solver, loss_dict, total_batch_size)
+            batch_size = next(iter(input_dict.values())).shape[0]
+            printer.update_eval_loss(solver, loss_dict, batch_size)
             if iter_id == 1 or iter_id % log_freq == 0:
                 printer.log_eval_info(
                     solver,
-                    total_batch_size,
+                    batch_size,
                     epoch_id,
                     len(_validator.data_loader),
                     iter_id,
@@ -110,7 +110,7 @@ def _eval_by_dataset(solver, epoch_id: int, log_freq: int) -> float:
             reader_tic = time.perf_counter()
             batch_tic = time.perf_counter()
 
-        # gather all data
+        # concate all data and discard padded sample(s)
         for key in all_input:
             all_input[key] = paddle.concat(all_input[key])
             if len(all_input[key]) > num_samples:
@@ -138,20 +138,18 @@ def _eval_by_dataset(solver, epoch_id: int, log_freq: int) -> float:
                     float(metric_value), num_samples
                 )
 
+        # use the first metric for return value
         if target_metric is None:
             tmp = metric
             while isinstance(tmp, dict):
                 tmp = next(iter(tmp.values()))
-            assert isinstance(
-                tmp, (int, float)
-            ), f"Target metric({type(tmp)}) should be a number"
-            target_metric = tmp
+            target_metric = float(tmp)
 
     return target_metric
 
 
 def _eval_by_batch(solver, epoch_id: int, log_freq: int) -> float:
-    """Evaluation program by batch.
+    """Evaluate with computing metric by batch, which is memory-efficient.
 
     Args:
         solver (solver.Solver): Main Solver.
@@ -181,7 +179,7 @@ def _eval_by_batch(solver, epoch_id: int, log_freq: int) -> float:
                 for key in solver.eval_time_info:
                     solver.eval_time_info[key].reset()
             reader_cost = time.perf_counter() - reader_tic
-            total_batch_size = next(iter(input_dict.values())).shape[0]
+            batch_size = next(iter(input_dict.values())).shape[0]
 
             for v in input_dict.values():
                 v.stop_gradient = False
@@ -213,11 +211,11 @@ def _eval_by_batch(solver, epoch_id: int, log_freq: int) -> float:
             batch_cost = time.perf_counter() - batch_tic
             solver.eval_time_info["reader_cost"].update(reader_cost)
             solver.eval_time_info["batch_cost"].update(batch_cost)
-            printer.update_eval_loss(solver, loss_dict, total_batch_size)
+            printer.update_eval_loss(solver, loss_dict, batch_size)
             if iter_id == 1 or iter_id % log_freq == 0:
                 printer.log_eval_info(
                     solver,
-                    total_batch_size,
+                    batch_size,
                     epoch_id,
                     len(_validator.data_loader),
                     iter_id,
@@ -226,7 +224,7 @@ def _eval_by_batch(solver, epoch_id: int, log_freq: int) -> float:
             reader_tic = time.perf_counter()
             batch_tic = time.perf_counter()
 
-        # gather all metric
+        # concate all metric and discard metric of padded sample(s)
         for metric_name, metric_dict in metric.items():
             for var_name, metric_value in metric_dict.items():
                 metric_value = paddle.concat(metric_value)[:num_samples]
@@ -239,20 +237,18 @@ def _eval_by_batch(solver, epoch_id: int, log_freq: int) -> float:
                     )
                 solver.eval_output_info[metric_str].update(metric_value, num_samples)
 
+        # use the first metric for return value
         if target_metric is None:
             tmp = metric
             while isinstance(tmp, dict):
                 tmp = next(iter(tmp.values()))
-            assert isinstance(
-                tmp, (int, float)
-            ), f"Target metric({type(tmp)}) should be a number"
             target_metric = tmp
 
     return target_metric
 
 
 def eval_func(solver, epoch_id: int, log_freq: int) -> float:
-    """Evaluation program
+    """Evaluation function.
 
     Args:
         solver (solver.Solver): Main Solver.
diff --git a/ppsci/solver/solver.py b/ppsci/solver/solver.py
@@ -221,9 +221,7 @@ def __init__(
             self.train_epoch_func = ppsci.solver.train.train_LBFGS_epoch_func
             if self.update_freq != 1:
                 self.update_freq = 1
-                logger.warning(
-                    f"Set update_freq from {self.update_freq} to 1 when using L-BFGS optimizer."
-                )
+                logger.warning("Set update_freq to to 1 when using L-BFGS optimizer.")
         else:
             self.train_epoch_func = ppsci.solver.train.train_epoch_func
 
diff --git a/ppsci/utils/save_load.py b/ppsci/utils/save_load.py
@@ -12,7 +12,6 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-import errno
 import os
 from typing import Any
 from typing import Dict
@@ -25,22 +24,6 @@
 __all__ = ["load_checkpoint", "save_checkpoint", "load_pretrain"]
 
 
-def _mkdir_if_not_exist(path):
-    """mkdir if not exists, ignore the exception when multiprocess mkdir together
-
-    Args:
-        path (str): Path for makedir
-    """
-    if not os.path.exists(path):
-        try:
-            os.makedirs(path)
-        except OSError as os_err:
-            if os_err.errno == errno.EEXIST and os.path.isdir(path):
-                logger.warning(f"{path} already created.")
-            else:
-                raise OSError(f"Failed to mkdir {path}.")
-
-
 def _load_pretrain_from_path(model, path, equation=None):
     """Load pretrained model from given path.
 
@@ -137,15 +120,15 @@ def save_checkpoint(
         model (nn.Layer): Model with parameters.
         optimizer (optimizer.Optimizer): Optimizer for model.
         grad_scaler (Optional[amp.GradScaler]): GradScaler for AMP. Defaults to None.
-        metric (Dict[str, Any]): Metric information, such as {"RMSE": ...}.
+        metric (Dict[str, float]): Metric information, such as {"RMSE": ...}.
         model_dir (str): Directory for chekpoint storage.
         prefix (str, optional): Prefix for storage. Defaults to "ppsci".
         equation (Optional[Dict[str, ppsci.equation.PDE]]): Equations. Defaults to None.
     """
     if paddle.distributed.get_rank() != 0:
         return
     model_dir = os.path.join(model_dir, "checkpoints")
-    _mkdir_if_not_exist(model_dir)
+    os.makedirs(model_dir, exist_ok=True)
     model_path = os.path.join(model_dir, prefix)
 
     paddle.save(model.state_dict(), f"{model_path}.pdparams")
diff --git a/ppsci/validate/base.py b/ppsci/validate/base.py
@@ -19,6 +19,7 @@
 
 from ppsci import data
 from ppsci import loss
+from ppsci import metric
 
 
 class Validator:
@@ -28,7 +29,7 @@ class Validator:
         dataset (io.Dataset): Dataset for validator.
         dataloader_cfg (Dict[str, Any]): Dataloader config.
         loss (loss.Loss): Loss functor.
-        metric (Dict[str, Any]): Named metric functors in dict.
+        metric (Dict[str, metric.Metric]): Named metric functors in dict.
         name (str): Name of validator.
     """
 
@@ -37,7 +38,7 @@ def __init__(
         dataset: io.Dataset,
         dataloader_cfg: Dict[str, Any],
         loss: loss.Loss,
-        metric: Dict[str, Any],
+        metric: Dict[str, metric.Metric],
         name: str,
     ):
         self.data_loader = data.build_dataloader(dataset, dataloader_cfg)
diff --git a/ppsci/validate/geo_validator.py b/ppsci/validate/geo_validator.py
@@ -26,6 +26,7 @@
 
 from ppsci import geometry
 from ppsci import loss
+from ppsci import metric
 from ppsci.data import dataset
 from ppsci.validate import base
 
@@ -46,7 +47,7 @@ class GeometryValidator(base.Validator):
             geometry. Defaults to "pseudo".
         criteria (Optional[Callable]): Criteria for refining specified domain. Defaults to None.
         evenly (bool, optional): Whether to use evenly distribution sampling. Defaults to False.
-        metric (Optional[Dict[str, Any]]): Named metric functors in dict. Defaults to None.
+        metric (Optional[Dict[str, metric.Metric]]): Named metric functors in dict. Defaults to None.
         with_initial (bool, optional): Whether the data contains time t0. Defaults to False.
         name (Optional[str]): Name of validator. Defaults to None.
 
@@ -77,7 +78,7 @@ def __init__(
         random: Literal["pseudo", "LHS"] = "pseudo",
         criteria: Optional[Callable] = None,
         evenly: bool = False,
-        metric: Optional[Dict[str, Any]] = None,
+        metric: Optional[Dict[str, metric.Metric]] = None,
         with_initial: bool = False,
         name: Optional[str] = None,
     ):