ffast-math

YihanWangAstro · YihanWangAstro · commit e4876dd648e1 · 2025-05-02T15:06:26.000-07:00
diff --git a/Makefile b/Makefile
@@ -26,7 +26,7 @@ MODULE := vegasglow
 
 # === Compiler & flags ===
 CXX ?= g++
-CXXFLAGS := -std=c++20 -O3 -march=native -flto -Iinclude -Iexternal -g3 -w  -DXTENSOR_USE_XSIMD=ON
+CXXFLAGS := -std=c++20 -O3 -march=native -flto -Iinclude -Iexternal -g3 -w -ffast-math# -DXTENSOR_USE_XSIMD=ON
 LDFLAGS := -lz
 AR := ar
 ARFLAGS := rcs
diff --git a/pybind/mcmc.cpp b/pybind/mcmc.cpp
@@ -200,8 +200,8 @@ void MultiBandModel::build_system(Params const& param, Array const& t_eval, Obse
 
     auto shock = generate_fwd_shock(coord, medium, jet, eps_e, eps_B, config.rtol);
 
-    obs.observe_at(t_eval, coord, shock, lumi_dist, z);
-    // obs.observe(coord, shock, lumi_dist, z);
+    // obs.observe_at(t_eval, coord, shock, lumi_dist, z);
+    obs.observe(coord, shock, lumi_dist, z);
 
     electrons = generate_syn_electrons(shock, p, xi);
 
diff --git a/setup.py b/setup.py
@@ -10,7 +10,7 @@ def find_sources():
                 sources.append(os.path.join(root, fn))
     return sources
 
-extra_compile_args = ["-std=c++20", "-O3", "-march=native", "-flto", "-w", "-DNDEBUG", "-fPIC"]
+extra_compile_args = ["-std=c++20", "-O3", "-march=native", "-flto", "-w", "-DNDEBUG", "-fPIC", "-ffast-math"]
 extra_link_args    = ["-lz"]
 if platform.system() == "Darwin":
     extra_link_args += ["-undefined", "dynamic_lookup"]
diff --git a/src/core/observer.cpp b/src/core/observer.cpp
@@ -65,10 +65,9 @@ void Observer::calc_emission_surface(Coord const& coord, Shock const& shock) {
         size_t i_eff = i * jet_3d;
         for (size_t j = 0; j < theta_grid; ++j) {
             for (size_t k = 0; k < t_grid; ++k) {
-                if (shock.required(i_eff, j, k) == 0) {
-                    continue;
-                }
-
+                // if (shock.required(i_eff, j, k) == 0) {
+                //     continue;
+                // }  // maybe remove this inner branch harm to vectorization
                 Real dOmega = std::fabs(dcos(i_eff, j, k) * dphi(i));
                 Real r = shock.r(i_eff, j, k);
                 lg2_surface(i, j, k) = std::log2(dOmega * r * r) + 3 * lg2_doppler(i, j, k);
@@ -188,10 +187,7 @@ void Observer::observe(Coord const& coord, Shock const& shock, Real luminosity_d
 
 void Observer::observe_at(Array const& t_obs, Coord const& coord, Shock& shock, Real luminosity_dist, Real redshift) {
     build_time_grid(coord, shock, luminosity_dist, redshift);
-
     xt::view(shock.required, xt::all(), xt::all(), xt::all()) = 0;
-
     update_required(shock.required, t_obs);
-
     calc_emission_surface(coord, shock);
 }
diff --git a/tests/benchmark/benchmark.cpp b/tests/benchmark/benchmark.cpp
@@ -23,9 +23,9 @@ void tests(size_t r_num, size_t theta_num, size_t phi_num, Real n_ism, Real eps_
 
     Observer obs;
 
-    obs.observe_at(t_obs, coord, f_shock, lumi_dist, z);
+    // obs.observe_at(t_obs, coord, f_shock, lumi_dist, z);
 
-    // obs.observe(coord, f_shock, lumi_dist, z);
+    obs.observe(coord, f_shock, lumi_dist, z);
 
     auto syn_e = generate_syn_electrons(f_shock, p);
 
@@ -63,7 +63,7 @@ int main() {
         tests(r, r, r, n_ism, eps_e, eps_B, p, 1e52 * unit::erg, Gamma0, 0.1, 0.3, true);
     }
 
-    size_t benchmark_resolu[] = {24, 25, 28};
+    size_t benchmark_resolu[] = {24, 32};
 
     for (auto r : benchmark_resolu) {
         std::ofstream file("benchmark" + std::to_string(r) + "-" + std::to_string(r) + "-" + std::to_string(r) +