Format .jl files (#88)

github-actions[bot] · web-flow · commit 7829fa526b88 · 2020-09-22T10:00:47.000+08:00
Co-authored-by: github-actions[bot] &lt;41898282+github-actions[bot]@users.noreply.github.com&gt;
diff --git a/src/algorithms/cfr/tabular_cfr.jl b/src/algorithms/cfr/tabular_cfr.jl
@@ -104,7 +104,8 @@ function cfr!(nodes, env, player, reach_probs, chance_player_reach_prob, ratio)
             v = 0.0
             node = nodes[get_state(env)]
             legal_actions = get_legal_actions(env)
-            U = player == get_current_player(env) ?
+            U =
+                player == get_current_player(env) ?
                 Vector{Float64}(undef, length(legal_actions)) : nothing
 
             for (i, action) in enumerate(legal_actions)
diff --git a/src/algorithms/dqns/dqn.jl b/src/algorithms/dqns/dqn.jl
@@ -69,7 +69,7 @@ function DQNLearner(;
         target_update_freq,
         update_step,
         rng,
-        0.f0,
+        0.0f0,
     )
 end
 
diff --git a/src/algorithms/dqns/iqn.jl b/src/algorithms/dqns/iqn.jl
@@ -120,7 +120,7 @@ function IQNLearner(;
     β_priority = 0.5f0,
     rng = Random.GLOBAL_RNG,
     device_rng = CUDA.CURAND.RNG(),
-    loss = 0.f0,
+    loss = 0.0f0,
 )
     copyto!(approximator, target_approximator)  # force sync
     if device(approximator) !== device(device_rng)
@@ -200,7 +200,7 @@ function RLBase.update!(learner::IQNLearner, batch::NamedTuple)
     is_use_PER = !isnothing(batch.priorities)  # is use Prioritized Experience Replay
     if is_use_PER
         updated_priorities = Vector{Float32}(undef, batch_size)
-        weights = 1f0 ./ ((batch.priorities .+ 1f-10) .^ β)
+        weights = 1.0f0 ./ ((batch.priorities .+ 1f-10) .^ β)
         weights ./= maximum(weights)
         weights = send_to_device(D, weights)
     end
@@ -222,8 +222,9 @@ function RLBase.update!(learner::IQNLearner, batch::NamedTuple)
             huber_loss ./ κ
         loss_per_quantile = reshape(sum(raw_loss; dims = 1), N, batch_size)
         loss_per_element = mean(loss_per_quantile; dims = 1)  # use as priorities
-        loss = is_use_PER ? dot(vec(weights), vec(loss_per_element)) * 1 // batch_size :
-                mean(loss_per_element)
+        loss =
+            is_use_PER ? dot(vec(weights), vec(loss_per_element)) * 1//batch_size :
+            mean(loss_per_element)
         ignore() do
             # @assert all(loss_per_element .>= 0)
             is_use_PER && (
diff --git a/src/algorithms/dqns/prioritized_dqn.jl b/src/algorithms/dqns/prioritized_dqn.jl
@@ -63,7 +63,7 @@ function PrioritizedDQNLearner(;
     update_freq::Int = 1,
     target_update_freq::Int = 100,
     update_step::Int = 0,
-    default_priority::Float32 = 100f0,
+    default_priority::Float32 = 100.0f0,
     β_priority::Float32 = 0.5f0,
     rng = Random.GLOBAL_RNG,
 ) where {Tq,Tt,Tf}
@@ -83,7 +83,7 @@ function PrioritizedDQNLearner(;
         default_priority,
         β_priority,
         rng,
-        0.f0,
+        0.0f0,
     )
 end
 
@@ -129,7 +129,7 @@ function RLBase.update!(learner::PrioritizedDQNLearner, batch::NamedTuple)
     actions = CartesianIndex.(batch.actions, 1:batch_size)
 
     updated_priorities = Vector{Float32}(undef, batch_size)
-    weights = 1f0 ./ ((batch.priorities .+ 1f-10) .^ β)
+    weights = 1.0f0 ./ ((batch.priorities .+ 1f-10) .^ β)
     weights ./= maximum(weights)
     weights = send_to_device(D, weights)
 
@@ -146,7 +146,7 @@ function RLBase.update!(learner::PrioritizedDQNLearner, batch::NamedTuple)
     gs = gradient(params(Q)) do
         q = Q(states)[actions]
         batch_losses = loss_func(G, q)
-        loss = dot(vec(weights), vec(batch_losses)) * 1 // batch_size
+        loss = dot(vec(weights), vec(batch_losses)) * 1//batch_size
         ignore() do
             updated_priorities .= send_to_host(vec((batch_losses .+ 1f-10) .^ β))
             learner.loss = loss
diff --git a/src/algorithms/dqns/rainbow.jl b/src/algorithms/dqns/rainbow.jl
@@ -117,7 +117,7 @@ function RainbowLearner(;
         default_priority,
         β_priority,
         rng,
-        0.f0,
+        0.0f0,
     )
 end
 
@@ -175,7 +175,7 @@ function RLBase.update!(learner::RainbowLearner, batch::NamedTuple)
     is_use_PER = !isnothing(batch.priorities)  # is use Prioritized Experience Replay
     if is_use_PER
         updated_priorities = Vector{Float32}(undef, batch_size)
-        weights = 1f0 ./ ((batch.priorities .+ 1f-10) .^ β)
+        weights = 1.0f0 ./ ((batch.priorities .+ 1f-10) .^ β)
         weights ./= maximum(weights)
         weights = send_to_device(D, weights)
     end
@@ -184,8 +184,9 @@ function RLBase.update!(learner::RainbowLearner, batch::NamedTuple)
         logits = reshape(Q(states), n_atoms, n_actions, :)
         select_logits = logits[:, actions]
         batch_losses = loss_func(select_logits, target_distribution)
-        loss = is_use_PER ? dot(vec(weights), vec(batch_losses)) * 1 // batch_size :
-                mean(batch_losses)
+        loss =
+            is_use_PER ? dot(vec(weights), vec(batch_losses)) * 1//batch_size :
+            mean(batch_losses)
         ignore() do
             if is_use_PER
                 updated_priorities .= send_to_host(vec((batch_losses .+ 1f-10) .^ β))
diff --git a/src/algorithms/policy_gradient/A2C.jl b/src/algorithms/policy_gradient/A2C.jl
@@ -17,14 +17,14 @@ Base.@kwdef mutable struct A2CLearner{A<:ActorCritic} <: AbstractLearner
     approximator::A
     γ::Float32
     max_grad_norm::Union{Nothing,Float32} = nothing
-    norm::Float32 = 0.f0
+    norm::Float32 = 0.0f0
     actor_loss_weight::Float32
     critic_loss_weight::Float32
     entropy_loss_weight::Float32
-    actor_loss::Float32 = 0.f0
-    critic_loss::Float32 = 0.f0
-    entropy_loss::Float32 = 0.f0
-    loss::Float32 = 0.f0
+    actor_loss::Float32 = 0.0f0
+    critic_loss::Float32 = 0.0f0
+    entropy_loss::Float32 = 0.0f0
+    loss::Float32 = 0.0f0
 end
 
 function (learner::A2CLearner)(env::MultiThreadEnv)
@@ -83,7 +83,7 @@ function RLBase.update!(learner::A2CLearner, t::AbstractTrajectory)
         advantage = vec(gains) .- vec(values)
         actor_loss = -mean(log_probs_select .* Zygote.dropgrad(advantage))
         critic_loss = mean(advantage .^ 2)
-        entropy_loss = -sum(probs .* log_probs) * 1 // size(probs, 2)
+        entropy_loss = -sum(probs .* log_probs) * 1//size(probs, 2)
         loss = w₁ * actor_loss + w₂ * critic_loss - w₃ * entropy_loss
         ignore() do
             learner.actor_loss = actor_loss
diff --git a/src/algorithms/policy_gradient/A2CGAE.jl b/src/algorithms/policy_gradient/A2CGAE.jl
@@ -17,14 +17,14 @@ Base.@kwdef mutable struct A2CGAELearner{A<:ActorCritic} <: AbstractLearner
     γ::Float32
     λ::Float32
     max_grad_norm::Union{Nothing,Float32} = nothing
-    norm::Float32 = 0.f0
+    norm::Float32 = 0.0f0
     actor_loss_weight::Float32
     critic_loss_weight::Float32
     entropy_loss_weight::Float32
-    actor_loss::Float32 = 0.f0
-    critic_loss::Float32 = 0.f0
-    entropy_loss::Float32 = 0.f0
-    loss::Float32 = 0.f0
+    actor_loss::Float32 = 0.0f0
+    critic_loss::Float32 = 0.0f0
+    entropy_loss::Float32 = 0.0f0
+    loss::Float32 = 0.0f0
 end
 
 (learner::A2CGAELearner)(env::MultiThreadEnv) =
@@ -88,7 +88,7 @@ function RLBase.update!(learner::A2CGAELearner, t::AbstractTrajectory)
         advantage = vec(gains) .- vec(values)
         actor_loss = -mean(log_probs_select .* advantages)
         critic_loss = mean(advantage .^ 2)
-        entropy_loss = -sum(probs .* log_probs) * 1 // size(probs, 2)
+        entropy_loss = -sum(probs .* log_probs) * 1//size(probs, 2)
         loss = w₁ * actor_loss + w₂ * critic_loss - w₃ * entropy_loss
         ignore() do
             learner.actor_loss = actor_loss
diff --git a/src/algorithms/policy_gradient/ddpg.jl b/src/algorithms/policy_gradient/ddpg.jl
@@ -88,8 +88,8 @@ function DDPGPolicy(;
         act_noise,
         step,
         rng,
-        0.f0,
-        0.f0,
+        0.0f0,
+        0.0f0,
     )
 end
 
diff --git a/src/algorithms/policy_gradient/ppo.jl b/src/algorithms/policy_gradient/ppo.jl
@@ -153,7 +153,7 @@ function RLBase.update!(learner::PPOLearner, t::PPOTrajectory)
 
                 actor_loss = -mean(min.(surr1, surr2))
                 critic_loss = mean((r .- v′) .^ 2)
-                entropy_loss = -sum(p′ .* log_p′) * 1 // size(p′, 2)
+                entropy_loss = -sum(p′ .* log_p′) * 1//size(p′, 2)
                 loss = w₁ * actor_loss + w₂ * critic_loss - w₃ * entropy_loss
 
                 ignore() do
diff --git a/src/algorithms/policy_gradient/sac.jl b/src/algorithms/policy_gradient/sac.jl
@@ -126,7 +126,7 @@ function evaluate(p::SACPolicy, state)
     π_dist = Normal.(μ, exp.(log_σ))
     z = rand.(p.rng, π_dist)
     logp_π = sum(logpdf.(π_dist, z), dims = 1)
-    logp_π -= sum((2f0 .* (log(2f0) .- z - softplus.(-2f0 * z))), dims = 1)
+    logp_π -= sum((2.0f0 .* (log(2.0f0) .- z - softplus.(-2.0f0 * z))), dims = 1)
     return tanh.(z), logp_π
 end
 
diff --git a/src/algorithms/policy_gradient/td3.jl b/src/algorithms/policy_gradient/td3.jl
@@ -109,8 +109,8 @@ function TD3Policy(;
         step,
         rng,
         1, # keep track of numbers of replay
-        0.f0,
-        0.f0,
+        0.0f0,
+        0.0f0,
     )
 end
 
@@ -146,13 +146,14 @@ function RLBase.update!(p::TD3Policy, traj::CircularCompactSARTSATrajectory)
     # !!! we have several assumptions here, need revisit when we have more complex environments
     # state is vector
     # action is scalar
-    target_noise = clamp.(
-        randn(p.rng, Float32, 1, p.batch_size) .* p.target_act_noise,
-        -p.target_act_limit,
-        p.target_act_limit,
-    )
+    target_noise =
+        clamp.(
+            randn(p.rng, Float32, 1, p.batch_size) .* p.target_act_noise,
+            -p.target_act_limit,
+            p.target_act_limit,
+        )
     # add noise and clip to tanh bounds
-    a′ = clamp.(p.target_actor(s′) + target_noise, -1f0, 1f0)
+    a′ = clamp.(p.target_actor(s′) + target_noise, -1.0f0, 1.0f0)
 
     q_1′, q_2′ = p.target_critic(s′, a′)
     y = r .+ p.γ .* (1 .- t) .* (min.(q_1′, q_2′) |> vec)
@@ -179,7 +180,10 @@ function RLBase.update!(p::TD3Policy, traj::CircularCompactSARTSATrajectory)
         end
         update!(actor, gs2)
         # polyak averaging
-        for (dest, src) in zip(Flux.params([p.target_actor, p.target_critic]), Flux.params([actor, critic]))
+        for (dest, src) in zip(
+            Flux.params([p.target_actor, p.target_critic]),
+            Flux.params([actor, critic]),
+        )
             dest .= p.ρ .* dest .+ (1 - p.ρ) .* src
         end
         p.replay_counter = 1

Original file line number	Diff line number	Diff line change
`@@ -69,7 +69,7 @@ function DQNLearner(;`
`69`	`69`	`target_update_freq,`
`70`	`70`	`update_step,`
`71`	`71`	`rng,`
`72`		`- 0.f0,`
	`72`	`+ 0.0f0,`
`73`	`73`	`)`
`74`	`74`	`end`
`75`	`75`
-Original file line number
+Diff line change
         act_noise,
         step,
         rng,
 -        0.f0,
 -        0.f0,
 +        0.0f0,
 +        0.0f0,
+    )
 end