2023年1月9日 17:37:54go评论171阅读模式

英文:

Why my hyper_opt algorithm returns a bad 'best configuration' with same parameters written several times

问题

我最近使用搜索算法进行了超参数优化。

目的是在OpenAI Gym环境中训练一个代理。

问题如下：当我使用ray.tune的hyperOpt算法进行超参数优化时，它多次返回相同参数的最佳配置。此外，我无法使用这个最佳配置来运行单位训练。我推断出存在问题。

以下是我的代码：

config = {
    "env": "LunarLander-v2",
    "sgd_minibatch_size": 1000,
    "num_sgd_iter": 1000,
    "lr": tune.uniform(5e-6, 5e-2),
    "lambda": tune.uniform(0.6, 0.9),
    "vf_loss_coeff": 0.7,
    "kl_target": 0.01,
    "kl_coeff": tune.uniform(0.5, 0.9),
    "entropy_coeff": 0.001,
    "clip_param": tune.uniform(0.4, 0.99),
    "train_batch_size": 25000,
    "num_workers": 4,
    "num_gpus": 0,
}

config = explore(config)
optimizer = HyperOptSearch(
    metric="episode_reward_mean",
    mode="max",
    n_initial_points=1,
    random_state_seed=7,
    space=config,
)

tuner = tune.Tuner(
    "PPO",
    tune_config=tune.TuneConfig(
        metric="episode_reward_mean",
        mode="max",
        search_alg=optimizer,
        num_samples=1,
    ),
    run_config=air.RunConfig(stop={"training_iteration": 1}),
)

results = tuner.fit()

best_conf = results.get_best_result().config

print(f"\n##############################################\nMeilleure configuration : {best_conf}\n##############################################\n")

这是调优的最佳配置（很长，所有参数都写了好几次）：

***Best configuration***: {'extra_python_environs_for_driver': {}, 'extra_python_environs_for_worker': {}, 'num_gpus': 0, 'num_cpus_per_worker': 1, 'num_gpus_per_worker': 0, ...（此处省略了大部分内容）}

我补充一下，我在ray文档中找到了这个。我该如何调整它以适应我的情况？

import os

logdir = results.get_best_result("mean_accuracy", mode="max").log_dir
state_dict = torch.load(os.path.join(logdir, "model.pth"))

model = ConvNet()
model.load_state_dict(state_dict)

提前感谢您的时间

英文:

I recently worked on a hyperparameters optimization with a search algorithm.

The purpose is to train an agent in an OpenAI Gym environment.

The problem is the following one : when I realize a hyperparameters optimization with a hyperOpt algorithm from ray.tune, it returns me a best config with same parameters several times in this configuration. Furthermore, I cannot use this best configuration to run a unit training. I deduced there was a problem.

I show you below my code below :

config = {
             &quot;env&quot;: &quot;LunarLander-v2&quot;,
             &quot;sgd_minibatch_size&quot;: 1000,
             &quot;num_sgd_iter&quot;: 1000,
             &quot;lr&quot;: tune.uniform(5e-6, 5e-2),
             &quot;lambda&quot;: tune.uniform(0.6, 0.9),
             &quot;vf_loss_coeff&quot;: 0.7,
             &quot;kl_target&quot;: 0.01,
             &quot;kl_coeff&quot;: tune.uniform(0.5, 0.9),
             &quot;entropy_coeff&quot;: 0.001,
             &quot;clip_param&quot;: tune.uniform(0.4, 0.99),
             &quot;train_batch_size&quot;: 25000, # taille de l&#39;&#233;pisode
             # &quot;monitor&quot;: True,
             # &quot;model&quot;: {&quot;free_log_std&quot;: True},
             &quot;num_workers&quot;: 4,
             &quot;num_gpus&quot;: 0,
             # &quot;rollout_fragment_length&quot;:3
             # &quot;batch_mode&quot;: &quot;complete_episodes&quot;
         }


config = explore(config)
optimizer = HyperOptSearch(metric=&quot;episode_reward_mean&quot;, mode=&quot;max&quot;, n_initial_points=1, random_state_seed=7, space=config)

# optimizer = ConcurrencyLimiter(optimizer, max_concurrent=4)

tuner = tune.Tuner(
    &quot;PPO&quot;,
    tune_config=tune.TuneConfig(
        metric=&quot;episode_reward_mean&quot;,  # the metric we want to study
        mode=&quot;max&quot;,  # maximize the metric
        search_alg=optimizer,
        # num_samples will repeat the entire config &#39;num_samples&#39; times == Number of trials dans l&#39;output &#39;Status&#39;
        num_samples=1,
    ),
    run_config=air.RunConfig(stop={&quot;training_iteration&quot;: 1}),
    # limite le nombre d&#39;&#233;pisode pour chaque croisement d&#39;hyperparam&#232;tres

)
results = tuner.fit()

best_conf=results.get_best_result().config

print(f&quot;\n ##############################################\n Meilleure configuration : {best_conf}\n ##############################################\n&quot;)

So here is the best config of this tuning (it is long so also difficult to see, but all parameters are written several times) :

***Best configuration*** : {&#39;extra_python_environs_for_driver&#39;: {}, &#39;extra_python_environs_for_worker&#39;: {}, &#39;num_gpus&#39;: 0, &#39;num_cpus_per_worker&#39;: 1, &#39;num_gpus_per_worker&#39;: 0, &#39;_fake_gpus&#39;: False, &#39;custom_resources_per_worker&#39;: {}, &#39;placement_strategy&#39;: &#39;PACK&#39;, &#39;eager_tracing&#39;: False, &#39;eager_max_retraces&#39;: 20, &#39;tf_session_args&#39;: {&#39;intra_op_parallelism_threads&#39;: 2, &#39;inter_op_parallelism_threads&#39;: 2, &#39;gpu_options&#39;: {&#39;allow_growth&#39;: True}, &#39;log_device_placement&#39;: False, &#39;device_count&#39;: {&#39;CPU&#39;: 1}, &#39;allow_soft_placement&#39;: True}, &#39;local_tf_session_args&#39;: {&#39;intra_op_parallelism_threads&#39;: 8, &#39;inter_op_parallelism_threads&#39;: 8}, &#39;env&#39;: &#39;LunarLander-v2&#39;, &#39;env_config&#39;: {}, &#39;observation_space&#39;: None, &#39;action_space&#39;: None, &#39;env_task_fn&#39;: None, &#39;render_env&#39;: False, &#39;clip_rewards&#39;: None, &#39;normalize_actions&#39;: True, &#39;clip_actions&#39;: False, &#39;disable_env_checking&#39;: False, &#39;num_workers&#39;: 4, &#39;num_envs_per_worker&#39;: 1, &#39;sample_collector&#39;: &lt;class &#39;ray.rllib.evaluation.collectors.simple_list_collector.SimpleListCollector&#39;&gt;, &#39;sample_async&#39;: False, &#39;enable_connectors&#39;: False, &#39;rollout_fragment_length&#39;: 6250, &#39;batch_mode&#39;: &#39;truncate_episodes&#39;, &#39;remote_worker_envs&#39;: False, &#39;remote_env_batch_wait_ms&#39;: 0, &#39;validate_workers_after_construction&#39;: True, &#39;ignore_worker_failures&#39;: False, &#39;recreate_failed_workers&#39;: False, &#39;restart_failed_sub_environments&#39;: False, &#39;num_consecutive_worker_failures_tolerance&#39;: 100, &#39;horizon&#39;: None, &#39;soft_horizon&#39;: False, &#39;no_done_at_end&#39;: False, &#39;preprocessor_pref&#39;: &#39;deepmind&#39;, &#39;observation_filter&#39;: &#39;NoFilter&#39;, &#39;synchronize_filters&#39;: True, &#39;compress_observations&#39;: False, &#39;enable_tf1_exec_eagerly&#39;: False, &#39;sampler_perf_stats_ema_coef&#39;: None, &#39;gamma&#39;: 0.99, &#39;lr&#39;: 0.03346975115973727, &#39;train_batch_size&#39;: 25000, &#39;model&#39;: {&#39;_use_default_native_models&#39;: False, &#39;_disable_preprocessor_api&#39;: False, &#39;_disable_action_flattening&#39;: False, &#39;fcnet_hiddens&#39;: [256, 256], &#39;fcnet_activation&#39;: &#39;tanh&#39;, &#39;conv_filters&#39;: None, &#39;conv_activation&#39;: &#39;relu&#39;, &#39;post_fcnet_hiddens&#39;: [], &#39;post_fcnet_activation&#39;: &#39;relu&#39;, &#39;free_log_std&#39;: False, &#39;no_final_linear&#39;: False, &#39;vf_share_layers&#39;: False, &#39;use_lstm&#39;: False, &#39;max_seq_len&#39;: 20, &#39;lstm_cell_size&#39;: 256, &#39;lstm_use_prev_action&#39;: False, &#39;lstm_use_prev_reward&#39;: False, &#39;_time_major&#39;: False, &#39;use_attention&#39;: False, &#39;attention_num_transformer_units&#39;: 1, &#39;attention_dim&#39;: 64, &#39;attention_num_heads&#39;: 1, &#39;attention_head_dim&#39;: 32, &#39;attention_memory_inference&#39;: 50, &#39;attention_memory_training&#39;: 50, &#39;attention_position_wise_mlp_dim&#39;: 32, &#39;attention_init_gru_gate_bias&#39;: 2.0, &#39;attention_use_n_prev_actions&#39;: 0, &#39;attention_use_n_prev_rewards&#39;: 0, &#39;framestack&#39;: True, &#39;dim&#39;: 84, &#39;grayscale&#39;: False, &#39;zero_mean&#39;: True, &#39;custom_model&#39;: None, &#39;custom_model_config&#39;: {}, &#39;custom_action_dist&#39;: None, &#39;custom_preprocessor&#39;: None, &#39;lstm_use_prev_action_reward&#39;: -1}, &#39;optimizer&#39;: {}, &#39;explore&#39;: True, &#39;exploration_config&#39;: {&#39;type&#39;: &#39;StochasticSampling&#39;}, &#39;input_config&#39;: {}, &#39;actions_in_input_normalized&#39;: False, &#39;postprocess_inputs&#39;: False, &#39;shuffle_buffer_size&#39;: 0, &#39;output&#39;: None, &#39;output_config&#39;: {}, &#39;output_compress_columns&#39;: [&#39;obs&#39;, &#39;new_obs&#39;], &#39;output_max_file_size&#39;: 67108864, &#39;evaluation_interval&#39;: None, &#39;evaluation_duration&#39;: 10, &#39;evaluation_duration_unit&#39;: &#39;episodes&#39;, &#39;evaluation_sample_timeout_s&#39;: 180.0, &#39;evaluation_parallel_to_training&#39;: False, &#39;evaluation_config&#39;: {&#39;extra_python_environs_for_driver&#39;: {}, &#39;extra_python_environs_for_worker&#39;: {}, &#39;num_gpus&#39;: 0, &#39;num_cpus_per_worker&#39;: 1, &#39;num_gpus_per_worker&#39;: 0, &#39;_fake_gpus&#39;: False, &#39;custom_resources_per_worker&#39;: {}, &#39;placement_strategy&#39;: &#39;PACK&#39;, &#39;eager_tracing&#39;: False, &#39;eager_max_retraces&#39;: 20, &#39;tf_session_args&#39;: {&#39;intra_op_parallelism_threads&#39;: 2, &#39;inter_op_parallelism_threads&#39;: 2, &#39;gpu_options&#39;: {&#39;allow_growth&#39;: True}, &#39;log_device_placement&#39;: False, &#39;device_count&#39;: {&#39;CPU&#39;: 1}, &#39;allow_soft_placement&#39;: True}, &#39;local_tf_session_args&#39;: {&#39;intra_op_parallelism_threads&#39;: 8, &#39;inter_op_parallelism_threads&#39;: 8}, &#39;env&#39;: &#39;LunarLander-v2&#39;, &#39;env_config&#39;: {}, &#39;observation_space&#39;: None, &#39;action_space&#39;: None, &#39;env_task_fn&#39;: None, &#39;render_env&#39;: False, &#39;clip_rewards&#39;: None, &#39;normalize_actions&#39;: True, &#39;clip_actions&#39;: False, &#39;disable_env_checking&#39;: False, &#39;num_workers&#39;: 4, &#39;num_envs_per_worker&#39;: 1, &#39;sample_collector&#39;: &lt;class &#39;ray.rllib.evaluation.collectors.simple_list_collector.SimpleListCollector&#39;&gt;, &#39;sample_async&#39;: False, &#39;enable_connectors&#39;: False, &#39;rollout_fragment_length&#39;: 6250, &#39;batch_mode&#39;: &#39;truncate_episodes&#39;, &#39;remote_worker_envs&#39;: False, &#39;remote_env_batch_wait_ms&#39;: 0, &#39;validate_workers_after_construction&#39;: True, &#39;ignore_worker_failures&#39;: False, &#39;recreate_failed_workers&#39;: False, &#39;restart_failed_sub_environments&#39;: False, &#39;num_consecutive_worker_failures_tolerance&#39;: 100, &#39;horizon&#39;: None, &#39;soft_horizon&#39;: False, &#39;no_done_at_end&#39;: False, &#39;preprocessor_pref&#39;: &#39;deepmind&#39;, &#39;observation_filter&#39;: &#39;NoFilter&#39;, &#39;synchronize_filters&#39;: True, &#39;compress_observations&#39;: False, &#39;enable_tf1_exec_eagerly&#39;: False, &#39;sampler_perf_stats_ema_coef&#39;: None, &#39;gamma&#39;: 0.99, &#39;lr&#39;: 0.03346975115973727, &#39;train_batch_size&#39;: 25000, &#39;model&#39;: {&#39;_use_default_native_models&#39;: False, &#39;_disable_preprocessor_api&#39;: False, &#39;_disable_action_flattening&#39;: False, &#39;fcnet_hiddens&#39;: [256, 256], &#39;fcnet_activation&#39;: &#39;tanh&#39;, &#39;conv_filters&#39;: None, &#39;conv_activation&#39;: &#39;relu&#39;, &#39;post_fcnet_hiddens&#39;: [], &#39;post_fcnet_activation&#39;: &#39;relu&#39;, &#39;free_log_std&#39;: False, &#39;no_final_linear&#39;: False, &#39;vf_share_layers&#39;: False, &#39;use_lstm&#39;: False, &#39;max_seq_len&#39;: 20, &#39;lstm_cell_size&#39;: 256, &#39;lstm_use_prev_action&#39;: False, &#39;lstm_use_prev_reward&#39;: False, &#39;_time_major&#39;: False, &#39;use_attention&#39;: False, &#39;attention_num_transformer_units&#39;: 1, &#39;attention_dim&#39;: 64, &#39;attention_num_heads&#39;: 1, &#39;attention_head_dim&#39;: 32, &#39;attention_memory_inference&#39;: 50, &#39;attention_memory_training&#39;: 50, &#39;attention_position_wise_mlp_dim&#39;: 32, &#39;attention_init_gru_gate_bias&#39;: 2.0, &#39;attention_use_n_prev_actions&#39;: 0, &#39;attention_use_n_prev_rewards&#39;: 0, &#39;framestack&#39;: True, &#39;dim&#39;: 84, &#39;grayscale&#39;: False, &#39;zero_mean&#39;: True, &#39;custom_model&#39;: None, &#39;custom_model_config&#39;: {}, &#39;custom_action_dist&#39;: None, &#39;custom_preprocessor&#39;: None, &#39;lstm_use_prev_action_reward&#39;: -1}, &#39;optimizer&#39;: {}, &#39;explore&#39;: True, &#39;exploration_config&#39;: {&#39;type&#39;: &#39;StochasticSampling&#39;}, &#39;input_config&#39;: {}, &#39;actions_in_input_normalized&#39;: False, &#39;postprocess_inputs&#39;: False, &#39;shuffle_buffer_size&#39;: 0, &#39;output&#39;: None, &#39;output_config&#39;: {}, &#39;output_compress_columns&#39;: [&#39;obs&#39;, &#39;new_obs&#39;], &#39;output_max_file_size&#39;: 67108864, &#39;evaluation_interval&#39;: None, &#39;evaluation_duration&#39;: 10, &#39;evaluation_duration_unit&#39;: &#39;episodes&#39;, &#39;evaluation_sample_timeout_s&#39;: 180.0, &#39;evaluation_parallel_to_training&#39;: False, &#39;evaluation_config&#39;: {}, &#39;off_policy_estimation_methods&#39;: {}, &#39;evaluation_num_workers&#39;: 0, &#39;always_attach_evaluation_results&#39;: False, &#39;in_evaluation&#39;: False, &#39;sync_filters_on_rollout_workers_timeout_s&#39;: 60.0, &#39;keep_per_episode_custom_metrics&#39;: False, &#39;metrics_episode_collection_timeout_s&#39;: 60.0, &#39;metrics_num_episodes_for_smoothing&#39;: 100, &#39;min_time_s_per_iteration&#39;: None, &#39;min_train_timesteps_per_iteration&#39;: 0, &#39;min_sample_timesteps_per_iteration&#39;: 0, &#39;logger_creator&#39;: None, &#39;logger_config&#39;: None, &#39;log_level&#39;: &#39;WARN&#39;, &#39;log_sys_usage&#39;: True, &#39;fake_sampler&#39;: False, &#39;seed&#39;: None, &#39;_tf_policy_handles_more_than_one_loss&#39;: False, &#39;_disable_preprocessor_api&#39;: False, &#39;_disable_action_flattening&#39;: False, &#39;_disable_execution_plan_api&#39;: True, &#39;simple_optimizer&#39;: False, &#39;monitor&#39;: -1, &#39;evaluation_num_episodes&#39;: -1, &#39;metrics_smoothing_episodes&#39;: -1, &#39;timesteps_per_iteration&#39;: -1, &#39;min_iter_time_s&#39;: -1, &#39;collect_metrics_timeout&#39;: -1, &#39;buffer_size&#39;: -1, &#39;prioritized_replay&#39;: -1, &#39;learning_starts&#39;: -1, &#39;replay_batch_size&#39;: -1, &#39;replay_sequence_length&#39;: None, &#39;prioritized_replay_alpha&#39;: -1, &#39;prioritized_replay_beta&#39;: -1, &#39;prioritized_replay_eps&#39;: -1, &#39;min_time_s_per_reporting&#39;: -1, &#39;min_train_timesteps_per_reporting&#39;: -1, &#39;min_sample_timesteps_per_reporting&#39;: -1, &#39;input_evaluation&#39;: -1, &#39;lr_schedule&#39;: None, &#39;use_critic&#39;: True, &#39;use_gae&#39;: True, &#39;kl_coeff&#39;: 0.5003002941138288, &#39;sgd_minibatch_size&#39;: 1000, &#39;num_sgd_iter&#39;: 1000, &#39;shuffle_sequences&#39;: True, &#39;vf_loss_coeff&#39;: 0.7, &#39;entropy_coeff&#39;: 0.001, &#39;entropy_coeff_schedule&#39;: None, &#39;clip_param&#39;: 0.9429343265857039, &#39;vf_clip_param&#39;: 10.0, &#39;grad_clip&#39;: None, &#39;kl_target&#39;: 0.01, &#39;vf_share_layers&#39;: -1, &#39;lambda&#39;: 0.7125712711928637, &#39;input&#39;: &#39;sampler&#39;, &#39;multiagent&#39;: {&#39;policies&#39;: {&#39;default_policy&#39;: &lt;ray.rllib.policy.policy.PolicySpec object at 0x7f1d0c4073d0&gt;}, &#39;policy_map_capacity&#39;: 100, &#39;policy_map_cache&#39;: None, &#39;policy_mapping_fn&#39;: None, &#39;policies_to_train&#39;: None, &#39;observation_fn&#39;: None, &#39;replay_mode&#39;: &#39;independent&#39;, &#39;count_steps_by&#39;: &#39;env_steps&#39;}, &#39;callbacks&#39;: &lt;class &#39;ray.rllib.algorithms.callbacks.DefaultCallbacks&#39;&gt;, &#39;create_env_on_driver&#39;: False, &#39;custom_eval_function&#39;: None, &#39;framework&#39;: &#39;tf&#39;, &#39;num_cpus_for_driver&#39;: 1}, &#39;off_policy_estimation_methods&#39;: {}, &#39;evaluation_num_workers&#39;: 0, &#39;always_attach_evaluation_results&#39;: False, &#39;in_evaluation&#39;: False, &#39;sync_filters_on_rollout_workers_timeout_s&#39;: 60.0, &#39;keep_per_episode_custom_metrics&#39;: False, &#39;metrics_episode_collection_timeout_s&#39;: 60.0, &#39;metrics_num_episodes_for_smoothing&#39;: 100, &#39;min_time_s_per_iteration&#39;: None, &#39;min_train_timesteps_per_iteration&#39;: 0, &#39;min_sample_timesteps_per_iteration&#39;: 0, &#39;logger_creator&#39;: None, &#39;logger_config&#39;: None, &#39;log_level&#39;: &#39;WARN&#39;, &#39;log_sys_usage&#39;: True, &#39;fake_sampler&#39;: False, &#39;seed&#39;: None, &#39;_tf_policy_handles_more_than_one_loss&#39;: False, &#39;_disable_preprocessor_api&#39;: False, &#39;_disable_action_flattening&#39;: False, &#39;_disable_execution_plan_api&#39;: True, &#39;simple_optimizer&#39;: False, &#39;monitor&#39;: -1, &#39;evaluation_num_episodes&#39;: -1, &#39;metrics_smoothing_episodes&#39;: -1, &#39;timesteps_per_iteration&#39;: -1, &#39;min_iter_time_s&#39;: -1, &#39;collect_metrics_timeout&#39;: -1, &#39;buffer_size&#39;: -1, &#39;prioritized_replay&#39;: -1, &#39;learning_starts&#39;: -1, &#39;replay_batch_size&#39;: -1, &#39;replay_sequence_length&#39;: None, &#39;prioritized_replay_alpha&#39;: -1, &#39;prioritized_replay_beta&#39;: -1, &#39;prioritized_replay_eps&#39;: -1, &#39;min_time_s_per_reporting&#39;: -1, &#39;min_train_timesteps_per_reporting&#39;: -1, &#39;min_sample_timesteps_per_reporting&#39;: -1, &#39;input_evaluation&#39;: -1, &#39;lr_schedule&#39;: None, &#39;use_critic&#39;: True, &#39;use_gae&#39;: True, &#39;kl_coeff&#39;: 0.5003002941138288, &#39;sgd_minibatch_size&#39;: 1000, &#39;num_sgd_iter&#39;: 1000, &#39;shuffle_sequences&#39;: True, &#39;vf_loss_coeff&#39;: 0.7, &#39;entropy_coeff&#39;: 0.001, &#39;entropy_coeff_schedule&#39;: None, &#39;clip_param&#39;: 0.9429343265857039, &#39;vf_clip_param&#39;: 10.0, &#39;grad_clip&#39;: None, &#39;kl_target&#39;: 0.01, &#39;vf_share_layers&#39;: -1, &#39;lambda&#39;: 0.7125712711928637, &#39;input&#39;: &#39;sampler&#39;, &#39;multiagent&#39;: {&#39;policies&#39;: {&#39;default_policy&#39;: &lt;ray.rllib.policy.policy.PolicySpec object at 0x7f1d0c407580&gt;}, &#39;policy_map_capacity&#39;: 100, &#39;policy_map_cache&#39;: None, &#39;policy_mapping_fn&#39;: None, &#39;policies_to_train&#39;: None, &#39;observation_fn&#39;: None, &#39;replay_mode&#39;: &#39;independent&#39;, &#39;count_steps_by&#39;: &#39;env_steps&#39;}, &#39;callbacks&#39;: &lt;class &#39;ray.rllib.algorithms.callbacks.DefaultCallbacks&#39;&gt;, &#39;create_env_on_driver&#39;: False, &#39;custom_eval_function&#39;: None, &#39;framework&#39;: &#39;tf&#39;, &#39;num_cpus_for_driver&#39;: 1}

I add that I found this on the ray documentation. How could I adapt it to my case ?

import os
logdir = results.get_best_result(&quot;mean_accuracy&quot;, mode=&quot;max&quot;).log_dir
state_dict = torch.load(os.path.join(logdir, &quot;model.pth&quot;))
model = ConvNet()
model.load_state_dict(state_dict)

Thank you by advance for your time

答案1

得分: 1

您当前仅使用 num_samples=1 运行，这应该只产生一个带有一个采样配置的结果。 RLlib 使用其他默认配置填充 best_conf，但您指定的配置仍然存在。

要恢复您的 RLlib 实验，文档中的此资源可能会有帮助（恢复和继续训练 RLlib 算法）。

英文:

You're currently running with only num_samples=1, which should only produce a single result with one sampled configuration. RLlib is populating the best_conf with other default configs, but the configs that you specified are still there.

For resuming your RLlib experiment, this resource from the docs may be useful (restoring and continuing training an RLlib algorithm).

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

我的超参数优化算法为何多次返回相同参数但却得到糟糕的“最佳配置”？

问题

答案1

如何在Python中替换特定位置之前和之后的所有字符

无法处理的实体，使用 fastapi 发送 POST 请求？

无法导入 pytorch-lightning 即使已安装。

Tkinter 的 simpledialog askinteger 在 30 秒后可以关闭吗？我需要使用 simpledialog。

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

发表评论