2023年7月31日 22:13:01go评论92阅读模式

英文:

tidymodels: loss_accuracy provides no variable importance results

问题

使用鸢尾花数据集，通过迭代搜索对knn分类器进行了调优，以进行多类别分类。然而，在DALEX::model_parts()中使用loss accuracy来计算变量重要性时，结果为空。

我会感激任何想法。非常感谢您的支持！

英文:

Using the iris dataset, a knn-classifier was tuned with iterative search for multiple classification. However, using loss accuracy in DALEX::model_parts() for variable importance, provides empty results.

I would appreciate any ideas. Thank you so much for your support!

library(tidyverse)
library(tidymodels)
library(DALEXtra)
tidymodels_prefer()
df &lt;- iris 
# split
set.seed(2023)
splits &lt;- initial_split(df, strata = Species, prop = 4/5)
df_train &lt;- training(splits)
df_test  &lt;-  testing(splits)
# workflow
df_rec &lt;- recipe(Species ~ ., data = df_train) 
knn_model &lt;- nearest_neighbor(neighbors = tune()) %&gt;% 
  set_engine(&quot;kknn&quot;) %&gt;% 
  set_mode(&quot;classification&quot;)
df_wflow &lt;- workflow() %&gt;%
  add_model(knn_model) %&gt;%
  add_recipe(df_rec) 
# cross-validation
set.seed(2023)
knn_res &lt;-
  df_wflow %&gt;%
  tune_bayes(
    metrics = metric_set(accuracy),
    resamples = vfold_cv(df_train, strata = &quot;Species&quot;, v = 2),
    control = control_bayes(verbose = TRUE, save_pred = TRUE))
# fit
best_k &lt;- knn_res %&gt;%
  select_best(&quot;accuracy&quot;)
knn_mod &lt;- df_wflow %&gt;%
  finalize_workflow(best_k) %&gt;%
  fit(df_train)
# variable importance
knn_exp &lt;- explain_tidymodels(extract_fit_parsnip(knn_mod), 
                   data = df_rec %&gt;% prep() %&gt;% bake(new_data = NULL, all_predictors()),
                   y = df_train$Species)
set.seed(2023)
vip &lt;- model_parts(knn_exp, type = &quot;variable_importance&quot;, loss_function = loss_accuracy)
plot(vip) # empty plot

答案1

得分: 1

以下是您要翻译的内容：

You are getting 0 for all your results because the model type according to {DALEX} is "multiclass".

These calculations would have worked well if the type is "classification".

knn_exp$model_info$type
# [1] "multiclass"

This means that the prediction that happens will be the predicted probabilities (here we get 1s and 0s because the modeling is quite overfit)

predicted <- knn_exp$predict_function(knn_exp$model, newdata = df_train)
predicted
#      setosa versicolor virginica
# [1,]      1          0         0
# [2,]      1          0         0
# [3,]      1          0         0
# [4,]      1          0         0
# [5,]      1          0         0
# [6,]      1          0         0
# ...

When you use loss_accuracy() as your loss function, it does that by using the following calculations

loss_accuracy
# function (observed, predicted, na.rm = TRUE) 
# mean(observed == predicted, na.rm = na.rm)
# <bytecode: 0x159276bb8>
# <environment: namespace:DALEX>
# attr(,"loss_name")
# [1] "Accuracy"

And we can see why this becomes an issue if we do the calculations steps by step. First we define the observed as the outcome factor

observed <- df_train$Species
observed
#   [1] setosa     setosa     setosa     setosa     setosa     setosa    
#   [7] setosa     setosa     setosa     setosa     setosa     setosa    
#  [13] setosa     setosa     setosa     setosa     setosa     setosa    
#  [19] setosa     setosa     setosa     setosa     setosa     setosa    
#  [25] setosa     setosa     setosa     setosa     setosa     setosa    
#  [31] setosa     setosa     setosa     setosa     setosa     setosa    
#  [37] setosa     setosa     setosa     setosa     versicolor versicolor
#  [43] versicolor versicolor versicolor versicolor versicolor versicolor
#  [49] versicolor versicolor versicolor versicolor versicolor versicolor
#  [55] versicolor versicolor versicolor versicolor versicolor versicolor
#  [61] versicolor versicolor versicolor versicolor versicolor versicolor
#  [67] versicolor versicolor versicolor versicolor versicolor versicolor
#  [73] versicolor versicolor versicolor versicolor versicolor versicolor
#  [79] versicolor versicolor virginica  virginica  virginica  virginica 
#  [85] virginica  virginica  virginica  virginica  virginica  virginica 
#  [91] virginica  virginica  virginica  virginica  virginica  virginica 
#  [97] virginica  virginica  virginica  virginica  virginica  virginica 
# [103] virginica  virginica  virginica  virginica  virginica  virginica 
# [109] virginica  virginica  virginica  virginica  virginica  virginica 
# [115] virginica  virginica  virginica  virginica  virginica  virginica 
# Levels: setosa versicolor virginica

since observed is a factor vector, and predicted is a numeric matrix we get back a logical matrix of FALSE since the values are never the same.

head(observed == predicted)
#      setosa versicolor virginica
# [1,]  FALSE      FALSE     FALSE
# [2,]  FALSE      FALSE     FALSE
# [3,]  FALSE      FALSE     FALSE
# [4,]  FALSE      FALSE     FALSE
# [5,]  FALSE      FALSE     FALSE
# [6,]  FALSE      FALSE     FALSE

So when we take the mean of this we get the expected 0.

mean(observed == predicted)
# [1] 0

英文:

You are getting 0 for all your results because the the model type according to {DALEX} is "multiclass".

These calculations would have worked well if the type is "classification".

knn_exp$model_info$type
#&gt; [1] &quot;multiclass&quot;

This means that the prediction that happens will be the predicted probabilities (here we get 1s and 0s because the modeling is quite overfit)

predicted &lt;- knn_exp$predict_function(knn_exp$model, newdata = df_train)
predicted
#&gt;      setosa versicolor virginica
#&gt; [1,]      1          0         0
#&gt; [2,]      1          0         0
#&gt; [3,]      1          0         0
#&gt; [4,]      1          0         0
#&gt; [5,]      1          0         0
#&gt; [6,]      1          0         0
#&gt; ...

When you use loss_accuracy() as your loss function, it does that by using the following calculations

loss_accuracy
#&gt; function (observed, predicted, na.rm = TRUE) 
#&gt; mean(observed == predicted, na.rm = na.rm)
#&gt; &lt;bytecode: 0x159276bb8&gt;
#&gt; &lt;environment: namespace:DALEX&gt;
#&gt; attr(,&quot;loss_name&quot;)
#&gt; [1] &quot;Accuracy&quot;

And we can see why this becomes an issue if we do the calculations steps by step. First we define the observed as the outcome factor

observed &lt;- df_train$Species
observed
#&gt;   [1] setosa     setosa     setosa     setosa     setosa     setosa    
#&gt;   [7] setosa     setosa     setosa     setosa     setosa     setosa    
#&gt;  [13] setosa     setosa     setosa     setosa     setosa     setosa    
#&gt;  [19] setosa     setosa     setosa     setosa     setosa     setosa    
#&gt;  [25] setosa     setosa     setosa     setosa     setosa     setosa    
#&gt;  [31] setosa     setosa     setosa     setosa     setosa     setosa    
#&gt;  [37] setosa     setosa     setosa     setosa     versicolor versicolor
#&gt;  [43] versicolor versicolor versicolor versicolor versicolor versicolor
#&gt;  [49] versicolor versicolor versicolor versicolor versicolor versicolor
#&gt;  [55] versicolor versicolor versicolor versicolor versicolor versicolor
#&gt;  [61] versicolor versicolor versicolor versicolor versicolor versicolor
#&gt;  [67] versicolor versicolor versicolor versicolor versicolor versicolor
#&gt;  [73] versicolor versicolor versicolor versicolor versicolor versicolor
#&gt;  [79] versicolor versicolor virginica  virginica  virginica  virginica 
#&gt;  [85] virginica  virginica  virginica  virginica  virginica  virginica 
#&gt;  [91] virginica  virginica  virginica  virginica  virginica  virginica 
#&gt;  [97] virginica  virginica  virginica  virginica  virginica  virginica 
#&gt; [103] virginica  virginica  virginica  virginica  virginica  virginica 
#&gt; [109] virginica  virginica  virginica  virginica  virginica  virginica 
#&gt; [115] virginica  virginica  virginica  virginica  virginica  virginica 
#&gt; Levels: setosa versicolor virginica

since observed is a factor vector, and predicted is a numeric matrix we get back a logical matrix of FALSE since the values are never the same.

head(observed == predicted)
#&gt;      setosa versicolor virginica
#&gt; [1,]  FALSE      FALSE     FALSE
#&gt; [2,]  FALSE      FALSE     FALSE
#&gt; [3,]  FALSE      FALSE     FALSE
#&gt; [4,]  FALSE      FALSE     FALSE
#&gt; [5,]  FALSE      FALSE     FALSE
#&gt; [6,]  FALSE      FALSE     FALSE

So when we take the mean of this we get the expected 0.

mean(observed == predicted)
#&gt; [1] 0

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

tidymodels: loss_accuracy 不提供变量重要性结果

问题

答案1

计算一个组因素的总出现次数中一个因素的百分比。

在 R 中抓取动态 JSON 数据

问题出现在对新数据进行评分时 — tidymodels

Train a classification model using the "rpart" and "caret" libraries in R with four classes: how to define accuracy metric

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。