2023年3月23日 09:32:49go评论179阅读模式

英文:

Remove rows if a specific column has values (strings) that match a vector of substrings

问题

The redundant.gs vector contains substrings that might match with the gs_name column in the all.gene.sets dataframe. I want to remove all such matches.

redundant.gs <- c("ANDERSON_BLOOD_CN54GP140_ADJUVANTED", "BUCASAS_PBMC_FLUARIX_FLUVIRIN")
gene.sets <- all.gene.sets[!(all.gene.sets$gs_name %like% redundant.gs),]

数据：

all.gene.sets <- tibble::tribble(
  ~gs_cat, ~gs_subcat,    ~gs_name,
  "C7",    "VAX",         "ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_DN",
  "C7",    "VAX",         "ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_DN",
  "C7",    "VAX",         "ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_DN",
  "C7",    "VAX",         "ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_DN",
  "C7",    "VAX",         "ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_DN",
  "C7",    "VAX",         "ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_UP",
  "C7",    "VAX",         "ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_UP",
  "C7",    "VAX",         "ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_UP",
  "C7",    "VAX",         "ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_UP",
  "C7",    "VAX",         "ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_UP",
  "C7",    "VAX",         "ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_UP",
  "C7",    "VAX",         "BUCASAS_PBMC_FLUARIX_FLUVIRIN_CAUCASIAN_MALE_AGE_18_40YO_HIGH_RESPONDERS_1DY_3DY_POSITIVE_PREDICTIVE_OF_TITER",
  "C7",    "VAX",         "BUCASAS_PBMC_FLUARIX_FLUVIRIN_CAUCASIAN_MALE_AGE_18_40YO_HIGH_RESPONDERS_1DY_3DY_POSITIVE_PREDICTIVE_OF_TITER",
  "C7",    "VAX",         "BUCASAS_PBMC_FLUARIX_FLUVIRIN_CAUCASIAN_MALE_AGE_18_40YO_HIGH_RESPONDERS_1DY_3DY_POSITIVE_PREDICTIVE_OF_TITER",
  "C7",    "VAX",         "BUCASAS_PBMC_FLUARIX_FLUVIRIN_CAUCASIAN_MALE_AGE_18_40YO_HIGH_RESPONDERS_1DY_3DY_POSITIVE_PREDICTIVE_OF_TITER",
  "C7",    "VAX",         "BUCASAS_PBMC_FLUARIX_FLUVIRIN_CAUCASIAN_MALE_AGE_18_40YO_HIGH_RESPONDERS_1DY_3DY_POSITIVE_PREDICTIVE_OF_TITER",
  "C7",    "IMMUNESIGDB", "GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN",
  "C7",    "IMMUNESIGDB", "GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN",
  "C7",    "IMMUNESIGDB", "GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN",
  "C7",    "IMMUNESIGDB", "GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN",
  "C7",    "IMMUNESIGDB", "GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN",
)

英文:

The redundant.gs vector contains substrings that might match with the gs_name column in the all.gene.sets dataframe. I want to remove all such matches.
My code below only removes rows that match the first substring ANDERSON_BLOOD_CN54GP140_ADJUVANTED but not the second or subsequent substrings.

redundant.gs &lt;- c(&quot;ANDERSON_BLOOD_CN54GP140_ADJUVANTED&quot;, &quot;BUCASAS_PBMC_FLUARIX_FLUVIRIN&quot;)
gene.sets &lt;- all.gene.sets[!(all.gene.sets$gs_name %like% redundant.gs),]

Data:

all.gene.sets &lt;- tibble::tribble(
  ~gs_cat, ~gs_subcat,    ~gs_name,
  &quot;C7&quot;,    &quot;VAX&quot;,         &quot;ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_DN&quot;,
  &quot;C7&quot;,    &quot;VAX&quot;,         &quot;ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_DN&quot;,
  &quot;C7&quot;,    &quot;VAX&quot;,         &quot;ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_DN&quot;,
  &quot;C7&quot;,    &quot;VAX&quot;,         &quot;ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_DN&quot;,
  &quot;C7&quot;,    &quot;VAX&quot;,         &quot;ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_DN&quot;,
  &quot;C7&quot;,    &quot;VAX&quot;,         &quot;ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_UP&quot;,
  &quot;C7&quot;,    &quot;VAX&quot;,         &quot;ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_UP&quot;,
  &quot;C7&quot;,    &quot;VAX&quot;,         &quot;ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_UP&quot;,
  &quot;C7&quot;,    &quot;VAX&quot;,         &quot;ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_UP&quot;,
  &quot;C7&quot;,    &quot;VAX&quot;,         &quot;ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_UP&quot;,
  &quot;C7&quot;,    &quot;VAX&quot;,         &quot;ANDERSON_BLOOD_CN54GP140_ADJUVANTED_WITH_GLA_AF_AGE_18_45YO_1DY_UP&quot;,
  &quot;C7&quot;,    &quot;VAX&quot;,         &quot;BUCASAS_PBMC_FLUARIX_FLUVIRIN_CAUCASIAN_MALE_AGE_18_40YO_HIGH_RESPONDERS_1DY_3DY_POSITIVE_PREDICTIVE_OF_TITER&quot;,
  &quot;C7&quot;,    &quot;VAX&quot;,         &quot;BUCASAS_PBMC_FLUARIX_FLUVIRIN_CAUCASIAN_MALE_AGE_18_40YO_HIGH_RESPONDERS_1DY_3DY_POSITIVE_PREDICTIVE_OF_TITER&quot;,
  &quot;C7&quot;,    &quot;VAX&quot;,         &quot;BUCASAS_PBMC_FLUARIX_FLUVIRIN_CAUCASIAN_MALE_AGE_18_40YO_HIGH_RESPONDERS_1DY_3DY_POSITIVE_PREDICTIVE_OF_TITER&quot;,
  &quot;C7&quot;,    &quot;VAX&quot;,         &quot;BUCASAS_PBMC_FLUARIX_FLUVIRIN_CAUCASIAN_MALE_AGE_18_40YO_HIGH_RESPONDERS_1DY_3DY_POSITIVE_PREDICTIVE_OF_TITER&quot;,
  &quot;C7&quot;,    &quot;VAX&quot;,         &quot;BUCASAS_PBMC_FLUARIX_FLUVIRIN_CAUCASIAN_MALE_AGE_18_40YO_HIGH_RESPONDERS_1DY_3DY_POSITIVE_PREDICTIVE_OF_TITER&quot;,
  &quot;C7&quot;,    &quot;IMMUNESIGDB&quot;, &quot;GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN&quot;,
  &quot;C7&quot;,    &quot;IMMUNESIGDB&quot;, &quot;GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN&quot;,
  &quot;C7&quot;,    &quot;IMMUNESIGDB&quot;, &quot;GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN&quot;,
  &quot;C7&quot;,    &quot;IMMUNESIGDB&quot;, &quot;GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN&quot;,
  &quot;C7&quot;,    &quot;IMMUNESIGDB&quot;, &quot;GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN&quot;,
)

答案1

得分: 2

把redundant.gs合并成一个以"|"分隔的字符串，然后用作grepl()中的模式：

keep.rows &lt;- !grepl(
  paste(redundant.gs, collapse = &quot;|&quot;),
  all.gene.sets$gs_name
)

all.gene.sets[keep.rows, ]

   gs_cat   gs_subcat                                            gs_name
17     C7 IMMUNESIGDB GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN
18     C7 IMMUNESIGDB GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN
19     C7 IMMUNESIGDB GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN
20     C7 IMMUNESIGDB GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN
21     C7 IMMUNESIGDB GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN

英文:

Collapse redundant.gs into a single string separated by "|", then use as a pattern in grepl():

keep.rows &lt;- !grepl(
  paste(redundant.gs, collapse = &quot;|&quot;),
  all.gene.sets$gs_name
)

all.gene.sets[keep.rows, ]

   gs_cat   gs_subcat                                            gs_name
17     C7 IMMUNESIGDB GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN
18     C7 IMMUNESIGDB GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN
19     C7 IMMUNESIGDB GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN
20     C7 IMMUNESIGDB GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN
21     C7 IMMUNESIGDB GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN

答案2

得分: 1

翻译后的内容如下：

使用 str_detect

library(dplyr)
library(stringr)
all.gene.sets %>%
  filter(str_detect(gs_name, str_c(redundant.gs, collapse = "|"), negate = TRUE))

输出

# 一个表格: 5 × 3
  gs_cat gs_subcat   gs_name                                           
  <chr>  <chr>       <chr>                                             
1 C7     IMMUNESIGDB GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN
2 C7     IMMUNESIGDB GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN
3 C7     IMMUNESIGDB GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN
4 C7     IMMUNESIGDB GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN
5 C7     IMMUNESIGDB GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN

英文:

With str_detect

library(dplyr)
library(stringr)
all.gene.sets %&gt;%
  filter(str_detect(gs_name, str_c(redundant.gs, collapse = &quot;|&quot;), negate = TRUE))

-output

# A tibble: 5 &#215; 3
  gs_cat gs_subcat   gs_name                                           
  &lt;chr&gt;  &lt;chr&gt;       &lt;chr&gt;                                             
1 C7     IMMUNESIGDB GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN
2 C7     IMMUNESIGDB GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN
3 C7     IMMUNESIGDB GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN
4 C7     IMMUNESIGDB GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN
5 C7     IMMUNESIGDB GSE21063_3H_VS_16H_ANTI_IGM_STIM_NFATC1_KOBCELL_DN


</details>

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

删除行，如果特定列具有与子字符串向量匹配的值（字符串）。

问题

答案1

答案2

将未经处理的输入添加到神经网络中的后续层

如何删除数据框中包含在另一个字符串中已经包含的子字符串的行？

Why does my get_hundred function not work correctly when applied to my dataset in R using dplyr and stringr?

可以使用Flextable显示merMod对象，但不包括GOF统计数据和显著性星号。

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

发表评论