2023年7月20日 21:46:57go评论153阅读模式

英文:

How to split a column with multiple paterns and select specific to new columns in R

问题

Sure, here's the translated code portion:

我有一个包含`df$feature`列的数据框，如下所示：

我想将这一列拆分成多个列，并子集化，如下所示（以第一行为例）：

你知道如何在R或Python中实现吗？

Please note that this is a translation of the code snippet and your request for not providing additional content has been followed. If you have any specific questions about how to perform this task in R or Python, feel free to ask.

英文:

i have a df with df$feature like this :

head(df1)
      variant chr position source       type
1: rs10738606   9 22088090 HAVANA       gene
2: rs10738606   9 22088090 HAVANA transcript
3: rs10738606   9 22088090 HAVANA transcript
4: rs10738606   9 22088090 HAVANA transcript
5: rs10738606   9 22088090 HAVANA transcript
6: rs10738606   9 22088090 HAVANA transcript
                                                                                                                                                                                                                                                                                                 

feature
1: gene_id ENSG00000240498.9; gene_type lncRNA; gene_name CDKN2B-AS1; level 1; hgnc_id HGNC:34341; tag ncRNA_host; tag overlapping_locus; havana_gene OTTHUMG00000019689.7;
2: gene_id ENSG00000240498.9; transcript_id ENST00000585267.5; gene_type lncRNA; gene_name CDKN2B-AS1; transcript_type lncRNA; transcript_name CDKN2B-AS1-217; level 2; transcript_support_level 1; hgnc_id HGNC:34341; tag basic; havana_gene OTTHUMG00000019689.7; havana_transcript OTTHUMT00000445870.1;

dput(head(df1$feature))
c(&quot;gene_id ENSG00000240498.9; gene_type lncRNA; gene_name CDKN2B-AS1; level 1; hgnc_id HGNC:34341; tag ncRNA_host; tag overlapping_locus; havana_gene OTTHUMG00000019689.7;&quot;, 
&quot;gene_id ENSG00000240498.9; transcript_id ENST00000585267.5; gene_type lncRNA; gene_name CDKN2B-AS1; transcript_type lncRNA; transcript_name CDKN2B-AS1-217; level 2; transcript_support_level 1; hgnc_id HGNC:34341; tag basic; havana_gene OTTHUMG00000019689.7; havana_transcript OTTHUMT00000445870.1;&quot;, 
&quot;gene_id ENSG00000240498.9; transcript_id ENST00000580576.6; gene_type lncRNA; gene_name CDKN2B-AS1; transcript_type lncRNA; transcript_name CDKN2B-AS1-208; level 2; transcript_support_level 1; hgnc_id HGNC:34341; tag basic; havana_gene OTTHUMG00000019689.7; havana_transcript OTTHUMT00000445871.2;&quot;, 
&quot;gene_id ENSG00000240498.9; transcript_id ENST00000428597.6; gene_type lncRNA; gene_name CDKN2B-AS1; transcript_type lncRNA; transcript_name CDKN2B-AS1-203; level 2; transcript_support_level 1; hgnc_id HGNC:34341; tag basic; havana_gene OTTHUMG00000019689.7; havana_transcript OTTHUMT00000334290.2;&quot;, 
&quot;gene_id ENSG00000240498.9; transcript_id ENST00000577551.5; gene_type lncRNA; gene_name CDKN2B-AS1; transcript_type lncRNA; transcript_name CDKN2B-AS1-206; level 2; transcript_support_level 1; hgnc_id HGNC:34341; havana_gene OTTHUMG00000019689.7; havana_transcript OTTHUMT00000445875.1;&quot;, 
&quot;gene_id ENSG00000240498.9; transcript_id ENST00000581051.5; gene_type lncRNA; gene_name CDKN2B-AS1; transcript_type lncRNA; transcript_name CDKN2B-AS1-209; level 2; transcript_support_level 1; hgnc_id HGNC:34341; havana_gene OTTHUMG00000019689.7; havana_transcript OTTHUMT00000445877.1;&quot;
)

I would like to separate this column into multiple columns and subset like this(the first row for example):

variant    chr position source  type gene_id         gene_type gene_name
rs10738606  9  22088090 HAVANA  gene ENSG00000240498.9	lncRNA CDKN2B-AS1

Do you know how to do it in R or Python ?

答案1

得分: 1

在基础R中考虑执行以下操作：

read.dcf(textConnection(gsub(" ", ":", gsub("; *", "\n", feature))),
       fields = c('gene_id', 'gene_type', 'gene_name'))

   gene_id             gene_type gene_name   
1 "ENSG00000240498.9" "lncRNA"  "CDKN2B-AS1"
2 "ENSG00000240498.9" "lncRNA"  "CDKN2B-AS1"
3 "ENSG00000240498.9" "lncRNA"  "CDKN2B-AS1"
4 "ENSG00000240498.9" "lncRNA"  "CDKN2B-AS1"
5 "ENSG00000240498.9" "lncRNA"  "CDKN2B-AS1"
6 "ENSG00000240498.9" "lncRNA"  "CDKN2B-AS1"

注意，您可以使用all = TRUE而不是fields，它将为您提供字符串中的所有字段。

英文:

in Base R consider doing:

read.dcf(textConnection(gsub(&quot; &quot;, &quot;:&quot;, gsub(&quot;; *&quot;, &quot;\n&quot;, feature))),
       fields = c(&#39;gene_id&#39;, &#39;gene_type&#39;, &#39;gene_name&#39;))

     gene_id             gene_type gene_name   
[1,] &quot;ENSG00000240498.9&quot; &quot;lncRNA&quot;  &quot;CDKN2B-AS1&quot;
[2,] &quot;ENSG00000240498.9&quot; &quot;lncRNA&quot;  &quot;CDKN2B-AS1&quot;
[3,] &quot;ENSG00000240498.9&quot; &quot;lncRNA&quot;  &quot;CDKN2B-AS1&quot;
[4,] &quot;ENSG00000240498.9&quot; &quot;lncRNA&quot;  &quot;CDKN2B-AS1&quot;
[5,] &quot;ENSG00000240498.9&quot; &quot;lncRNA&quot;  &quot;CDKN2B-AS1&quot;
[6,] &quot;ENSG00000240498.9&quot; &quot;lncRNA&quot;  &quot;CDKN2B-AS1&quot;

Notice that instead of fields you could use all = TRUE and it will give you all the fields in your strings

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

如何在R中拆分具有多个模式的列并选择特定内容到新列中

问题

答案1

如何在R中根据对象的值创建一个带有条件列名的数据框？

如何将此sapply调用中的循环向量化？

如何在循环遍历数字序列时在赋值运算符两侧使用 paste0？

How to run a AR query for multiple arguments of a table or list (lets say we have a column with IDs) in R

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

发表评论