修复外文/特殊字符

huangapple go评论67阅读模式
英文:

Fixing foreign/special characters

问题

我有一个包含特殊字符的名单,我希望将它们还原为实际的名字,例如:

Bulcsú Révész

到实际的名字:

Bulcsu Revesz

我有几个类似的名字,重音是否在名字中都无所谓。

英文:

I have a list of names with special characters and I wish to revert them back to the actual names, in this case I want to get from the below examble of;

Bulcsú Révész

to the actual name of

Bulcsu Revesz

I have a few names like this, not fussy if the accent are in the name or not

答案1

得分: 2

你可以使用 xml2 从 HTML 实体代码中恢复名称:

# 输入字符串
input_str <- "Bulcsú Révész"

# 转换
xml2::xml_text(xml2::read_html(charToRaw(input_str)))
# [1] "Bulcsú Révész"

# 如果有多个要转换的名称
input_str_vec <- c("Bulcsú Révész", "Mélissa", "François")

# 在编码名称的向量上应用 sapply
sapply(input_str_vec, \(str){
  
  # 转换
  xml2::xml_text(xml2::read_html(charToRaw(str)))
                 
  })

# Bulcsú Révész               Mélissa               François 
#              "Bulcsú Révész"                    "Mélissa"                   "François"      
英文:

You can use xml2 to recover the name from the HTML entity code:

# input string 
input_str <- "Bulcsú Révész"

# convert
xml2::xml_text(xml2::read_html(charToRaw(input_str)))
# [1] "Bulcsú Révész"

# If there are multiple names to be converted 
input_str_vec <- c("Bulcsú Révész", "Mélissa", "François")

# sapply over the vector of encoded names
sapply(input_str_vec, \(str){
  
  # convert
  xml2::xml_text(xml2::read_html(charToRaw(str)))
                 
  })

# Bulcsú Révész               Mélissa               François 
#              "Bulcsú Révész"                    "Mélissa"                   "François"      

huangapple
  • 本文由 发表于 2023年4月13日 20:22:09
  • 转载请务必保留本文链接:https://go.coder-hub.com/76005380.html
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定