将每一行字符串保存为文件在Spark中。

huangapple go评论62阅读模式
英文:

save each line of string as a file in spark

问题

我正在处理一个用例,在这个用例中,我需要将RDD中的每一行文本保存为Google Cloud Storage中的单独文件。

运行平台是Databricks,Spark版本为3.2.x,编程语言是Scala。

您能否指向我相关的文档,可以帮助我完成这个任务?

我们有保存文本的方法,但没有适用于这种细粒度(每一行)的方法。

英文:

I am working on a use case wherein I need to save each line of text in RDD as a separate file in Google Cloud Storage.

The run platform is Databricks with spark version 3.2.x and language is Scala.

Can you please point me to relevant document that can help me do that?

We have methods to save text but not something that works on such a granularity (each line).

答案1

得分: 2

你可以使用 maxRecordsPerFile 属性来控制每个文件中的记录数。

val df = ...
df.write
    .option("maxRecordsPerFile", 1)
    ...
英文:

You could control the number of records per file using maxRecordsPerFile property

val df = ...
df.write
    .option("maxRecordsPerFile", 1)
    ...

huangapple
  • 本文由 发表于 2023年5月29日 04:05:17
  • 转载请务必保留本文链接:https://go.coder-hub.com/76353389.html
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定