英文:
save each line of string as a file in spark
问题
我正在处理一个用例,在这个用例中,我需要将RDD中的每一行文本保存为Google Cloud Storage中的单独文件。
运行平台是Databricks,Spark版本为3.2.x,编程语言是Scala。
您能否指向我相关的文档,可以帮助我完成这个任务?
我们有保存文本的方法,但没有适用于这种细粒度(每一行)的方法。
英文:
I am working on a use case wherein I need to save each line of text in RDD as a separate file in Google Cloud Storage.
The run platform is Databricks with spark version 3.2.x and language is Scala.
Can you please point me to relevant document that can help me do that?
We have methods to save text but not something that works on such a granularity (each line).
答案1
得分: 2
你可以使用 maxRecordsPerFile
属性来控制每个文件中的记录数。
val df = ...
df.write
.option("maxRecordsPerFile", 1)
...
英文:
You could control the number of records per file using maxRecordsPerFile
property
val df = ...
df.write
.option("maxRecordsPerFile", 1)
...
通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库,让每个人都能够通过互相帮助和分享经验来进步。
评论