在Azure Synapse Analytics中,何时应该使用挂载点?

huangapple go评论54阅读模式
英文:

When should you use a mount point in Azure Synapse Analytics?

问题

两种方法的区别在于数据访问方式和管理:

  1. 直接读取文件使用 ADLS 存储路径:这种方法允许您直接使用 Azure Data Lake Storage Gen2 (ADLS Gen2) 中的路径来读取文件。您可以使用类似spark.read.format("csv").load(adls_path)的代码来加载数据。这是一种简单的方式,适用于临时性的数据读取任务。

  2. 创建挂载点并使用 synfs 路径读取文件:这种方法涉及创建一个挂载点,然后使用 synfs 路径来读取文件。首先,您使用mssparkutils.fs.mount函数创建挂载点,然后使用类似spark.read.format("csv").load(synfs_path)的代码来加载数据。这种方法更适用于需要频繁访问相同存储路径的情况,因为它可以提高数据访问效率。挂载点还可以用于在 Synapse Analytics 中共享数据,因为多个作业可以共享相同的挂载点配置。

因此,要选择使用哪种方法取决于您的需求。如果您只需要偶尔读取一些文件,直接使用 ADLS 存储路径可能更简单。如果您需要频繁访问相同的数据或希望在不同作业之间共享数据,创建一个挂载点可能更合适。

英文:

The documentation of Azure Synapse Analytics mentions two ways read/write data to an Azure Data Lake Storage Gen2 using an Apache Spark pool in Synapse Analytics.

  1. Reading the files directly using the ADLS store path
adls_path = "abfss://<containername>@<accountname>.dfs.core.windows.net/<filepath>"

df = spark.read.format("csv").load(adls_path)

  1. Creating a mount point using mssparkutils and reading the files using the synfs path
mssparkutils.fs.mount( 
    "abfss://<containername>@<accountname>.dfs.core.windows.net", 
    "/data", 
    {"linkedService":"<accountname>"} 
) 

synfs_path = "synfs:/<jobid>/data/<filepath>"

df = spark.read.format("csv").load(synfs_path) 

What is the difference between the two methods? When should you prefer to use a mount point?

答案1

得分: 1

挂载点就像创建一个虚拟文件夹,将位置映射到Azure存储

访问挂载点存储的优点:

  1. 在从Datalake访问特定文件时,无需每次访问它们时指定存储的完整路径,代码较不复杂。
  2. 您可以像访问本地存储一样访问文件。
  3. 您可以将数据组织成文件夹,作为一个集中的位置。

缺点:

  1. 当您需要从Azure存储访问多个目录时,效率不高,映射多个目录会令人困惑并引发混乱。
英文:

Mount point is just like creating a virtual folder and mapping the location to Azure Storage

Pros of accessing Storage from a mount point:

  1. Less complex code while accessing specific files from Datalake, no need to specify full path of storage every time you access them
  2. You can access files like as they are in the local storage
  3. You can have your data organized as folders as a centralized location

Cons:

  1. Not much efficient when you need to access multiple directories from Azure Storage, mapping multiple directories confuses and makes a mess

huangapple
  • 本文由 发表于 2023年2月24日 15:26:58
  • 转载请务必保留本文链接:https://go.coder-hub.com/75553649.html
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定