在Azure数据工厂中读取存储在Blob存储中的增量文件的最新版本。

huangapple go评论58阅读模式
英文:

Read just the latest version of delta file on blob storage in Azure Data Factory

问题

我有一个包含元数据和碎片化Parquet文件的Delta文件,我使用Databricks将其保存到Azure Blob存储中。后来,我尝试使用Azure数据工厂管道读取该文件,但在使用复制活动时,它会读取Delta中的所有数据,而不是最新版本(如元数据所指定的那样)。

如何只从Blob存储中的Delta文件中读取一个版本?

英文:

I have a delta file (consisting of meta data and fragmented parquet files) that I save with databricks to Azure Blob Storage. Later, I am trying to read that file with Azure Data Factory Pipeline but when using copy activity it reads all the data in that delta instead of the latest version (as specified by meta data).

How do I just read one version from delta file on a blob storage?

答案1

得分: 1

你可以使用 数据流 来获取特定版本的数据。

创建一个新的数据流活动。

选择 内联 作为源类型,内联数据集类型选择 Delta

接下来转到 源选项 选项卡。

在这里,选择您的 Delta 文件夹路径,将 时间旅行 设置为 按版本查询,然后提供您的版本号。

这将给您结果。

然后在您的管道中使用这个数据流。

英文:

You can use dataflow for getting data for specific version.

create a new dataflow activity.

在Azure数据工厂中读取存储在Blob存储中的增量文件的最新版本。

select Inline as source type and Delta in inline dataset type.

在Azure数据工厂中读取存储在Blob存储中的增量文件的最新版本。

Next go to Source options tab.
在Azure数据工厂中读取存储在Blob存储中的增量文件的最新版本。

Here, select your delta Folder path, Time travel as Query by version, then give your version.

This gives you the result.
And use this dataflow in your pipeline.

huangapple
  • 本文由 发表于 2023年5月25日 19:27:13
  • 转载请务必保留本文链接:https://go.coder-hub.com/76331765.html
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定