英文:
Read just the latest version of delta file on blob storage in Azure Data Factory
问题
我有一个包含元数据和碎片化Parquet文件的Delta文件,我使用Databricks将其保存到Azure Blob存储中。后来,我尝试使用Azure数据工厂管道读取该文件,但在使用复制活动时,它会读取Delta中的所有数据,而不是最新版本(如元数据所指定的那样)。
如何只从Blob存储中的Delta文件中读取一个版本?
英文:
I have a delta file (consisting of meta data and fragmented parquet files) that I save with databricks to Azure Blob Storage. Later, I am trying to read that file with Azure Data Factory Pipeline but when using copy activity it reads all the data in that delta instead of the latest version (as specified by meta data).
How do I just read one version from delta file on a blob storage?
答案1
得分: 1
你可以使用 数据流 来获取特定版本的数据。
创建一个新的数据流活动。
选择 内联 作为源类型,内联数据集类型选择 Delta。
接下来转到 源选项 选项卡。
在这里,选择您的 Delta 文件夹路径,将 时间旅行 设置为 按版本查询
,然后提供您的版本号。
这将给您结果。
然后在您的管道中使用这个数据流。
英文:
You can use dataflow for getting data for specific version.
create a new dataflow activity.
select Inline as source type and Delta in inline dataset type.
Next go to Source options tab.
Here, select your delta Folder path, Time travel as Query by version
, then give your version.
This gives you the result.
And use this dataflow in your pipeline.
通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库,让每个人都能够通过互相帮助和分享经验来进步。
评论