2023年8月8日 20:21:32go评论118阅读模式

英文:

handling nested Json structure

问题

假设我们有以下的JSON结构：

{
	"positions": {
		"node": "abc"
	},
	"submissions": {
		"submissionOffsets": [
			{
				"attributeName": "sample1",
				"attributeValue": 1224
			},
			{
				"attributeName": "sample2",
				"attributeValue": 1224
			},
			{
				"attributeName": "sample3",
				"attributeValue": 1224
			},
			{
				"attributeName": "sample4",
				"attributeValue": 1224
			}
		]
	}
}

我们想要读取"submissionOffsets"，并根据属性名（例如"sample1"）提取attributeName和attributeValue。期望的结构如下所示：
匹配的情况下

{
	"positions": {
		"node": "abc"
	},
	"submissions": {
		"submissionOffsets": [
			{
				"attributeName": "sample1",
				"attributeValue": 1224
			},
			{
				"attributeName": "sample2",
				"attributeValue": 1224
			},
			{
				"attributeName": "sample3",
				"attributeValue": 1224
			},
			{
				"attributeName": "sample4",
				"attributeValue": 1224
			}
		]
	},
	"attributeName": "sample1",
	"attributeValue": 1224
}

不匹配的情况下

{
	"positions": {
		"node": "abc"
	},
	"submissions": {
		"submissionOffsets": [
			{
				"attributeName": "sample1",
				"attributeValue": 1224
			},
			{
				"attributeName": "sample2",
				"attributeValue": 1224
			},
			{
				"attributeName": "sample3",
				"attributeValue": 1224
			},
			{
				"attributeName": "sample4",
				"attributeValue": 1224
			}
		]
	},
	"attributeName": null,
	"attributeValue": 0.00
}

这需要在数据框中完成。

我尝试使用数据框（dataframes），我展开了submissions.submissionOffsets，然后检查属性名和值，但这只给出了一列，我需要将其与原始数据框连接起来。

英文:

suppose we have following json structure :

{
	&quot;positions&quot;: {
		&quot;node&quot;: &quot;abc&quot;
	}
	&quot;submissions&quot; :{
		&quot;submissionOffsets&quot;:[
		{
			&quot;attributeName&quot;: &quot;sample1&quot;,
			&quot;attributeValue&quot;: 1224
		},
		{
			&quot;attributeName&quot;: &quot;sample2&quot;,
			&quot;attributeValue&quot;: 1224
		},
		{
			&quot;attributeName&quot;: &quot;sample3&quot;,
			&quot;attributeValue&quot;: 1224
		},
		{
			&quot;attributeName&quot;: &quot;sample4&quot;,
			&quot;attributeValue&quot;: 1224
		}
		
	}
}

and we want to read "submissionOffsets" and extract attributeName and attributeValue based on attribute name for example "sample1" and expected structure should be in case of Match

{
	&quot;positions&quot;: {
		&quot;node&quot;: &quot;abc&quot;
	}
	&quot;submissions&quot; :{
		&quot;submissionOffsets&quot;:[
		{
			&quot;attributeName&quot;: &quot;sample1&quot;,
			&quot;attributeValue&quot;: 1224
		},
		{
			&quot;attributeName&quot;: &quot;sample2&quot;,
			&quot;attributeValue&quot;: 1224
		},
		{
			&quot;attributeName&quot;: &quot;sample3&quot;,
			&quot;attributeValue&quot;: 1224
		},
		{
			&quot;attributeName&quot;: &quot;sample4&quot;,
			&quot;attributeValue&quot;: 1224
		}
		
	},
&quot;attributeName&quot;: &quot;sample1&quot;,
&quot;attributeValue&quot;: 1224
}
**Incase of No Match**
{
	&quot;positions&quot;: {
		&quot;node&quot;: &quot;abc&quot;
	}
	&quot;submissions&quot; :{
		&quot;submissionOffsets&quot;:[
		{
			&quot;attributeName&quot;: &quot;sample1&quot;,
			&quot;attributeValue&quot;: 1224
		},
		{
			&quot;attributeName&quot;: &quot;sample2&quot;,
			&quot;attributeValue&quot;: 1224
		},
		{
			&quot;attributeName&quot;: &quot;sample3&quot;,
			&quot;attributeValue&quot;: 1224
		},
		{
			&quot;attributeName&quot;: &quot;sample4&quot;,
			&quot;attributeValue&quot;: 1224
		}
		
	},
&quot;attributeName&quot;: null,
&quot;attributeValue&quot;: 0.00
}

This has to be done in dataframes

I was trying with dataframes i exploded submissions.submissionOffsets , then checked for attribute name and value, but this giving one column, i have to join that back to original dataframe.

答案1

得分: 0

filter是一个高阶函数，用于从嵌套的数组JSON中过滤特定属性。

inline或inline_outer用于展开数组值。

以下是示例代码：

val df = spark
  .read
  .option("multiLine", "true")
  .json(Seq(data).toDS)
df.show(false)
+---------+----------------------------------------------------------------------+
|positions|submissions                                                           |
+---------+----------------------------------------------------------------------+
|{abc}    |{[{sample1, 1224}, {sample2, 1224}, {sample3, 1224}, {sample4, 1224}]}|
+---------+----------------------------------------------------------------------+
df.printSchema
root
 |-- positions: struct (nullable = true)
 |    |-- node: string (nullable = true)
 |-- submissions: struct (nullable = true)
 |    |-- submissionOffsets: array (nullable = true)
 |    |    |-- element: struct (containsNull = true)
 |    |    |    |-- attributeName: string (nullable = true)
 |    |    |    |-- attributeValue: long (nullable = true)
// 使用filter高阶函数过滤嵌套的JSON数组值/属性
// inline_outer用于展开数组值
df
  .selectExpr(
    "*", // 选择数据集/数据框中的所有列
    "inline_outer(filter(submissions.submissionOffsets, i -> i.attributeName == 'sample1')) as (attributeName, attributeValue)"
  )
  .toJSON
  .show(false)
+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|value                                                                                                                                                                                                                                                                                                                     |
+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|{"positions":{"node":"abc"},"submissions":{"submissionOffsets":[{"attributeName":"sample1","attributeValue":1224},{"attributeName":"sample2","attributeValue":1224},{"attributeName":"sample3","attributeValue":1224},{"attributeName":"sample4","attributeValue":1224}]},"attributeName":"sample1","attributeValue":1224}|
+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+

以上是示例代码的翻译结果。

英文:

filter higher order function to filter specific attribute from nested array json.

inline or inline_outer - to explode array values.

Below is sample code

scala&gt; val df = spark
.read
.option(&quot;multiLine&quot;, &quot;true&quot;)
.json(Seq(data).toDS)
df: org.apache.spark.sql.DataFrame = [positions: struct&lt;node: string&gt;, submissions: struct&lt;submissionOffsets: array&lt;struct&lt;attributeName:string,attributeValue:bigint&gt;&gt;&gt;]
scala&gt; df.show(false)
+---------+----------------------------------------------------------------------+
|positions|submissions                                                           |
+---------+----------------------------------------------------------------------+
|{abc}    |{[{sample1, 1224}, {sample2, 1224}, {sample3, 1224}, {sample4, 1224}]}|
+---------+----------------------------------------------------------------------+
scala&gt; df.printSchema
root
|-- positions: struct (nullable = true)
|    |-- node: string (nullable = true)
|-- submissions: struct (nullable = true)
|    |-- submissionOffsets: array (nullable = true)
|    |    |-- element: struct (containsNull = true)
|    |    |    |-- attributeName: string (nullable = true)
|    |    |    |-- attributeValue: long (nullable = true)
scala&gt; 
// filter higher order function to filter nested json array values / attributes
// inline_outer is to explode array values
df
.selectExpr(
&quot;*&quot;, // to select all columns from the dataset / dataframe
&quot;inline_outer(filter(submissions.submissionOffsets, i -&gt; i.attributeName == &#39;sample1&#39;)) as (attributeName, attributeValue)&quot;
)
.toJSON.show(false)
+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|value                                                                                                                                                                                                                                                                                                                     |
+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|{&quot;positions&quot;:{&quot;node&quot;:&quot;abc&quot;},&quot;submissions&quot;:{&quot;submissionOffsets&quot;:[{&quot;attributeName&quot;:&quot;sample1&quot;,&quot;attributeValue&quot;:1224},{&quot;attributeName&quot;:&quot;sample2&quot;,&quot;attributeValue&quot;:1224},{&quot;attributeName&quot;:&quot;sample3&quot;,&quot;attributeValue&quot;:1224},{&quot;attributeName&quot;:&quot;sample4&quot;,&quot;attributeValue&quot;:1224}]},&quot;attributeName&quot;:&quot;sample1&quot;,&quot;attributeValue&quot;:1224}|
+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

处理嵌套的 JSON 结构

问题

答案1

During importing from Eclipse to Android Studio, what does "Obsolete dependency configuration found: compile View usage" mean?

如何在Netbeans中使JButton无边框？

如何从Android的SignalR调用中获取数据

Spring Boot多模块（Maven）项目无法找到其Repository — 如何修复？

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。