问题

我在使用pyspark的collect_list()时遇到了一个看起来很傻的问题。我在StackOverflow上搜索了但找不到解决办法。

在正常聚合之后，我有以下数据集：

spark = SparkSession.builder.appName('example').getOrCreate()
data = [{'users': '1', 'songs': 23},
        {'users': '1', 'songs': 28},
        {'users': '2', 'songs': 43},
        {'users': '2', 'songs': 63},
        {'users': '3', 'songs': 78},
        {'users': '3', 'songs': 33}]

# 创建一个数据框
dataframe = spark.createDataFrame(data)

songs_mean = dataframe.groupBy('users').agg({'songs':'mean'}).agg(collect_list('avg(songs)')).collect()
songs_mean

# 输出
[Row(collect_list(avg(songs))=[55.5, 25.5, 53.0])]

我如何访问嵌套列表中的值？我只想要：

[55.5, 25.5, 53.0]

提前感谢大家的帮助。

英文:

I have what I feel is a silly issue while using collect_list() with pyspark. I searched StackOverflow but I couldn't find the answer to my problem.

After a normal aggregation I have the following dataset:

spark = SparkSession.builder.appName(&#39;example&#39;).getOrCreate()
data = [{&#39;users&#39;: &#39;1&#39;, &#39;songs&#39;: 23},
        {&#39;users&#39;: &#39;1&#39;, &#39;songs&#39;: 28},
        {&#39;users&#39;: &#39;2&#39;, &#39;songs&#39;: 43},
        {&#39;users&#39;: &#39;2&#39;, &#39;songs&#39;: 63},
        {&#39;users&#39;: &#39;3&#39;, &#39;songs&#39;: 78},
        {&#39;users&#39;: &#39;3&#39;, &#39;songs&#39;: 33}]
  
# creating a dataframe
dataframe = spark.createDataFrame(data)

songs_mean = dataframe.groupBy(&#39;users&#39;).agg({&#39;songs&#39;:&#39;mean&#39;}).agg(collect_list(&#39;avg(songs)&#39;)).collect()
songs_mean

#Output
[Row(collect_list(avg(songs))=[55.5, 25.5, 53.0])]

How can I access the nested list with the values? All I want is:

[55.5, 25.5, 53.0]

Thanks in advance to everybody.

答案1

得分: 2

访问列表通过 索引 [0][0]

示例:

from pyspark.sql import *
from pyspark.sql.functions import *
data = [{'users': '1', 'songs': 23},
        {'users': '1', 'songs': 28},
        {'users': '2', 'songs': 43},
        {'users': '2', 'songs': 63},
        {'users': '3', 'songs': 78},
        {'users': '3', 'songs': 33}]

# 创建一个数据框
dataframe = spark.createDataFrame(data)

songs_mean = dataframe.groupBy('users').agg({'songs':'mean'}).agg(collect_list('avg(songs)')).collect()
print(songs_mean[0][0])
#[25.5, 55.5, 53.0]

英文:

Access the list by the index [0][0]

Example:

from pyspark.sql import *
from pyspark.sql.functions import *
data = [{&#39;users&#39;: &#39;1&#39;, &#39;songs&#39;: 23},
        {&#39;users&#39;: &#39;1&#39;, &#39;songs&#39;: 28},
        {&#39;users&#39;: &#39;2&#39;, &#39;songs&#39;: 43},
        {&#39;users&#39;: &#39;2&#39;, &#39;songs&#39;: 63},
        {&#39;users&#39;: &#39;3&#39;, &#39;songs&#39;: 78},
        {&#39;users&#39;: &#39;3&#39;, &#39;songs&#39;: 33}]
  
# creating a dataframe
dataframe = spark.createDataFrame(data)

songs_mean = dataframe.groupBy(&#39;users&#39;).agg({&#39;songs&#39;:&#39;mean&#39;}).agg(collect_list(&#39;avg(songs)&#39;)).collect()
print(songs_mean[0][0])
#[25.5, 55.5, 53.0]

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

在使用 `collect_list()` 后访问数值。

问题

答案1

如何使用Python的Colorama？

Tkinter更新标签时出现错误：“AttributeError: ‘Frame’对象没有属性’label1’”

如何在Python中对列表中的列表进行排序，以避免重复的名称排在一起

在NumPy中高效迭代，其中下一次迭代取决于前一次的结果。

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

发表评论