2023年8月10日 21:39:18go评论146阅读模式

英文:

split tabs string into different columns

问题

在我的铸造环境中，我有一个名为"data"的pyspark数据集。

每一行都包含一个看起来像TSV的字符串。每一行都有一个类似这样的值：

ott-akamai-logs-processor	srv	2023-07-29 17:46:50.134	2023-07-29 17:46:49.358		unstruct	103b9271-777		ott	node-3.13.1	ssc-2.8.2-kinesis	snowplow-enrich-kinesis-3.7.0		3.65.234.x				12345679	DE	HE	Karachi	60313	50.1188	8.6843	Malta																																		{&quot;schema&quot;:&quot;iglu:com.xxx/1-0-0&quot;,&quot;data&quot;:{&quot;schema&quot;:&quot;xxx/hls_manifest_requested/jsonschema/1-0-1&quot;,&quot;data&quot;:{&quot;channel&quot;:&quot;bildtv-broadcast&quot;,&quot;session_id&quot;:&quot;xxx&quot;,&quot;request_id&quot;:&quot;xxx&quot;,&quot;total_bytes&quot;:351,&quot;referrer&quot;:&quot;^&quot;,&quot;geo_country&quot;:&quot;DE&quot;,&quot;geo_state&quot;:&quot;Berlin&quot;,&quot;geo_city&quot;:&quot;-&quot;,&quot;variant_name&quot;:&quot;6.m3u8&quot;}}}																			snowplow-nodejs-tracker/3.13.1																																						Europe/Berlin				2023-07-29 17:46:49.281			{&quot;schema&quot;:&quot;xxx/contexts/jsonschema/1-0-1&quot;,&quot;data&quot;:[{&quot;schema&quot;:&quot;iglu:nl.basjes/yauaa_context/jsonschema/1-0-4&quot;,&quot;data&quot;:{&quot;deviceBrand&quot;:&quot;Unknown&quot;,&quot;deviceName&quot;:&quot;Unknown&quot;,&quot;operatingSystemVersionMajor&quot;:&quot;??&quot;,&quot;layoutEngineNameVersion&quot;:&quot;Unknown ??&quot;,&quot;operatingSystemNameVersion&quot;:&quot;Unknown ??&quot;,&quot;agentInformationEmail&quot;:&quot;Unknown&quot;,&quot;networkType&quot;:&quot;Unknown&quot;,&quot;webviewAppNameVersionMajor&quot;:&quot;Unknown ??&quot;,&quot;layoutEngineNameVersionMajor&quot;:&quot;Unknown ??&quot;,&quot;operatingSystemName&quot;:&quot;Unknown&quot;,&quot;agentVersionMajor&quot;:&quot;3&quot;,&quot;layoutEngineVersionMajor&quot;:&quot;??&quot;,&quot;webviewAppName&quot;:&quot;Unknown&quot;,&quot;deviceClass&quot;:&quot;Unknown&quot;,&quot;agentNameVersionMajor&quot;:&quot;Snowplow-Nodejs-Tracker 3&quot;,&quot;operatingSystemNameVersionMajor&quot;:&quot;Unknown ??&quot;,&quot;webviewAppVersionMajor&quot;:&quot;??&quot;,&quot;operatingSystemClass&quot;:&quot;Unknown&quot;,&quot;webviewAppVersion&quot;:&quot;??&quot;,&quot;layoutEngineName&quot;:&quot;Unknown&quot;,&quot;agentName&quot;:&quot;Snowplow-Nodejs-Tracker&quot;,&quot;agentVersion&quot;:&quot;3.13.1&quot;,&quot;layoutEngineClass&quot;:&quot;Unknown&quot;,&quot;agentNameVersion&quot;:&quot;Snowplow-Nodejs-Tracker 3.13.1&quot;,&quot;operatingSystemVersion&quot;:&quot;??&quot;,&quot;agentClass&quot;:&quot;Special&quot;,&quot;layoutEngineVersion&quot;:&quot;??&quot;,&quot;agentInformationUrl&quot;:&quot;Unknown&quot;}},{&quot;schema&quot;:&quot;iglu:com.snowplowanalytics.snowplow/ua_parser_context/jsonschema/1-0-0&quot;,&quot;data&quot;:{&quot;useragentFamily&quot;:&quot;Other&quot;,&quot;useragentMajor&quot;:null,&quot;useragentMinor&quot;:null,&quot;useragentPatch&quot;:null,&quot;useragentVersion&quot;:&quot;Other&quot;,&quot;osFamily&quot;:&quot;Other&quot;,&quot;osMajor&quot;:null,&quot;osMinor&quot;:null,&quot;osPatch&quot;:null,&quot;osPatchMinor&quot;:null,&quot;osVersion&quot;:&quot;Other&quot;,&quot;deviceFamily&quot;:&quot;Other&quot;}}]}		2023-07-29 17:46:09.938	com.axelspringer.ott	hls_manifest_requested	jsonschema	1-0-1		2023-07-29 17:46:09.938

在这里，各个部分由制表符分隔。对于每个制表符分隔，我想将值放入不同的列中。我该如何做？

def unnamed_1(my_df):
    df = my_df
    return df

英文:

In my foundry environment, I have a pyspark dataset with only one column called "data".

Each row has a string that looks like a TSV. Each row has a value like this:

ott-akamai-logs-processor	srv	2023-07-29 17:46:50.134	2023-07-29 17:46:49.358		unstruct	103b9271-777		ott	node-3.13.1	ssc-2.8.2-kinesis	snowplow-enrich-kinesis-3.7.0		3.65.234.x				12345679	DE	HE	Karachi	60313	50.1188	8.6843	Malta																																		{&quot;schema&quot;:&quot;iglu:com.xxx/1-0-0&quot;,&quot;data&quot;:{&quot;schema&quot;:&quot;xxx/hls_manifest_requested/jsonschema/1-0-1&quot;,&quot;data&quot;:{&quot;channel&quot;:&quot;bildtv-broadcast&quot;,&quot;session_id&quot;:&quot;xxx&quot;,&quot;request_id&quot;:&quot;xxx&quot;,&quot;total_bytes&quot;:351,&quot;referrer&quot;:&quot;^&quot;,&quot;geo_country&quot;:&quot;DE&quot;,&quot;geo_state&quot;:&quot;Berlin&quot;,&quot;geo_city&quot;:&quot;-&quot;,&quot;variant_name&quot;:&quot;6.m3u8&quot;}}}																			snowplow-nodejs-tracker/3.13.1																																						Europe/Berlin				2023-07-29 17:46:49.281			{&quot;schema&quot;:&quot;xxx/contexts/jsonschema/1-0-1&quot;,&quot;data&quot;:[{&quot;schema&quot;:&quot;iglu:nl.basjes/yauaa_context/jsonschema/1-0-4&quot;,&quot;data&quot;:{&quot;deviceBrand&quot;:&quot;Unknown&quot;,&quot;deviceName&quot;:&quot;Unknown&quot;,&quot;operatingSystemVersionMajor&quot;:&quot;??&quot;,&quot;layoutEngineNameVersion&quot;:&quot;Unknown ??&quot;,&quot;operatingSystemNameVersion&quot;:&quot;Unknown ??&quot;,&quot;agentInformationEmail&quot;:&quot;Unknown&quot;,&quot;networkType&quot;:&quot;Unknown&quot;,&quot;webviewAppNameVersionMajor&quot;:&quot;Unknown ??&quot;,&quot;layoutEngineNameVersionMajor&quot;:&quot;Unknown ??&quot;,&quot;operatingSystemName&quot;:&quot;Unknown&quot;,&quot;agentVersionMajor&quot;:&quot;3&quot;,&quot;layoutEngineVersionMajor&quot;:&quot;??&quot;,&quot;webviewAppName&quot;:&quot;Unknown&quot;,&quot;deviceClass&quot;:&quot;Unknown&quot;,&quot;agentNameVersionMajor&quot;:&quot;Snowplow-Nodejs-Tracker 3&quot;,&quot;operatingSystemNameVersionMajor&quot;:&quot;Unknown ??&quot;,&quot;webviewAppVersionMajor&quot;:&quot;??&quot;,&quot;operatingSystemClass&quot;:&quot;Unknown&quot;,&quot;webviewAppVersion&quot;:&quot;??&quot;,&quot;layoutEngineName&quot;:&quot;Unknown&quot;,&quot;agentName&quot;:&quot;Snowplow-Nodejs-Tracker&quot;,&quot;agentVersion&quot;:&quot;3.13.1&quot;,&quot;layoutEngineClass&quot;:&quot;Unknown&quot;,&quot;agentNameVersion&quot;:&quot;Snowplow-Nodejs-Tracker 3.13.1&quot;,&quot;operatingSystemVersion&quot;:&quot;??&quot;,&quot;agentClass&quot;:&quot;Special&quot;,&quot;layoutEngineVersion&quot;:&quot;??&quot;,&quot;agentInformationUrl&quot;:&quot;Unknown&quot;}},{&quot;schema&quot;:&quot;iglu:com.snowplowanalytics.snowplow/ua_parser_context/jsonschema/1-0-0&quot;,&quot;data&quot;:{&quot;useragentFamily&quot;:&quot;Other&quot;,&quot;useragentMajor&quot;:null,&quot;useragentMinor&quot;:null,&quot;useragentPatch&quot;:null,&quot;useragentVersion&quot;:&quot;Other&quot;,&quot;osFamily&quot;:&quot;Other&quot;,&quot;osMajor&quot;:null,&quot;osMinor&quot;:null,&quot;osPatch&quot;:null,&quot;osPatchMinor&quot;:null,&quot;osVersion&quot;:&quot;Other&quot;,&quot;deviceFamily&quot;:&quot;Other&quot;}}]}		2023-07-29 17:46:09.938	com.axelspringer.ott	hls_manifest_requested	jsonschema	1-0-1		2023-07-29 17:46:09.938

Here, things are separated by tabs. For each tab separation, I want to put the values into different columns. How can I do so?

def unnamed_1(my_df):
    df = my_df
    return df

答案1

得分: 2

你可以使用Spark中的split函数来完成这个任务：
https://spark.apache.org/docs/3.1.2/api/python/reference/api/pyspark.sql.functions.split.html

import pyspark.sql.functions as f
split_col = f.split(df['data'], '\t')
formatted_df = (
    df
    .withColumn('column_a', split_col.getItem(0))
    .withColumn('column_b', split_col.getItem(1))
    .withColumn('column_c', split_col.getItem(2))
    # ...
    .drop('data')
)

如果你有一个按正确顺序排列的所需列的列表，你可以使用迭代来自动化这个过程：

columns = [
    'column_a',
    'column_b',
    'column_c',
    # ...
]
formatted_df = df
for i in range(len(columns)):
    column_name = columns[i]
    column_values = split_col.getItem(i)
    formatted_df = formatted_df.withColumn(column_name, column_values)
formatted_df = formatted_df.drop('data')

如果你的数据以正确格式的TSV形式接收，你可以在读取数据时使用delimiter选项来解析它：

df = (
    spark.read.format("csv")
    .option("delimiter", "\t")
    .load('data.tsv')
)

英文:

You can use the split function in spark to accomplish this:
https://spark.apache.org/docs/3.1.2/api/python/reference/api/pyspark.sql.functions.split.html

import pyspark.sql.functions as f
split_col = f.split(df[&#39;data&#39;], &#39;\t&#39;)
formatted_df = (
    df
    .withColumn(&#39;column_a&#39;, split_col.getItem(0))
    .withColumn(&#39;column_b&#39;, split_col.getItem(1))
    .withColumn(&#39;column_c&#39;, split_col.getItem(2))
    # ...
    .drop(&#39;data&#39;)
)

If you have a list of the desired columns in the correct order, you can automate it with iteration:

columns = [
    &#39;column_a&#39;,
    &#39;column_b&#39;,
    &#39;column_c&#39;,
    # ...
]
formatted_df = df
for i in range(len(columns)):
    column_name = columns[i]
    column_values = split_col.getItem(i)
    formatted_df = formatted_df.withColumn(column_name, column_values)
formatted_df = formatted_df.drop(&#39;data&#39;)

If you're receiving this data as a properly formatted TSV you could instead use the delimiter option while reading in the data to parse this.

df = (
    spark.read.format(&quot;csv&quot;)
    .option(&quot;delimiter&quot;, &quot;\t&quot;)
    .load(&#39;data.tsv&#39;)
)

答案2

得分: 1

你可以使用 pandas.read_csv 来实现：

import pandas as pd
from io import StringIO
string = 'ott-akamai-logs-processor   srv 2023-07-29 17:46:50.134 2023-07-29 17:46:49.358     unstruct    103b9271-777        ott node-3.13.1 ssc-2.8.2-kinesis   snowplow-enrich-kinesis-3.7.0       3.65.234.x              12345679    DE  HE  Karachi 60313   50.1188 8.6843  Malta                                                                                                                                       {"schema":"iglu:com.xxx/1-0-0","data":{"schema":"xxx/hls_manifest_requested/jsonschema/1-0-1","data":{"channel":"bildtv-broadcast","session_id":"xxx","request_id":"xxx","total_bytes":351,"referrer":"^","geo_country":"DE","geo_state":"Berlin","geo_city":"-","variant_name":"6.m3u8"}}}                                                                         snowplow-nodejs-tracker/3.13.1                                                                                                                                                      Europe/Berlin               2023-07-29 17:46:49.281         {"schema":"xxx/contexts/jsonschema/1-0-1","data":[{"schema":"iglu:nl.basjes/yauaa_context/jsonschema/1-0-4","data":{"deviceBrand":"Unknown","deviceName":"Unknown","operatingSystemVersionMajor":"??","layoutEngineNameVersion":"Unknown ??","operatingSystemNameVersion":"Unknown ??","agentInformationEmail":"Unknown","networkType":"Unknown","webviewAppNameVersionMajor":"Unknown ??","layoutEngineNameVersionMajor":"Unknown ??","operatingSystemName":"Unknown","agentVersionMajor":"3","layoutEngineVersionMajor":"??","webviewAppName":"Unknown","deviceClass":"Unknown","agentNameVersionMajor":"Snowplow-Nodejs-Tracker 3","operatingSystemNameVersionMajor":"Unknown ??","webviewAppVersionMajor":"??","operatingSystemClass":"Unknown","webviewAppVersion":"??","layoutEngineName":"Unknown","agentName":"Snowplow-Nodejs-Tracker","agentVersion":"3.13.1","layoutEngineClass":"Unknown","agentNameVersion":"Snowplow-Nodejs-Tracker 3.13.1","operatingSystemVersion":"??","agentClass":"Special","layoutEngineVersion":"??","agentInformationUrl":"Unknown"}},{"schema":"iglu:com.snowplowanalytics.snowplow/ua_parser_context/jsonschema/1-0-0","data":{"useragentFamily":"Other","useragentMajor":null,"useragentMinor":null,"useragentPatch":null,"useragentVersion":"Other","osFamily":"Other","osMajor":null,"osMinor":null,"osPatch":null,"osPatchMinor":null,"osVersion":"Other","deviceFamily":"Other"}}]}        2023-07-29 17:46:09.938 com.axelspringer.ott    hls_manifest_requested  jsonschema  1-0-1       2023-07-29 17:46:09.938'
tsvString = StringIO(string)
df = pd.read_csv(tsvString, sep='\t')

英文:

You can use pandas.read_csv for that:

import pandas as pd
from io import StringIO
string = &#39;ott-akamai-logs-processor   srv 2023-07-29 17:46:50.134 2023-07-29 17:46:49.358     unstruct    103b9271-777        ott node-3.13.1 ssc-2.8.2-kinesis   snowplow-enrich-kinesis-3.7.0       3.65.234.x              12345679    DE  HE  Karachi 60313   50.1188 8.6843  Malta                                                                                                                                       {&quot;schema&quot;:&quot;iglu:com.xxx/1-0-0&quot;,&quot;data&quot;:{&quot;schema&quot;:&quot;xxx/hls_manifest_requested/jsonschema/1-0-1&quot;,&quot;data&quot;:{&quot;channel&quot;:&quot;bildtv-broadcast&quot;,&quot;session_id&quot;:&quot;xxx&quot;,&quot;request_id&quot;:&quot;xxx&quot;,&quot;total_bytes&quot;:351,&quot;referrer&quot;:&quot;^&quot;,&quot;geo_country&quot;:&quot;DE&quot;,&quot;geo_state&quot;:&quot;Berlin&quot;,&quot;geo_city&quot;:&quot;-&quot;,&quot;variant_name&quot;:&quot;6.m3u8&quot;}}}                                                                         snowplow-nodejs-tracker/3.13.1                                                                                                                                                      Europe/Berlin               2023-07-29 17:46:49.281         {&quot;schema&quot;:&quot;xxx/contexts/jsonschema/1-0-1&quot;,&quot;data&quot;:[{&quot;schema&quot;:&quot;iglu:nl.basjes/yauaa_context/jsonschema/1-0-4&quot;,&quot;data&quot;:{&quot;deviceBrand&quot;:&quot;Unknown&quot;,&quot;deviceName&quot;:&quot;Unknown&quot;,&quot;operatingSystemVersionMajor&quot;:&quot;??&quot;,&quot;layoutEngineNameVersion&quot;:&quot;Unknown ??&quot;,&quot;operatingSystemNameVersion&quot;:&quot;Unknown ??&quot;,&quot;agentInformationEmail&quot;:&quot;Unknown&quot;,&quot;networkType&quot;:&quot;Unknown&quot;,&quot;webviewAppNameVersionMajor&quot;:&quot;Unknown ??&quot;,&quot;layoutEngineNameVersionMajor&quot;:&quot;Unknown ??&quot;,&quot;operatingSystemName&quot;:&quot;Unknown&quot;,&quot;agentVersionMajor&quot;:&quot;3&quot;,&quot;layoutEngineVersionMajor&quot;:&quot;??&quot;,&quot;webviewAppName&quot;:&quot;Unknown&quot;,&quot;deviceClass&quot;:&quot;Unknown&quot;,&quot;agentNameVersionMajor&quot;:&quot;Snowplow-Nodejs-Tracker 3&quot;,&quot;operatingSystemNameVersionMajor&quot;:&quot;Unknown ??&quot;,&quot;webviewAppVersionMajor&quot;:&quot;??&quot;,&quot;operatingSystemClass&quot;:&quot;Unknown&quot;,&quot;webviewAppVersion&quot;:&quot;??&quot;,&quot;layoutEngineName&quot;:&quot;Unknown&quot;,&quot;agentName&quot;:&quot;Snowplow-Nodejs-Tracker&quot;,&quot;agentVersion&quot;:&quot;3.13.1&quot;,&quot;layoutEngineClass&quot;:&quot;Unknown&quot;,&quot;agentNameVersion&quot;:&quot;Snowplow-Nodejs-Tracker 3.13.1&quot;,&quot;operatingSystemVersion&quot;:&quot;??&quot;,&quot;agentClass&quot;:&quot;Special&quot;,&quot;layoutEngineVersion&quot;:&quot;??&quot;,&quot;agentInformationUrl&quot;:&quot;Unknown&quot;}},{&quot;schema&quot;:&quot;iglu:com.snowplowanalytics.snowplow/ua_parser_context/jsonschema/1-0-0&quot;,&quot;data&quot;:{&quot;useragentFamily&quot;:&quot;Other&quot;,&quot;useragentMajor&quot;:null,&quot;useragentMinor&quot;:null,&quot;useragentPatch&quot;:null,&quot;useragentVersion&quot;:&quot;Other&quot;,&quot;osFamily&quot;:&quot;Other&quot;,&quot;osMajor&quot;:null,&quot;osMinor&quot;:null,&quot;osPatch&quot;:null,&quot;osPatchMinor&quot;:null,&quot;osVersion&quot;:&quot;Other&quot;,&quot;deviceFamily&quot;:&quot;Other&quot;}}]}        2023-07-29 17:46:09.938 com.axelspringer.ott    hls_manifest_requested  jsonschema  1-0-1       2023-07-29 17:46:09.938&#39;
tsvString = StringIO(string)
df = pd.read_csv(tsvString,sep=&#39;\t&#39;)

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

将制表符分隔的字符串拆分成不同的列。

问题

答案1

答案2

如何在循环中将不同数据框的列相加？

如何从不利的表示中恢复树形结构？

如何在Lambda启动任务中设置间隔。

Django基于类的表单，带有从模型/数据库中填充的下拉框数据。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。