问题

SPARK_VERSION = '3.1.2'.

SCALA_VERSION = '2.12'.

import findspark

findspark.add_packages(['org.apache.spark:spark-sql-kafka-0-10_' + SCALA_VERSION + ':' + SPARK_VERSION])
findspark.init()

from pyspark import SparkContext, SparkConf
import sys
import time
from pyspark.context import SparkContext
from pyspark import SparkContext, SparkConf
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils

ModuleNotFoundError                       Traceback (most recent call last)

/tmp/ipykernel_567977/2450515063.py in <module>
      4 from pyspark import SparkContext, SparkConf
      5 from pyspark.streaming import StreamingContext
----> 6 from pyspark.streaming.kafka import KafkaUtils

ModuleNotFoundError: No module named 'pyspark.streaming.kafka'

英文:

SPARK_VERSION = '3.1.2'.

SCALA_VERSION = '2.12'.

import findspark

findspark.add_packages([&#39;org.apache.spark:spark-sql-kafka-0-10_&#39; + SCALA_VERSION + &#39;:&#39; + SPARK_VERSION ])
findspark.init()
 
from pyspark import SparkContext, SparkConf
import sys
import time
from pyspark.context import SparkContext
from pyspark import SparkContext, SparkConf
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils

ModuleNotFoundError                       Traceback (most recent call last)


/tmp/ipykernel_567977/2450515063.py in &lt;module&gt;
      4 from pyspark import SparkContext, SparkConf
      5 from pyspark.streaming import StreamingContext
----&gt; 6 from pyspark.streaming.kafka import KafkaUtils


ModuleNotFoundError: No module named &#39;pyspark.streaming.kafka&#39;

答案1

得分: 2

KafkaUtils 包属于传统的 Spark Streaming，而您正在尝试使用 Spark Structured Streaming 中的 Kafka 支持。

实际上，在 2023 年使用传统的 Spark Streaming 是没有必要的。只需按照文档中的说明访问 Kafka 中的数据。

df = spark \
  .readStream \
  .format("kafka") \
  .option("kafka.bootstrap.servers", "host:port") \
  .option("subscribe", "my_topic") \
  .load()

英文:

The KafkaUtils package belongs to the legacy Spark Streaming, while you're trying Kafka support in Spark Structured Streaming.

Really, there should be no reason to use legacy Spark Streaming in 2023rd. Just access data in Kafka as described in the documentation.

df = spark \
  .readStream \
  .format(&quot;kafka&quot;) \
  .option(&quot;kafka.bootstrap.servers&quot;, &quot;host:port&quot;) \
  .option(&quot;subscribe&quot;, &quot;my_topic&quot;) \
  .load()

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

ModuleNotFoundError: 找不到模块名为 ‘pyspark.streaming.kafka’

问题

答案1

如何在Java中将Spark Dataset的所有列转换为String，而不使用withColumn？

Databricks Notebook Scala Spark Connect to MongoDB Could not initialize class com.mongodb.spark.config.ReadConfig$

如何使用Shopify/sarama Golang库在Kafka中为主题添加消费者组？

Karafka 服务器为什么会抛出错误的查询水印偏移量？

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

发表评论