英文:
Applying find query on mongo from pyspark
问题
我想使用查找操作来查询MongoDB,而不是加载整个集合,然后应用于PySpark过滤器,这在大多数文档中都有提到。有没有办法做到这一点?
我正在寻找一种查询MongoDB的方法,而不是将整个Mongo集合加载到PySpark中。
英文:
I want to query mongo db using a find operation instead of loading the entire collection and then applying pyspark filters which is mentioned in most of the documentation. Is there any way to do this?
I am looking for something to query mongo, rather than loading the entire mongo collection into pyspark
答案1
得分: 1
这可以通过使用"pipeline"选项来完成:
df = spark.read \
.format("com.mongodb.spark.sql.DefaultSource") \
.option("uri", "mongodb://<主机>:<端口>/<数据库>.<集合>") \
.option("aggregation.pipeline", "[{'$match': {<查询>}}]") \
.load()
英文:
This can be done using the option of "pipeline"
df = spark.read \
.format("com.mongodb.spark.sql.DefaultSource") \
.option("uri", "mongodb://<host>:<port>/<database>.<collection>") \
.option("aggregation.pipeline", "[{'$match': {<query>}}]") \
.load()
通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库,让每个人都能够通过互相帮助和分享经验来进步。
评论