温馨提示×

pyspark中怎么读取hdfs数据

hdfs

小亿

340

2024-03-29 15:18:01

栏目: 大数据

在pyspark中读取HDFS数据可以通过以下步骤实现：

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Read HDFS Data") \
    .getOrCreate()

df = spark.read.csv("hdfs://<namenode>:<port>/path/to/file.csv")

其中，"hdfs://:/path/to/file.csv"是HDFS文件的路径，需要替换为实际的路径。

df.printSchema()
df.show()

spark.stop()

通过以上步骤，就可以在pyspark中读取HDFS数据了。

0 赞

0 踩

最新问答