• 大小: 7.12MB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-09-23
  • 语言: 其他
  • 标签: spark  dataframe  python  

资源简介

现有某地区出租车 GPS 定位数据 taxi.csv 数据一共分为 4 列,每一列含义如下表所示: 编号(id) 纬度(lat) 经度(lon) 时间戳(time) 根据上述条件,结合课堂上学习的“DataFrame的常用操作”相关知识,编写代码实现如下要求: 1、查询编号为 5 的出租车的 GPS 数据的前 10 行。 2、统计出租车的总数有多少。 分别统计每辆出租车的 GPS 点记录有多少条。

资源截图

代码片段和文件信息

from pyspark.shell import sc
from pyspark.sql.types import *
#
rdd =sc.textFile(“xxxx/taxi.csv“)
rdd1 = rdd.map(lambda line:line.split(““)).map(lambda x:tuple(x))
schema = StructType([StructField(“id“StringType()True)StructField(“lat“StringType()True)StructField(“lon“StringType()True)StructField(“time“StringType()True)])
df = rdd1.toDF(schema)

# df.filter(“id==5“).show(10)
df= df.withColumn(“id“ df[“id“].cast(IntegerType()))
df1 =df.select(“id“).distinct().count()
# print(df1)
df2=df.groupBy(“id“).count()
df3 = df2.orderBy(“id“)
df3.show(df1)
# df.show()

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     文件    26476814  2019-05-15 02:46  taxi.csv
     文件         589  2019-05-16 00:54  taxi.py

评论

共有 条评论