使用Dataframe分析出租车的 GPS信息

大小: 7.12MB

文件类型: .zip

金币: 2

下载: 0 次

发布日期: 2023-09-23
语言: 其他
标签: spark dataframe python

高速下载

资源简介

现有某地区出租车 GPS 定位数据 taxi.csv 数据一共分为 4 列，每一列含义如下表所示：编号（id）纬度（lat）经度（lon）时间戳（time）根据上述条件，结合课堂上学习的“DataFrame的常用操作”相关知识，编写代码实现如下要求： 1、查询编号为 5 的出租车的 GPS 数据的前 10 行。 2、统计出租车的总数有多少。分别统计每辆出租车的 GPS 点记录有多少条。

资源截图

小图大图

代码片段和文件信息

from pyspark.shell import sc
from pyspark.sql.types import *
#
rdd =sc.textFile（“xxxx/taxi.csv“）
rdd1 = rdd.map（lambda line:line.split（““））.map（lambda x:tuple（x））
schema = StructType（[StructField（“id“StringType（）True）StructField（“lat“StringType（）True）StructField（“lon“StringType（）True）StructField（“time“StringType（）True）]）
df = rdd1.toDF（schema）

# df.filter（“id==5“）.show（10）
df= df.withColumn（“id“ df[“id“].cast（IntegerType（）））
df1 =df.select（“id“）.distinct（）.count（）
# print（df1）
df2=df.groupBy（“id“）.count（）
df3 = df2.orderBy（“id“）
df3.show（df1）
# df.show（）

属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     文件    26476814  2019-05-15 02:46  taxi.csv
     文件         589  2019-05-16 00:54  taxi.py

上一篇：姿态解算8--成功测距.rar
下一篇：电子线路线性部分非线性部分第四版谢嘉奎答案

共有条评论

使用Dataframe分析出租车的 GPS信息

资源简介

资源截图

代码片段和文件信息

评论

相关资源