资源简介
现有某地区出租车 GPS 定位数据 taxi.csv
数据一共分为 4 列,每一列含义如下表所示:
编号(id) 纬度(lat) 经度(lon) 时间戳(time)
根据上述条件,结合课堂上学习的“DataFrame的常用操作”相关知识,编写代码实现如下要求:
1、查询编号为 5 的出租车的 GPS 数据的前 10 行。
2、统计出租车的总数有多少。
分别统计每辆出租车的 GPS 点记录有多少条。

代码片段和文件信息
from pyspark.shell import sc
from pyspark.sql.types import *
#
rdd =sc.textFile(“xxxx/taxi.csv“)
rdd1 = rdd.map(lambda line:line.split(““)).map(lambda x:tuple(x))
schema = StructType([StructField(“id“StringType()True)StructField(“lat“StringType()True)StructField(“lon“StringType()True)StructField(“time“StringType()True)])
df = rdd1.toDF(schema)
# df.filter(“id==5“).show(10)
df= df.withColumn(“id“ df[“id“].cast(IntegerType()))
df1 =df.select(“id“).distinct().count()
# print(df1)
df2=df.groupBy(“id“).count()
df3 = df2.orderBy(“id“)
df3.show(df1)
# df.show()
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 26476814 2019-05-15 02:46 taxi.csv
文件 589 2019-05-16 00:54 taxi.py
相关资源
- Pythonamp;课堂amp;笔记(高淇amp;400;集第
- Python中Numpy库最新教程
- 用python编写的移动彩信的发送程序
- Python全栈学习笔记面向对象大作业:
- python实现的ftp自动上传、下载脚本
- Python版的A*寻路算法
- IronPython IDE
- pip-10.0.1.tar.gz
- Data Science from Scratch 2nd Edition
- shape_predictor_68_face_landmarks.dat.bz2 68个标
- 爬取豆瓣电影TOP250程序,包含非常详
- 构建用户自画像视频教程真实企业项
- Spark技术内幕 深入解析Spark内核架构设
- 中文维基百科语料库百度网盘网址.
- 基于Spark的PSO并行计算
- MSCNN_dehaze.rar
- 爬取豆瓣排行榜电影数据(含GUI界面
- 字典文本资源
- Brainfuck / OoK 解码脚本
- spark streaming技术内幕与源码剖析
- 案例实战信用卡欺诈检测数据集
- Graph Algorithms:Practical Examples in Apach
- The Apache Ignite book PDF(正版购买的全网
- 招商策略_抱团启示录那些年我们一起
- sip-4.19.zip
- 树莓派3b+学习使用教程
- numpy 中文学习手册
- spark 机器学习 第二版 含源码 高清版
- pytorch-1.4.0-py3.7_cpu_0.tar.bz2
- 机器学习实战 高清完整版PDF
评论
共有 条评论