资源简介
现有某地区出租车 GPS 定位数据 taxi.csv
数据一共分为 4 列,每一列含义如下表所示:
编号(id) 纬度(lat) 经度(lon) 时间戳(time)
根据上述条件,结合课堂上学习的“DataFrame的常用操作”相关知识,编写代码实现如下要求:
1、查询编号为 5 的出租车的 GPS 数据的前 10 行。
2、统计出租车的总数有多少。
分别统计每辆出租车的 GPS 点记录有多少条。
代码片段和文件信息
from pyspark.shell import sc
from pyspark.sql.types import *
#
rdd =sc.textFile(“xxxx/taxi.csv“)
rdd1 = rdd.map(lambda line:line.split(““)).map(lambda x:tuple(x))
schema = StructType([StructField(“id“StringType()True)StructField(“lat“StringType()True)StructField(“lon“StringType()True)StructField(“time“StringType()True)])
df = rdd1.toDF(schema)
# df.filter(“id==5“).show(10)
df= df.withColumn(“id“ df[“id“].cast(IntegerType()))
df1 =df.select(“id“).distinct().count()
# print(df1)
df2=df.groupBy(“id“).count()
df3 = df2.orderBy(“id“)
df3.show(df1)
# df.show()
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 26476814 2019-05-15 02:46 taxi.csv
文件 589 2019-05-16 00:54 taxi.py
相关资源
- 我的第一本算法书59657
- Philips飞利浦MP3Spark2固件工具Firmware(
- Spark大数据处理 技术 应用与性能优化
- PyQt4 参考手册
- CDH6离线安装 -
- 综合性图像处理系统设计与开发
- apache-hadoop-3.1.0-winutils-master本地开发调
- 《Spark大数据处理 技术、应用与性能
- 自学是门手艺(整理自GitHub李笑来)
- 数学建模教程.pdf
- ODOO_12_DEVELOPMENT_ESSENTIALS_FOURTH_EDITION.
- 航空公司客户价值分析.zip
- Cloudera Manager及CDH从5.4.8升级到5.12.1全
- 基于Django框架的美食博客
- Web Development with Django Cookbook (2016 第
- 基于用户的SparkALS推荐系统和数据源
- Scala实用指南高清带书签
- 朴素贝叶斯邮件分类器(包括源代码
- 电商数据分析平台的设计与实现-论文
- 13个经典量化策略 汇总.pdf
-
Fli
nk,Storm,Spark Streaming三种流框架 - Advanced Analytics with Spark 2nd Edition.pdf
- pyltp-0.2.1-cp35-cp35m-win_amd64.whl pyltp-0.2
- tensorflow中文文档.pdf
- 超级强大灵活的文件批量重命名工具
- pyton tkinter参考手册中文版软件直译
- dlib-19.7.0-cp36-cp36m-win_amd64.whl
- 用户行为大数据分析 PPT
- 《Django By Example》中文带目录文字版
- Attention is all you need实战tensorflow及ke
评论
共有 条评论