资源简介
This is an open repo of all the best practices of writing PySpark that I have learnt from working with the Framework.
代码片段和文件信息
import glob
import os
import os.path as op
import sys
from shutil import copyfile
try:
assert sys.version_info.major == 3
assert sys.version_info.minor > 5
except Assertionerror:
raise RuntimeError(‘converter requires Python 3.6+!‘)
basedir = op.abspath(op.dirname(__file__))
markdown_dir = op.join(basedir ‘src‘)
ipynb_dir = op.abspath(op.join(basedir os.pardir ‘src‘))
os.system(f‘rm -rf {markdown_dir}/*/‘) # delete chapter folders only
# convert ipynb to md
files_ipynb = glob.glob(f‘{ipynb_dir}/**/*.ipynb‘ recursive=True)
for file_ipynb in files_ipynb:
file_ipynb = op.abspath(file_ipynb)
if ‘Random‘ in file_ipynb:
continue
file_md = file_ipynb.replace(‘src‘ ‘gitbook/src‘) \
.replace(‘.ipynb‘ ‘.md‘) \
.replace(‘(‘ ‘<‘).replace(‘)‘ ‘>‘).replace(‘?‘ ‘‘)
os.makedirs(op.dirname(file_md) exist_ok=True)
cmd = f‘jupyter nbconvert --to markdown “{file_ipynb}“ --output “{file_md}“‘
os.system(cmd)
# copy md to md
files_md = glob.glob(f‘{ipynb_dir}/**/*.md‘ recursive=True)
for file_md in files_md:
file_md = op.abspath(file_md)
cp_file_md = file_md.replace(‘src‘ ‘gitbook/src‘)
os.makedirs(op.dirname(cp_file_md) exist_ok=True)
copyfile(file_md cp_file_md)
style = “““\
yle scoped>
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
yle>
“““
# cleanup
files = glob.glob(f‘{markdown_dir}/**/*.md‘ recursive=True)
for file in files:
with open(file ‘r‘) as f:
content = f.read()
content_new = content.replace(style ‘‘)
with open(file ‘w‘) as f:
f.write(content_new)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2019-06-02 20:48 spark-syntax-master\
目录 0 2019-06-02 20:48 spark-syntax-master\.github\
目录 0 2019-06-02 20:48 spark-syntax-master\.github\ISSUE_TEMPLATE\
文件 539 2019-06-02 20:48 spark-syntax-master\.github\ISSUE_TEMPLATE\feature-topic-request.md
文件 1241 2019-06-02 20:48 spark-syntax-master\.gitignore
文件 9605 2019-06-02 20:48 spark-syntax-master\README.md
目录 0 2019-06-02 20:48 spark-syntax-master\gitbook\
文件 103 2019-06-02 20:48 spark-syntax-master\gitbook\.bookignore
文件 896 2019-06-02 20:48 spark-syntax-master\gitbook\Dockerfile
文件 1388 2019-06-02 20:48 spark-syntax-master\gitbook\Makefile
文件 879 2019-06-02 20:48 spark-syntax-master\gitbook\Vagrantfile
文件 679 2019-06-02 20:48 spark-syntax-master\gitbook\book.json
文件 1759 2019-06-02 20:48 spark-syntax-master\gitbook\convert-ipynb2markdown.py
文件 4761 2019-06-02 20:48 spark-syntax-master\gitbook\gitbook-auto-summary.py
文件 184686 2019-06-02 20:48 spark-syntax-master\gitbook\package-lock.json
文件 1034 2019-06-02 20:48 spark-syntax-master\gitbook\package.json
目录 0 2019-06-02 20:48 spark-syntax-master\gitbook\src\
目录 0 2019-06-02 20:48 spark-syntax-master\gitbook\src\Chapter 1 - Basics\
文件 2725 2019-06-02 20:48 spark-syntax-master\gitbook\src\Chapter 1 - Basics\Section 1 - Useful Material.md
文件 2440 2019-06-02 20:48 spark-syntax-master\gitbook\src\Chapter 1 - Basics\Section 2 - Creating your First Data ob
文件 3894 2019-06-02 20:48 spark-syntax-master\gitbook\src\Chapter 1 - Basics\Section 3 - Reading your First Dataset.md
文件 2712 2019-06-02 20:48 spark-syntax-master\gitbook\src\Chapter 1 - Basics\Section 4 - More Comfortable with SQL.md
目录 0 2019-06-02 20:48 spark-syntax-master\gitbook\src\Chapter 2 - Exploring the Spark APIs\
文件 2696 2019-06-02 20:48 spark-syntax-master\gitbook\src\Chapter 2 - Exploring the Spark APIs\Section 1.1 - Struct Types.md
文件 3256 2019-06-02 20:48 spark-syntax-master\gitbook\src\Chapter 2 - Exploring the Spark APIs\Section 1.2 - Arrays and Lists.md
文件 4492 2019-06-02 20:48 spark-syntax-master\gitbook\src\Chapter 2 - Exploring the Spark APIs\Section 1.3 - Maps and Dictionaries.md
文件 13512 2019-06-02 20:48 spark-syntax-master\gitbook\src\Chapter 2 - Exploring the Spark APIs\Section 1.4 - Decimals and Why did my Decimals Overflow.md
文件 2848 2019-06-02 20:48 spark-syntax-master\gitbook\src\Chapter 2 - Exploring the Spark APIs\Section 2 - Performing your First Transformations.md
文件 5542 2019-06-02 20:48 spark-syntax-master\gitbook\src\Chapter 2 - Exploring the Spark APIs\Section 2.1 - Looking at Your Data.md
文件 8493 2019-06-02 20:48 spark-syntax-master\gitbook\src\Chapter 2 - Exploring the Spark APIs\Section 2.10 - Spark Functions aren‘t Enough I Need my Own!.md
文件 10720 2019-06-02 20:48 spark-syntax-master\gitbook\src\Chapter 2 - Exploring the Spark APIs\Section 2.11 - Unionizing Multiple Datafr
............此处省略80个文件信息
相关资源
- Python-DeepMoji模型的pyTorch实现
- Python-使用DeepFakes实现YouTube视频自动换
- Python-一系列高品质的动漫人脸数据集
- Python-Insightface人脸检测识别的最小化
- Python-自然场景文本检测PSENet的一个
- Python-在特征金字塔网络FPN的Pytorch实现
- Python-PyTorch实时多人姿态估计项目的实
- Python-用PyTorch10实现FasterRCNN和MaskRCNN比
- Python-心脏核磁共振MRI图像分割
- Python-基于YOLOv3的行人检测
- Python-RLSeq2Seq用于SequencetoSequence模型的
- Python-PyTorch对卷积CRF的参考实现
- Python-高效准确的EAST文本检测器的一个
- Python-pytorch实现的人脸检测和人脸识别
- Python-UNet用于医学图像分割的嵌套UN
- Python-TensorFlow弱监督图像分割
- Python-基于tensorflow实现的用textcnn方法
- Python-Keras实现Inceptionv4InceptionResnetv1和
- Python-pytorch中文手册
- Python-FastSCNN的PyTorch实现快速语义分割
- Python-滑动窗口高分辨率显微镜图像分
- Python-使用MovieLens数据集训练的电影推
- Python-机器学习驱动的Web应用程序防火
- Python-subpixel利用Tensorflow的一个子像素
-
Python-汉字的神经风格转移Neuralst
y - Python-神经网络模型能够从音频演讲中
- Python-深度增强学习算法的PyTorch实现策
- Python-基于深度学习的语音增强使用
- Python-基于知识图谱的红楼梦人物关系
- Python-STGAN用于图像合成的空间变换生
评论
共有 条评论