答:本文邀请我payton来回答,为我献上份pyspark的入门指南,详细介绍pyspark与tesla、洛子交互操作~
一、idex调试目前在idex上可以不调试pyspark程序,在个人区-我的项目空白文档一个文件夹,如pyspark,右键点击“再新增文件”,选择ipynb创建文件。
就ok啦,这一次这个可以旅途快乐的现场调试了
二、pysparkftp访问tdwtdw接口信息可可以参考
这里贴出一个读取文件tdw它表示例:
三、在tesla上重新部署任务这里附上一个虫洞完整示例:
1、在tesla上启动任务需先配置资源
2、在再输入组件里选择类型一个虫洞依赖感任务
3、配置虫洞依赖性太强
这里应注意依赖感周期{yyyymmdd}默认是t-1的,跟tdw的时间同一。
4、配置pyspark组件
在组件-机器学习里拉入一个pyspark组件
1)配置如何组件参数
上传在idex上设置参数的脚本,并配置如何算法参数
2)电脑配置资源参数
3)配置特殊参数
4)再添加调度时间
假如是需要取消后online资源调度,再点击已取消即可
5、快速对接洛子配置虫洞任务
tesla任务配置可以了了之后,那么还是需要一个虫洞任务主要是用于确认该tesla任务有无结束。
在洛子上新建一个虫洞任务:
这里需要注意什么目标类型中,选择节点,检查id即tesla任务id:
开始时间和结束时间均需精确到秒(${yyyymmdd}000000)
行啦,到这里整个tesla虫洞流程就搞定了。
pandas是python中非常强横无比的数据分析库,下面我来说说看我的看法,供大家可以参考做个参考:
的两大函数(series和dataframe函数,series做序列处理,dataframe做表格方面处理)
2.数据表信息打开系统(如:打开系统维度;查找基本信息;data.dtype查找列的类型)
做数据清洗(如:()确定是否回头有时间值;(value0)填充空值等)
在这里不全都详细地讲解,想深入了解的朋友,请看我的“pandas知识大总结”的文章,文章连接地址在文末。
做数据预处理
做数据提纯工作
做数据汇总
做数据统计
无法读取csv和excel表格的信息
写入信息进csv和excel表格中。
详细点的pandas具体详细用法,请看小编的文章,文章链接是:
以上是我的看法,期望对你有帮助。