当前在线人数13983
首页 - 分类讨论区 - 电脑网络 - 葵花宝典版 -阅读文章
未名交友
[更多]
[更多]
文章阅读:更好整合 kubernete 和 airflow
[同主题阅读] [版面: 葵花宝典] [作者:shuaide] , 2019年11月03日14:16:35
shuaide
进入未名形象秀
我的博客
[上篇] [下篇] [同主题上篇] [同主题下篇]

发信人: shuaide (卖火柴的小女孩), 信区: Programming
标  题: 更好整合 kubernete 和 airflow
发信站: BBS 未名空间站 (Sun Nov  3 14:16:35 2019, 美东)

最近组里有一个project,跑spark sql, input就是SQL读取snowflake,output是
dataframe存到 AWS s3


有趣的地方在于每个sql跑的时候要考虑dependencies,因为有些sql depends on 其他
sql job产生的dataframe,不能全部乱序一起跑。所以搞了个dag用拓扑排序解决了。

再后来发现AWS 的account同时最多用300个EC2,现在跑的时候是用那些EC2来构造EMR
。每次月初跑的时候,别的team也在share这个AWS account,所以真正跑的时候,不够
EC2。每个月现在需要大约跑50个sql

现在的解决方案是用一台memory足够大的EMR来按拓扑排序来跑那50个spark sql job。
问题是,能不能做到用kubernete做cluster management管理整个AWS SHARED ACCOUNT
下那300个EC2,然后用airflow或者KUBEFLOW来把50多个job schedule上不止一个EMR上
呢?

希望能做到多个EMR同时跑多个没有dependencies的spark sql job,而不是一个EMR按
顺序来跑50个job。目前已经有纯java code自己写resource manager和scheduler的方
案,想知道能不能在kubernete + {kubeflow | airflow}上做得更好
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2601:196:4701:b]

[上篇] [下篇] [同主题上篇] [同主题下篇]
[转寄] [转贴] [回信给作者] [修改文章] [删除文章] [同主题阅读] [从此处展开] [返回版面] [快速返回] [收藏] [举报]
 
回复文章
标题:
内 容:

未名交友
将您的链接放在这儿

友情链接


 

Site Map - Contact Us - Terms and Conditions - Privacy Policy

版权所有,未名空间(mitbbs.com),since 1996