阿里云也就是指的云主机.它可以简单的理解成是一台虚拟服务器.是类似VPS的东西.但与VPS还有所不同.VPS是在一台物理服务器上划分出来一部分的资源搭建而成.一旦母机出现故障.上面所有的VPS将受影响.而云主机是在一组集群服务器上划分出来的多个类似独立主机的部分.集群中的每台机器都有云主机的一个镜像备份.当其中一台机器出现故障时.系统会自动访问其他机器上的备份.所以在安全与稳定性方面.云主机更加强大.
云主机与服务器一样.有独立的IP.内存.带宽等.用户可以根据需要安装各种操作系统以及配置各种网站运行环境.在功能以及使用上与服务器一模一样.同样因为是虚拟的.费用通常比服务器要便宜的多.主要是针对中小规模的应用来使用.
海腾数据杨闯为你解答.若有相关问题需要帮忙的可以来找我.
问题二:阿里云服务器是什么 阿里云云服务器(Elastic pute Service, ECS)是一种处理能力可弹性伸缩的计算服务,其管理方式比物理服务器更简单高效。 阿里云云服务器帮助您快速构建更稳定、安全的应用,降低开发运维的难度和整体IT成本,使您能够更专注于核心业务创新。
问题三:阿里云服务器用的什么cpu 一般是Intel(R) Xeon(R) CPU E5-2430 0 @ 2.20GHz 看型号,有个别是2.0GHz
问题四:新浪云服务器和阿里云服务器有什么区别?谢谢谢谢! 云ECS服务器和轻云服务器都是独享CPU、独享内存、独享带宽、BGP多线接入。但轻云提供了内部控制面板和web软件安装如数据库等,适合初级用户;ECS云服务器适合有一定技术能力的用户,并且配置型号更多
问题五:阿里云的服务器是网通还是电信? 你好.阿里云是多线BGP机房.机房除了电信.网通以外.还有其他线路的接入.目前国内有越来越多的双线机房向多线发展.这样的目的是为了保障全国各地不同线路用户的访问速度.若是追求高性价比的话.推荐你选择中原地区的BGP多线接入.中原占据地理位置优势且带宽充足.在全国各地访问的速度与稳定性会比较均衡.
海腾数据杨闯为你解答.若有云主机相关问题需要帮忙的可以来找我.
问题六:如何使用阿里云服务器 打开浏览器,找到阿里云服务器官网。进入官网后找到云服务器后点击立即购买,进入服务器选择界面后点击立即购买。提示登录自己的淘宝号,进入购买页面。
选择好自己的服务器后点击立即购买,使用支付宝支付(其他方式也行)。(提示:如果选择Windows系统,则要在cpu选择至少1gb)
购买完成后,会收到一个ip地址,用户名,密码。打开电脑开始-->所有程序--->附件-->远程连接。输入ip,用户名,密码即可进入。
问题七:阿里云服务器常见问题有哪些 远程连接服务器For Windows
Windows系统远程桌面无法连接的检查
Mac远程桌面链接ECS Windows2012提示远程桌面连接无法验证您希望连接的计算机的身份
ECS Windows系统多人使用相同账号同时远程登陆
ECS服务器Windows 2008设置远程连接断开后的自动注销时间
ECS Windows 2008 远程连接提示“由于没有远程桌面授权服务器可以提供许可证”的处理办法
ECS服务器Windows 服务器远程登录黑屏
Windows系统修改终端服务导致无法远程
ECS Windows远程桌面访问时出现检测到一个协议出错(代码 0x1104)出错
安卓手机远程桌面连接Windows系统的ECS
Windows 2008远程桌面时出现的界面与上次断开时不同
ECS Windows系统服务所有禁用后重启导致系统无法远程桌面连接
ECS Windows服务器安装安全狗后无法远程连接
ECS Windows2003系统服务器修改远程连接数的办法
ECS Windows服务器远程桌面经常掉线
ECS Windows Server 2012 无法远程且VNC鼠标不能动
windows2003远程登陆报错: 远程计算机上的Windows登录软件被不兼容的软件Ginastub.dll取代
ECS Windows远程桌面分辨率设置
远程桌面复制黏贴无法使用
ECS Windows 2003系统IPSEC服务异常导致无法远程
ECS Windows系统远程连接提示终端服务器超出了最大允许连接
ECS Windows Server如何购买微软的Remote Destop Services服务
Windows服务器重启后自检,提示大量注册表在检测中
ECS windows系统开始后一直是蓝色背景屏幕(非蓝屏crash)的解决方案
ECS Windows服务器VPN连接报错:出错628 解决办法
Windows 2008系统远程协助无法勾选
ECS Windows远程桌面中切换会话
Windows操作系统取消登录显示输入ctrl+alt+del的办法
ECS Windows服务器桌面分辨率过高导致VNC花屏处理办法
ECS Windows2003远程登陆时提示您已经被拒绝登录到终端服务器的解决办法
ECS服务器使用本地软件进行远程连接办法
ECS云服务器远程报错secured by secureRDP
ECS Windows远程桌面连接被拒绝,因为没有授权此用户帐户进行远程登录问题排查办法
ECS Win2008远程时提示要登录到此远程计算机,您必须被授予允许通过终端登录登录的权限的解决办法
Windows服务器无法远程登录提示“试图登录 但是网络登陆服务没有启动”
ECS Windows系统远程链接超过最大连接数
ECS Windows无法远程登录同时外网全部端口不通
Windows 2008远程连接提示“本地会话管理器 服务未能登录”的处理办法
ECS Windows2008如何实现一个账号只允许一个客户端登录
ECS Windows2008 2012如何设置同时只允许一个用户远程连接服务器
windows 无法远程
ECS Windows远程连接失败提示协议出错会话中断
ECS控制台无法连接管理终端
ECS Windows 2012修改远程桌面端口
ECS Windows 2......>>
问题八:阿里云到底是什么啊? 阿里巴巴做的云计算产品,什么叫云计算你可以百度一下,国内类似的云主机产品还有腾讯云,盛大云,太平洋臻云,西部云,美橙云等等。
云主机是基于云计算平台的一种虚拟的主机服务器产品,特点是资源分配配置灵活,安全性能强。与之前的VPS和独立服务器产品相比有一定的优势。
你也可以把云主机理解为一台基于云平台的服务器或主机,通过远程连接登陆后,你会发现他就是一台服务器电脑,你在本地电脑上能做的事情,在这台云主机服务器上,你都可以做到。
如果你要使用JSP项目,那么你要自己在云主机服务器上安装相应的应用脚本和数据库等搭建你自己需要的环境。如果不会可在网上查找JSP环境搭建教程
问题九:如何选择阿里云云服务器ECS操作系统 方法/步骤
首先,我们要清楚的便是每个系统之间的差别,以及在阿里云上的差别:
1. Windows
1.1) 系统内含正版激活。
1.2) 适合于运行Windows下开发的程序,如等。
1.3) 支持SQL Server等数据库(需自行安装)。
1.4) 可以使用远程桌面方式登录进行管理。
注:512内存不支持选择Windows系统,1G以上内存才能很好支持该系统。
2. Linux
2.1.1) 最流行的服务器端操作系统,强大的安全性和稳定性。
2.1.2) 免费且开源,轻松建立和编译源代码。
2.1.3) 通过SSH方式远程访问您的云服务器。
2.1.4) 一般用于高性能web等服务器应用,支持常见的PHP/Python等编程语言,支持MySQL等数据库(需自行安装)。
2.2 CentOS (推荐)请使用yum方式在线安装软件。
2.3 Ubuntu请使用aptitude方式在线安装软件。
2.4 Debian请使用apt-get方式在线安装软件。
2.5 Aliyun Linux(兼容 Red Hat)请使用yum方式在线安装软件,yum源需要自行购买redhat的商业支持。
操作系统更换规则:
1.更换操作系统
更换系统之前请先停止云服务器,云服务器更换操作系统会直接重置系统盘【IP不变】,系统盘数据将会丢失!
请您注意:
1.1. 更换操作系统会使云服务器的系统盘更换为新的镜像,原有系统盘的数据都会丢失。
1.2. 云服务器数据盘的数据不会受到影响。
1.3. 建议您将系统盘的个人数据备份到数据盘中,或采用其他方式进行备份。
1.4. 因您没有备份系统盘相关个人数据而造成的数据丢失,阿里云不承担责任。
1.5. 内存为512M云服务器不支持更换Windows操作系统。
2. CPU/内存与操作系统的选择
2.1)如需选择/变更4G以上内存请您选择64位操作系统(32位操作系统存在寻址限制)。
2.2) 如您选择32位操作系统,4G以上内存页面暂不展示,只有云服务器更换为64位操作系统才可展示。
2.3)Windows 32位操作系统支持最高CPU为4核。
2.4)配置:[CPU:1核内存:512M] 的云服务器不支持选择/更换Windows操作系统。
Windows篇
阿里云提供了6种window系统,涵盖了Server 2003 sp2以及Server 2008 R2这两大类操作系统。
其中又分为了32位和64位
(1)如何选择32位还是64位
32位系统相比64位系统,最主要的限制体现在内存的大小上。因为32位本身的限制,其最大只可支持到4GB内存,如果您的网站要使用高于4GB的内存或者以后有扩充内存寻到4GB以上的打算,请使用64位操作系统。
(2)选择2003还是选择2008
对于windows来说,我个人建议是选择版本越高的越好。相对来说新版本漏洞相对来说更少,而且IIS 7.5相对于IIS6提供了更多的功能以及更方便的控制台。但是考虑到大家的机器配置不同,在此给出一下几种选择:
A:配置低于双核 2GB内存:选择server2003 不装数据库配置双核4GB: server 2003 mssql 或者 server 2008 R2 不带数据库
B:配置高于双核 8GB:serever 2008 R2 mssql 建议如果大家要在云服务器上跑数据库,尽量选择大内存配置,或者降低配置去选用RDS
(3)中英文、安全加固版如何选择
这个就依据大家各自的喜好来了,在此不多说了至于W......>>
问题十:在网上经常看到什么阿里云腾讯云服务器,是什么意思?有什么作用?求详细解释。百度百科有点懵逼 阿里云,腾讯云是两个品牌的名字。云服务器主要用来存放站点数据,搭建网站使用!
搭建服务器,首先需要解决动态IP的问题,本地网络每次联网IP地址都不一样,可以选择花生壳或者购买一条IP!然后就是配置服务器环境,如果你需要的是php+mysql的环境可以选择护卫神这个比较好用安全!如果想用Linux系统,可以安装一个wdcp面板,该面板是免费的管理也很方便! 如果有疑问请继续追问!
稳网周明为你解答,希望能够帮到你!
阿里云是阿里巴巴的吗
阿里云是阿里巴巴的吗,阿里云全称阿里云计算有限公司,阿里云的成长潜力可谓非常一般,可以称得上是全球的几大独角兽之一。是一个又大又快的计算机平台。阿里云是阿里巴巴的吗。
阿里云是阿里巴巴的吗1阿里云是阿里巴巴集团旗下云计算品牌。
阿里巴巴网络技术有限公司(简称:阿里巴巴)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。
阿里云是全球卓越的云计算技术和服务提供商。致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。创立于2009年,在杭州、北京、硅谷等地设有研发中心和运营机构。
阿里云使用技巧:
1、阿里云可以购买服务器,打开阿里云官网,登录个人账号,打开控制台,点击云服务ECS-,选择实例,选择创建实例,之后根据需要选择相关服务即可。
2、阿里云账号可以注销,进入阿里云官网,登录阿里云账号,点击右上角的个人头像,点击用户名,打开账号管理页面,点击注销账号,点击获取验证码,最后输入验证码即可注销。
3、阿里云无法登录,可能是网络异常导致,可以切换网络再使用。
资料拓展:2018年11月26日,阿里巴巴集团宣布阿里云升级阿里云智能,加强技术、智能互联网的投入和建设。2019年6月18日,阿里钉钉进入阿里云智能事业群,钉钉CEO陈航向阿里巴巴集团CTO兼阿里云智能事业群总裁张建锋汇报。
阿里云是阿里巴巴的吗2如今的互联网行业也是发展迅速,这让许多企业也随之纷纷崛起。就像新浪,网易,阿里巴巴,腾讯一样,都成为了互联网的巨头了。其中最有名的就是马云建立的阿里巴巴了。旗下的淘宝、天猫、蚂蚁金服、支付宝等,无论哪一样都给我们的生活来了非常大的便利。
或许大家对于阿里巴巴旗下的淘宝和支付宝印象最为深刻,因为我们的日常生活就经常接触到这些东西。不过对于其它的就不是非常的了解了。其实阿里巴巴还藏着一个互联网的“独角兽”。那就是阿里云。它的成长潜力可谓非常一般,可以称得上是全球的几大独角兽之一。是一个又大又快的计算机平台。
以前要回家过年的时候用支付宝买车票,服务器就经常会崩溃。可想而知过年的时候人们买车票是多么繁忙,而现在淘宝双十一比过年还要繁忙,但是服务器为什么就不会崩溃呢?原因是阿里云可以处理了每秒十几万的订单,可想而知,阿里云的成长是多么的恐怖了。那到底是谁在背后支撑这么强大的阿里云呢?
他就是阿里云的创始人王坚。可能大家并不是很了解王坚是谁,用我们的话来说就是一个非常厉害的人物,当过导师、教授、主任、编委、副院长等。这些职位都造就了现在的他。不过他刚刚在阿里巴巴创建阿里云的时候,因为技术难度非常的高,以至于他在起手的时候,每年就烧了10亿元。但是没有任何的成果,于是这位阿里云的创始人就这样不被人们看好。但唯独作为阿里巴巴老大的马云却一直在坚信着他,给予他资金以及技术的支持。最终他没有让马云失望,2014年阿里云正式上线了,并且获得了第一桶金。
王坚并没有因此而放弃了研究,为了不辜负马云的信任,自己又研发出了一个“飞天系统”。这个系统能够连接全球的互联网而组成一台超级计算机。并且打破了4项世界纪录,是世界上最顶尖的系统之一,就连美国都非常的羡慕。后面通过美国的相关机构评估,“飞天系统”的价值在60000亿,也就是说不被人们看好的阿里云创始人如今创造出了60000亿的价值。其中马云也是有着半的功劳。现在总算知道马云为什么能够铸造阿里巴巴的辉煌了。马云在眼光的方面真的非常的独到,或许人真的要遇到一个伯乐后才能成长得更快。不知道大家怎么看?
阿里云是阿里巴巴的'吗3首先在当前时代背景下,我们看到云一字就能联想到大数据、云数据这类东西,那么阿里云也是这样,是阿里巴巴旗下的云计算公司
阿里云(全称:阿里云计算有限公司)是一家云计算及人工智能科技公司,致力于与全球领先的云计算厂商密切合作,并提供多样化的项目促成稳定巩固的长期发展。阿里云带动了中国云计算的发展,从零搭建自主的飞天系统,在天猫双11全球狂欢节、12306春运购票等应用场景中,始终保持着良好的稳定性。还曾帮助用户抵御全球互联网史上最大的DDoS攻击。阿里云最先在香港设立了第一个中国大陆以外的数据中心,而后在新加坡、美国西部和东部也先后设立了数据中心。未来,阿里云还在迪拜、欧洲、日本等地开设新的数据中心,输出中国的高科技服务。目前,阿里云在中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本等13个地域开设了数据中心
阿里云的产品共分为以下几大块:
弹性计算
这包括基础云产品,如云服务器ECS,云服务器ECS是一种可弹性扩展、安全、稳定、易用的计算服务,用户可以像用水和电一样按需购买云服务器,而不必承担高昂的服务器硬件运维成本。云服务器可以根据自己的业务实际需要随意升级或者降配,也可以根据业务高发时期临时增加带宽,让服务器的使用变得非常方便。
弹性计算的产品还包括负载均衡SLB,负载均衡SLB对多台云服务器进行流量分发服务。为了应对业务需求,企业往往会有多台云服务器提供服务器,负载均衡就是将用户的请求按照企业自定义的策略转发到最优的服务器。
数据库
云数据库RDS:完全兼容MySQL,SQLServer,PostgreSQL等,相对于云服务器,云数据库属于非必需品,因为用户完全可以在云服务器上搭建数据库。由于自身业务发展需要,将数据库独立出来,这时候就需要阿里云的RDS云数据库了。
存储
阿里云存储产品有很多种,最基本也用得最多的是对象存储,对象存储OSS:海量、安全和高可靠的云存储服务。如果企业静态文件较多(图片、视频等大文件),可以将大量的存储内容转移独立出来,放到对象存储OSS里面。
网络
CDN:跨运营商、跨地域全网覆盖的网络加速服务
专有网络 VPC:帮您轻松构建逻辑隔离的专有网络
高速通道:高速稳定的VPC互联和专线接入服务
NAT网关:支持NAT转发、共享带宽的VPC网关
2018年6月20日,阿里云宣布联合三大运营商全面对外提供IPv6服务。
除此之外,阿里云还有大数据、云安全、人工智能、域名与云通信等产品,阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。
本文主要整理自阿里巴巴计算平台事业部资深技术专家莫问在云栖大会的演讲。
合抱之木,生于毫末
随着人工智能时代的降临,数据量的爆发,在典型的大数据的业务场景下数据业务最通用的做法是:选用批处理的技术处理全量数据,采用流式计算处理实时增量数据。在绝大多数的业务场景之下,用户的业务逻辑在批处理和流处理之中往往是相同的。但是,用户用于批处理和流处理的两套计算引擎是不同的。
因此,用户通常需要写两套代码。毫无疑问,这带来了一些额外的负担和成本。阿里巴巴的商品数据处理就经常需要面对增量和全量两套不同的业务流程问题,所以阿里就在想,我们能不能有一套统一的大数据引擎技术,用户只需要根据自己的业务逻辑开发一套代码。这样在各种不同的场景下,不管是全量数据还是增量数据,亦或者实时处理,一套方案即可全部支持, 这就是阿里选择Flink的背景和初衷 。
目前开源大数据计算引擎有很多选择,流计算如Storm,Samza,Flink,Kafka Stream等,批处理如Spark,Hive,Pig,Flink等。而同时支持流处理和批处理的计算引擎,只有两种选择:一个是Apache Spark,一个是Apache Flink。
从技术,生态等各方面的综合考虑。首先,Spark的技术理念是基于批来模拟流的计算。而Flink则完全相反,它采用的是基于流计算来模拟批计算。
从技术发展方向看,用批来模拟流有一定的技术局限性,并且这个局限性可能很难突破。而Flink基于流来模拟批,在技术上有更好的扩展性。从长远来看,阿里决定用Flink做一个统一的、通用的大数据引擎作为未来的选型。
Flink是一个低延迟、高吞吐、统一的大数据计算引擎。在阿里巴巴的生产环境中,Flink的计算平台可以实现毫秒级的延迟情况下,每秒钟处理上亿次的消息或者事件。同时Flink提供了一个Exactly-once的一致性语义。保证了数据的正确性。这样就使得Flink大数据引擎可以提供金融级的数据处理能力。
Flink在阿里的现状
基于Apache Flink在阿里巴巴搭建的平台于2016年正式上线,并从阿里巴巴的搜索和推荐这两大场景开始实现。目前阿里巴巴所有的业务,包括阿里巴巴所有子公司都采用了基于Flink搭建的实时计算平台。同时Flink计算平台运行在开源的Hadoop集群之上。采用Hadoop的YARN做为资源管理调度,以 HDFS作为数据存储。因此,Flink可以和开源大数据软件Hadoop无缝对接。
目前,这套基于Flink搭建的实时计算平台不仅服务于阿里巴巴集团内部,而且通过阿里云的云产品API向整个开发者生态提供基于Flink的云产品支持。
Flink在阿里巴巴的大规模应用,表现如何?
规模: 一个系统是否成熟,规模是重要指标,Flink最初上线阿里巴巴只有数百台服务器,目前规模已达上万台,此等规模在全球范围内也是屈指可数;
状态数据: 基于Flink,内部积累起来的状态数据已经是PB级别规模;
Events: 如今每天在Flink的计算平台上,处理的数据已经超过万亿条;
PS: 在峰值期间可以承担每秒超过4.72亿次的访问,最典型的应用场景是阿里巴巴双11大屏;
Flink的发展之路
接下来从开源技术的角度,来谈一谈Apache Flink是如何诞生的,它是如何成长的?以及在成长的这个关键的时间点阿里是如何进入的?并对它做出了那些贡献和支持?
Flink诞生于欧洲的一个大数据研究项目StratoSphere。该项目是柏林工业大学的一个研究性项目。早期,Flink是做Batch计算的,但是在2014年,StratoSphere里面的核心成员孵化出Flink,同年将Flink捐赠Apache,并在后来成为Apache的顶级大数据项目,同时Flink计算的主流方向被定位为Streaming,即用流式计算来做所有大数据的计算,这就是Flink技术诞生的背景。
2014年Flink作为主攻流计算的大数据引擎开始在开源大数据行业内崭露头角。区别于Storm,Spark Streaming以及其他流式计算引擎的是:它不仅是一个高吞吐、低延迟的计算引擎,同时还提供很多高级的功能。比如它提供了有状态的计算,支持状态管理,支持强一致性的数据语义以及支持Event Time,WaterMark对消息乱序的处理。
Flink核心概念以及基本理念
Flink最区别于其他流计算引擎的,其实就是状态管理。
什么是状态?例如开发一套流计算的系统或者任务做数据处理,可能经常要对数据进行统计,如Sum,Count,Min,Max,这些值是需要存储的。因为要不断更新,这些值或者变量就可以理解为一种状态。如果数据源是在读取Kafka,RocketMQ,可能要记录读取到什么位置,并记录Offset,这些Offset变量都是要计算的状态。
Flink提供了内置的状态管理,可以把这些状态存储在Flink内部,而不需要把它存储在外部系统。这样做的好处是第一降低了计算引擎对外部系统的依赖以及部署,使运维更加简单;第二,对性能带来了极大的提升:如果通过外部去访问,如Redis,HBase它一定是通过网络及RPC。如果通过Flink内部去访问,它只通过自身的进程去访问这些变量。同时Flink会定期将这些状态做Checkpoint持久化,把Checkpoint存储到一个分布式的持久化系统中,比如HDFS。这样的话,当Flink的任务出现任何故障时,它都会从最近的一次Checkpoint将整个流的状态进行恢复,然后继续运行它的流处理。对用户没有任何数据上的影响。
Flink是如何做到在Checkpoint恢复过程中没有任何数据的丢失和数据的冗余?来保证精准计算的?
这其中原因是Flink利用了一套非常经典的Chandy-Lamport算法,它的核心思想是把这个流计算看成一个流式的拓扑,定期从这个拓扑的头部Source点开始插入特殊的Barries,从上游开始不断的向下游广播这个Barries。每一个节点收到所有的Barries,会将State做一次Snapshot,当每个节点都做完Snapshot之后,整个拓扑就算完整的做完了一次Checkpoint。接下来不管出现任何故障,都会从最近的Checkpoint进行恢复。
Flink利用这套经典的算法,保证了强一致性的语义。这也是Flink与其他无状态流计算引擎的核心区别。
下面介绍Flink是如何解决乱序问题的。比如星球大战的播放顺序,如果按照上映的时间观看,可能会发现故事在跳跃。
在流计算中,与这个例子是非常类似的。所有消息到来的时间,和它真正发生在源头,在线系统Log当中的时间是不一致的。在流处理当中,希望是按消息真正发生在源头的顺序进行处理,不希望是真正到达程序里的时间来处理。Flink提供了Event Time和WaterMark的一些先进技术来解决乱序的问题。使得用户可以有序的处理这个消息。这是Flink一个很重要的特点。
接下来要介绍的是Flink启动时的核心理念和核心概念,这是Flink发展的第一个阶段;第二个阶段时间是2015年和2017年,这个阶段也是Flink发展以及阿里巴巴介入的时间。故事源于2015年年中,我们在搜索事业部的一次调研。当时阿里有自己的批处理技术和流计算技术,有自研的,也有开源的。但是,为了思考下一代大数据引擎的方向以及未来趋势,我们做了很多新技术的调研。
结合大量调研结果,我们最后得出的结论是:解决通用大数据计算需求,批流融合的计算引擎,才是大数据技术的发展方向,并且最终我们选择了Flink。
但2015年的Flink还不够成熟,不管是规模还是稳定性尚未经历实践。最后我们决定在阿里内部建立一个Flink分支,对Flink做大量的修改和完善,让其适应阿里巴巴这种超大规模的业务场景。在这个过程当中,我们团队不仅对Flink在性能和稳定性上做出了很多改进和优化,同时在核心架构和功能上也进行了大量创新和改进,并将其贡献给社区,例如:Flink新的分布式架构,增量Checkpoint机制,基于Credit-based的网络流控机制和Streaming SQL等。
阿里巴巴对Flink社区的贡献
我们举两个设计案例,第一个是阿里巴巴重构了Flink的分布式架构,将Flink的Job调度和资源管理做了一个清晰的分层和解耦。这样做的首要好处是Flink可以原生的跑在各种不同的开源资源管理器上。经过这套分布式架构的改进,Flink可以原生地跑在Hadoop Yarn和Kubernetes这两个最常见的资源管理系统之上。同时将Flink的任务调度从集中式调度改为了分布式调度,这样Flink就可以支持更大规模的集群,以及得到更好的资源隔离。
另一个是实现了增量的Checkpoint机制,因为Flink提供了有状态的计算和定期的Checkpoint机制,如果内部的数据越来越多,不停地做Checkpoint,Checkpoint会越来越大,最后可能导致做不出来。提供了增量的Checkpoint后,Flink会自动地发现哪些数据是增量变化,哪些数据是被修改了。同时只将这些修改的数据进行持久化。这样Checkpoint不会随着时间的运行而越来越难做,整个系统的性能会非常地平稳,这也是我们贡献给社区的一个很重大的特性。
经过2015年到2017年对Flink Streaming的能力完善,Flink社区也逐渐成熟起来。Flink也成为在Streaming领域最主流的计算引擎。因为Flink最早期想做一个流批统一的大数据引擎,2018年已经启动这项工作,为了实现这个目标,阿里巴巴提出了新的统一API架构,统一SQL解决方案,同时流计算的各种功能得到完善后,我们认为批计算也需要各种各样的完善。无论在任务调度层,还是在数据Shuffle层,在容错性,易用性上,都需要完善很多工作。
篇幅原因,下面主要和大家分享两点:
● 统一 API Stack
● 统一 SQL方案
先来看下目前Flink API Stack的一个现状,调研过Flink或者使用过Flink的开发者应该知道。Flink有2套基础的API,一套是DataStream,一套是DataSet。DataStream API是针对流式处理的用户提供,DataSet API是针对批处理用户提供,但是这两套API的执行路径是完全不一样的,甚至需要生成不同的Task去执行。所以这跟得到统一的API是有冲突的,而且这个也是不完善的,不是最终的解法。在Runtime之上首先是要有一个批流统一融合的基础API层,我们希望可以统一API层。
因此,我们在新架构中将采用一个DAG(有限无环图)API,作为一个批流统一的API层。对于这个有限无环图,批计算和流计算不需要泾渭分明的表达出来。只需要让开发者在不同的节点,不同的边上定义不同的属性,来规划数据是流属性还是批属性。整个拓扑是可以融合批流统一的语义表达,整个计算无需区分是流计算还是批计算,只需要表达自己的需求。有了这套API后,Flink的API Stack将得到统一。
除了统一的基础API层和统一的API Stack外,同样在上层统一SQL的解决方案。流和批的SQL,可以认为流计算有数据源,批计算也有数据源,我们可以将这两种源都模拟成数据表。可以认为流数据的数据源是一张不断更新的数据表,对于批处理的数据源可以认为是一张相对静止的表,没有更新的数据表。整个数据处理可以当做SQL的一个Query,最终产生的结果也可以模拟成一个结果表。
对于流计算而言,它的结果表是一张不断更新的结果表。对于批处理而言,它的结果表是相当于一次更新完成的结果表。从整个SOL语义上表达,流和批是可以统一的。此外,不管是流式SQL,还是批处理SQL,都可以用同一个Query来表达复用。这样以来流批都可以用同一个Query优化或者解析。甚至很多流和批的算子都是可以复用的。
Flink的未来方向
首先,阿里巴巴还是要立足于Flink的本质,去做一个全能的统一大数据计算引擎。将它在生态和场景上进行落地。目前Flink已经是一个主流的流计算引擎,很多互联网公司已经达成了共识:Flink是大数据的未来,是最好的流计算引擎。下一步很重要的工作是让Flink在批计算上有所突破。在更多的场景下落地,成为一种主流的批计算引擎。然后进一步在流和批之间进行无缝的切换,流和批的界限越来越模糊。用Flink,在一个计算中,既可以有流计算,又可以有批计算。
第二个方向就是Flink的生态上有更多语言的支持,不仅仅是Java,Scala语言,甚至是机器学习下用的Python,Go语言。未来我们希望能用更多丰富的语言来开发Flink计算的任务,来描述计算逻辑,并和更多的生态进行对接。
最后不得不说AI,因为现在很多大数据计算的需求和数据量都是在支持很火爆的AI场景,所以在Flink流批生态完善的基础上,将继续往上走,完善上层Flink的Machine Learning算法库,同时Flink往上层也会向成熟的机器学习,深度学习去集成。比如可以做Tensorflow On Flink, 让大数据的ETL数据处理和机器学习的Feature计算和特征计算,训练的计算等进行集成,让开发者能够同时享受到多种生态给大家带来的好处。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)