阿里云服务-米姆科技官方网站

公司文化

阿里云服务-米姆科技官方网站 — Wed, 02 Jul 2025 09:43:00 +0800

目前米姆采用人性化管理及制度综合管理相结合的方式让企业管理效率最大化，目前我公司的管理制度，涉及到安全、流程、认证等各方面，各种制度健全合理，包含部分岗位流程SOP、销售服务准则、职能认证规范及要求等十数种程序文件。从各种制度的执行情况来看，各种制度制定的有效合理，能够有效地给予生产进行指导和员工行为规范的约束

米姆核心目标：

米姆立志并已致力成为全球领先的企业数字化转型一站式解决方案和营销一体化的服务提供商。

价值观：

技术创新、诚信合作、以人为本、服务企业

员工：

员工相互信任、尊重、积极向上，为员工提供更多的培训机会，鼓励员工技术与管理创新、分享知识与经验，为员工提供一个公平公正的可持续发展平台，为客户提供一个搞效率服务平台。

诚信：铸诚魂弘商誉

品质：品质第一客户至上

创新：持续创新不断超越

分享：整合资源分享世界

米姆（MEME）科技简介

阿里云服务-米姆科技官方网站 — Wed, 02 Jul 2025 09:43:00 +0800

米姆信息科技专注企业IT服务，技术创新驱动的企业服务专家，主要开展网络安全、信息化建设、公有云服务、私有云建设、中台开发、等保测评、DevOps构建&应用、K8s&容器云搭建、云MSP服务、自动化运维等业务。目前已经在全国服务了超千家企业。

测试标题

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

测试文章内容

个人清新简洁PPT模板

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

Sodinokibi病毒解析及处置方案

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

2021年5月份，多个集团公司遭受了sodinokibi勒索病毒，用户多地集团的终端陆续出现被感染的情况，该病毒导致客户部分业务中断无法正常使用。严重影响了用户的日常工作。在勒索信中提到攻击组织名称REvil，信中除了解密方式，攻击者还提到他将客户重要资料截图发在图片站点https://prnt.sc。

勒索信提到“我们还从您的服务器下载了大量敏感数据，如果您不付款，我们将开始将您的文件上传到我们的公共博客"图片。通过威胁情报以及对最近2个月内的应急响应案例进行分析，在4月份，其他行业也同样遭受过该类攻击，sodinokibi勒索病毒是继承了GrandCarb的代码结构，然后进行升级勒索手段的方式进行勒索，根据情报该病毒已经席卷了部分知名厂商。

网络安服团队根据最近的攻击行为分析，本次的攻击手段从原来的钓鱼邮件等方式演变为入侵客户主机后进行直接投放病毒文件的方式进行勒索，定义为APT式勒索软件。结合最近某大型行业的情况，大致判断为有APT攻击组织盯上某大型行业进行勒索攻击。

如下是网络安服团队对本次病毒事件的具体分析及处置建议。

Sodinokibi勒索病毒分析

通过被勒索终端排查及样本提取中招主机，排查主机发现勒索样本broker.exe和样本加载脚本start.batstart.bat，在日志内容中发现攻击者从某主机（跳板机）上共享下载并执行勒索样本，该脚本放在组策略启动项中，实现开机关机等操作自启动。推测攻击者通过域控组策略下发勒索病毒加载脚本，从跳板机的共享上下载勒索病毒。broker.exe 式勒索病毒加密本体，采用了白切黑的方式有数字签名，可以实现部分杀软免杀。

样本入口如下：

会释放一个exe和一个dll到临时目录，并启动进程MsMpEng.exe。其中MsMpEng.exe主要是调用dll的导出函数ServiceCrtMain

导出函数ServiceCrtMain任务是：

PE如下：

还原PE标记，使用PE文件解析器可正常解析，但导入表被加密，后来发现病毒手动调用要使用的API（动态解密）

该PE文件为病毒本体，病毒入口如下：

该勒索病毒有张配置表，该配置表单主要记录了病毒加密行为以及勒索文本如下：

文件目录避免：

"fld":["$windows.~bt","intel","google","windows","torbrowser","$windows.~ws","application data","mozilla","windows.old","perflogs","appdata","msocache","boot","systemvolume information","program files","program files(x86)","$recycle.bin","programdata"],
文件避免：

"fls":["thumbs.db","bootsect.bak","desktop.ini","ntldr","ntuser.dat","autorun.inf","iconcache.db","boot.ini","bootfont.bin","ntuser.ini","ntuser.dat.log"],
文件扩展名避免：

"ext":["exe","mod","shs","cpl","idx","diagcfg","ico","nomedia","sys","cmd","key","msp","msstyles","bin","rom","bat","cur","diagcab","ldf","dll","scr","hta","rtp","hlp","theme","msi","com","prf","spl","wpx","deskthemepack","diagpkg","mpa","icns","ps1","drv","ics","nls","adv","msu","cab","lnk","ocx","ani","themepack","icl","msc","386","lock"]},
文件目录移除：

"wfld":["backup"]
杀死进程清单：

"prc":["mydesktopqos","thebat","synctime","onenote","mspub","dbsnmp","isqlplussvc","tbirdconfig","oracle","xfssvccon","wordpad","agntsvc","sqbcoreservice","ocautoupds","firefox","msaccess","thunderbird","excel","outlook","encsvc","visio","powerpnt","ocomm","steam","mydesktopservice","ocssd","sql","winword","dbeng50","infopath"]
杀死服务清单：

"svc":["veeam","sql","svc$","backup","sophos","vss","memtas","mepocs"]

勒索文本：

[+] Whats Happen? [+]
Your files are encrypted, and currently unavailable. You can check it: all files on your system has extension u89416xh.
By the way, everything is possible to recover (restore), but you need to follow our instructions. Otherwise, you cant return your data (NEVER).
[+] What guarantees? [+]

......................................

并且病毒会判断所感染计算机使用的语言，如下：

红框中为目标感染国家的语言ID，如果使用的函数GetUserDefaultUILanguage,GetSystemDefaultUILanguage返回的ID和列表框中的ID相同，那么为感染目标，通过此处来看修改非目标计算机语言可避免感染该病毒。

病毒会创建互斥体确保唯一运行，病毒会多次检查自己的句柄权限是否为管理员权限，如果权限不够将会重新以管理员权限启动自己，并且激活相关权限。病毒实际的行为是在Sub_F4476F_Start函数中，如下：

病毒首先清空回收站，然后设置注册表自启动，关闭清单中的相关服务，杀死清单中进程，然后在激活相关权限的情况下，开始加密功能。主要使用kernel32_FindFirstFile 和kernel32_FindNextFile来查找所有文件，使用salsa20+AES的算法进行文件加密加密

在加密的过程如果发现文件为目标感染文件，但被进程占用，病毒会调用terminateProcesss结束相关进程，然后再加密

加密函数如下：

病毒也会同时对网络磁盘中的文件进行加密

在加密的过程中病毒有枚举网络资源的行为，疑似内网传播及拷贝，如下：

在加密功能完成以后会调用函数Sub_F458E2设置桌面背景为勒索图片

Sodinokibi病毒处置方案

1.应急措施

阻断各个接口的网络连接。全网发出安全通告，通知服务器、PC断网、未开机电脑禁止开机，断网线

2.处置建议

第一，Sodinokibi 勒索病毒暂无解密工具，可先将被加密的重要文件、勒索信息文件备份保存，以待将来有解密工具时解密

第二，病毒样本可通过终端EDR以及防病毒客户端进行监测与查杀

第三，部署态势感知类设备以及全流量探针对整网的安全情况进行分析、监测，通过流量分析并找出其他可能感染勒索病毒的机器

同时，针对本次Sodinokibi勒索病毒，米姆网络安服团队的防护建议如下：

【日常运维建议】

第一，通过日常的风险评估对现有的安全环境进行检查，定期对资产与网络进行风险评估，确保漏洞、威胁能得到妥善解决

第二，加强企业员工安全意识培训，不轻易打开陌生邮件或运行来历不明的程序

【安全防护建议】

第一，及时更新操作系统及其他应用的高危漏洞安全补丁，对所有服务器、个人终端推送勒索病毒利用的ms17-010漏洞补丁进行安装加固，补丁链接如下：https://www.catalog.update.microsoft.com/Search.aspx?q=ms17-010

第二，加强对域控的安全防护：检测是否存在ZeroLogon(CVE-2020-1472)漏洞，如有通过以下链接获取补丁进行加固：https://portal.msrc.microsoft.com/en-us/security-guidance/advisory/CVE-2020-1472

第三，尽量避免危险端口对外开放，利用 IPS、防火墙等设备对危险端口进行防护（445、139、3389 等）

第四，开启 windows 系统防火墙，通过 ACL 等方式，对 RDP 及 SMB 服务访问进行加固

第五，通过 Windows 组策略配置账户锁定策略，对短时间内连续登陆失败的账户进行锁定

第六，加强主机账户口令复杂度及修改周期管理，并尽量避免出现通用或规律口令的情况；

第七，修改系统管理员默认用户名，避免使用 admin、administrator、test 等常见用户名

第八，安装具备自保护的防病毒软件，防止被黑客退出或结束进程，并及时更新病毒库

第九，部署EDR类的终端检测防护类设备，针对勒索病毒攻击性行为进行发现与拦截

【修复建议】

定时对重要业务数据进行备份，防止数据破坏或丢失

【安全监测建议】

建议部署态势感知类设备以及全流量探针对整网的安全情况进行分析、监测，并配合威胁情报完善日常安全工作

网络安全专项服务

对企业安全仍有担忧？针对本次勒索病毒，米姆网络安服团队可提供以下专项服务：

上门病毒排查服务；

针对性的基线配置检测；

试用企业级防病毒系统；

专业的企业级灾备方案。

全方位保障企业安全，除了以上服务，米姆网络还提供基础安全服务、现场安全评估服务、应用安全评估服务、风险评估服务、咨询服务、培训服务、一站式等保服务、驻点服务等多项安全服务。

处置思路

修复本地系统：

安装MS17-010补丁，修补SMBv1服务漏洞。

恢复网络拦截能力：

用满足当前环境的流量监控分析设备，拦截一部分的攻击数据包，并记录内部攻击源。

增加本地安全能力：

激活全部终端的防病毒客户端，修改特权账号，修复弱密码。

阿里云双十一优惠活动怎么玩？

米姆-阿里云服务 — Wed, 02 Jul 2025 09:43:00 +0800

参与时间	活动主题	活动方式	活动对象	活动内容	使用时间	专属链接	说明
10月24日-11月11日	开宝箱	领取满减代金券	阿里云所有用户	满50减7.5 满300减45 满700减105 满1000减150 满2000减240 满3500减420 满5000减600 满8000减960 1、同一账号仅可参与一次开宝箱； 2、每个订单仅可用一次满减代金券。可与3折以上折扣产品和购物车满减叠加（3折需要验证）	代金券使用时间： 11月1日-11月11日	https://www.aliyun.com/1111/home?spm=5176.19720258.J_2937333540.5.7b652c4ab8sFAa	代金券不适用产品：安全产品：内容安全/漏洞扫描，数据库审计、堡垒机、实人认证、应急响应、等保咨询、威胁狩猎服务、安全加固、安全咨询服务、内容安全基础包、内容安全语音/文本加油包、内容安全并发套餐； CDN&视频云、云通信、IoT全线产品；云服务总线、应用实时监控服务、容器服务、消息队列 MQ、容器服务Kubernetes版、容器镜像服务、应用配置管理；云小蜜、云呼叫中心、智能对话分析；域名、商标服务、软件著作权登记、虚机、云市场全线产品；
11月1日-	抽上云红包	抽奖得红包		个人红包面值：5/20/30/66元企业红包面值88/166/188/288/1111元 1、指定云产品的新购、升级订单，每个订单仅可使用1个红包；可与指定云产品折扣、购物车满减优惠叠加 2、可多次使用，直到抵扣完毕	11月1日-11月11日		红包不适用产品：活动价小于300元的云服务器产品；视频云、云通信、IoT全部产品；漏洞扫描按次、漏扫包年包月、内容安全包年包/加油包、内容安全语音及文本包；容器镜像ACR、边缘容器服务ACK；域名、商标服务、软件著作权登记、虚机；
11月1日-11月13日	拼团活动			1、无门槛开团，通过拼团链接每完成一笔新购订单，团队随机获得一个拼团红包，最高奖励11111元；升级续费均不计入有效； 2、同一个账号仅可开一个团 3、自推自卖的拼团订单无法交易，不算入有效。	红包使用时间： 11月1日-11月30日	https://www.aliyun.com/1111/pintuan-share?ptCode=MTgwNDc2NDgyNTM1OTU3NXx8MTE0fDE%3D&userCode=lojocax7	云大使享有额外佣金加码机会
11月1日-11月11日	充值返券			充2000返满1000减100代金券2 充6000返满3000减300代金券2 充2万返满1万减1500代金券2 充5万返满2万5减5000代金券2 可购买今年7月-11月期间未保有产品	11月9日-11月11日		区分同人账号
10月24日-11月30日	电销账号满减	电销申请激活码给用户	归属电销的客户	满3500减350；满12000减1200；满25000减2500；满50000减5000；满100000减10000；满150000减15000；满200000减20000；	11月9日-11月11日	/	1、仅用于产品新购、升级订单，购买2种以上产品可用(不同产品)、5折以下不可参与满减(5折参与)，订单时长≤1年，每个用户仅可享受1次； 2、不参与产品清单：漏洞扫描按次、漏扫包年包月、内容安全包年包/加油包、内容安全语音及文本包、云企业网、全球加速、爆款-CDN/全站加速资源包10TB、50TB-6个月、CDN/全站加速资源包1PB/5PB 下行流量、爆款-点播资源包10TB、50TB、爆款-视频直播流量包10TB、50TB、短信（非1年期产品）、OCR印刷文字识别、ocr、函数计算fc、serverless应用引擎sae、微服务引擎MSE、企业级分布式应用服务 EDAS 3.0、边缘容器服务ACK@Edge（月）、边缘容器服务ACK@Edge（叠加3个月）、消息队列rocketmq、消息队列kafka、IOT全类目、域名、知识产权首购、智能LOGO设计、商标注册提货券
11月1日-11月11日	新人专区	通过指定购买页面采购指定配置产品	新用户	ECS低至0.73折数据库、安全产品低至3折云通信低至0.72折	11月1日-11月11日	https://www.aliyun.com/1111/new?spm=5176.20584151.J_2721338800.9.7f1b449fPlitjk	可与上云红包叠加
11月1日-11月11日	爆款专区	通过指定购买页面采购指定配置产品	不限	指定配置	11月1日-11月11日	https://www.aliyun.com/1111/home?utm_content=se_1007171491&accounttraceid=3711e73c185e408fa44eab862620ad35ggqs	可与上云红包叠加

产品	开始时间	活动主题	活动方式	活动对象	活动条件	使用时间	折扣	专属链接
数据库	10月28日		领取数据库首购代金券	数据库新客	满500减200 满1000减400 满2000减800 首购数据库产品可用	11月1日-11月11日	60%
数据库	10月28日		领取数据库新购升级代金券		满1000减50 满2000减100 满4000减200 满10000减500元满20000减1000元满40000减2000元新购升级指定产品可用	11月1日-11月11日	95%
网络	11月1日		领取新购升级通用代金券		满300减10 满1000减50
网络	11月1日		领取云企业网/全球加速新购升级代金券		满1000减50 满5000减350
安全	11月1日		1、领取100元无门槛代金券（5折及以下不适用） 2、购物车满减（包1年新购）		每10W减1W，最高减10万	11月1日-11月11日		http://www.aliyun.com/1111/security
ECS	11月1日		分会场领取满减代金券		满1000减120 满3000减360 满10000元减1200	11月9日-11月11日
ECS	11月1日		消费满1500元，可抽奖一次		10台1年ECS免费使用权 250张续费升级代金券

活动时间		客户限制	产品	折扣	备注
11月1日-11月11日		新客	T5/S6/C6a/轻量应用服务器	S6最低0.73折	每人限购一台，S6每天限量4000台
		企业新客	C5G5C6G6C6eG6e R6hfc6hfg6G6aR6a	半年4.5折、1年4.1折及3年3.8折	限购3台
		老客	GPU主要是gn5、gn6i 其他：C6e/G6e/hfc6/hfc7/C6/G6/R6/C5/G5/R5	GPU 1个月5.5折半年：8.5折 1年：8折	每人限购1台

活动主题	产品	活动时间	活动内容
首续折扣	云服务器ECS	截止2021.3.31	首购用户首次续费一年享受7折优惠详细请见https://www.aliyun.com/daily-act/ecs/activity_selection 首次购买ECS用户第一次续费
购物车-首复满减			首购用户首次复购满2000减200，封顶减30000 详细请见https://www.aliyun.com/daily-act/ecs/activity_selection 首次购买ECS的用户再次购买新的ECS
升配折扣		截止2020.11.30	实例升级到2-8核享受6.5折优惠带宽升级到5-6M享受6.5折优惠云盘扩容至半年以上200G，可享受6.5折优惠同一用户仅限参与1次，仅限1台实例参与升级； 2020年7月31日前购买且保有1-2台ECS实例的用户本活动同一用户仅限参与1次，仅限1台实例参与升级
购物车-复购满减(暗线)		截止2020.11.30	满2000减1000（少量满1500减500）首购用户第一次复购详细请见https://www.aliyun.com/daily-act/ecs/activity_selection
折扣-续费折扣		截止2020.12.31	续费半年享受7.5折优惠续费一年享受6.5折优惠详细请见https://www.aliyun.com/daily-act/ecs/care 本活动同一用户仅限参与1次，仅限1台实例参与升级，首购用户第一次续费

活动时间

产品

订单类型

配置

版本

存储空间

客户限制

时长

原价

折扣

折后价

每人数量限制

备注

11月1日-11月11日

Mysql

新购

2核4G

基础版

100GB

新客

1年

3070

30%

921

1台

新购

2核4G

高可用

100GB

企业新客

1年

6960

30%

2088

1台

新购

4核8G

高可用

100GB

企业新客

1年

12360

30%

3708

1台

新购

4核8G

三节点

100GB

企业新客

1年

16560

30%

4968

1台

新购

8核16G

三节点

100GB

企业新客

1年

28800

30%

8640

1台

Polar DB

新购

4核8G

单节点

新客

1年

3456

30%

1036.8

1台

新购

计算包小型800 CU内

新客

1年

30000

30%

9000

1个

新购

4核16G

两节点

企业新客

1年

24000

30%

7200

1台

DBS

新购

small

新客

1年

1680

30%

504

1台

新购

Medium

企业新客

1年

2688

30%

806.4

1台

11月9日-11月11日

Mysql

新购

2核4G

基础版

200G内

老用户

1年

4272

70%

2990.4

不限

新购

2核4G

高可用

200G内

老用户

1年

7920

80%

6336

不限

新购

4核8G

基础版

200G内

老用户

1年

6780

70%

4746

不限

新购

4核8G

高可用

200G内

老用户

1年

13320

80%

10656

不限

新购

8核16G

高可用

200G内

老用户

1年

23520

80%

18816

不限

新购

1：8规格

老用户

1年

40920

50%

20460

不限

新购

三节点版

老用户

1年

49680

50%

24840

不限

SQLServer

新购

2核4G

标准版

200G内

老用户

1年

10260

70%

7182

不限

新购

4核8G

标准版

200G内

老用户

1年

16680

70%

11676

不限

新购

8和16G

标准版

200G内

老用户

1年

29520

70%

20664

不限

新购

2核4G

WEB版

200G内

老用户

1年

6240

70%

4368

不限

新购

4核8G

WEB版

200G内

老用户

1年

9480

70%

6636

不限

新购

8和16G

WEB版

200G内

老用户

1年

16200

70%

11340

不限

新购

2核4G

企业版

200G内

老用户

1年

10800

70%

7560

不限

新购

4核8G

企业版

200G内

老用户

1年

18600

70%

13020

不限

新购

8和16G

企业版

200G内

老用户

1年

33600

70%

23520

不限

PostgreSQl

新购

2核4G

基础版

200G内

老用户

1年

4272

70%

2990.4

不限

新购

4核8G

基础版

200G内

老用户

1年

6780

70%

4746

不限

新购

4核8G

高可用

200G内

老用户

1年

17028

70%

11919.6

不限

新购

8和16G

高可用

200G内

老用户

1年

30048

70%

21033.6

不限

Polar DB-M

新购

计算包 800CU内

老用户

1年

30400

50%

15200

不限

新购

4核16G

双节点

老用户

1年

24000

80%

19200

不限

新购

4核8G

单节点

老用户

1年

3456

80%

2764.8

不限

Polar DB-M存储包

新购

1TB内

老用户

1年

37800

80%

30240

不限

Polar DB-O

新购

4核16G

老用户

1年

31200

70%

21840

不限

Polar DB-X

新购

16核64G

老用户

1年

55860

70%

39102

不限

Redis

新购

云盘版1G

老用户

1年

1080

50%

540

不限

新购

云盘版2G

老用户

1年

2160

50%

1080

不限

新购

云盘版4G

老用户

1年

4320

50%

2160

不限

新购

云盘版8G

老用户

1年

8640

50%

4320

不限

新购

本地盘版1G

老用户

1年

1200

80%

960

不限

新购

本地盘版2G

老用户

1年

2160

80%

1728

不限

新购

本地盘版4G

老用户

1年

4080

80%

3264

不限

新购

本地盘版8G

老用户

1年

7920

80%

6336

不限

MongDB

新购

4.4版本

老用户

1年

9000

50%

4500

不限

新购

2核4G

200G内

老用户

1年

12586

80%

10068.8

不限

新购

4核8G

400G内

老用户

1年

23952

80%

19161.6

不限

HBase

新购

4核16G

1TB

老用户

1年

55584

80%

44467.2

不限

新购

8核32G

1TB

老用户

1年

87168

80%

69734.4

不限

ADB

新购

500G

老用户

1年

62937.6

80%

50350.08

不限

MyBase

新购

全规格

老用户

1年

56803.34

80%

45442.67

不限

RDS

升级

全规格

老用户

不限

70%

按量转包年也可，只读实例也可

Redis

升级

全规格

老用户

不限

70%

MongoDB

升级

全规格

老用户

不限

70%

Polar DB

升级

全规格

老用户

不限

70%

HBase

升级

全规格

老用户

不限

70%

ADB

升级

全规格

老用户

不限

70%

Mybase

32核

老用户

1年

85126.54

20%

16888

首购

限制前20位，每人限制2-4台

ADB

32核

2节点

老用户

1年

65220

14%

8888

首购

限制前20位，每人限制2-4台

PolarDB 计算包

2000CU

老用户

1年

76000

22%

16888

首购

限制前20位，每人限制2-4台

活动产品	订单类型	订单时长	折扣	申请条件	截止时间
数据库全线产品	新购升级	1个月	95折
		3个月	9折
		6个月	85折
		1年	8折
		1年	75折	订单总额5万/年
		1年	7折	订单总额15万/年

活动产品	订单门槛	续费代金券	备注
数据库产品续费	2000	100	1.有且仅有5个面值 2.同一个客户一个面值档位可以领一张。 3.同一个客户每一个续费订单可以用一张。如果需要使用多张券，可以分多个续费订单。 4.11月9日0点到11日24点间使用，过期作废。
	5000	250
	10000	500
	20000	1000
	50000	2500

活动时间	订单类型	客户限制	产品	指定配置	折扣力度	备注
11月1日-11月11日	新购	不限	漏洞扫描	包年/按次	3折
			内容安全	语音及文本专项包	3折
			实人认证智能核身	20万次	35折
			实人认证/金融级实人认证流量包	50万次	5折
			内容安全基础包/加油包	1000万次及以上	5折
			SSL证书	vTrus DV通配符	6折
			云安全中心（态势感知）	开通防篡改功能	7折
			云防火墙	高级版	7折
			敏感数据防护	包月，全规格	7折
			DDOS防护	包月，全规格	85折
			WEB应用防火墙	包月，全规格	85折

1、新购安全10万以上且无大客户折扣，可申请暗线 2、续费升级，不限订单金额，可申请暗线 3、改价&特殊套餐所有折扣均不享受。注：部分产品不参与暗线，需提前沟通

明线活动时间

订单类型

客户限制

产品

指定配置

时长限制

网络满减代金券是否叠加

官网满减代金券是否叠加

上云红包

充返代金券

官网折扣力度

暗线折扣力度

暗线活动时间

备注

11月1日-11月11日

预付费

新客

负载均衡

简约型I、标准型I

1年

√

1年：实例2折，带宽75折（＞5M）

11月1日-11月30日

预付费

新客

3月

√

3月：实例25折，带宽8折

预付费

新客

NAT网关

小型

1年

√

30%

预付费

新客

3月

√

35%

预付费

新客

弹性公网IP

＜50M

1年

√

75%

预付费

新客

3月

√

80%

预付费

新客

共享流量包

不限

√

85%

全规格83折

1个月10G没有折扣

预付费

新客

云企业网

2-20M（跨境/不跨境）

1年

√

55%

预付费

新客

1月

√

60%

跨境限企业用户

预付费

新客

全球加速

实例：选型I+小型II
基础/跨境带宽包：2-20M

1年

√

实例：小型I1%；小型II25折
基础/跨境带宽包：55折

带宽51折起

预付费

新客

1月

√

实例：小型I1%；小型II3折
基础/跨境带宽包：6折

预付费

新客

VPN网关

IPSec-5M/10M

1年

√

实例
IPSec-5M：3折
IPSec-10M：65折
带宽：75折

预付费

新客

3月

√

实例
IPSec-5M：35折
IPSec-10M：7折
带宽：8折

预付费

新客

智能接入网关

SAG-APP（5-30个客户端）

1年

√

5-10个客户端：3折
10-30个客户端：65折

预付费

新客

3月

√

5-10个客户端：35折
10-30个客户端7折

11月9日-11月11日

新购升级

老客

负载均衡

不限

1年

√

实例：7折
带宽：8折

带宽：75折（＞5M）

老客

NAT网关

不限

1年

√

65%

75折（＞5M）

老客

弹性公网IP

不限

1年

√

80%

75折（＞5M）

老客

共享流量包

不限

√

85%

83%

老客

云企业网

2-20M（跨境/不跨境）

1年

√

70%

6折起

老客

1月

√

75%

6折起

老客

全球加速

实例：选型I+小型II
基础/跨境带宽包：2-20M

1年

√

70%

51折起

老客

1月

√

75%

51折起

老客

VPN网关

不限

1年

√

实例：7折
带宽：8折

70%

老客

智能接入网关

SAG-APP，所有规格

1年

√

70%

65%

活动时间	订单类型	客户限制	产品	指定配置	明线折扣	暗线折扣	暗线折后价	备注
11月1日-11月11日	新购	新客	性能测试PTS	1W vum按量付费资源包	10%		0.99起	不与其他优惠共享
	新购	不限	性能测试PTS	10W vum/2周起（包周包月资源包）	85%		4980起
	新购	新客	应用高可用AHAS	70节点*天起（流量防护资源包）	50%		99起
	新购	不限	应用高可用AHAS	500节点*天起（流量防护资源包）	50%		1375起
	新购	新客	函数计算FC	1CU预购计算力	50%		41.05起
	新购		serverless应用引擎SAE	5000核时/月，10000G时/月	90%		810起
	新购		微服务引擎MSE	预付费全规格（包月资源包）	90%		45.14起
	新购		EDAS 3.0	预付费标准版，5个实例/月（5个实例起购，包月资源包）	80%		180起
	新购		EDAS 3.0	预付费专业版，1个实例/月（包月资源包）	75%		112.5起
	新购		消息队列kafka	预付费全规格（限购一个月）	75%		1292.625起
	新购		消息队列Rocket MQ	预付费全规格	75%		202.5
	新购		容器镜像ACR EE（月）	基础版、标准版、高级版	75%	70%	546起	不与其他优惠共享
	新购		容器镜像ACR EE（叠加3个月）	基础版、标准版、高级版	68%	63%	1474.2起	不与其他优惠共享
	新购		容器镜像ACR EE（年）	基础版、标准版、高级版	65%	60%	5616起	不与其他优惠共享
	新购	不限	应用监控服务ARMS	150探针*天（应用监控资源包）	10%		70起	不与其他优惠共享
	新购		应用监控服务ARMS	200万页面上报次数（前端监控资源包）	85%		42起	不与其他优惠共享
	新购		消息队列rocketMQ	预付费年包（不退款）	85%		2754	不与其他优惠共享
	新购		消息队列kafka	预付费半年包（不退款）	90%		8550.9	不与其他优惠共享
	新购		消息队列rocketMQ	预付费半年包（不退款）	90%		1458	不与其他优惠共享
	新购		消息队列kafka	预付费年包（不退款）	85%		16151.7	不与其他优惠共享

活动时间	订单类型	客户限制	产品	指定配置	时长	明线折扣	秒杀价（1折）	首购价(3折)	暗线折扣	暗线备注	备注
11月1日-11月30日	新购	新客	OSS存储包	500G	3月	1折起	16.2	49			每天上午10点限量50个秒杀，不叠加其他优惠
			OSS存储包	1TB	3月		33.3	99.9
	新购		文件存储NAS极速型	300G	1月		48.6	146
	新购		混合云备份存储容量	500G			13.32	40
	新购		存储容量单位包	500G		3折	50	150
	新购		日志服务存储包	1TB		1折起	32.256	97
	新购		表格存储存储包	1TB		1折起	21.5	64.6
	新购升级	老客	OSS存储包	全规格	不限	折上8折（相当于原价6折）			折上7折	预付费（新购、升级、续费）	折上折可多次使用
	新购升级		文件存储NAS
	新购升级		混合云备份HBR
	新购升级		存储容量单位包
	新购升级		日志服务SLS
	新购升级		表格存储OTS
	新购	不限	混合云存储入门级阵列SA2100	双控32G/4TB NLSAS3/1G8接口		6折					秒杀，限50台
	新购		混合云存储基础级阵列SA2600	双控64G/8TB NLSAS5/1G8接口，可扩展多协议接口		56折					秒杀，限3台
	新购		混合云存储基础级阵列SA2600	除秒杀配置外		大额代金券			伙伴折扣		暗线可叠加5千元代金券
	新购		混合云存储主流级阵列SA3700	双控128G/960G SSD4/1G8接口，已扩展为10G ISCSI（SFP+）		58折					秒杀，限3台
	新购		混合云存储主流级阵列SA3700	除秒杀配置外		大额代金券			伙伴折扣		暗线可叠加1万元代金券

活动时间	客户限制	产品	指定配置	折扣	备注
11月1日-	不限	OCR印刷文字识别		15%
	新客	PAI交互式建模	P100	30%	首月新购600元/月
		MC-Hologres	32核128G		首月888元
		Elastisearch	4核16G以下	50%	首购年付5折
		DataWorks	专业版	4%	首月新购199元
		MaxCompute	预付费标准计算资源	1.3%	首购首月10cu/199元
		Databricks数据洞察	指定规格	0.86%	首月新购599元
		Quick BI	标准版	30%	首购
			高级版	65%	首购
		实时计算Flink	全托管版本10cu/99元	0.29%	首购首月10cu/99元
11月9日-11月11日	老客	PAI交互式建模	P100	40%	包月仅需800元，单笔订单最多买6个月
		PAI在线预测服务		80%	升级任一规格
		MC-Hologres		80%	计算配置限时升级
		开放搜索	共享通用版	70%	年付
		智能推荐	标准版	70%	年付
		实时计算Flink	独享模式	85%	年付
		Quick BI	标准版	45%	复购
		Quick BI	高级版	70%	复购

新人用户

类别	实例	CPU/内存	系统盘	带宽	购买时长	活动价	原价	折扣	说明	备注
ECS	共享型S6	1核2G	高效云盘40G	1M	1年	84.97	523.8	0.16		个人用户
		1核2G	高效云盘40G	1M	3年	254.92	1326.96	0.19		个人用户
		2核4G	高效云盘40-100G	1-10M	1年	226.08	847.8	0.27		个人用户
		2核4G	高效云盘40-100G	1-10M	3年	508.68	2147.76	0.24		个人用户
		2核8G	高效云盘40-100G	5-10M	1年	2449.92	3253.8	0.75		个人用户
		2核8G	高效云盘40-100G	5-10M	3年	7349.76	7641	0.96		个人用户
		4核8G	高效云盘40-100G	1-10M	3个月	598.32	831	0.72		个人用户
				1-10M	1年	731.28	2825.4	0.26		个人用户
				1-10M	3年	2193.84	5707.8	0.38		个人用户
	轻量应用服务器	1核1G	SSD 40G		1年	125.4	969	0.13		个人用户
		1核2G	SSD 40G		1年	191.4	1479	0.13		个人用户
		2核4G	SSD 60G		3个月	592.8	780	0.76		个人用户
		2核8G	SSD 80G		3个月	756	1080	0.70		个人用户
	突发性能t5	1核2G	高效云盘40-100G		1年	96.9	96.9	1.00		个人用户
	突发性能t5	1核2G	高效云盘40-100G		3年	290.7	290.7	1.00		个人用户

持续更新活动链接：https://www.aliyun.com/1111/new?spm=5176.20584151.J_2721338800.9.7f1b449fPlitjk

拼团产品

拼团链接：https://www.aliyun.com/1111/pintuan-share?ptCode=MTgwNDc2NDgyNTM1OTU3NXx8MTE0fDE%3D&userCode=lojocax7
用户	类别	实例	CPU/内存	系统盘	带宽	购买时长	活动价	原价	折扣	说明	备注
新用户	ECS	共享型S6	1核2G	高效云盘40G	1M	1年	84.97	523.8	0.16
			1核2G	高效云盘40G	1M	3年	254.92	1326.96	0.19
			2核4G	高效云盘40-100G	3M	1年	295.2	1107	0.27
			2核4G	高效云盘40-100G	3M	3年	664.2	2804.4	0.24
			4核8G	高效云盘40-100G	5M	1年	1000.56	3865.8	0.26
			4核8G	高效云盘40-100G	5M	3年	3001.68	8829	0.34
		计算型C5	2核4G	高效云盘40-100G	5M	半年	874.8	1944	0.45	企业用户	带宽可选
		计算型C6e	8核16G	高效云盘40-100G	5M	1年	2575.08	9516.6	0.27	企业用户	带宽可选
		计算型C6e	8核16G	高效云盘40-100G	5M	3年	7725.24	19787.4	0.39	企业用户	带宽可选
		轻量应用服务器	1核1G	SSD 40G		1年	125.4	969	0.13
		轻量应用服务器	1核2G	SSD 40G		1年	191.4	1479	0.13
老用户	ECS	计算型C6	2核4G	40-100G	3-10M	1年	2668.8	2835.6	0.94		带宽、云盘可选
		计算型C6	4核8G	40-100G	3-10M	1年	4464	4743	0.94		带宽、云盘可选
		计算型C5	2核4G	40-100G	3-10M	1年	2592	2754	0.94		带宽、云盘可选
		计算型C5	4核8G	40-100G	3-10M	1年	4310.4	4579.8	0.94		带宽、云盘可选
	RDS	MySQL	2核4G	高可用版		1年	6336	6732	0.94
			4核8G			1年	10656	11322	0.94
			8核16G			1年	18816	19992	0.94
			1：8规格			1年	10860	15204	0.71		全规格五折
			三节点版			1年	5040	6048	0.83		全规格五折
	Redis		1G	云盘版		1年	540	918	0.59		1年5折
			2G			1年	1080	1836	0.59		1年5折
			4G			1年	2160	3672	0.59		1年5折
			8G			1年	4320	7344	0.59		1年5折
	国内短信包	5000条				2年	225	250	0.90
	国内短信包	1.5W条				2年	635	705	0.90
	云安全中心	高级版				1年	918	1080	0.85
	CDN全站加速流量半年包	1TB				半年	90		0.5		限购5个
	CDN全站加速流量半年包	5TB				半年	450		0.5		限购5个
	企业邮箱	5账号				1年	540	600	0.90		3年7折

【升级】10月微消息队列MQTT升级公告

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【微消息队列MQTT】【升级通知】

升级窗口：

北京时间2020年10月12日 23:00 - 2020年10月13日 07:00

北京时间2020年10月14日 23:00 - 2020年10月15日 07:00

北京时间2020年10月19日 23:00 - 2020年10月20日 07:00

北京时间2020年10月21日 23:00 - 2020年10月22日 07:00

北京时间2020年10月26日 23:00 - 2020年10月27日 07:00

北京时间2020年10月28日 23:00 - 2020年10月29日 07:00

升级内容：所有地域的MQTT服务。

升级影响：

升级期间MQTT控制台和集群中每个服务节点可能出现秒级闪断（闪断时间和集群规模正相关），客户端应用需要设置自动重连，以免影响业务。

升级期间，消息发送可能会有少量失败，应用做好断连失败重试机制；同时可能会有消息延迟的现象。如需在控制台进行管理操作，请避开维护时间段。

给您带来的不便敬请谅解，有任何问题，可随时通过工单联系反馈。

【升级】10月消息服务MNS升级计划通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【消息服务MNS】【升级通知】
升级窗口：

北京时间2020年10月15日 00:00 - 06:00

北京时间2020年10月22日 00:00 - 06:00

北京时间2020年10月29日 00:00 - 06:00

升级内容：华北1（青岛）、华北2（北京）、华北3（张家口）、华北5（呼和浩特）、华东1（杭州）、华东2（上海）、华南1（深圳）、华东2金融云、华南1金融云、华北2政务云、香港、亚太东南1（新加坡）、亚太东南2（悉尼）、亚太东南5（雅加达）、亚太南部1（孟买）、中东东部1（迪拜）、欧洲中部1（法兰克福）、美国东部1（弗吉尼亚）、美国西部1（硅谷）、英国（伦敦）等地域的消息服务升级。
升级影响：升级期间MNS相关服务及控制台访问可能会出现闪断或者拒绝连接现象，每次闪断或拒绝连接不会超过1分钟，请在客户端中做好重连重试机制。如需在控制台进行管理操作，请避开维护时间段。

给您带来的不便敬请谅解，有任何问题，可随时通过工单或服务电话95187联系反馈。

【升级】10月21日消息队列AMQP升级通知（更新）

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【消息队列AMQP】【升级通知】

升级窗口：（已更新）北京时间2020年10月21日 00:00 - 03:00
升级内容：华北1（青岛）、华北2（北京）、华北3（张家口）、华北5（呼和浩特）、华东1（杭州）、华东2（上海）、华南1（深圳）、香港等全部地域（及铂金版）的服务升级。
升级影响：升级期间消息队列AMQP相关服务访问可能会出现多次闪断或者拒绝连接现象，每次闪断或拒绝连接不会超过 5 分钟，请在客户端中做好重连重试机制。如需在控制台进行管理操作，请避开维护时间段。

给您带来的不便敬请谅解，有任何问题，可点击联系我们进行咨询反馈。

【升级】10月17日CNNIC注册局系统维护通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【域名】【注册局维护通知】

维护时间：北京时间2020年10月17日 08:00 - 22:00

维护内容：接到注册局的通知，注册局将于上述时间对后台系统进行维护升级。

维护影响：届时 .cn/.中国域名的注册、续费、信息修改和查询域名注册信息等操作，将会无法使用，在此期间会对您造成的影响如下：

1、您提交的域名注册、续费、转入、赎回、一口价域名购买等业务在支付费用后状态为“处理中”，待维护结束后将变为相应的处理结果和状态。

2、维护过程中，您无法对域名注册信息进行修改，将提示修改失败。

3、维护过程中，您无法下载相关域名的域名证书，将提示下载失败。

4、维护过程中，.cn/.中国域名实名认证不能正常提交至注册局，将为“审核中”状态，待维护结束后按顺序提交。

如果您需要注册或管理以上业务操作，建议您避开该时间段，以免给您的业务造成影响。

由此给您带来的不便，我们表示歉意，敬请谅解。

【升级】10月21日Datahub公有云2.18版本产品稳定性升级通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【Datahub】【产品稳定性升级】

升级窗口：北京时间2020年10月21日 10:00 - 19:00

升级内容：

1. 公有云HTTPS证书更新

2. 版本统一升级到2.18版本

升级区域：华北，华东，华南，新加坡，吉隆坡，孟买，德国

升级影响：在升级过程中，有服务短暂抖动重试，属于正常现象，其他如有任何问题，可点击联系我们进行咨询反馈。

给您带来的不便敬请谅解。

【漏洞预警】Apache Solr configset upload文件上传漏洞（CVE-2020-13957）

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

2020年10月13日，阿里云应急响应中心监测到Apache Solr发布安全更新，其中修复了CVE-2020-13957 Apache Solr configset upload文件上传漏洞。攻击者通过构造特定的请求，成功利用该漏洞可直接获取服务器权限。

漏洞描述

Apache Solr是一个开源的搜索服务，使用Java语言开发。Apache Solr Configset Api上传功能存在未授权漏洞。在特定条件下，攻击者可以构造特定请求，上传相关恶意文件，从而直接获取到服务器权限。阿里云应急响应中心提醒Solr用户尽快采取安全措施阻止漏洞攻击。

影响版本

Apache Solr 6.6.0 - 6.6.5

Apache Solr 7.0.0 - 7.7.3

Apache Solr 8.0.0 - 8.6.2

安全版本

Apache Solr 8.6.3

安全建议

1. 升级至安全版本

2. 如果未使用ConfigSets API，请禁用UPLOAD命令，将系统属性： configset.upload.enabled 为 false ，可参考官方文档：https://lucene.apache.org/solr/guide/8_6/configsets-api.html。

3. 增加身份验证/授权，可参考官方文档：https://lucene.apache.org/solr/guide/8_6/authentication-and-authorization-plugins.html

4. 使用在SOLR-14663中提到的补丁程序：https://issues.apache.org/jira/browse/SOLR-146634。

5. 禁止Solr API 以及管理 UI 直接对公网开放。设置防火墙，以便只允许受信任的计算机和人员访问。

https://issues.apache.org/jira/browse/SOLR-14663

阿里云云安全中心应急漏洞模块已支持对该漏洞一键检测

阿里云云防火墙已可防御此漏洞攻击

我们会关注后续进展，请随时关注官方公告。

如有任何问题，可随时通过工单或服务电话95187联系反馈。

阿里云应急响应中心

2020.10.13

【漏洞预警】Windows TCP/IP远程执行代码漏洞（CVE-2020-16898）

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

2020年10月13日，阿里云应急响应中心监测到微软发布补丁修复了TCP/IP远程执行代码漏洞（CVE-2020-16898），官方评级严重。目前微软官方已提供相应的月度安全补丁以修复该漏洞。

漏洞描述

微软官方于10月13日发布安全更新，其中修复了一个TCP/IP远程执行代码漏洞（CVE-2020-16898），攻击者通过构造并发送恶意的ICMPv6（路由通告）数据包，从而控制目标主机。同时，微软10月补丁中还涉及其他多个高危漏洞，阿里云应急响应中心提醒 Windows 用户尽快安装补丁阻止漏洞攻击。

漏洞评级

CVE-2020-16898 严重

影响版本

Windows Server 2019

Windows Server 2019 (Server Core installation)

Windows Server, version 1903 (Server Core installation)

Windows Server, version 1909 (Server Core installation)

Windows Server, version 2004 (Server Core installation)

安全建议

1、前往微软官方下载相应补丁进行更新：https://portal.msrc.microsoft.com/en-US/security-guidance/advisory/CVE-2020-16898

2、阿里云云安全中心Windows系统漏洞模块已支持对该漏洞补丁一键检测和修复，详情登陆云安全中心

Windows Server 2019 补丁：KB4577668

3、可以通过禁用ICMPv6 RDNSS来缓解风险。

使用以下PowerShell命令禁用ICMPv6 RDNSS，以防止攻击者利用此漏洞。此解决方法仅适用于Windows 1709及更高版本。

netsh int ipv6 set int *INTERFACENUMBER* rabaseddnsconfig=disable

注意：进行更改后，无需重新启动。

可以使用以下PowerShell命令禁用上述缓解方法。

netsh int ipv6 set int *INTERFACENUMBER* rabaseddnsconfig=enable

注意：禁用替代方法后，无需重新启动。

我们会关注后续进展，请随时关注官方公告。

如有任何问题，可随时通过工单或服务电话95187联系反馈。

阿里云应急响应中心

2020.10.13

【漏洞预警】VMware vCenter任意文件读取漏洞

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

2020年10月14日，阿里云应急响应中心监测到VMware vCenter特定版本存在任意文件读取漏洞，攻击者通过构造特定的请求，可以读取服务器上任意文件。

漏洞描述

VMware vCenter 服务器是一种高级服务器管理软件，提供一个用于控制 VMware vSphere 环境的集中式平台。VMware vCenter特定版本存在任意文件读取漏洞，攻击者通过构造特定的请求，可以读取服务器上任意文件。阿里云应急响应中心提醒VMware vCenter用户尽快采取安全措施阻止漏洞攻击。

已知影响版本

VMware vCenter 6.5.0a-f

安全版本

VMware vCenter 6.5u1

安全建议

升级至安全版本

阿里云云安全中心应急漏洞模块已支持对该漏洞一键检测

我们会关注后续进展，请随时关注官方公告。

如有任何问题，可随时通过工单或服务电话95187联系反馈。

阿里云应急响应中心

2020.10.14

【漏洞预警】Nexus Repository Manger 2&3 Shiro身份验证绕过漏洞

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

2020年10月15日，阿里云应急响应中心监测到 sonatype官方发布了 Nexus Repository Manger 2&3 Shiro验证绕过漏洞。

漏洞描述

Sonatype Nexus Repository 是一个开源的仓库管理系统，在安装、配置、使用简单的基础上提供了更加丰富的功能。近日Sonatype官方发布安全公告披露了在Nexus Repository Manager 2 & 3 版本中使用了旧版本的Shiro组件，存在权限绕过漏洞。攻击者可利用该权限绕过漏洞访问到后台功能，并可能导致命令执行。阿里云应急响应中心提醒Nexus Repository Manager 2&3用户尽快采取安全措施阻止漏洞攻击。

影响版本

Nexus Repository Manager OSS/Pro version 2.x < 2.14.19

Nexus Repository Manager OSS/Pro version 3.x < 3.27.0

安全版本

Nexus Repository Manager 2 versions 2.14.19

Nexus Repository Manager 3 versions 3.27.0

安全建议

1. 升级至安全版本

2. 该漏洞检测请参考【漏洞预警】Apache Shiro < 1.6.0 权限绕过漏洞（CVE-2020-13933）

阿里云云安全中心应急漏洞模块已支持对该漏洞一键检测

我们会关注后续进展，请随时关注官方公告。

如有任何问题，可随时通过工单或服务电话95187联系反馈。

阿里云应急响应中心

2020.10.15

【漏洞预警】Adobe Magento 远程代码执行漏洞（CVE-2020-24407）

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

2020年10月19日，阿里云应急响应中心监测到 Adobe官方发布了 CVE-2020-24407 Magento 远程代码执行漏洞通告。

漏洞描述

Magento是一套专业开源的电子商务系统。近日Adobe官方发布安全公告披露了在 Magento Commerce/Open Source 2.3以及2.4版本中存在CVE-2020-24407远程代码执行、CVE-2020-24400 SQL注入等多个漏洞。在具有管理特权的情况下，攻击者可构造恶意请求，绕过文件上传限制，从而造成远程代码执行，控制服务器。阿里云应急响应中心提醒Magento用户尽快采取安全措施阻止漏洞攻击。

影响版本

Magento Commerce/Open Source <= 2.3.5-p2

Magento Commerce/Open Source <= 2.4.0

Magento Commerce/Open Source <= 2.3.5-p1

安全版本

Magento Commerce/Open Source 2.4.1

Magento Commerce/Open Source 2.3.6

安全建议

升级至安全版本

我们会关注后续进展，请随时关注官方公告。

如有任何问题，可随时通过工单或服务电话95187联系反馈。

阿里云应急响应中心

2020.10.19

【漏洞预警】Apache Kylin API未授权访问漏洞（CVE-2020-13937）

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

2020年10月20日，阿里云应急响应中心监测到 Apache Kylin官方修复 CVE-2020-13937 API未授权访问漏洞。

漏洞描述

Apache Kylin™是一个开源的、分布式的分析型数据仓库。近日Apache Kylin官方修复 CVE-2020-13937 API未授权访问漏洞。攻击者可构造恶意请求，访问API地址，可以获取Apache Kylin的相关配置信息，从而导致身份凭证等信息泄漏。阿里云应急响应中心提醒 Apache Kylin 用户尽快采取安全措施阻止漏洞攻击。

影响版本

Kylin 2.x.x

Kylin <= 3.1.0

Kylin 4.0.0-alpha

安全版本

Kylin 3.1.1

安全建议

升级至安全版本

我们会关注后续进展，请随时关注官方公告。

如有任何问题，可随时通过工单或服务电话95187联系反馈。

阿里云应急响应中心

2020.10.20

3分钟短文：太爽了，用Laravel写API接口！-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

引言

我们一直在讲，通过路由传达到控制器，处理好数据并渲染到视图，但是对于现代的应用，
前后端分离的情况下，后端写个接口就完事儿了。

本期为大家说一说用laravel写restful风格的API，看看能有多简单。

以路由开端

写API接口，与传统的渲染前端模板页面有什么区别？少了视图，只需要准备好数据，
并按照规则格式化，返回就可以了。

laravel默认的api接口路由在 routes/api.php 文件内定义，默认的情况下预定义了一个资源类型的api接口，代码如下：

Route::middleware('auth:api')->get('/user', function (Request $request) {
    return $request->user();
});

调用了 auth:api 中间件用于验证用户的授权，如果授权通过，声明的get方法获取用户的信息，并返回 User 模型。这在之前的章节是很常见的操作，我们不做赘述了。

那么这个路由文件，是什么时候加载上去的呢？在文件 app/Providers/RouteServiceProvider.php 内，看这样一段：

protected function mapApiRoutes()
{
    Route::prefix('api')
        ->middleware('api')
        ->namespace($this->namespace)
        ->group(base_path('routes/api.php'));
}

该服务提供者声明路由使用 api 字符前缀，并调用 api 中间件，该中间件定义在 app/Http/Kernel.php 文件内：

protected $middlewareGroups = [
    'api' => [
        'throttle:60,1',
        IlluminateRoutingMiddlewareSubstituteBindings::class,
    ],
];

至于命名空间 $this->namespace 一般返回 AppHttpControllers，我们为了区分API与其他应用，在目录 app/Http/Controller 下创建 API 目录，用于存储所有API相关的控制器。

那么上述的 RouteServiceProvider.php 文件内 mapApiRoutes 方法内的 namespace 需要这样写：

->namespace($this->namespace . 'API')

仍然以 Event 模型作为示例，在 routes/api.php 文件内声明一个资源类型的路由：

Route::resource('/events', 'APIEventsController');

注意命名空间上多出来的前缀 API ，这说明我们是把 EventController 文件放在了 API 目录下。

用户权限

让我们把目光还聚焦在系统默认声明的那条路由：

Route::middleware('auth:api')->get('/user', function (Request $request) {
    return $request->user();
});

注意中间件 auth:api，因为api请求是无状态的，每次请求之间没有任何关联，所以使用用户权限区分资源的返回。那么我们怎么拿到用户授权呢？这在 config/auth.php 文件内定义，看系统自带的这一段配置代码：

'guards' => [
    'api' => [
        'driver' => 'token',
        'provider' => 'users',
        'hash' => false,
    ],
],

这一段定义了我们使用何种方式认证用户的身份。默认的驱动 token 定义在框架文件 laravel/framework/src/Illuminate/Auth/TokenGuard.php 内。长话短说，默认构造类传入的字段如下：

UserProvider $provider,
Request $request,
$inputKey = 'api_token',
$storageKey = 'api_token',
$hash = false

简单说，就是使用 users 表的 api_token 字段用户鉴权。那么默认我们 users 表显然缺少一个这样的字段，现在使用迁移文件补上：

php artisan make:migration add_api_token_field_to_users_table --table=users

首先是迁移方法 up 函数：

public function up()
{
    Schema::table('users', function (Blueprint $table) {
        $table->string('api_token', 60)->unique();
    });
}

还有回滚使用的 down 方法：

public function down()
{
    Schema::table('users', function (Blueprint $table) {
        $table->dropColumn('api_token');
    });
}

这些都是常规操作，我们在之前的章节，使用了N多次了。执行指令迁移数据库：

php artisan migrate

看看效果

准备好了路由，而且路由内声明了一个get方法返回用户模型数据。也准备好了数据库表字段 api_token。我们在数据库表内找到一个用户数据，把api_token值设置为 1234，用于测试。

现在在浏览器内请求类似如下的url地址：

http://www.example.com/api/user?api_token=1234

如无异常，顺利会输出一个 json 字符串，

{
    "id":1,
    "provider":null,
    "provider_id":null,
    "first_name":"Tom",
    "last_name":"Hanks",
    "email":"tom@admin.com",
    "city":"",
    "state_id":null,
    "zip":"43016",
    "lat":null,"lng":null,
    "timezone":"America/New_York",
    "title":"Laravel Developer",
    "created_at":"2020-10-14 17:46:19",
    "updated_at":"2020-10-14 17:46:20",
    "last_login_at":null,
    "is_admin":0,
    "api_token":"1234"
}

这个json格式的数据是怎么来的呢？是在路由内，$request->user() 方法返回的User模型，使用 toArray() 格式化方法获得的。为了演示，很多字段与实际可能有所出入。

特别需要注意的是，关键的密码字段，以及 token 字段，是默认隐藏的，这得益于 User 模型内 $hiden 属性的定义：

protected $hidden = [
    'password', 'remember_token',
];

这些字段都对对外不公开访问。

写在最后

本文介绍了如何声明api地址，已经解释了api从中间件到路由的由来，明白了api授权的方式，可以为我们更灵活地定制授权方式提供便利。这在laravel内都是可插拔的，替换为我们的逻辑代码就可以愉快工作了。

Happy coding :-)

我是@程序员小助手，专注编程知识，圈子动态的IT领域原创作者

面对复杂业务，if-else coder 如何升级？-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

作者 | 张建飞阿里巴巴高级技术专家

导读：针对业务在不同场景下的差异，我们常常会习惯性地使用 if-else 来实现不同的业务逻辑，久而久之代码越来越难以维护。那么如何消除这些 if-else？面对复杂业务应如何思考和分析？本文分享阿里高级技术专家张建飞（Frank）关于复杂业务治理的方法论，介绍一种多维度分析问题的方法：矩阵分析法。

You should not be a if-else coder, should be a complexity conquer.
——Frank

这篇文章，是对之前我在《阿里高级技术专家方法论：如何写复杂业务代码？》说的“自上而下的结构化分解 + 自下而上的抽象建模”方法论的升级。因为在之前的方法论中，我们缺少一个多维度看问题的视角，这种维度思维的缺失，可能会导致 miss 掉一些重要的业务信息，从而使我们制定软件设计策略的时候，陷入困难。

有了维度思维，我们便可以更加方面的去看清业务的全貌，更加全面的掌握业务信息，从而帮助我们更加体系化的去治理复杂性。

从 if-else 说起

我经常说，我们不要做一个 if-else coder。这里的 if-else，不是说我们在 coding 的时候不能使用 if-else，而是说我们不应该简陋地用 if-else 去实现业务的分支流程，因为这样随意的代码堆砌很容易堆出一座座“屎山”。

业务的差异性是 if-else 的根源。以零售通的商品业务为例。不同的处理场景，其业务逻辑实现是有差异性的。如下图所示，商品业务的差异性，主要体现在商品类型、销售方式和仓储方式的不同。

这三个维度上的差异组合起来，有 2 3 2 = 12 之多。这就是为什么在老代码中，到处可以看到 if(组合品) blabla，if(赠品) blabla，if(实仓) blabla 之类的代码。

那么，要如何消除这些讨厌的 if-else 呢？我们可以考虑以下两种方式：

多态扩展：利用面向对象的多态特性，实现代码的复用和扩展。
代码分离：对不同的场景，使用不同的流程代码实现。这样很清晰，但是可维护性不好。

1. 多态扩展

多态扩展可以有继承和组合两种方式。继承勿用多言，组合有点像策略模式，也就是把需要扩展的部分封装、抽象成需要被组合的对象，然后对其进行扩展，比如星环的能力扩展点就是这种方式。

这里，我们举一个继承的例子，商品在上架的时候要检查商品的状态是否可售，普通商品（Item）检查自己就好了，而组合商品（CombineItem）需要检查每一个子商品。

用过程式编码的方式，很容易就能写出如下的代码：

public void checkSellable(Item item){
    if (item.isNormal()){
        item.isSellable(); 
        //省略异常处理
    }
    else{
        List childItems = getChildItems();
        childItems.forEach(childItem -> childItem.isSellable()); 
        //省略异常处理
    }
}

然而，这个实现不优雅，不满足 OCP，也缺少业务语义显性化的表达。更好的做法是，我们可以把 CombineItem 和 Item 的关系通过模型显性化的表达出来。

这样一来，一方面模型正确的反应了实体关系，更清晰了。另一方面，我们可以利用多态来处理CombineItem和Item的差异，扩展性更好。重构后，代码会变成：

public void checkSellable(Item item){
    if (!item.isSellable()){
        throw new BizException("商品的状态不可售，不能上架");
    }
}

2. 代码分离

所谓的代码分离是指，对于不同的业务场景，我们用不同的编排代码将他们分开。以商品上架为例，我们可以这样写：

/**
* 1. 普通商品上架
*/
public void itemOnSale(){
    checkItemStock();//检查库存
    checkItemSellable();//检查可售状态
    checkItemPurchaseLimit();//检查限购
    checkItemFreight();//检查运费
    checkItemCommission();//检查佣金
    checkItemActivityConflict();//检查活动冲突

    generateCspuGroupNo();//生成单品组号
    publishItem();//发布商品
}

/**
* 2. 组合商品上架
*/
public void combineItemOnSale(){
    checkCombineItemStock();//检查库存
    checkCombineItemSellable();//检查可售状态
    checkCombineItemPurchaseLimit();//检查限购
    checkCombineItemFreight();//检查运费
    checkCombineItemCommission();//检查佣金
    checkCombineItemActivityConflict();//检查活动冲突

    generateCspuGroupNo();//生成单品组号
    publishCombineItem();//发布商品
}

/**
* 3. 赠品上架
*/
public void giftItemOnSale(){
    checkGiftItemSellable();//检查可售状态
    publishGiftItem();//发布商品
}

这种方式，当然也可以消除 if-else，彼此独立，也还清晰。但复用性是个问题。

3. 多维分析

细心的你可能已经发现了，在上面的案例中，普通商品和组合商品的业务流程基本是一样的。如果采用两套编排代码，有点冗余，这种重复将不利于后期代码的维护，会出现散弹式修改（一个业务逻辑要修改多处）的问题。

一个极端情况是，假如普通商品和组合商品，只有 checkSellable() 不一样，其它都一样。那毫无疑问，我们使用有多态（继承关系）的 CombineItem 和 Item 来处理差异，会更加合适。

而赠品上架的情况恰恰相反，它和其他商品的上架流程差异很大。反而不适合和他们合用一套流程代码，因为这样反而会增加他人的理解成本。还不如单独起一个流程来的清晰。

那么，问题来了，我们什么时候要用多态来处理差异，什么时候要用代码分离来处理差异呢？

接下来，是我今天要给你着重介绍的多维度分析问题的方法论之一：矩阵分析法。

我们可以弄一个矩阵，纵列代表业务场景，横列代表业务动作，里面的内容代表在这个业务场景下的业务动作的详细业务流程。对于我们的商品业务，我们可以得到如下的矩阵：

通过上面的矩阵分析，我们不难看出普通品和组合品可以复用同一套流程编排代码，而赠品和出清品的业务相对简单，更适合有一套独立的编排代码，这样的代码结构会更容易理解。

维度思维

1. 多维度的重要性

上面的案例不是我编造出来的，而是我在和张文（我同事）讨论应该用哪种方式去处理业务差异的真实故事。

我记得在和大学讨论完，开车回去的路上，我一直在想这个问题，然后在第二个路口等红灯的时候，突然有一个灵感冒出来。我抑制不住兴奋，一边开车，一边发消息给张文说：“我想到了一个很 NB 的方法论，能解决在‘多态扩展’和‘代码分离’之间如何做选择的问题”。

其实，我知道我兴奋的不仅仅是解决了这个问题。我兴奋的是，我第一次真正领悟到了多维度思考的重要性。从而有机会从一个“单维度”生物，升级成一个“多维度”思考者。妈妈再也不用担心我被“降维打击”了 :)

结构化思维有用、很有用、非常有用，只是它更多关注的是单向维度的事情。比如我要拆解业务流程，我要分解老板给我的工作安排，我要梳理测试用例，都是单向维度的。

而复杂性，通常不仅仅是一个维度上的复杂，而是在多个维度上的交叉复杂性。当问题涉及的要素比较多，彼此关联关系很复杂的时候，两个维度肯定会比一个维度要来的清晰，这也是为什么说矩阵思维是比结构化思维更高层次的思维方式。

实际上，我们从汉语的词汇上，也不难看出一个人的思维层级，是和他的思考维度正相关的。当我们说这个人很“轴”、“一根筋”的时候，实际上是在说他只有一维的线性思维。所以，观察事物的视角越多，维度越丰富，其思维层级也会越高。

2. 无处不在的多维思考

有了这些感悟，我开始系统的整理关于多维度思考分析的资料，发现这种思考方式真是无处不在。发现的越多，我越是感慨，为什么如此重要的思维方式，我到现在才领悟到。

1）波士顿矩阵

比如，在做产品分析的时候，有对产品发展前景进行分析的波士顿矩阵。

2）订单要素分析

当年，我在 1688 做交易下单业务的时候，有非常多的下单场景，每种场景下，买家享受的权益是不一样的（如下表所示）。我们当时也是使用了矩阵去表达这个复杂的关系，只是当时还没有想到要将其提升到方法论的高度。

3）数据交叉分析

在数据分析中，维度分析是非常重要的，特别是维度很多的时候，我们可以通过皮尔逊积矩相关系数，做交叉分析，从而弥补独立维度分析没法发现的一些问题。

简单相关系数矩阵

4）分析矩阵

最近我碰巧看到 Alan Shalloway 写的《设计模式解析：Design Patterns Explained》，这是一本非常经典的关于 OOP 的书，里面的第十六章就是专门讲“分析矩阵”的，作者创造这个方法论的初衷也是因为业务涉及的要素太多，信息量太大，他需要一种组织海量数据的新方式。

我和 Alan 的路径不一样，但是都得出了同样的结论。由此可见，这种矩阵分析的方式的确是对复杂业务进行分析的一把利器，业务场景越多，交叉关系越是复杂，越需要这样的分析。

5）组织阵型

生产关系决定生产力，对于一个管理者来说，如何有效的设置组织结构是决定团队是否能高效协作的关键。所以我们可以看到公司里面，每年都有比较大的关于组织结构和人员安排的调整。

对于技术团队来说，我们习惯于按领域划分工作范围，这样做的好处是责任到人、职责清晰。然而，领域只是一个维度，我们工作通常都是以项目的形式的开展，而项目通常是贯穿多个领域的。所以，在做团队组织规划的时候，我们可以通过业务领域和业务项目两个维度去看。

比如，在我负责的商品团队，我会按照如下的形式去做职责划分。

6）时间维度

除了工作，生活中也到处可见多维思考的重要性。

比如，我们说浪费可耻，应该把盘子舔的很干净，岂不知加上时间维度之后，你当前的舔盘，后面可能要耗费更多的资源和精力去减肥，反而会造成更大的浪费。

我们说代码写的丑陋，是因为要“快速”支撑业务，加上时间维度之后，这种临时的妥协，换来的是意想不到的 bug，线上故障，以及无止尽的 996。

7）RFM 模型

简单的思考是“点”状的，比如舔盘、代码堆砌就是当下的“点”；好一点的思考是“线”状，加上时间线之后，不难看出“点”是有问题的；再全面一些的思考是“面”（二维）；更体系化的思考是“体”（三维）；比如，RFM 模型就是一个很不错的三维模型。可惜的是，在表达上，我们人类只能在二维的空间里去模拟三维，否则四维可能会更加有用。

复杂业务治理总结

在前言部分，我已经说过了，多维分析是对之前方法论的升级。加上以前的方法论，完整的方法论应该是“业务理解-->领域建模-->流程分解-->多维分析”。

为了方便大家理解，下面我把这些方法论做一个简单的串联和解释。

1. 业务理解

理解业务是所有工作的起点。首先，我们要找到业务的核心要素，理解核心概念，梳理业务流程。

比如，在零售通的商品域，我们要知道什么是商品（Item），什么是单品（CSPU），什么是组合品（CombineItem）。在下单域，我们要知道订单（order）的构成要素是商品、优惠、支付。在 CRM 领域，我们要理解客户、机会、联系人、Leads 等等。

这里，我想再次强调下语言的重要性，语言是我们思考的载体，就像维特根斯坦说的：“凡是能够说的事情，都能够说清楚”。

你不应该放过任何一个模糊的业务概念，一定要透彻的理解它，并给与合理的命名（Ubiquitous Language）。唯有如此，我们才能更加清晰的理解业务，才能更好的开展后续的工作。

2. 领域建模

在软件设计中，模型是指实体，以及实体之间的联系，这里需要我们具备良好的抽象能力。能够透过庞杂的表象，找到事务的本质核心。

再复杂的业务领域，其核心概念都不应该太复杂，抓住了核心，我们就抓住了主线，业务往往都是围绕着这些核心实体展开的。

比如，商品域虽然很复杂，但其核心的领域模型，无外乎就如下图所示：

3. 流程分解

关于流程分解，在《阿里高级技术专家方法论：如何写复杂业务代码？》里面已经有非常详细的阐述，这里就不赘述了。

简单来说，流程分解就是对业务过程进行详细的分解，使用结构化的方法论（先演绎、后归纳），最后形成一个金字塔结构。

比如，在商品领域，有创建商品、商品上架、上架审核、商品下架、下架审核、修改商品、删除商品等一些列动作（流程），每个动作的背后都有非常复杂的业务逻辑。我们需要对这些流程进行详细的梳理，然后按步骤进行分解。最后形成一个如下的金字塔结构：

4. 多维分析

关于多维分析，我以二维的矩阵分析为例，我想我前面应该已经说清楚了。

业务的复杂性主要体现在流程的复杂性和多维度要素相互关联、依赖关系上，结构化思维可以帮我们梳理流程，而矩阵思维可以帮忙我们梳理、呈现多维度关联、依赖关系。二者结合，可以更加全面的展现复杂业务的全貌。从而让我们的治理可以有的放矢、有章可循。

既然是方法论，在这里，我会尝试给出一个矩阵分析的框架。试想下，如果我们的业务很简单，只有一个业务场景，没有分支流程。我们的系统不会太复杂。之所以复杂，是因为各种业务场景互相叠加、依赖、影响。

因此，我们在做矩阵分析的时候，纵轴可以选择使用业务场景，横轴是备选维度，可以是受场景影响的业务流程（如文章中的商品流程矩阵图），也可以是受场景影响的业务属性（如文章中的订单组成要素矩阵图），或者任何其它不同性质的“东西”。

通过矩阵图，可以清晰的展现不同场景下，业务的差异性。基于此，我们可以定制满足差异性的最佳实现策略，可能是多态扩展，可能是分离的代码，也可能是其它。

这就是矩阵分析的要义，其本质是一种多维度思考的方法论。

篇后寄语

最后，我想说世界是熵增的（即万物都在缓慢的分崩离析），控制复杂度是我们这些从业者无法推卸的责任和使命。

软件行业的发展才几十年，还是一门年轻的学科，软件工程就像一个刚学会走路的小孩，还很不成熟，有时还很幼稚。

但毕竟还是有几十年的沉淀，还是有一些好的方法和实践可以参考，我的这些总结沉淀只是在前人的基础上，多走了一点点而已。但就是这一点点，也实属来自不易，其中冷暖，只有自己能体会。可以说，这一路走来，是一场对心力、脑力和体力的持续考验。

心力是指不将就的匠心，不妥协的决心，不满足的好奇心、以及不放弃的恒心。
脑力是指那些必要的思维能力、学习能力、思考能力、思辨能力。
之所以说“业务理解-->领域建模-->流程分解-->多维分析”是体力，是因为实现它们就像是在做填空题，只要你愿意花时间，再复杂的业务都可以按部就班的清晰起来。

梳理清晰了，再配合 COLA（https://start.aliyun.com/）的指导，我们就有可能写出清晰、易读的代码，就有可能从一个 if-else coder 升级为一个 complexity conquer。

而这不正是我们工程师孜孜不倦的追求吗?

“阿里巴巴云原生关注微服务、Serverless、容器、Service Mesh 等技术领域、聚焦云原生流行技术趋势、云原生大规模的落地实践，做最懂云原生开发者的公众号。”

阿里云rds并发性能解读-大分区表高并发性能提升100倍？-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

阿里云某客户发现自己使用读写分离实例，master的cpu特别高，而读写分离中承担读流量的slave节点却相对空闲。用户CPU打满后，访问到主节点的的线上服务受到了较大影响。关于阿里云RDS请参考云数据库RDS详情链接。

Redis读写分离实例的原理是：key统一写入到master，然后通过主从复制同步到slave，用户的请求通过proxy做判断，如果是写请求，转发到master；如果是读请求，分散转发到slave，这种架构适合读请求数量远大于写请求数量的业务，读写分离架构示意图如下所示。

阿里云Redis读写分离版读写命令转发示例

bitfield命令

经过和客户沟通查看后，客户使用了大量的bitfield做读取，首先介绍一下这个命令的用法和场景，bitfield 是针对bitmap数据类型操作的命令，bitmap通常被用来在极小空间消耗下通过位的运算（AND/OR/XOR/NOT）实现对状态的判断，常见的使用场景例如：

通过bitmap来记录用户每天应用登录状态，即如果$ID用户登录，就SETBIT logins:20200404 $ID 1，表示用户$ID在20200404这一天登录了，通过BITCOUNT logins:20200404可以得到这一天所有登录过的用户数量；通过对两天的记录求AND，可以判断哪个用户连续两天登录了，即BITOP AND logins:20200404-05 logins:20200404 logins:20200404。
判断用户是否阅读了共同的文章，观看了共同的视频等。

前一阵子，答题领奖活动非常火爆，“答对12道题的同学有机会瓜分奖池”，这种如果使用bitmap来实现，就非常容易判断出用户是否全部答对。

一个使用Redis BITMAP设计的答题游戏系统

答题系统设计如：

每个用户每轮答题，设置一个key，比如user1在第一轮答题的key是 round:1:user1
每答对一道题，设置相关的bit为1，比如user1答对了第5题，那么就设置第5个bit为1就可以了，如： SETBIT round:1:user1 5 1 ；如果用户1在第一轮答对了第9题，那么就把第9个bit设置为1，SETBIT round:1:user1 9 1；值得注意的是，bitfield默认bit都是0，答错可以不设置

计算用户总共答对了几道题，就可以使用 BITCOUNT 命令统计1的bit个数。如user1答对了3道题，user2在第一轮全部答对，那么user2就有机会参与答题（第1轮）的后续玩法

可见，Redis的bitmap接口可以用非常高的存储效率和计算加速效果。回到bitfiled命令，它的语法如下所示：

BITFIELD key  
[GET type offset] // 获取指定位的值
[SET type offset value] // 设置指定位的值
[INCRBY type offset increment] // 增加指定位的值
[OVERFLOW WRAP|SAT|FAIL] // 控制INCR的界限

读写分离实例处理bitfield的问题

从上文可知，bitfield的子命令中，GET命令是读属性，SET/INCRBY命令为写属性，因此Redis将其归类为写属性，从而只能被转发到master实例，如下图所示为bitfield的路由情况。

这就是为什么客户使用了读写分离版，而只有master节点cpu使用高，其余slave节点却没有收到这个命令的打散的原因。

解决方案

方案一：改造Redis内核，将bitfield命令属性标记为读属性，但是当其包含SET/INCRBY等写属性的子命令时候，仍旧将其同步到slave等。此方案优点是外部组件（proxy和客户端）不需要做修改，缺点是需要对bitfiled命令做特殊处理，破坏引擎命令统一处理的一致性。
方案二：增加bitfield_ro命令，类似于georadius_ro命令，用来只支持get选项，从而作为读属性，这样就避免了slave无法读取的问题。此方案优点是方案清晰可靠，缺点是需要proxy和客户端做适配才能使用。

经过讨论，最终采取了方案二，因为这个方案更优雅，也更标准化。

添加bitfield_ro

{"bitfield_ro",bitfieldroCommand,-2,
"read-only fast @bitmap",
0,NULL,1,1,1,0,0,0},

完成之后，下图是在slave上执行bitfield_ro命令，可以看到被正确执行。

tair-redis > SLAVEOF 127.0.0.1 6379
OK
tair-redis > set k v
(error) READONLY You can't write against a read only replica.
tair-redis > BITFIELD mykey GET u4 0
(error) READONLY You can't write against a read only replica.
tair-redis > BITFIELD_RO mykey GET u4 0
1) (integer) 0

Proxy转发

为了保持用户不做代码修改，我们在proxy上对bitfiled命令做了兼容，即如果用户的bitfield命令只有get选项，proxy会将此命令转换为bitfield_ro分散转发到后端多个节点上，从而实现加速，用户不用做任何改造即可完成加速，如下图所示。

添加BITFIELD_RO命令后处理BITFIELD逻辑流程

贡献社区

我们将自己的修改回馈给了社区，并且被Redis官方接受

值得一提的是，阿里云在国内是最大的Redis社区contributer，如在新发布的Redis-6.0rc中，阿里云的贡献排第三，仅次于作者和Redis vendor（Redis Labs）。阿里云仍旧在不断的回馈和贡献社区。

阿里云Redis通过增加bitfield_ro命令，解决了官方bitfield get命令无法在slave上加速执行的问题。

除过bitfield命令，阿里云Redis也同时对georadius命令做了兼容转换，即在读写分离实例上，如果georadius/georadiusbymember命令没有store/storedist选项，将会被自动判断为读命令转发到slave加速执行。

我们思考读写分离版的场景，为什么用户需要读写分离呢？为什么不是用集群版呢？我们做一下简单对比，比如设置社区版的服务能力为K，那么表的对比如下（我们只添加了增强版Tair的主备做对比，集群版可以直接乘以分片数）：

方式 Redis社区版集群 Redis社区版读写分离 Redis（Tair增强版）主备
写（key均匀情况） K分片数 K K3
读（key均匀情况） K分片数 K只读节点数 K*3
写（单key或热key） K（最坏情况） K K*3
读（单key或热key） K（最坏情况） K只读节点数 K3
表1. Redis社区版（集群/读写分离）和增强版（主备）简单场景对比

可见，其实读写分离版属于对单个key和热key的读能力的扩展的一种方法，比较适合中小用户有大key的情况，它无法解决用户的突发写的瓶颈，比如在这个场景下，如果用户的bitfield命令是写请求（子命令中带有INCRBY和SET），就会遇到无法解决的性能问题。

从表的对比看，这种情况下，用户如果能把key拆散，或者把大key拆成很多小key，就可以使用集群版获得良好的线性加速能力。大key带来的问题包含但不仅限于：

大key会造成数据倾斜，使得Redis的容量和服务能力不能线性扩展
大key意味着大概率这个key是热点
一旦不小心针对大key有range类的操作，会出现慢查询，还容易打爆带宽
这也是Tair增强版在阿里集团内各个应用建议的：“避免设计出大key和慢查，能避免90%以上的Redis问题”。

但是在实际使用中，用户仍旧不可避免的遇到热点问题，比如抢购，比如热剧，比如超大型直播间等；尤其是很多热点具备“突发性”的特点，事先并不知晓，冲击随时可达。Redis增强版的性能增强实例具备单key在O(1)操作40～45w ops的服务能力和极强的抗冲击能力，单机主备版就足够应对一场中大型的秒杀活动！同时如果用户没有大key，增强性能集群版能够近乎赋予用户千万甚至几千万OPS的服务能力，这也是Tair作为阿里重器，支持每次平稳渡过双11购物节秒杀的关键

原文链接：https://www.9i0i.com/article-95490-1.html

全面上云这条路，洋葱学院已经走了近7年 -阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

洋葱学院在2013年末成立，原名洋葱数学，是一家K12在线教育公司。课程里没有真人老师授课，而是采用100%人机交互学习方式，每节课5-8分钟动画视频的形式精讲一个知识点或解题思维，希望有趣生动的讲解方式让更多的孩子们爱上学习。

创新且锐意进取，是这个公司的基因。

洋葱学院由杨临风、朱若辰和李诺联合创办，团队希望通过技术方式促进教育均衡。在创立之初，团队就做出了一个意识超前的决定：整套业务系统均基于阿里云搭建。

要知道，2013年，能选择全面上云的中国企业屈指可数。

上云先锋洋葱学院这一路走来，也是和阿里云一同携手成长的难忘历程。几年前，由于某个特殊使用场景，线上业务受到严重影响，洋葱学院和阿里云紧急沟通、快速排查问题，阿里云云数据库的专家同学进行了重启、备份等一系列工作。

早先，洋葱学院起步于初中数学、物理课程，但是随着不断发展，开始加入语文和英语等学科，这些课程特点不同、相应的学习流程不同。除了早先选用的ECS云服务、SLB负载均衡、阿里云云数据库等经典基础产品之外，洋葱学院也尝试将新的业务应用搭建于一些新兴阿里云产品，如ACK容器服务、RSS弹性伸缩、SLS日志服务、Blink实时计算、ARMS前端监控等，来满足日趋复杂和多样化的业务需求。

如今，从初中理科逐渐扩展到小初高全学段全学科，为130多万教师以及3600多万的中小学生提供24小时在线的“云课堂”。

疫情大考突如其来，IT架构稳如泰山

疫情期间（近一个月以来），有超过700万学生、35万教师使用洋葱学院APP在线学习或辅助授课，同时还将课程资源开放给学习强国、快手等第三方平台播放，帮助更广泛的学生远程学习。

能应对猝不及防的疫情流量洪峰，洋葱都做了怎样的努力、下足了哪些功夫呢？

在线教育业务的一个重要特点，就是波峰波谷比较规律，可预测。在学校下课或放假时期，业务会达到上升，洋葱学院便会在数分钟扩容云上资源，待学生返校上课之时，再根据业务情况释放资源，这样持续保持较高的资源利用率，既节省成本又确保业务响应。

3年前，洋葱学院开始尝试微服务改造，将复杂的单体架构进行拆分和解耦。同时采用容器技术，并也将swarm迁移至阿里云容器服务ACK之上，原本每个模块都对应一套ECS与SLB，但是随着微服务越拆越细，开始出现资源浪费的情况，而且调度复杂度都在迅速膨胀。容器服务可以根据不同模块的配置所需，资源分配更加合理，按照定义规则自动弹性伸缩避免了复杂的调度维护。

容器的弹性

基本功夯实的基础上，洋葱学院还做了一些方案优化和升级。

延期开学的这段时间里，广大学生学习时间较为集中，面对大流量、高并发访问需求，洋葱学院需要确保业务稳定性，采用阿里云容器服务与云数据库融合解决方案，在应用不变的情况下，快速平稳实现扩容的问题。阿里云容器服务可以在几分钟内扩充底层资源，满足快速部署数千个应用实例的需求。阿里云容器服务团队的建议下，洋葱学院还进一步优化了整体的ECS服务器配置，将大量的小规格ECS服务器更换成30至50核大规格ECS，从容应对10倍扩容，同时运维管控更加便捷。

针对疫情延期开学，洋葱学院作为头部K12在线教育公司，免费向全国师生开放了平台的全部核心课程资源，这期间每天的学习访问人数持续飙升。使用云容器之后，系统在资源利用率上提升了约60%，出现问题后可快速隔离，当面对急剧增长的业务量，也可以在短时间内扩容进行业务支撑。——李诺洋葱学院联合创始人&CTO

数据库的升级

为了确保平台使用起来“丝般顺滑”，阿里云为洋葱学院提供了综合架构解决方案：数据库层将云数据库Redis数据库做高速缓存，RDS PostgreSQL+MongoDB做持久化存储；应用层对微服务进行改造，以及容器化部署。这是完成挑战的核心能力。

洋葱学院还对冷用户和冷热数据做了优化：冷用户，即第一次来的用户信息较少，此期间冷用户过多，亟需优化冷用户的流程处理，这需要提高高压下的数据快速处理能力，处理变得更快；老师和学生的作业数据，会有冷热数据之分，每隔一段时间进行数据迁移，但是热数据增长过快，此前方案逐渐应接不暇。在阿里云云数据专家的建议下，将冷用户缓存增加，升级数据库，对数据库进行了分库分表，还进行了一系列索引优化、语句改写以及业务改造等工作。

在此次疫情中，洋葱学院利用阿里云数据库的极致弹性、无缝升级扩容能力，一晚上便完成了几十个核心数据库的容量升级以及PG实例版本升级。单个云Redis集群可承载千万级访问的超高性能，确保了即使流量数十倍增长也不会有业务瓶颈。同时，持久化存储RDS PostgreSQL、MongoDB有更强的承载能力，不仅可以应对复杂查询，还可做到极致超强弹性水平扩展，全面保障了洋葱学院的运行，在业务量比历史同期翻了10倍的情况下仍然保持平稳。

故障检测

此外，原本只能依靠负载均衡的定时扫描错误节点，故障检测存在一定时延；而Kubernetes自带容灾和错误发现机制，容器内部pod之间自动实现切换，大大缩短问题发现时间，同时基于阿里云云监控、ARMS Prometheus、ARMS前端监控和日志服务，实现云资源、容器集群、容器节点、Pod等指标的完善监控，对集群变更状态、pod创建拉起删除、组件异常等信息，基本可以覆盖到各种监控报警问题，将重大故障‘扼杀于摇篮之中’。

AI辅助教学，学生老师个性化“Friday”

看过复仇者联盟的朋友们，都记得钢铁侠的AI助手Friday，每次关键时刻都协助钢铁侠力挽狂澜。

洋葱学院的APP，其实早已经成为很多学生和老师的AI助手Friday。2017年，洋葱学院成立人工智能实验室，并尝试将AI赋能引入其教学体系。最主要的原因，是希望为学生们打造完整的学习闭环，产品能根据学生的学习现状和效果，动态规划学习路径，推送个性化学习内容。

而老师则可以通过数据后台实时充分掌握班上每名学生的学习能力和知识掌握情况，为同班同学一键布置不同的教学任务。

用心做产品，以诚待客

洋葱学院自成立之处，便决心搭建于云上。在他们看来，自己研究开源方案或重新搭建系统，是"事倍功半"的，意味着巨大的运维负担；因此，每当有新的业务需求时，洋葱学院都会首先考虑能否使用云上已有方案，他们相信阿里云服务的稳定性、专业性。

洋葱学院将更多的人力和精力投入到了课程研发之中，打磨课程。如今，洋葱的用户遍布全国，深受师生和家长的喜爱，多达3600万学生自发推荐，社科院白皮书显示其教师推荐度和家长满意度分别高达85%和90%。

洋葱学院以匠人之心打造“ 云 ”课堂，是一群践行教育初心的梦想家和冒险家。

双11大战必备神器——DataV数据可视化-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

突然的降温和强冷空气告诉我，是时候为保暖秋裤来一波购物血拼了。今年的双十一马上到达战场，你准备贡献多少战绩呢！
是不是每年都很期待阿里巴巴汇报双十一最后的成交额，我们可以搬个小板凳一起观看一下那块弥漫着八亿人硝烟的大屏幕。

每年双十一都会出现的这块大屏到底有什么神通广大呢？要想今年双十一吹不一样的牛逼，就要了解一下不一样的神器——DataV数据可视化

专业解释：DataV是一个拖拽式可视化工具，可以在零售、物流、电力、水利、环保，还有交通领域，通过交互式实时数据可视化视屏墙来帮助业务人员发现、诊断业务问题。

它到底有什么样的魅力？

专业级的数据可视化

专精于地理信息与业务数据融合的可视化，提供丰富的行业模版和交互组件，支持自定义组件接入。

来瞅一眼这个组件有多丰富，DataV的开发小伙伴也太为大家着想了一点。（开发小伙伴还偷偷告诉我，第三方的组件包购买之后也可以接入DataV哦！我真的不是商业间谍）

指挥中心、实时监控、地理分析、汇报展示等等这么多的屏幕模板，真的不用怕没有设计师！

多种数据源支持

支持接入包括阿里云分析型数据库、关系型数据库、本地CSV上传和在线API等，而且支持动态请求。

大数据计算的能力有没有发挥的很棒！（请跟我一起竖起大拇指）

图形化编辑界面

拖拽即可完成样式和数据配置，无需编程就能轻松搭建数据大屏。

只要轻轻动动你的小手指，拖拖拽拽，不需要编程能力，就可以创造出专业的可视化应用！（我真的不是DataV的脑残粉）

灵活部署和发布

适配非常规拼接大屏，创建的可视化应用能够发布分享，没有购买DataV产品的用户也可以访问到应用，作为对外数据业务展示的窗口。或者通过密码/Token的方式进行访问权限控制，保护数据隐私安全。还可以通过历史快照来保存历史版本，并在历史版本之间切换并发布。

在某些场景，如数据涉密无法上云、展示现场网络条件有限等条件下，还可以采用 DataV 本地部署的方式。

部署和发布如此流畅，不如一起来拖拖拽拽一个可视化界面，展示一下你真正的实力。

双十一期间购买DataV可享受超级福利折扣价！
详情优惠请戳：购买链接

阿里云物联网平台如何订阅异步服务调用的返回结果？-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

业务场景

1、云端向设备发送的下行消息或者异步服务调用到平台也算结束，平台再向设备进行一个透传
2、设备端向平台发送的上行消息到平台就算结束
3、云端通过服务端订阅来获取设备上行的消息

原理
1、要想获取异步服务调用的返回结果，首先设备得有返回
(1) 设备接收平台端透传过来的异步服务调用

(2)设备端收到数据后进行响应

2、这里的设备响应结果发送给平台之后，平台可通过
云产品流传或服务端订阅，再将消息发送给云端
方式一：云平台流转，注意选择Topic:
/${productKey}/${deviceName}/thing/downlink/reply/message

这个为什么可行？可参考官方文档说明

然后添加操作为发布到AMQP消费组

方式二:AMQP服务端订阅
订阅什么呢？勾选设备上报消息即可（前提是设备端有返回，即满足原理1的前提）

操作步骤
不多说了，直接上步骤
1、准备测试用的产品和设备
主要是定义一个异步服务：这里不详细阐述

2、准备测试用的云端调试工具
可以是集成云端SDK的Demo，可以是业务逻辑应用调用云端API，最简单的直接使用云端API在线调试工具
具体参数填写规范，这里也不做详细阐述

3、物联网平台控制台上配置好规则引擎
（1）云平台流转

选择好产品设备和topic

注意SQL语句的编写，这里的字段就是要发送给AMQP客户端的消息内容，可以事先进行调试。

这里要注意AMQP客户端都是按照既定的协议格式进行过滤数据的，所以这里的消息内容需要按照协议进行配置

确定好消息内容后

SQL语句：

SELECT timestamp('yyyy-MM-dd'T'HH:mm:ss'Z'') as 云平台流转至AMQP测试,deviceName() as deviceName, code as code,data as data,topic() as topic,messageId() as requestId,id as id,topic(1) as productKey,iotId as iotId FROM "/a16hDZJpRCl/IoTDeviceDemo1thing/downlink/reply/message" WHERE

（2）服务端订阅

勾选设备上报消息即可，具体消费组怎么创建就不详细阐述

实测效果：

4、设备端接收消息+响应reply

代码示例：
pom.xml:



    4.0.0

    org.example
    MQTTClient
    1.0-SNAPSHOT
    
        
            
                org.apache.maven.plugins
                maven-compiler-plugin
                
                    6
                    6
                
            
        
    
    
        
            org.eclipse.paho
            org.eclipse.paho.client.mqttv3
            1.1.0
        
        
            com.google.guava
            guava
            23.0
        
        
            com.aliyun
            aliyun-java-sdk-core
            3.5.1

AliyunIoTSignUtil：

package com.alibaba.taro;

import javax.crypto.Mac;
import javax.crypto.SecretKey;
import javax.crypto.spec.SecretKeySpec;
import java.util.Arrays;
import java.util.Map;

/**
 * AliyunIoTSignUtil
 */

public class AliyunIoTSignUtil {
    public static String sign(Map params, String deviceSecret, String signMethod) {
        //将参数Key按字典顺序排序
        String[] sortedKeys = params.keySet().toArray(new String[] {});
        Arrays.sort(sortedKeys);

        //生成规范化请求字符串
        StringBuilder canonicalizedQueryString = new StringBuilder();
        for (String key : sortedKeys) {
            if ("sign".equalsIgnoreCase(key)) {
                continue;
            }
            canonicalizedQueryString.append(key).append(params.get(key));
        }

        try {
            String key = deviceSecret;
            return encryptHMAC(signMethod,canonicalizedQueryString.toString(), key);
        } catch (Exception e) {
            throw new RuntimeException(e);
        }
    }

    /**
     * HMACSHA1加密
     *
     */
    public static String encryptHMAC(String signMethod,String content, String key) throws Exception {
        SecretKey secretKey = new SecretKeySpec(key.getBytes("utf-8"), signMethod);
        Mac mac = Mac.getInstance(secretKey.getAlgorithm());
        mac.init(secretKey);
        byte[] data = mac.doFinal(content.getBytes("utf-8"));
        return bytesToHexString(data);
    }

    public static final String bytesToHexString(byte[] bArray) {

        StringBuffer sb = new StringBuffer(bArray.length);
        String sTemp;
        for (int i = 0; i < bArray.length; i++) {
            sTemp = Integer.toHexString(0xFF & bArray[i]);
            if (sTemp.length() < 2) {
                sb.append(0);
            }
            sb.append(sTemp.toUpperCase());
        }
        return sb.toString();
    }
}

Demo：


package com.alibaba;

import com.alibaba.taro.AliyunIoTSignUtil;
import org.eclipse.paho.client.mqttv3.*;
import org.eclipse.paho.client.mqttv3.persist.MemoryPersistence;
import org.json.JSONObject;

import java.util.HashMap;
import java.util.Map;


public class CustomTopicMessageDemo2 {

    public static String productKey = "a16hD*****";
    public static String deviceName = "IoTDevice****";
    public static String deviceSecret = "0895205d*********";
    public static String regionId = "cn-shanghai";


    // 物模型-属性上报topic
    //private static String pubTopic = "/sys/" + productKey + "/" + deviceName + "/thing/event/property/post";
    //private static String subTopic = "/sys/" + productKey + "/" + deviceName + "/thing/service/property/set";
    // 自定义topic，在产品Topic列表位置定义
    //private static String pubTopic = "/"+productKey + "/" + deviceName+"/user/DemoTest";
    //private static String subTopic = "/"+productKey + "/" + deviceName+"/user/DemoTest";
    private static String pubTopic = "/"+productKey + "/" + deviceName+"/user/get";
    private static String subTopic = "/"+productKey + "/" + deviceName+"/user/get";

    private static MqttClient mqttClient;

    public static void main(String [] args){

        initAliyunIoTClient();
//        ScheduledExecutorService scheduledThreadPool = new ScheduledThreadPoolExecutor(1,
//                new ThreadFactoryBuilder().setNameFormat("thread-runner-%d").build());
//
//        scheduledThreadPool.scheduleAtFixedRate(()->postDeviceProperties(), 10,10, TimeUnit.SECONDS);
        // 汇报属性
        //String payloadJson = "{"params":{"MasterLightSwitch":0,"LivingLightSwitch":0,"SecondaryLightSwotch":0,"MasterCurtainSwitch":1,"SecondaryCurtainSwitch":1,"LivingCurtainSwitch":1}}";
        //String payloadJson = "{"params":{"Temp":77,"yyy":{"tttt":"123"}}}";
        String payloadJson = "{"params":{"Temp":77,"yyy":"8888"}}";
        //String payloadJson = "{"tts":"ss"}";
        //String payloadJson = "34454545";
        postDeviceProperties(payloadJson);

        try {
            mqttClient.subscribe(subTopic); // 订阅Topic
        } catch (MqttException e) {
            System.out.println("error:" + e.getMessage());
            e.printStackTrace();
        }

        // 设置订阅监听
        mqttClient.setCallback(new MqttCallback() {
            @Override
            public void connectionLost(Throwable throwable) {
                System.out.println("connection Lost");

            }

            @Override
            public void messageArrived(String s, MqttMessage mqttMessage) throws Exception {
                String payload =  new String(mqttMessage.getPayload());
                System.out.println(" 接收消息：");
                System.out.println("Topic : " + s);
                System.out.println(payload); //打印输出消息payLoad
                System.out.println("=================================================================");

//                String subTopic = "/sys/" + productKey + "/" + deviceName + "/thing/service/property/set";
//                if(s.equals(subTopic)) {
//                    JSONObject jsonProperty = new JSONObject(payload);
//                    if(jsonProperty.has("params"))
//                    {
//                        String paramsJson = jsonProperty.get("params").toString();
//                        System.out.println("test paramsJson is:n" + paramsJson);
//                        String params = "{"params": " +  paramsJson + "}";
//                        System.out.println("test params is:n" + params);
//                        System.out.println("收到属性设置后，再上报一次属性：");
//                        postDeviceProperties(params);
//                    }
//                }

                //收到服务调用，给予返回reply
//                下行（Alink JSON）：
//                请求Topic：/sys/{productKey}/{deviceName}/thing/service/{tsl.service.identifier}
//                响应Topic：/sys/{productKey}/{deviceName}/thing/service/{tsl.service.identifier}_reply
                String subTopic = "/sys/" + productKey + "/" + deviceName + "/thing/service/StartP2PStreaming";
                String replyTopic = "/sys/" + productKey + "/" + deviceName + "/thing/service/StartP2PStreaming_reply";
                if(s.equals(subTopic)) {
                    JSONObject jsonProperty = new JSONObject(payload);
                    if(jsonProperty.has("id"))
                    {
                        String id = jsonProperty.get("id").toString();
                        String replyJson = "{"data":{},"code":200,"id":""+ id +""}";
                        //System.out.println("test replyJson is:n" + replyJson);
                        //String replys = "{"params": " +  replyJson + "}";
                        //System.out.println("test reply is:n" + replys);
                        System.out.println("收到服务调用后，给予返回");
                        postServiceReply(replyJson,replyTopic);
                    }
                }
            }

            @Override
            public void deliveryComplete(IMqttDeliveryToken iMqttDeliveryToken) {

            }
        });

    }

    /**
     * 初始化 Client 对象
     */
    private static void initAliyunIoTClient() {

        try {
            // 构造连接需要的参数
            String clientId = "java" + System.currentTimeMillis();
            Map params = new HashMap(16);
            params.put("productKey", productKey);
            params.put("deviceName", deviceName);
            params.put("clientId", clientId);
            String timestamp = String.valueOf(System.currentTimeMillis());
            params.put("timestamp", timestamp);
            // cn-shanghai
            String targetServer = "tcp://" + productKey + ".iot-as-mqtt."+regionId+".aliyuncs.com:1883";

            String mqttclientId = clientId + "|securemode=3,signmethod=hmacsha1,timestamp=" + timestamp + "|";
            String mqttUsername = deviceName + "&" + productKey;
            String mqttPassword = AliyunIoTSignUtil.sign(params, deviceSecret, "hmacsha1");

            connectMqtt(targetServer, mqttclientId, mqttUsername, mqttPassword);

        } catch (Exception e) {
            System.out.println("initAliyunIoTClient error " + e.getMessage());
        }
    }

    public static void connectMqtt(String url, String clientId, String mqttUsername, String mqttPassword) throws Exception {

        MemoryPersistence persistence = new MemoryPersistence();
        mqttClient = new MqttClient(url, clientId, persistence);
        MqttConnectOptions connOpts = new MqttConnectOptions();
        // MQTT 3.1.1
        connOpts.setMqttVersion(4);
        connOpts.setAutomaticReconnect(false);
        connOpts.setCleanSession(false);
        //connOpts.setCleanSession(true);

        connOpts.setUserName(mqttUsername);
        connOpts.setPassword(mqttPassword.toCharArray());
        connOpts.setKeepAliveInterval(60);

        mqttClient.connect(connOpts);
    }

    /**
     * 汇报属性
     */
    private static void postDeviceProperties(String payloadJson) {

        try {
            //上报数据
            //高级版 物模型-属性上报payload
            System.out.println("上报属性值:");
            //String payloadJson = "{"params":{"Status":0,"Data":"15"}}";
            //String payloadJson = "{"GeoLocation":{"Longitude":120.99,"Latitude":30.13,"Altitude":39.01},"BatteryPercentage":40.703533, "Temperature":2.233362}";
            //String payloadJson = "{"id":"3","version":"1.0","params":{"GeoLocation":{"Longitude":120.999,"Latitude":30.13,"Altitude":39.01},"BatteryPercentage":42.99999, "Temperature":2.233362}}";
            //String payloadJson = "{"params":{"MasterLightSwitch":0,"LivingLightSwitch":0,"SecondaryLightSwotch":0,"MasterCurtainSwitch":1,"SecondaryCurtainSwitch":1,"LivingCurtainSwitch":1}}";
            System.out.println(payloadJson);
            MqttMessage message = new MqttMessage(payloadJson.getBytes("utf-8"));
            message.setQos(0);
            mqttClient.publish(pubTopic, message);
            System.out.println("=================================================================");
        } catch (Exception e) {
            System.out.println(e.getMessage());
        }
    }

    /**
     * 服务返回
     */
    private static void postServiceReply(String payloadJson,String relpyTopic) {

        try {
            //上报数据
            //高级版 物模型-属性上报payload
            System.out.println("服务调用返回:");
            //String payloadJson = "{"params":{"Status":0,"Data":"15"}}";
            System.out.println("Topic:");
            System.out.println(relpyTopic);
            System.out.println(payloadJson);
            MqttMessage message = new MqttMessage(payloadJson.getBytes("utf-8"));
            message.setQos(0);
            mqttClient.publish(relpyTopic, message);
            System.out.println("=================================================================");
        } catch (Exception e) {
            System.out.println(e.getMessage());
        }
    }

}

实测效果：

5、云端使用AMQP客户端登录，并接收消息

参考官方文档，这里就不作详细阐述。
https://help.aliyun.com/document_detail/143601.html?spm=a2c4g.11186623.6.624.304e354e2OEGFh

代码示例：
pom.xml




    4.0.0

    org.example
    Test
    1.0-SNAPSHOT
    
        







        
        
            commons-codec
            commons-codec
            1.10
        


        
        
            org.apache.qpid
            qpid-jms-client
            0.47.0
        

        
            org.slf4j
            slf4j-simple
            1.7.25
            compile
        
        
            org.apache.maven.surefire
            maven-surefire-common
            2.12.4

Demo

package com.alibaba;

import org.apache.commons.codec.binary.Base64;
import org.apache.qpid.jms.JmsConnection;
import org.apache.qpid.jms.JmsConnectionListener;
import org.apache.qpid.jms.message.JmsInboundMessageDispatch;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import javax.crypto.Mac;
import javax.crypto.spec.SecretKeySpec;
import javax.jms.*;
import javax.naming.Context;
import javax.naming.InitialContext;
import java.net.URI;
import java.util.Hashtable;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.LinkedBlockingQueue;
import java.util.concurrent.ThreadPoolExecutor;
import java.util.concurrent.TimeUnit;

public class AmqpJavaClientDemo {

    private final static Logger logger = LoggerFactory.getLogger(AmqpJavaClientDemo.class);

    //业务处理异步线程池，线程池参数可以根据您的业务特点调整，或者您也可以用其他异步方式处理接收到的消息。
    private final static ExecutorService executorService = new ThreadPoolExecutor(
            Runtime.getRuntime().availableProcessors(),
            Runtime.getRuntime().availableProcessors() * 2,
            60,
            TimeUnit.SECONDS,
            new LinkedBlockingQueue<>(50000));


    public static void main(String[] args) throws Exception {
        //参数说明，请参见AMQP客户端接入说明文档。
        String accessKey = "LTAI4G2*****";
        String accessSecret = "Mp2f4qopmULI6*****";
        String consumerGroupId = "e0oRIYMSOYwQ*****";
        //iotInstanceId：购买的实例请填写实例ID，公共实例请填空字符串""。
        String iotInstanceId = "";
        long timeStamp = System.currentTimeMillis();
        //签名方法：支持hmacmd5、hmacsha1和hmacsha256。
        String signMethod = "hmacsha1";
        //控制台服务端订阅中消费组状态页客户端ID一栏将显示clientId参数。
        //建议使用机器UUID、MAC地址、IP等唯一标识等作为clientId。便于您区分识别不同的客户端。
        String clientId = "yangboClientId";

        //userName组装方法，请参见AMQP客户端接入说明文档。
        String userName = clientId + "|authMode=aksign"
                + ",signMethod=" + signMethod
                + ",timestamp=" + timeStamp
                + ",authId=" + accessKey
                + ",iotInstanceId=" + iotInstanceId
                + ",consumerGroupId=" + consumerGroupId
                + "|";
        //计算签名，password组装方法，请参见AMQP客户端接入说明文档。
        String signContent = "authId=" + accessKey + "×tamp=" + timeStamp;
        String password = doSign(signContent,accessSecret, signMethod);
        //接入域名，请参见AMQP客户端接入说明文档。
            String connectionUrl = "failover:(amqps://1875496626634053.iot-amqp.cn-shanghai.aliyuncs.com:5671?amqp.idleTimeout=80000)"
                + "?failover.reconnectDelay=30";

        Hashtable hashtable = new Hashtable();
        hashtable.put("connectionfactory.SBCF",connectionUrl);
        hashtable.put("queue.QUEUE", "default");
        hashtable.put(Context.INITIAL_CONTEXT_FACTORY, "org.apache.qpid.jms.jndi.JmsInitialContextFactory");
        Context context = new InitialContext(hashtable);
        ConnectionFactory cf = (ConnectionFactory)context.lookup("SBCF");
        Destination queue = (Destination)context.lookup("QUEUE");
        // Create Connection
        Connection connection = cf.createConnection(userName, password);
        ((JmsConnection) connection).addConnectionListener(myJmsConnectionListener);

        System.out.println("connection success");
        // Create Session
        // Session.CLIENT_ACKNOWLEDGE: 收到消息后，需要手动调用message.acknowledge()。
        // Session.AUTO_ACKNOWLEDGE: SDK自动ACK（推荐）。
        Session session = connection.createSession(false, Session.AUTO_ACKNOWLEDGE);
        connection.start();
        // Create Receiver Link
        MessageConsumer consumer = session.createConsumer(queue);
        consumer.setMessageListener(messageListener);
    }

    private static MessageListener messageListener = new MessageListener() {
        @Override
        public void onMessage(Message message) {
            try {
                //1.收到消息之后一定要ACK。
                // 推荐做法：创建Session选择Session.AUTO_ACKNOWLEDGE，这里会自动ACK。
                // 其他做法：创建Session选择Session.CLIENT_ACKNOWLEDGE，这里一定要调message.acknowledge()来ACK。
                // message.acknowledge();
                //2.建议异步处理收到的消息，确保onMessage函数里没有耗时逻辑。
                // 如果业务处理耗时过程过长阻塞住线程，可能会影响SDK收到消息后的正常回调。
                executorService.submit(new Runnable() {
                    public void run() {
                        processMessage(message);
                    }
                });
            } catch (Exception e) {
                logger.error("submit task occurs exception ", e);
            }
        }
    };

    /**
     * 在这里处理您收到消息后的具体业务逻辑。
     */
    private static void processMessage(Message message) {
        try {
            byte[] body = message.getBody(byte[].class);
            String content = new String(body);
            String topic = message.getStringProperty("topic");
            String messageId = message.getStringProperty("messageId");


            System.out.println("receive message"
                    + ", topic = " + topic
                    + ", messageId = " + messageId
                    + ", content = " + content);
            logger.info("receive message"
                    + ", topic = " + topic
                    + ", messageId = " + messageId
                    + ", content = " + content);
        } catch (Exception e) {
            logger.error("processMessage occurs error ", e);
        }
    }

    private static JmsConnectionListener myJmsConnectionListener = new JmsConnectionListener() {
        /**
         * 连接成功建立。
         */
        @Override
        public void onConnectionEstablished(URI remoteURI) {
            logger.info("onConnectionEstablished, remoteUri:{}", remoteURI);
        }

        /**
         * 尝试过最大重试次数之后，最终连接失败。
         */
        @Override
        public void onConnectionFailure(Throwable error) {
            logger.error("onConnectionFailure, {}", error.getMessage());
        }

        /**
         * 连接中断。
         */
        @Override
        public void onConnectionInterrupted(URI remoteURI) {
            logger.info("onConnectionInterrupted, remoteUri:{}", remoteURI);
        }

        /**
         * 连接中断后又自动重连上。
         */
        @Override
        public void onConnectionRestored(URI remoteURI) {
            logger.info("onConnectionRestored, remoteUri:{}", remoteURI);
        }

        @Override
        public void onInboundMessage(JmsInboundMessageDispatch envelope) {}

        @Override
        public void onSessionClosed(Session session, Throwable cause) {}

        @Override
        public void onConsumerClosed(MessageConsumer consumer, Throwable cause) {}

        @Override
        public void onProducerClosed(MessageProducer producer, Throwable cause) {}
    };

    /**
     * 计算签名，password组装方法，请参见AMQP客户端接入说明文档。
     */
    private static String doSign(String toSignString, String secret, String signMethod) throws Exception {
        SecretKeySpec signingKey = new SecretKeySpec(secret.getBytes(), signMethod);
        Mac mac = Mac.getInstance(signMethod);
        mac.init(signingKey);
        byte[] rawHmac = mac.doFinal(toSignString.getBytes());
        return Base64.encodeBase64String(rawHmac);

//        return Arrays.toString(Base64.encodeBase64(rawHmac));
    }
}

实测效果：
云平台流转方式的返回结果：

AMQP订阅方式返回结果：

视图在SQL中的作用是什么，它是怎样工作的？-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

首发公众号：码农架构
视图就是虚拟表:

如何创建，更新和删除视图

创建视图：CREATE VIEW

CREATE VIEW player_above_avg_height AS
SELECT player_id, height
FROM player
WHERE height > (SELECT AVG(height) from player)

当视图创建之后，它就相当于一个虚拟表，可以直接使用：

SELECT * FROM player_above_avg_height

嵌套视图

CREATE VIEW player_above_above_avg_height AS
SELECT player_id, height
FROM player
WHERE height > (SELECT AVG(height) from player_above_avg_height)

修改视图：ALTER VIEW

ALTER VIEW view_name AS
SELECT column1, column2
FROM table
WHERE condition

删除视图：DROP VIEW

DROP VIEW view_name

需要说明的是，SQLite 不支持视图的修改，仅支持只读视图，也就是说你只能使用 CREATE VIEW 和 DROP VIEW，如果想要修改视图，就需要先 DROP 然后再 CREATE。

如何使用视图简化 SQL 操作

利用视图完成复杂的连接

CREATE VIEW player_height_grades AS
SELECT p.player_name, p.height, h.height_level
FROM player as p JOIN height_grades as h
ON height BETWEEN h.height_lowest AND h.height_highest

利用视图对数据进行格式化

CREATE VIEW player_team AS 
SELECT CONCAT(player_name, '(' , team.team_name , ')') AS player_team FROM player JOIN team WHERE player.team_id = team.team_id

使用视图与计算字段

CREATE VIEW game_player_score AS
SELECT game_id, player_id, (shoot_hits-shoot_3_hits)*2 AS shoot_2_points, shoot_3_hits*3 AS shoot_3_points, shoot_p_hits AS shoot_p_points, score  FROM player_score

总结

使用视图有很多好处，比如安全、简单清晰。

什么是存储过程，在实际项目中用得多么？-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

存储过程是程序化的 SQL，可以直接操作底层数据表，相比于面向集合的操作方式，能够实现一些更复杂的数据处理。存储过程可以说是由 SQL 语句和流控制语句构成的语句集合，它和我们之前学到的函数一样，可以接收输入参数，也可以返回输出参数给调用者，返回计算结果。

存储过程像是函数.

什么是存储过程，如何创建一个存储过程

定义一个存储过程：

CREATE PROCEDURE 存储过程名称([参数列表])
BEGIN
    需要执行的语句
END

删除已经创建的存储过程:

DROP PROCEDURE

更新存储过程:

ALTER PROCEDURE

实现一个简单的存储过程:

CREATE PROCEDURE `add_num`(IN n INT)
BEGIN
       DECLARE i INT;
       DECLARE sum INT;
       
       SET i = 1;
       SET sum = 0;
       WHILE i <= n DO
              SET sum = sum + i;
              SET i = i +1;
       END WHILE;
       SELECT sum; -- 在调用的时候会打印这个值
END

mysql> call study_stored_procedure(50);
+------+
| sum  |
+------+
| 1275 |
+------+
1 row in set (0.00 sec)

Query OK, 0 rows affected (0.00 sec)

使用这个存储过程:

CALL add_num(50);

DELIMITER

如果你使用 Navicat 这个工具来管理 MySQL 执行存储过程，那么直接执行上面这段代码就可以了。如果用的是 MySQL，你还需要用 DELIMITER 来临时定义新的结束符。因为默认情况下 SQL 采用（；）作为结束符，这样当存储过程中的每一句 SQL 结束之后，采用（；）作为结束符，就相当于告诉 SQL 可以执行这一句了。但是存储过程是一个整体，我们不希望 SQL 逐条执行，而是采用存储过程整段执行的方式，因此我们就需要临时定义新的 DELIMITER，新的结束符可以用（//）或者（$$）。如果你用的是 MySQL，那么上面这段代码，应该写成下面这样：

DELIMITER //
CREATE PROCEDURE `add_num`(IN n INT)
BEGIN
       DECLARE i INT;
       DECLARE sum INT;
       
       SET i = 1;
       SET sum = 0;
       WHILE i <= n DO
              SET sum = sum + i;
              SET i = i +1;
       END WHILE;
       SELECT sum;
END //
DELIMITER ;

存储过程的 3 种参数类型

IN 参数必须在调用存储过程时指定，而在存储过程中修改该参数的值不能被返回。而 OUT 参数和 INOUT 参数可以在存储过程中被改变，并可返回。

CREATE PROCEDURE `get_hero_scores`(
       OUT max_max_hp FLOAT,
       OUT min_max_mp FLOAT,
       OUT avg_max_attack FLOAT,  
       s VARCHAR(255)
       )
BEGIN
       SELECT MAX(hp_max), MIN(mp_max), AVG(attack_max) FROM heros WHERE role_main = s INTO max_max_hp, min_max_mp, avg_max_attack;
END

调用:

调用的时候需要在变量前面加 @ , 否则报错

CALL get_hero_scores(@max_max_hp, @min_max_mp, @avg_max_attack, '战士');
SELECT @max_max_hp, @min_max_mp, @avg_max_attack;

流控制语句

BEGIN…END：BEGIN…END 中间包含了多个语句，每个语句都以（;）号为结束符。
DECLARE：DECLARE 用来声明变量，使用的位置在于 BEGIN…END 语句中间，而且需要在其他语句使用之前进行变量的声明。
SET：赋值语句，用于对变量进行赋值。
SELECT…INTO：把从数据表中查询的结果存放到变量中，也就是为变量赋值。
IF…THEN…ENDIF：条件判断语句，我们还可以在 IF…THEN…ENDIF 中使用 ELSE 和 ELSEIF 来进行条件判断。
CASE：CASE 语句用于多条件的分支判断，使用的语法是下面这样的。
LOOP、LEAVE 和 ITERATE：LOOP 是循环语句，使用 LEAVE 可以跳出循环，使用 ITERATE 则可以进入下一次循环。如果你有面向过程的编程语言的使用经验，你可以把 LEAVE 理解为 BREAK，把 ITERATE 理解为 CONTINUE。
REPEAT…UNTIL…END REPEAT：这是一个循环语句，首先会执行一次循环，然后在 UNTIL 中进行表达式的判断，如果满足条件就退出，即 END REPEAT；如果条件不满足，则会就继续执行循环，直到满足退出条件为止。
WHILE…DO…END WHILE：这也是循环语句，和 REPEAT 循环不同的是，这个语句需要先进行条件判断，如果满足条件就进行循环，如果不满足条件就退出循环。

CASE 
  WHEN expression1 THEN ...
  WHEN expression2 THEN ...
  ...
    ELSE 
    --ELSE语句可以加，也可以不加。加的话代表的所有条件都不满足时采用的方式。
END

关于存储过程使用的争议

存储过程有很多好处:
• 存储过程可以一次编译多次使用
• 存储过程的安全性强
• 可以减少网络传输量
缺点也是很明显的:
• 可移植性差
• 调试困难
• 版本管理也很困难
• 不适合高并发的场景

AnalyticDB向量检索+AI 实战: 声纹识别-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

一、背景

近年来，随着人工智能对传统行业的赋能改造，越来越多的基于人工智能的业务解决方案被提出来，声纹识别在保险行业中的身份认证便是一个很好的例子. 声纹识别是根据说话人发音的生理和行为特征，自动识别说话人身份的一种生物识别技术，对应在电话销售场景下，它主要解决以下安全问题：一方面，有不法分子窃取电话销售人员账号信息，非法获取客户个人信息资料并进行贩卖、泄露，严重侵犯了公民个人的信息隐私权，另一方面，部分行业从业人员利用一些规则漏洞，通过套保、骗保等非法手段实施金融诈骗. 针对这些安全问题，可以通过实时声纹认证加以解决，以电话销售人员为监管核心，利用每个人独一无二的声纹进行严密的个人身份认证，保证电话销售人员对接客户时是本人注册登录，规范电销人员行为，从源头上有效规避信息泄露、漏洞利用等风险。

二、声纹识别原理

上图是端对端的深度学习训练和推理过程。对比传统声纹识别模型，我们的模型在实际使用中优势明显，在用户远程身份验证场景，通过注册用户说一段话，即可轻松快速的确认注册用户身份，识别准确率达到95%以上，秒级响应，实时声纹核身。下面简要介绍我们模型的特点。

2.0 度量学习

实验发现，在声纹识别中采用softmax进行网络训练，用余弦相似度的测试性能往往不如传统声纹识别模型，尤其是在鲁棒性上。分析发现[6]基于softmax的分类训练，为了得到更小的loss，优化器会增大一些easy samples的L2 length，减小hard examples 的L2 length，导致这些样本并没有充分学习，特征呈现放射状，以MNIST识别任务为例，基于softmax学到的特征分布如图3(a)所示. 同类别特征分布并不聚拢，在L2 长度上拉长，呈放射状，且每个类别的间距并不大，在verification的任务中，会导致相邻的两个类别得分很高。

为了达到类内聚拢，类间分散的效果，我们研究了在图像领域中应用较为成功的几种softmax变种，包括AM-softmax[4]，arcsoftmax[5]等，从图3(b)可以看到，基于margin的softmax，相比纯softmax，类间的分散程度更大，且类内特征更聚拢，对声纹1:1比对和1:N搜索的任务友好。

2.1 噪音鲁棒性

在特征提取时，对于简单加性噪音，我们提出了基于功率谱减法，实现噪音抑制；对于其他复杂噪音，我们提出了基于降噪自动编码器的噪音补偿模型，将带噪语音特征映射到干净语音特征，实现噪音消除。

在模型训练时，我们采用数据增强的训练机制，将噪音数据通过随机高斯的形式加入到声纹模型的训练中，使得训练后的模型对噪音数据具有更好的鲁棒性。

2.2 短音频鲁棒性

为了提高短音频鲁棒性，我们提出了基于短时帧级别的模型训练机制，使模型能够在极短的语音时长（约0.5秒）下即可完成声纹识别. 在此基础上，我们在模型训练中引入了更多高阶的音频统计信息和正则化方法，进一步提升了模型在短语音条件下（2~3秒）的识别精度。

三、如何使用AnalyticDB搭建声纹对比系统

3.0 创建插件

使用一下SQL来分别创建AnalyticDB的非结构化分析插件OpenAnalytic和向量检索插件fastann。

3.1 建表

我们可以建立一个表来保存所有说话人的声音和声音的特征，后续我们可以从这个表中搜索说话人。

3.2 创建索引

我们可以为特征向量列创建向量检索索引。

3.3 创建声纹识别算法pipeline

通过以下sql，我们可以在数据库中创建声纹特征提取的算法模型。

3.4 获取说话人声纹特征

通过以下sql可以使用3.3创建的pipeline。这个UDF的输入是pipeline名称和目标文本。输出是一个说话人声音的特征向量。
`# 通过声音文件识别
SELECT open_analytic.pipeline_run_dist_random('speaker_feature_extractor',

                    <声音文件>);`

3.5 说话人声纹特征导入AnalyticDB

获取声音特征后, 我们可以使用一下sql来讲数据插入3.1创建的表中。

3.6 在数据库中搜索最相似的的人

通过以下sql，我们可以在声音特征库中搜索最相似的说话人。然后我们可以根据特征间距离是否满足预设的阈值来判断是否是同一个人。

3.7 比较两个声音是否为同一个人

我们还可以提取出两个人的声音特征然后直接计算二者的距离来判断这两个声音是否来自同一个说话人。SQL如下

四、AnalyticDB介绍

分析型数据库(AnalyticDB)是阿里云上的一种高并发低延时的PB级实时数据仓库，可以毫秒级针对万亿级数据进行即时的多维分析透视和业务探索。AnalyticDB for MySQL 全面兼容MySQL协议以及SQL:2003 语法标准, AnalyticDB forPostgreSQL 支持标准 SQL:2003，高度兼容 Oracle 语法生态。

向量检索和非结构化数据分析是AnalyticDB的进阶功能。目前两款产品都包含向量检索功能, 可以支持人脸, 人体, 车辆等的相似查询和推荐系统。AnalyticDB在真实应用场景中可以支持10亿级别的向量数据的查询, 毫秒级别的响应时间。AnalyticDB已经在多个城市的重大项目中大规模部署。

在一般的包含向量检索的的应用系统中, 通常开发者会使用向量检索引擎(例如Faiss)来存储向量数据, 然后使用关系型数据库存储结构化数据。在查询时也需要交替查询两个系统, 这种方案会有额外的开发工作并且性能也不是最优。AnalyticDB支持结构化数据和非结构化数据(向量)的检索，仅仅使用SQL接口就可以快速的搭建起以图搜图或者图片+结构化数据混合检索等功能。AnalyticDB的优化器在混合检索场景中会根据数据的分布和查询的条件选择最优的执行计划，在保证召回的同时，得到最优的性能。AnalyticDB向量版采用了多项创新性技术, 这些技术在我们的论文 AnalyticDB-V: A Hybrid Analytical Engine Towards Query Fusion for Structured and Unstructured Data 中有详细介绍介绍。目前论文已经被数据库三大顶会之一的VLDB接受, 具有技术领先性。

结构化信息+非结构化信息（图片）混合检索在实际应用中被广泛使用的。例如人脸门禁系统被部署在多个小区时, 我们使用一张表存储了所有小区的人脸特征, 在人脸检索时我们只需要检索当前小区的人脸特征。在这种情况下, 使用AnalyticDB我们只需要在SQL中增加where 小区名 ='xxx' 就可以轻易实现。AnalyticDB同时提供了先进的图像文本分析算法, 能够提取非结构化数据的特征和标签, 用户仅仅需要使用SQL就可以完成图像文本内容的分析。

五、参考文献

[1] Heigold G, Moreno I, Bengio S, et al. End-to-end text-dependent speaker verification[C]//2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016: 5115-5119.
[2]Li C, Ma X, Jiang B, et al. Deep speaker: an end-to-end neural speaker embedding system[J]. arXiv preprint arXiv:1705.02304, 2017.
[3] Snyder D, Garcia-Romero D, Sell G, et al. X-vectors: Robust den embeddings for speaker recognition[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018: 5329-5333.
[4] Wang F, Cheng J, Liu W, et al. Additive margin softmax for face verification[J]. IEEE Signal Processing Letters, 2018, 25(7): 926-930.
[5] Dang J, Guo J, Xue N, et al. Arc face: Additive angular margin loss for deep face recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 4690-4699.
[6] Ranjan R, Castillo C D, Chellappa R. L2-constrained softmax loss for discriminative face verification[J]. arXiv preprint arXiv:1703.09507, 2017.

六、结语

本文介绍了如何使用AnalyticDB来搭建声纹比对系统。AnalyticDB还支持其他多种多样人工智能算法如目标检测, 商品识别, 基因识别等等。想了解更多请用钉钉扫码加入AnalyticDB向量版交流群。

CNCC 数据库校企合作论坛丨如何构建数据库产业人才培养的生态圈？-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

1978年，中国人民大学经济信息管理系首任系主任萨师煊第一次将“数据库”这三个字写在人大教室的黑板上，从那一刻起“数据库”技术真正开始在中国的土壤上扎根发芽。

到如今2020年，中国数据库的发展已经历时四十多年，国产数据库在这片土壤上开始逐渐繁茂，从最初的盲目模仿到如今越来越多的数据库企业走向自主研发，国产数据库正在以一种前所未有的速度和力量成长。

计算技术领域的年度盛会 CNCC 将于 10 月 22-24 日在北京盛大召开，届时10月23日下午，“数据库领域校企合作探索”论坛将在北京新世纪日航饭店（主会场）举办，本次论坛邀请了四位行业资深技术专家及学界泰斗带来精彩演讲，从国产数据库在产业实践的经验体会分享，到全新的产教研融合创新模式的探讨，再到数据库行业人才生态战略的深入探索。

本论坛将为大家邀请业界及学界共同探讨如何通过产研合作，充分发挥企业业务场景和高校研究能力的优势，突破核心技术、人才培养等难题，实现中国数据库产业自主创新。

论坛议程

16:00-16:40 杨传辉蚂蚁集团
蚂蚁集团数据库产业实践

16:40-17:10 钱卫宁华东师范大学
应用驱动与产教研联动的数据库研发和人才培养实践

17:10-17:40 彭智勇武汉大学
国产数据库研制人才培养实践

17:40-18:00 梁刘红蚂蚁集团
构建 OceanBase 全连接的学术合作与人才培养的生态圈

议题简介

嘉宾一：杨传辉（花名：日照）

嘉宾介绍：蚂蚁集团资深总监、OceanBase 研发总经理，全面负责 OceanBase 研发工作。作为 OceanBase 创始成员和首席架构师，主导了 OceanBase 技术架构设计，实现分布式数据库在核心金融场景零的突破，完成蚂蚁集团核心数据库100%上 OceanBase ，主导 OceanBase TPC-C 测试并打破世界纪录。曾在百度负责云存储与云计算系统研究工作，著有专著《大规模分布式存储系统：原理与实践》。

演讲议题：蚂蚁集团数据库产业实践

议题介绍：蚂蚁集团为何选择自研数据库，自研数据库从0到1的发展历程、技术方案以及后续规划，并分享国产数据库从学术研究到产业实践的经验体会。

嘉宾二：钱卫宁

嘉宾介绍：华东师范大学教授、博士生导师，数据科学与工程学院院长。在复旦大学获得计算机科学与技术学士、硕士与博士学位。上海市优秀学术带头人，入选教育部新世纪人才计划和上海市青年科技启明星计划。作为项目负责人主持包括国家“核高基”重大专项课题、国家重点研发计划课题、国家自然科学基金项目重点项目和面上项目在内的多项科研项目。

目前担任中国计算机学会数据库专委会常务委员，教育部人工智能科技创新专家工作组成员。曾获国家科技进步二等奖奖1次（第二完成人）、上海市科技进步一等奖1次（第一完成人），以及教育部科技进步一等奖、二等奖、教育部自然科学二等奖各1次。研究兴趣包括可扩展事务处理，大数据管理系统基准评测，海量数据分析处理及其应用，以及计算教育学。

演讲议题：应用驱动与产教研联动的数据库研发和人才培养实践

议题介绍：数据库系统是支撑关键核心业务（mission-critical applications）的基础软件。在诸多领域数字化转型的背景下，数据库系统面临着海量数据和互联网级负载的双重压力。自主研发数据库系统，助力行业转型，实现替代工程，无论是对于这些行业领域，还是对于我国的信息技术产业，都具有极为重要的意义。

数据库系统研发的基础知识面广、研究-工程-应用链条长，涉及大规模分布式系统和新硬件利用与优化等前沿技术，需要创新性研究思路，需要核心技术攻坚，还需要大规模工程实现验证，是典型的工程研究问题。报告将介绍我们在应用驱动和校企联动的分布式数据库系统研究和人才培养方面的探索和初步成果，并讨论新的产教研融合创新模式。

嘉宾三：彭智勇

嘉宾介绍：武汉大学教授、博士生导师、大数据研究院副院长，国务院软件工程学科评议组成员，中国计算机学会会士、数据库专业委员会副主任、大数据专家委员会成员。1985年获武汉大学理学学士，1988年获国防科技大学工学硕士，1995年获日本京都大学工学博士。1995－1997年在日本京都高度技术研究所工作，研究员。1997－2000年在美国惠普公司的研究所工作，研究员。提出了一个新的数据库模型:对象代理模型，发表在数据库国际顶级会议 IEEE ICDE 和权威期刊 IEEE TKDE上，得到了学术界认可；分析了开源数据库 PostgreSQL 源代码，出版了《PostgreSQL 数据库内核分析》专著，受到了产业界欢迎；研制了对象代理数据库管理系统 TOTEM，形成了自主知识产权，获教育部科技进步二等奖；目前主要从事对象代理数据库、大数据管理系统、制造业大数据、科技大数据、教育大数据、可信云数据和地理数据水印等方面的研究。

演讲议题：国产数据库研制人才培养实践

议题介绍：研制国产数据库需要大量掌握数据库内核实现技术人才。目前国内各大高校数据库教学过于偏重原理性知识传授以及特定数据库系统的应用技能培养，而忽视了对于数据库管理系统内核实现机制的教学。我们构建了“基础知识-应用技术-科研创新”的分层次数据库教学体系，引进美国斯坦福“数据库系统实现”课程，自编“数据库内核分析”课程教材，引导学生分析数据库管理系统 PostgreSQL 源代码，指导学生参与国产数据库核心技术开发，为华为、阿里、腾讯、百度等企业培养了很多国产数据库研制人才。

嘉宾四：梁刘红

嘉宾介绍：现任蚂蚁集团 OceanBase 合作伙伴和生态合作部总经理。复旦大学计算机系硕士研究生毕业，加入 OceanBase 前，先后供职于微软、IBM，本土云计算创业公司青云 QingCloud，拥有15+年云计算领域及企业软件行业的丰富经验，擅长战略规划，生态合作、商业运营等。

演讲议题：构建 OceanBase 全连接的学术合作与人才培养的生态圈

议题介绍：蚂蚁集团 OceanBase 期望构建全联接的学术和人才生态，助力学术界产研实践和人才培养，与各大高校共同培养兼具理论与实践能力的创新型复合人才。本次报告将发布全连接的学术和人才生态战略。

其中，OceanBase 的研发总经理杨传辉及生态合作部总经理梁刘红也将分别从数据库技术产业发展、数据库产业人才培养等维度为大家带来 OceanBase 的经验分享。

据悉，今年9月，OceanBase 已经与华东师范大学签署战略合作，共建“华东师范大学－北京奥星贝斯分布式数据库联合实验室”，未来 OceanBase 还将连接更多的高校联合培养优秀的科技人才。

OceanBase 坚定地相信分布式数据库就是未来的主流。OceanBase 愿意也期待积极地通过自身实践来加速新的数据库生态的建立，以帮助更多的开发者 / DBA 更好地成长，为社会输出更多的分布式数据库人才。

分库分表背后那些事儿-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

概述

目前行业内OLTP类的数据库单库单表支撑不了几十亿数据的在线处理，包括一些NoSQL数据库，因此对于数据量较大的场景需要进行数据库拆分，如mysql单表建议数据量再500w以内，一些强大的NoSQL单表可以支撑几亿的数据量，但是对于几十亿的数据量一样无法直接支撑，因此我们要做分库分表

分库分表类型
•垂直拆分：充分利用数据库的缓存，提升访问性能。

    垂直切分是将一个表的不同属性切分到不同的表中，可以将访问频率高的、长度短的、或者经常一起访问的放在一个表里，

其它的放在另一个表里，从而提升数据库本身缓存的命中率来提升性能，但是单表大数据量依然存在性能瓶颈问题。
•水平拆分：借用分布式的优势，使用多个数据库的能力来提升存储容量和性能。

将数据均匀的分布在多个数据库多个表中

拆分键的选择

拆分键是水平分库分表的关键，怎么选择拆分键是能否做好分库分表的关键

1）找到业务主体，确保核心的数据库操作都是围绕这个主体数据进行，然后使用该主体对应的字段作为拆分键

1）选择拆分键的核心是要保证数据量均匀和请求量均匀

2）要考虑热点查询语句，尽量保证其不会进行跨库查询

3）要兼顾关联表，尽可能保证关联表的分库分表规则和主表一致

非拆分键的加速查询

1）多维度表法：如订单表，本身按照订单进行拆分，按照实际场景又分别按照买家和卖家生成订单表

2）缓存映射法：缓存中记录查询条件->拆分键的映射关系，如fpdm+fphm -> fpid

3）基因融入法: 将查询条件融入到拆分键生成中，如假设分8个库，采用id%8路由，潜台词是，id的后3个bit决定这条数据落在哪个库上，这3个bit就是所谓的基因。

name -> 基因生成函数 -> name_gene -> 3bit

id(64 bit) = 生成全局唯一id（61 bit）+ 3bit

4）数据冗余法：使用外置索引（搜索引擎）或者大数据处理（如hive、hbase）来冗余数据进行解决

分库分表的查询过程

分库分表的查询一般使用DRDS、MyCat等中间件来实现，但是用哪款中间件不重要，重要的是我们要了解其核心原理，原理是基础，其他都是表现形式，有了内功之后做什么都无往不利，如令狐冲独孤九剑+吸星大法+易筋经

1）分片规则：自定义分片策略，主要是根据拆分键值计算出将该条数据放在哪个库哪个表里

2）JDBC规范重写：针对DataSource、Connection、Statement、PreparedStatement和ResultSet接口封装，对外提供的是逻辑实例，在内部封装多个真实物理实例实现类集合

3）sql解析：解决sql语法，可以直接使用druid的SQLParser

4）sql改写：修改逻辑表名->真实表名；替换不支持的功能，如：avg->sum和count；有可能一条sql语句变成多条，如avg查询会变成 2 * 分表数的sql语句

5）sql路由：单表路由（不一定落在单表上，如in、between查询）、binding表路由（路由规则一致，如fpzxx和fpmx）、笛卡尔积路由（两个关联表路由不一致，性能很低，占用连接数很高，一般不使用）

6）sql执行：多线程并发执行sql

7）结果归并：遍历类、排序类（归并排序）、聚合类（比较型、累加型、平均型）、分组类

基于DTS+Tablestore的海量订单系统架构设计-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

订单系统概述

订单场景是人们高频接触的一类场景，无论是线下商场购物、吃喝玩乐消费，还是线上淘宝、会员充值、外卖预定。只要涉及人就会有交易，只要有交易就会产生订单。毫不夸张的讲，所有的应用都会涉及到支付与订单的管理，因此，完善的订单管理架构是每一个架构师或开发人员都要直面的挑战。

对于订单系统，保证事务与强一致是前提，架构师们通常都会选择MySQL等TP型数据库。但是遇到大规模数据场景下也不得不面临一定的问题。首先，需要通过分库分表等方式提供一个分布式能力提升数据库数据存储、吞吐量，其次数据量大对于查询与聚合等需求难以支持，严重会影响表服务能力与性能。但是在大规模数据下，订单的多维检索、订单分析、以及周期性报表等需求，也是不能够舍弃的。因此需要一个历史订单库，将订单数据派生到其他存储引擎，从而拓展数据的查询、分析、聚合等能力。

这时，用户会考虑数据双写、数据同步等方式将数据派生一份到搜索引擎或其他NoSQL分布式数据存储，来扩展MySQL性能成本非常高的使用场景。多写的方案一般很少，这对写入一致性项目运维成本与写入性能会有很大的挑战。当前，更被大众所接受的是基于TP数据库的binlog订阅做数据同步，虽然数据同步上会有延时（通常秒级别甚至更低），但是在运维成本、能力扩展、数据一致性上表现优异。

DTS+Tablestore方案

本文主要介绍一套基于DTS与Tablestore实现一套完善的订单系统架构。实时订单数据主要针对用户侧的实时生产与修改，实例订单数据则是基于数据同步服务DTS，全、增量订阅TP库中的订单数据，从而保证Tablestore中数据与TP库数据的最终一致性。异步同步的方式不可避免的存在延时，但历史订单库在实时性上要求会适当放宽，但其派生出来的数据在服务能力与功能扩展上得到了极大的提升，尤其是Tablestore这种分布式服务能力强、下游计算生态丰富的NoSQL存储服务。

系统架构设计

系统架构如下图，架构基于订单数据的使用功能与实时性分两部分：实时在线订单数据与历史订单数据。

• 在线订单数据：存储在TP型数据库，如MySQL、PolarDB等，用于保证订单的强事务能力；
• 历史订单数据：存储在Tablestore，分布式存储，支持多维检索与聚合能力，拥有完善的大数据生态；
• 同步链路：DTS（数据传输服务），支持全量数据迁移与实时数据同步，实时同步延时秒级别；

Tablestore的能力与生态

Tablestore的服务性能、分析查询能力以及下游生态，值得着重强调，丰富的能力扩展正是数据派生的核心价值。这里主要展示多元索引、大数据生态两个亮点，更多Tablestore场景与功能，请参考《表格存储Tablestore权威指南》

• 多元索引：
基于倒排索引和列式存储，可以解决大数据的复杂查询难题，包括非主键列查询、全文检索、前缀查询、模糊查询、多字段自由组合查询、嵌套查询、地理位置查询等功能。适用于元数据管理、历史订单维护、地理围栏等场景。

深入了解多元索引：多元索引官网文档、《TableStore发布多元索引功能，打造统一的在线数据平台》

• 大数据架构
Tablestore 作为一款高性能低成本的存储引擎，海量的数据存储伴随的就是大数据生态对接，并已经形成了一套稳定、高性能的大数据架构，产品在核心功能的升级迭代的过程中，也不断的加强计算引擎对接，目前已经对接了阿里云几个核心计算引擎，包含：MaxCompute、EMR Spark、Blink、DLA 、FC，更总结出一套流批一体处理框架（Lambda plus）。

深入了解数据中台、大数据体系：《数据中台之结构化大数据存储设计》、《基于 Tablestore 的大数据分析 Lambda 架构 - 云原生、弹性、流批一体》
架构搭建实战

准备工作

1、服务准备

• 开通RDS服务：并购买MySQL实例，此处不做详细介绍，可参考《文档》；
• 开通Tablestore服务：创建实例（免费），不做详细介绍，可参考《文档》；
• 开通DTS服务：并购买MySQL同步Tablestore实例
目前仅上线MySQL、PolarDB到Tablestore，其中PolarDb需要主动开启binlog开关才能支持增量同步。Tablestore暂时开发上海、北京、深圳，本例使用上海实例。

2、资源准备

创建子账号AccessKey

并对子账号实例级别授权，权限为操作Tablestore资源权限，让DTS有权限操作用户该实例资源（注意region跟实例名）

• 创建子账号
• Tablestore实例授权

{
    "Version": "1",
    "Statement": [
        {
            "Action": "ots:*",
            "Resource": "acs:ots:[myInstanceRegion]:*:instance/[myInstanceName]/*",
            "Effect": "Allow"
        },
        {
            "Action": [
                "ots:ListInstance",
                "ots:GetInstance"
            ],
            "Resource": "*",
            "Effect": "Allow"
        }
    ]
}

建表语句

/******************************************/
/*   DatabaseName = dts_demo   */
/*   TableName = order_contract   */
/******************************************/
CREATE TABLE `order_contract` (
  `oId` varchar(20) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL COMMENT '订单id',
  `createTime` datetime NOT NULL COMMENT '下单时间',
  `payTime` datetime DEFAULT NULL COMMENT '支付时间',
  `hasPaid` tinyint(1) NOT NULL COMMENT '是否支付',
  `cId` varchar(20) NOT NULL COMMENT '消费者id',
  `cName` varchar(20) NOT NULL COMMENT '消费者姓名',
  `pBrand` tinytext NOT NULL COMMENT '产品品牌',
  `pCount` mediumint(10) NOT NULL COMMENT '产品数量',
  `pId` varchar(20) NOT NULL COMMENT '产品id',
  `pName` varchar(20) NOT NULL COMMENT '产品名',
  `pPrice` decimal(10,2) NOT NULL COMMENT '产品价格',
  `sId` varchar(20) NOT NULL COMMENT '售货员id',
  `sName` varchar(20) NOT NULL COMMENT '售货员姓名',
  `totalPrice` decimal(10,2) NOT NULL COMMENT '总价格',
  PRIMARY KEY (`oId`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='在线订单表';

用户下单

直接通过sql写入，模拟用户下单与应用订单数据写入

INSERT INTO order_contract (oId, payTime, createTime, hasPaid, cId, cName, pBrand, pCount, pId, pName, pPrice, sId, sName, totalPrice)
VALUES 
("00000001", null, "2020-08-05 11:11:11", false, "c00001", "消费者1", "iphone", 1, "p00001", "iphone 7 plus",  9999.80, "s00001", "售货员1", 9999.80),
("00000002", null, "2020-08-05 12:11:11", false, "c00001", "消费者1", "iphone", 1, "p00002", "iphone 8 plus",  10999.80, "s00001", "售货员1", 10999.80),
("00000003", null, "2020-08-05 13:11:11", false, "c00002", "消费者2", "小米", 2, "p00010", "小米 7 plus",  999.81, "s00001", "售货员1", 1999.62);

同步配置

• 配置DTS实例
• 配置目标、源配置
• 配置同步表、字段与类型转换

字段类型映射不建议全部选用默认，根据需求做定制，其中Boolean在MySQL中表现为tinyint(1)，需要主动设置成Boolean，时间默认使用String如需转换为时间戳，目标类型主动配置成Integer类型。

启动任务

启动并进入预检

预检完成会自动进入结构迁移（初始化建表）、全量迁移、增量同步阶段。然后用户可以基于DTS控制台查看结构迁移与同步状态。

目标检查

结构迁移

结构迁移完成，Tablestore实例下表初始化成功，主键符合预期

存量数据

进入存量阶段，开始同步MySQL库已有数据，同步成功后目标库数据可见。

增量校验

使用样例中的SQL模拟下单、更新订单、删除订单等操作，观察Tablestore实例中表的数据变化

下单

INSERT INTO order_contract (oId, payTime, createTime, hasPaid, cId, cName, pBrand, pCount, pId, pName, pPrice, sId, sName, totalPrice)
VALUES ("00000004", null, "2020-08-05 11:11:11", false, "c00003", "消费者3", "iphone", 1, "p00001", "iphone 7 plus",  9999.80, "s00001", "售货员1", 9999.80);

支付修改订单状态

update order_contract set payTime = "2020-08-05 21:11:11", hasPaid = true WHERE oId = "00000004";

删除数据

DELETE FROM order_contract WHERE oId = "00000004";

扩展能力

多元索引聚合查询

多元索引对于历史订单的管理，我们曾给出过最佳实践，用户可以参考《基于Tablestore打造亿量级订单管理解决方案》与控制台样例了解功能使用的详细方案。您只需在Tablestore相应的表中直接创建多元索引，便可完成历史订单数据的多条件组合查询、模糊查询、地理位置查询、存在性查询、简单的统计聚合与分析等。通过对产品名做分词，支持模糊查询能力，实例中查询"iphone"关键字，会从全量订单数据中检索出相应的2行数据。

多元索引的订单实战样例，可以参考文章《基于Tablestore打造亿量级订单管理解决方案》，并提供了直观感受的demo样例，如下图。用户可以参考借鉴。

除了多维组合查询，多元索引还是统计、聚合的能力，该能力没有在控制台上暴露，需要通过sdk使用，这里暂不距离，具体使用，可以参考《文档：多元索引的统计聚合》。
使用统计聚合功能可以实现求最小值、求最大值、求和、求平均值、统计行数、去重统计行数、按字段值分组、按范围分组、按地理位置分组、按过滤条件分组、嵌套查询等；同时多个统计聚合功能可以组合使用，满足复杂的查询需求。

流批一体的电商大屏

订单对于电商场景的最根本数据源，如何让海量的订单数据易分析、易可视化是场景的重要需求点，电商大屏或周期交易报表是最直接的数据价值挖掘的方式。这里以大屏为例，大屏可以包含全量订单、实时订单的聚合，全量订单的聚合提供的是全景的综合数据视图，而实时订单的聚合展示的是实时的运营指标数据。
谈完流批计算对数据价值挖掘的作用，就要见一下实现。Tablestore已经拥有较多的实战案例与架构文章，这里不做重复输出，用户可以直接前往文章《Tablestore结合Spark的流批一体SQL实战》，了解构建方案与效果。大屏效果如下图。

免费专家服务

欢迎加入Tablestore社区了解产品或参与讨论，更多文章欢迎前往《表格存储Tablestore权威指南》。
表格存储 (Tablestore) 提供专业的免费的技术咨询服务，期待您的加入。群号 : 23307953

数据中台交付专家告诉你，数据架构的分层怎样更加合理？-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

-更多关于数智化转型、数据中台内容请加入阿里云数据中台交流群—数智俱乐部 和关注官方微信公总号（文末扫描二维码或点此加入）

-阿里云数据中台官网 https://dp.alibaba.com/index

作者：柯根

从整体上看，数据中台体系架构可分为：数据采集层、数据计算层、数据服务层三大层次。通过这三大层次对上层数据应用提供数据支撑。

数据采集层

对于企业来说，每时每刻都在产生海量的数据，数据采集作为数据体系第一环尤为重要。

因此在数据采集层需要建立了一套标准的数据采集体系方案，并致力全面、高性能、规范地完成海量数据的采集，将其传输到大数据平台。

互联网日志采集体系包括两大体系：Web端日志采集技术方案；APP端日志采集技术方案。

在采集技术之上，企业可以用面向各个场景的埋点规范，来满足日志数据打通等多种业务场景。同时，还可以建立了一套高性能、高可靠性的数据传输体系完成数据从生产业务端到大数据系统的传输；在传输方面，采集技术可既包括数据库的增量数据传输，也包括日志数据的传输；既需要能支持实时流式计算、也能实时各种时间窗口的批量计算。另一方面，也通过数据同步工具直连异构数据库（备库）来抽取各种时间窗口的数据。

下图展示数据采集层在数据分层中的位置：

数据计算层

从采集系统中收集了大量的原始数据后，数据只有被整合、计算才能被用于洞察商业规律、挖掘潜在信息，实现大数据价值，达到赋能商业、创造商业的目的。从采集系统中收集到的大量原始数据，将进入数据计算层中被进一步整合与计算。

面对海量的数据和复杂的计算，数据计算层包括两大体系：数据存储及计算云平台和数据整合及管理体系。

- 数据存储及计算云平台
例如，MaxCompute是阿里巴巴自主研发的离线大数据平台，其丰富的功能和强大的存储及计算能力使得企业的大数据有了强大的存储和计算引擎；StreamCompute是阿里巴巴自主研发的流式大数据平台，在内部较好地支持了企业流式计算需求。

- 数据整合及管理体系
“OneModel”是数据整合及管理的方法体系和工具，大数据工程师在这一体系下，构建统一、规范、可共享的全域数据体系，避免数据的冗余和重复建设，规避数据烟囱和不一致，充分发挥在大数据海量、多样性方面的独特优势。借助这一统一化数据整合及管理的方法体系，构建企业数据公共层，并可以帮助相似大数据项目快速落地实现。

数据中台数据加工链路也是遵循业界的分层理念：包括操作数据层（ODS，Operational Data Store）、明细数据层(DWD，Data Warehouse Detail)、汇总数据层(DWS, Data Warehouse Summary)和应用数据层(ADS，Application Data Store)。通过数据中台不同层次之间的加工过程实现从数据资产向信息资产的转化，并且对整个过程进行有效的元数据管理及数据质量处理。

下图展示数据公共层（ODS+DWD+DWS）与数据应用层（ADS）在数据分层中的位置：

图：数据公共层与数据应用层关系

（1）统一数据基础层
我们通过各种方式采集到的丰富数据，在清洗、结构化后进入统一的ODS数据基础层。

其主要功能包括：
-同步：结构化数据增量或全量同步到数据中台
-结构化：非结构化(日志)结构化处理并存储到数据中台
累积历史、清洗：根据数据业务需求及稽核和审计要求保存历史数据、数据清洗

在权责方面，所有数据应该在源头统一，统一所有的数据基础层，并由一个团队负责和管控，其他团队无权复制数据基础层的数据。

（2）数据中间层
我们进行数据建模研发，并处理不因业务特别是组织架构变动而轻易转移的数据中间层。包括DWD明细数据中间层和DWS汇总数据中间层。

其主要功能包括：
-组合相关和相似数据：采用明细宽表，复用关联计算，减少数据扫描。
-公共指标统一加工：基于OneData体系构建命名规范、口径一致和算法统一的统计指标，为上层数据产-品、应用和服务提供公共指标；建立逻辑汇总宽表；
-建立一致性维度：建立一致数据分析维度表，降低数据计算口径、算法不统一的风险。

在权责方面，面向业务提供服务之前，由统一的团队负责从业务中抽象出源于业务而又不同于业务的数据域，再主导统一建设数据中间层，包括侧重明细数据预JOIN等处理的明细中间层、侧重面向应用可复用维度和指标的汇总数据中间层。特别是要由唯一团队负责将核心业务数据统一加入数据中间层。允许部分业务数据有独立的数据团队按照统一的OneModel体系方法论建设数据体系，ODS数据基础层和DWD+DWS数据中间层因其统一性和可复用性，被称为数据公共层。

（3）数据应用层
在面向应用提供服务时，业务团队或深入业务线的数据团队有极大的自由度，只要依赖数据公共层，即可自由的建设ADS数据应用层。

其主要功能包括：
-个性化指标加工：不公用性；复杂性（指数型、比值型、排名型指标）
-基于应用的数据组装：大宽表集市、横表转纵表、趋势指标串

数据服务层

当数据已被整合和计算好之后，需要提供给产品和应用进行数据消费，为了更好的性能和体验，需要构建数据服务层，通过接口服务化方式对外提供数据服务。针对不同的需求，数据服务层的数据源架构在多种数据库之上，如Mysql和Hbase等。

数据服务可以使应用对底层数据存储透明，将海量数据方便高效地开放给集团内部各应用使用。如何在性能、稳定性、扩展性等多方面更好地服务用户；如何满足应用各种复杂的数据服务需求；如何保证数据服务接口的高可用。随着业务的发展，需求越来越复杂，因此数据服务也在不断地前进。

不管是数据公共层还是应用层，最终都需要面向业务提供服务。为了让业务部门找数据、看数据、用数据更加方便，我们将OpenAPI升级为能缓解业务变化对数据模型冲击的包括方法论+产品在内的OneService体系，使其在提供统一的公用服务的同时，兼容面向个性化应用的服务。

下图为数据服务层在数据分层中的位置：

图：数据应用层与数据服务层关系

综上，企业数据中台依托数据采集层、数据计算层、数据服务层，为上层数据产品、业务系统等提供数据支撑。云上数据中台产品Dataphin从“采、建、管、用”为企业提供一站式数据中台各层次的实现，配合阿里云系列产品，可实现企业数据中台全链路稳定、高效构建。

数据中台是企业数智化的必经之路，阿里巴巴认为数据中台是集方法论、工具、组织于一体的，“快”、“准”、“全”、“统”、“通”的智能大数据体系。

目前正通过阿里云对外输出系列解决方案，包括通用数据中台解决方案、零售数据中台解决方案、金融数据中台解决方案、互联网数据中台解决方案、政务数据中台解决方案等细分场景。

其中阿里云数据中台产品矩阵是以Dataphin为基座，以Quick系列为业务场景化切入，包括：

官方站点：
数据中台官网 https://dp.alibaba.com
钉钉沟通群和微信公众号

【福利】实时计算及 Flink 社区招聘信息汇总-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

大家好，为帮助大家更好的找到适合的岗位，拿到心仪公司的offer，社区收集了多家实时计算及 Flink 企业用户的招聘需求，如：知乎、VIPKID、新氧、作业帮、得物、好未来、阿里巴巴等招聘信息，整理如下，供大家参考。

欢迎更多企业投递实时计算及 Flink 相关招聘信息，更欢迎 Flink 专家、技术爱好者自荐。相关需求可联系小松鼠（微信 ID:Ververica2019）。

本期招聘企业及岗位如下，找工作或有意向换工作的同学快到碗里来！

知乎 | 大数据实时处理平台研发工程师
VIPKID | 实时计算研发工程师
得物APP | 实时数据开发
作业帮 | 实时计算架构研发工程师
新氧科技 | 大数据开发工程师
好未来 | 实时计算 Flink 专家岗 / 数据平台开发 - Flink 实时&离线岗
阿里云计算平台事业部 | 研发工程师

知乎：大数据实时处理平台研发工程师

知乎数据架构团队正在围绕 Apache Flink 为核心打造大数据实时计算平台，为知乎内部业务提供批流融合的大数据计算能力，加入知乎数据架构团队共同探索新一代的大数据技术。欢迎大家推荐简历！

岗位描述

1. 参与 Apache Flink 的二次开发，建设 Flink 批流融合大数据计算引擎
2. 深入理解业务并与业务部门密切合作，基于 Apache Flink + Kubernetes 建设知乎的实时计算平台

岗位要求

1. 计算机、通信、数学等相关专业，具备良好的计算机技术基础
2. 熟悉 Java，具备扎实的数据结构和算法基础
3. 具备良好的沟通和团队协作能力，做事主动积极，有技术热情和激情面对挑战
4. 深入理解 Flink 或 Spark Streaming 原理者优先
5. 有 PB 级数据处理经验和实时计算平台开发经验者优先
6. 熟悉 Hadoop Ecosystem 例如 -- Flink/Spark/Hadoop/Hive/Kafka/Pulsar 以及 Kubernetes，向社区贡献过代码者优先

简历投递

工作地点：北京
简历投递：sunxiaoguang@zhihu.com

VIPKID：实时计算研发工程师

岗位职责

1.参与实时计算平台建设和架构设计开发，维护与优化；
2.负责海量数据的采集，清洗等工作。

岗位要求

1.5年以上工作经验;
2.熟练掌握hadoop、spark、storm、flink等大数据相关组件，深入理解系统原理，并有丰富Flink开发及运维经验
3.精通数据采集、实时计算
4.3年以上的Java或scala开发经验(熟练使用java、scala、python等开发语言);
5.了解数据结构及算法（基本算法即可）
6.具有较强的学习能力，自我管理能力、驱动能力

加分项：

有过主导和设计实时计算平台的系统规划，并落地的经验优先

简历投递

工作地点：北京
简历投递：yangliang@vipkid.com.cn

得物APP：实时数据开发

岗位职责

负责公司实时相关的业务数据统计需求的开发，包括实时数仓，标签体系，日志和业务数据的etl等工作。

岗位要求

1. 熟悉 Java、Scala 中至少一门语言，熟练使用 SQL。
2.有大数据组件使用经验，熟悉大数据相关技术，如 Spark、Flink、HBase、Hive、Clickhouse 等。
3. 使用 Flink 开发过复杂业务，熟悉 Datastream 和 Table/Sql API，有flink 作业线上调优经验优先。
4.良好的业务理解能力和沟通表达能力，主动性强。

简历投递

工作地点：上海市杨浦区互联宝地
简历投递：luoziyu@theduapp.com

作业帮：实时计算架构研发工程师

岗位职责

1. 负责作业帮业务数据内容规划和设计，实现数据互通共享体系，解决海量数据面临的挑战；
2. 负责公司流量数据OLAP引擎和实时计算框架的设计、开发和优化，构建实时数据的公共层；
3. 负责Spark、Flink集群的管理和优化，保证集群持续稳定；
4. 根据业务需求进行上游数据平台设计开发，打造高可用的数据平台；

岗位要求

1. 有一线互联网公司2年数据开发经验，或独立负责大中型业务大数据实时架构的经验；
2. 熟悉Linux系统，具备Java/Scala/Python等一种或几种语言的开发能力；
3. 熟悉Flink/Spark/Kafka/Presto/Hadoop/HBase等大数据相关技术，对源码有研究或者有调优经验者优先；
4. 熟悉并行计算或者分布式计算原理，熟悉高并发、高稳定性、海量数据的系统特点和技术方案；
5. 有大数据系统平台项目经验，掌握实时数据处理系统搭建和开发；
6. 学习能力强，热衷开源技术，有团队观念，具备独立解决问题的能力；

简历投递

工作地点：北京
简历投递邮箱：zhangying14@zuoyebang.com

北京新氧科技有限公司：大数据开发工程师

岗位职责

1. 负责新氧实时业务数据支撑；
2. 主要参与新氧流量、内容、电商、会员等各主题域实时数据仓库开发。
3. 负责实时数据仓库程序上线并持续迭代优化以及日常运维

岗位要求

1. 本科以上，计算机相关专业；
2. 3年以上的大数据研发经验，有flink实时作业开发部署调优经验。对kafka有较深入研究，对性能调优、故障恢复有一定的处理经验。
3. 熟悉Linux操作环境，有良好的至少一门语言 (Java、Scala) 开发调试经验；
4. 熟悉大数据开发相关技术，如hadoop、hive、spark、kafka、 spark streaming、Flink等；
5. 熟练数据仓库，对多维数据建模有深入理解；
6. 对数据系统热爱，乐于解决具有挑战性的问题, 具备优秀的分析问题、解决问题能力；

简历投递

工作地点：北京
简历投递：gaohongchao@soyoung.com；liuyuquan@soyoung.com

好未来：实时计算 Flink 专家岗 / 数据平台开发 - Flink 实时&离线岗

实时计算 Flink 专家岗

岗位职责

1.负责行业实时计算开发平台的架构设计，完善实时计算方案
2.支撑公司内部的实时业务开发
3.对 Flink 以及周边技术进行源码级探索改进

岗位要求

1.有实时计算引擎设计项目经验，并能完成相应系统设计研发
2.有丰富的Flink线上部署/日常运维/性能分析/故障定位能力
3.精通 Java 编程语言，计算机基础知识（网络/操作系统/分布式基础等）扎实
4.有过 SQL 引擎开发经验，或者对编译原理有所了解
5. 有过完整实时开发平台项目经验者优先

简历投递

工作地点：北京
简历投递：liuwenlin@tal.com

数据平台开发：Flink 实时&离线岗

岗位职责

离线

1.参与集团数据中台大数据基础设施建设
2. 负责大数据生态组件的调优和二次开发
3. 负责大数据平台开发套件相关子系统开发

实时

1.实现行业实时计算开发平台
2. 支撑公司内部的实时业务开发
3. 对flink以及周边技术进行源码级探索改进

岗位要求

1.3-5年相关工作经验，计算机相关专业本科以上学历
2.精通java语言，熟悉常用设计模式、主流开发框架，3年以上相关开发经验；

离线

1.参与过大数据开发套件产品的后端开发者优先，包括大数据离线任务调度系统，元数据管理系统，数据质量系统等。
2. 熟悉Hadoop集群及相关生态组件（HDFS、Zookeeper、YARN、Hive、Spark、Kerberos、AirFlow、Flink、Presto、Kudu等），有调优和二次开发经验者优先。
3. 熟悉集群权限控制及开发者优先
4. 熟悉数据安全管理和实践经验优先

实时

1. 有实时计算引擎设计项目经验，并能完成相应系统设计研发
2. 有丰富的Flink线上部署/日常运维/性能分析/故障定位能力
3. 有过SQL引擎开发经验，或者对编译原理有所了解
4. 有过完整实时开发平台项目经验者优先

简历投递

工作地点：北京
简历投递：liuwenlin@tal.com

阿里云计算平台事业部：研发工程师

团队介绍

1. 基于Hadoop、Spark、Hive、HBase、Flink，Kafka，TensorFlow等开源大数据组件，构建云原生大数据平台，提供大规模计算能力；
2. 提供一站式大数据应用开发平台, 包括大数据安全体系，数据治理，作业调度，交互式查询，专项领域监控，通过机器学习算法帮助用户智能诊断复杂问题；
3. 打造世界顶级的开源大数据平台，在公共云、裸机、私有云和混合云等环境, 为阿里云客户提供云原生大数据全家桶服务；
4. 参与阿里云城市大脑、智慧交通等多项国家战略项目建设，利用实时/批技术处理真实世界中的海量数据。

职位描述

1. 计算机、通信、数学等相关专业，具备良好的计算机技术基础；
2. 熟悉Java/C++/Python/GO等至少一种编程语言，具备扎实的数据结构和算法基础；
3. 具备良好的沟通和团队协作能力，做事主动积极，有技术热情和激情面对挑战；
4. 熟悉主流JAVA框架，包括spring、netty、mybatis等技术者优先；
5. 熟悉Hadoop/Spark/Flink/Storm/HBase/Hive/Kafka/TensorFlow/Kubernetes/Prometheus技术者优先。

简历投递

工作地点：北京
简历投递：wali.rcd@taobao.com

▼ 实时计算 Flink 技术交流群 ▼

凯伦陈洪进：中国防水行业亟待拥抱数字化变革 | 阿里CIO学院名人堂-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

9月10日，陈洪进与来自全国各地的36家大型企业的43位信息化高管共聚美丽的北国春城，参加由阿里巴巴与中国一汽联合举办的阿里CIO学院走进一汽共创会，从智能制造、新营销和新IT三个角度探寻企业转型中的“数字化力量”。

活动期间，陈洪进与其他学员们就企业数字化转型进行了深入交流。会后，陈洪进接受CIO学院的新媒体访谈，他表示对传统的制造企业而言，数字经济带来的不是数字化转型，而是数字化升级，中国防水行业亟待拥抱数字化变革。

走进一汽感受数字化力量

在参加完走进一汽的活动后，陈洪进对两个内容感触较深：

第一，数字化工厂的实践。对传统的制造型企业而言，红旗数字化工厂不像媒体上宣传的各种类型的无人产线那么高不可攀，现场有很多人在不同工序从事各种作业，各种AGV设备也有明显地自行改造的影子，但通过优化现场流程实现了生产效率的大幅度提升。除了遍布全厂的AGV小车外，无人值守库房、工序配件的自动调度、车间电子看板取代纸质单据等内容，都令人印象深刻，值得借鉴。

第二，产品数字化在价值链上的拓展。一汽提出根据服务的价值链不同，构建不同的数字孪生主体，包括研发孪生、制造孪生、营销孪生、运营孪生等。当前传统制造型企业讨论的孪生大多偏重于设备领域，以设备模拟和预防性维护为主要方向，一汽的孪生理念拓展了产品数字化的边界，以产品为载体，整合企业价值链的各种数据形成适应每个价值模型的数字化产品，这种理念超越了对个别业务进行数字孪生的认知，对于指导制造型企业进行全面数字化转型具有很好的引领作用。

陈洪进在活动现场

凯伦股份全力加速数字化转型

凯伦股份是中国建筑防水行业首家创业板上市公司，缔造了传统制造领域民营企业6年上市的传奇速度。2017年上市至今，年复合增长率63%。

凯伦股份在信息化建设上具有前瞻性。2012年工厂投产即投用了定制的金蝶ERP系统，良好的支撑了企业运营和上市；上市后，2018年即着手实施Oracle ERP系统，于2019年1月1日顺利上线，支持了企业由单一工厂到多工厂、单一组织到多组织的快速发展。

2019至2020年进一步实施了MES、HR、BI、智能化大屏等系统。

凯伦的信息化面临的主要挑战是如何为公司的快速发展保驾护航，涉及集团管控、异地工厂管理、新业务模式涌现等课题。凯伦所在的行业是建材领域，面对的客户主要是传统的建筑工程市场客户，产品非常标准化，属于典型的“toB”业务，企业管理的重点是提升自身的运营效率。

根据如上情况，凯伦提出了“数字化运营，可视化管理”的信息系统三年战略目标，要求在经营、生产的全过程实现数字化，同时对每个职能通过报表、大屏等实现可视化管理。进而凯伦设定了核心的管控指标：部门KPI指标覆盖率，要求由系统出具考核数据的部门KPI指标占比60%以上。

数字化转型？数字化升级！

在下午举行的阿里CIO学院走进一汽共创会上，来自中国一汽数字化部、启明信息、阿里巴巴的6位讲师针对 “新制造”、“新基建”、“新营销”等话题进行了深度分享，深度讲解以云数智为代表新兴数字技术正在为汽车产业赋能，加速行业向智能化、电动化、网联化、共享化的出行服务转型。

陈洪进表示，对传统的制造企业而言，数字经济带来的不是数字化转型，而是数字化升级。以阿里为代表的互联网企业带来了很多新技术、新理念、新做法，值得传统制造企业借鉴。

2019年，阿里的“中台”概念火热却在制造业鲜有案例，关键原因应该是制造业中很少涉及一个公司内要在较短的时间内、由不同部门实现类似业务快速上线的应用场景。但在不到一年的时间内，苏州的一家企业使用中台、微服务的理念，以单点登录为切入点，重构了企业内部系统，极大提升了员工使用业务系统的效率；在一汽参观中，启明信息更是提出基于中台架构，通过微服务设计，将传统的ERP系统拆解成分布式、开放式和服务化的业务平台。

在当前各行各业都面临巨大挑战，业务的瞬息万变，要求对应的信息系统具有良好的弹性，开放化、服务化将成为永恒的主题。在这种背景下，中台、微服务的理念对于在现有的业务系统基础上，快速构建全新的业务支持系统具有重要的理念引导作用，无疑是阿里输出给社会的成功经验。架构中台化也将是凯伦未来三年要重点实现的技术目标。

在陈洪进看来，阿里还有很多如云平台、弹性计算这些可以直接使用的技术，阿里的管理理念也是当前企业管理界的热点。传统制造业应该充分借鉴和应用这些理念和技术，提升自身的管理能力和经营效率，加快转型和升级，以更好的状态参与市场竞争。

陈洪进参与圆桌论坛环节

数字化转型人才和开放合作至关重要

当前中国防水市场正在加速转型，目前规模每年2000亿元，绝大部分业务是toB业务，但头部企业已经涉足C端市场，直接面向消费者；同时，随着凯伦为代表的高分子防水市场的拓展，中国的防水行业深入参与国际市场竞争也是可以预见的未来。

在这种背景下，陈洪进认为，以下三个方面是防水行业数字化升级的主要内容：首先，以“提质、降本、增效”为核心的内部管理的数字化升级；其次，面向防水工程的施工过程管理的数字化升级；再次，面向家装领域即C端的业务模式、营销模式的数字化创新，未来防水行业的数字化升级的亮点就在这三个方向上。

更重要的是，传统制造型企业转型，对业务部门而言是理念的挑战，对IT部门而言是技术和业务的双重挑战，这可能是制造型企业的共同痛点。业务部门由于不懂IT技术，很难理解IT技术的边界，也很少会用IT的视角诠释业务需求，所以需要在理念上认同数字化；IT部门首先要立足业务需求解决业务问题，其次要用更合理的技术确保可扩展性，两个方面要兼顾。归根结底，企业需要培养数字化复合型人才，这是一个永恒的话题。

陈洪进指出，凯伦需要培育核心的数字化复合型人才，需要兼顾业务和IT技术。制造型企业的信息化往往不是技术创新驱动型，需要精通行业特点的人才，立足于业务本身，使用IT技术解决实际问题。防水行业如今整体信息化水平一般的问题核心是复合型人才稀缺。凯伦的目标不仅仅局限于国内市场，所以必须培养出核心的数字化复合型人才，才能支持各种可能的业务方向。

对于技术，陈洪进倾向于开放合作。他认为制造型企业不像互联网行业一样有众多精英IT人才。所以，凯伦应该有懂得IT边界的、精通业务流程的人才，能阐明业务需求，而对于业务的具体技术实现，可以根据实际情况选择。

在陈洪进看来，大数据和人工智能将会带来行业的巨变。他记得在此次参观中，一汽的领导在分享业务对象数字化的认识时，提出：一个设备，最早只是一个代码，不到1K的信息；当数据累计到10M时，可以支持设备的全生命周期管理；1G时，可以开展预防性维修；10G时，可以支持虚拟仿真。这个例子比较形象的说明了业务对象的数据累积到一定程度，大数据、人工智能等技术可以带来量变到质变的过程。

“因为相信，所以看见”，“仰望星空，脚踏实地”，陈洪进表示，阿里的这两句话最代表他对大数据、人工智能技术的感触。

阿里CIO学院应考虑建立行业分院

陈洪进：首先很感激阿里给CIO创造的这样一个公益平台，让大家有机会深入学习和了解阿里，也有机会互相学习。通过阿里CIO学院的组织走进中国一汽，观摩标杆企业的精益制造；领略前沿的数字化转型，学习先进的数字化方法论；专家老师全程相伴，并与阿里巴巴和中国一汽的数字化高管面对面交流，倾听实战分享、可谓一场完美的主题活动。

我觉得未来可以考虑行业分院的形式，让学员更加有针对性。同时也可以开展分院之间的交流互动，取长补短。

公司简介

凯伦股份是一家集防水材料研发、制造、销售及施工服务于一体的国家高新技术企业。先后获得“中国防水行业质量提升示范企业”、“中国房地产500强首选供应商”、“江苏省优秀企业”等荣誉称号。企业以“融合防水”为旗，于国内首创MBP高分子自粘胶膜防水卷材和白色抗流挂聚氨酯防水涂料，填补了国内高分子防水领域的技术空白，引领行业转型升级。2017年10月26日，凯伦股份实现A股上市，成为中国建筑防水行业首家创业板上市公司。

公司目前在华东、华北、华中和西南建有现代化生产基地，引进全套进口成型生产线和先进的胶体磨等设备，精细化和自动化程度达到国际同行先进水平。为快速响应市场，公司不断完善产业布局，在西北、华南和华东（新）投资建设产业基地，抓住长三角生态绿色一体化发展示范区机遇，在苏州建设世界一流的高分子防水材料生产基地。

秉承“精细化的融合、看得见的诚实”的经营理念，公司短短几年内把业务推向多个建筑防水领域，先后与万科、恒大、碧桂园、绿地等20多个龙头房地产建立战略合作关系，承接了多个高铁、地铁、隧道、核电站和地下管廊等防水项目；凯伦股份放眼全球，销售遍布美国、英国、德国、澳大利亚、以色列、新加坡、印度等60多个国家和地区。

凯伦股份坚守“高品质”和“绿色生产”的战略定位，致力成为国际领先的功能性建材制造商，以稳健的步伐，确保基业长青，效力百年建筑，造福人类，回馈社会。

文章来源：阿里飞天CIO学堂微信公众号

名人堂

名人堂是阿里CIO学院打造的一档大伽访谈栏目，每周一期。以推动企业创新与数智化升级为愿景，通过采访行业顶尖客户，帮你更好地了解和思考企业数字化转型中可能面临的挑战，梳理行业痛点和方法路径，从而相互滋养，共同成长。

应用架构之道：分离业务逻辑和技术细节-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

作者 | 张建飞阿里巴巴高级技术专家

架构

什么是架构？

关于架构这个概念很难给出一个明确的定义，也没有一个标准的定义。

硬是要给一个概述，我认为架构就是对系统中的实体以及实体之间的关系所进行的抽象描述。

架构始于建筑，是因为人类发展（原始人自给自足住在树上，也就不需要架构），分工协作的需要，将目标系统按某个原则进行切分，切分的原则，是要便于不同的角色进行并行工作。

为什么需要架构？

有系统的地方就需要架构，大到航空飞机，小到一个电商系统里面的一个功能组件都需要设计和架构。

我很喜欢《系统架构：复杂系统的产品设计与开发》里面的一句话：结构良好的创造活动要优于毫无结构的创造活动。

与之相对应的，现在很多敏捷思想提倡 no design，只要 work 就好。期待好的架构可以在迭代中自然涌现。这个想法有点太理想化了，在现实中，只要能 work 的代码，工程师是很少有动力去重构和优化的。

架构师的职责

作为架构师，我们最重要的价值应该是“化繁为简”。但凡让事情变得更复杂，让系统变得更晦涩难懂的架构都是值得商榷的。

架构师的工作就是要努力训练自己的思维，用它去理解复杂的系统，通过合理的分解和抽象，使哪些系统不再那么难懂。我们应该努力构建易懂的架构，使得在系统上工作的其他人员（例如设计者、实现者、操作员等）可以较为容易地理解这个系统。

软件架构

软件架构是一个系统的草图。软件架构描述的对象是直接构成系统的抽象组件。各个组件之间的连接则明确和相对细致地描述组件之间的通信。在实现阶段，这些抽象组件被细化为实际的组件，比如具体某个类或者对象。在面向对象领域中，组件之间的连接通常用接口来实现。

软件架构为软件系统提供了一个结构、行为和属性的高级抽象，由构件的描述、构件的相互作用、指导构件集成的模式以及这些模式的约束组成。软件架构不仅显示了软件需求和软件结构之间的对应关系，而且指定了整个软件系统的组织和拓扑结构，提供了一些设计决策的基本原理。

软件架构的核心价值应该只围绕一个核心命题：控制复杂性。他并不意味着某个特定的分层结构，某个特定的方法论（贫血、DDD 等）。

软件架构分类

在介绍应用架构之前，我们先来看一下软件架构的分类。

随着互联网的发展，现在的系统要支撑数亿人同时在线购物、通信、娱乐的需要，相应的软件体系结构也变得越来越复杂。软件架构的含义也变得更加宽泛，我们不能简单地用一个软件架构来指代所有的软件架构工作。按照我个人理解，我将软件架构划分为：

业务架构：由业务架构师负责，也可以称为业务领域专家、行业专家。业务架构属于顶层设计，其对业务的定义和划分会影响组织结构和技术架构。例如，阿里巴巴在没有中台部门之前，每个业务部门的技术架构都是烟囱式的，淘宝、天猫、飞猪、1688 等各有一套体系结构。而后，成立了共享平台事业部，打通了账号、商品、订单等体系，让商业基础实施的复用成为可能。

应用架构：由应用架构师负责，他需要根据业务场景的需要，设计应用的层次结构，制定应用规范、定义接口和数据交互协议等。并尽量将应用的复杂度控制在一个可以接受的水平，从而在快速的支撑业务发展的同时，在保证系统的可用性和可维护性的同时，确保应用满足非功能属性要求（性能、安全、稳定性等）。

分布式系统架构：分布式系统基本是稍具规模业务的必选项。它需要解决服务器负载，分布式服务的注册和发现，消息系统，缓存系统，分布式数据库等问题，同时架构师要在 CAP（Consistency，Availability，Partition tolerance）之间进行权衡。

数据架构：对于规模大一些的公司，数据治理是一个很重要的课题。如何对数据收集、数据处理提供统一的服务和标准，是数据架构需要关注的问题。其目的就是统一数据定义规范，标准化数据表达，形成有效易维护的数据资产，搭建统一的大数据处理平台，形成数据使用闭环。

物理架构：物理架构关注软件元件是如何放到硬件上的，包括机房搭建、网络拓扑结构，网络分流器、代理服务器、Web服务器、应用服务器、报表服务器、整合服务器、存储服务器和主机等。

运维架构：负责运维系统的规划、选型、部署上线，建立规范化的运维体系。

典型应用架构

分层架构

分层是一种常见的根据系统中的角色（职责拆分）和组织代码单元的常规实践。常见的分层结构如下图所示：

CQRS

CQS(Command Query Separation，命令查询分离)，最早来自于 Betrand Meyer（Eiffel 语言之父，OCP 提出者）提出的概念。其基本思想在于，任何一个对象的方法可以分为两大类：

命令(Command): 不返回任何结果(void)，但会改变对象的状态。
查询(Query): 返回结果，但是不会改变对象的状态，对系统没有副作用。

六边形架构

六边形架构是 Alistair Cockburn 在 2005 年提出，解决了传统的分层架构所带来的问题，实际上它也是一种分层架构，只不过不是上下，而是变成了内部和外部（如下图所示）。

六边形架构又称为端口-适配器架构，这个名字更容器理解。六边形架构将系统分为内部（内部六边形）和外部，内部代表了应用的业务逻辑，外部代表应用的驱动逻辑、基础设施或其他应用。

适配器分为两种类型（如下图所示），左侧代表 UI 的适配器被称为主动适配器（Driving Adapters），因为是它们发起了对应用的一些操作。而右侧表示和后端工具链接的适配器，被称为被动适配器（Driven Adapters），因为它们只会对主适配器的操作作出响应。

洋葱圈架构

洋葱架构与六边形架构有着相同的思路，它们都通过编写适配器代码将应用核心从对基础设施的关注中解放出来，避免基础设施代码渗透到应用核心之中。这样应用使用的工具和传达机制都可以轻松地替换，可以一定程度地避免技术、工具或者供应商锁定。

不同的是洋葱架构还告诉我们，企业应用中存在着不止两个层次，它在业务逻辑中加入了一些在领域驱动设计的过程中被识别出来的层次（Application，Domain Service，Domain model，Infrastructure等）。

另外，它还有着脱离真实基础设施和传达机制应用仍然可以运行的便利，这样可以使用 mock 代替它们方便测试。

在洋葱架构中，明确规定了依赖的方向：

外层依赖内层；
内层对外层无感知。

COLA 应用架构

COLA 架构是我团队自主研发的应用架构，目前已经开源。在 COLA 的设计中，我们充分汲取了经典架构的优秀思想。除此之外，我们补充了规范设计和扩展设计，并且使用 Archetype 的方式，将架构固化下来，以便可以快速的在开发中使用。

COLA 开源地址：https://github.com/alibaba/COLA

分层设计

COLA 的分层是一种改良了的三层架构。主要是将传统的业务逻辑层拆分成应用层、领域层和基础实施层。如下图所示，左边是传统的分层架构，右边是 COLA 的分层架构。

其每一层的作用范围和含义如下：

1）展现层（Presentation Layer）：负责以 Rest 的格式接受 Web 请求，然后将请求路由给 Application 层执行，并返回视图模型（View Model），其载体通常是 DTO（Data Transfer Object）；

2）应用层（Application Layer）：主要负责获取输入，组装上下文，做输入校验，调用领域层做业务处理，如果需要的话，发送消息通知。当然，层次是开放的，若有需要，应用层也可以直接访问基础实施层；

3）领域层（Domain Layer）：主要是封装了核心业务逻辑，并通过领域服务（Domain Service）和领域对象（Entities）的函数对外部提供业务逻辑的计算和处理；

4）基础实施层（Infrastructure Layer）主要包含 Tunnel（数据通道）、Config 和 Common。这里我们使用 Tunnel 这个概念来对所有的数据来源进行抽象，这些数据来源可以是数据库（MySQL，NoSql）、搜索引擎、文件系统、也可以是 SOA 服务等；Config 负责应用的配置；Common 是通用的工具类。

扩展设计

对于只有一个业务的简单场景，对扩展性的要求并不突出，这也是为什么扩展设计常被忽略的原因，因为我们大部分的系统都是从单一业务开始的。但是随着业务场景越来越复杂，代码里面开始出现大量的if-else逻辑。此时除了常规的策略模式以外，我们可以考虑在架构层面提供统一的扩展解决方案。

在扩展设计中，我们提炼出两个重要的概念，一个是业务身份，另一个是扩展点。

业务身份是指业务在系统唯一标识一个业务或者一个场景的标志。在具体实现中，我们使用 BizCode 来表示业务身份，其中 BizCode 采用类似 Java 包名命名空间的方式。例如，我们可以用“ali.tmall”表示阿里天猫业务，用“ali.tmall.car” 表示阿里天猫的汽车业务，而用"ali.tmall.car.aftermarket"代表这是阿里天猫的汽车业务的后市场场景。

每个业务或者场景都可以实现一个或多个扩展点（ExtensionPoint），也就是说一个业务身份加上一个扩展点，可以唯一地确定一个扩展实现（Extension）。而这个业务身份和扩展点的组合，我们将其称之为扩展坐标（ExtensionCoordinate），如下图所示。

这样，通过业务身份+扩展点，我们就可以从框架层面实现对不同租户，不同业务，不同场景的扩展定制了。整个阿里业务中台正是基于这个思想，实现的多业务支撑的。

规范设计

任何事物都是规则性和随机性的组合。规范的意义就在于我们可以将规则性的东西固化下来，尽量减少随心所欲带来的复杂度，一致性可以降低系统复杂度。从命名到架构皆是如此，而架构本身就是一种规范和约束，破坏这个约束，也就破坏了架构。

COLA 制定了一些列的规范：包括组件（Module）结构、包（Package）结构、命名等。

比如对于组件，我们要求使用 COLA 的应用都应该遵循如下图所示的组件划分：

COLA 架构总览

在架构思想上，COLA 主张像六边形架构那样，使用端口-适配器去解耦技术细节；主张像洋葱圈架构那样，以领域为核心，并通过依赖倒置反转领域层的依赖方向。最终形成如下图所示的组件关系。

换一个视角，从 COLA 应用处理响应一个请求的过程来看。COLA 使用了 CQRS 来分离命令和查询的职责，使用扩展点和元数据来提升应用的扩展性。整个处理流程如下图所示：

应用架构的核心

纵观上面介绍的所有应用架构，我们可以发现一个共同点，就是“核心业务逻辑和技术细节分离”。

是的，六边形架构、洋葱圈架构、以及 COLA 架构的核心职责就是要做核心业务逻辑和技术细节的分离和解耦。

试想一下，业务逻辑和技术细节糅杂在一起的情况，所有的代码都写在 ServiceImpl 里面，前几行代码是做 validation 的事，接下来几行是做 convert 的事，然后是几行业务处理逻辑的代码，穿插着，我们需要通过 RPC 或者 DAO 获取更多的数据，拿到数据后，又是几行 convert 的代码，在接上一段业务逻辑代码，然后还要落库，发消息.....等等。

再简单的业务，按照上面这种写代码的方式，都会变得复杂，难维护。

因此，我认为应用架构的核心使命就是要分离业务逻辑和技术细节。让核心业务逻辑可以反映领域模型和领域应用，可以复用，可以很容易被看懂。让技术细节在辅助实现业务功能的同时，可以被替换。

最后我们发现，应用架构的道就是：“让上帝的归上帝，凯撒的归凯撒。”

“阿里巴巴云原生关注微服务、Serverless、容器、Service Mesh 等技术领域、聚焦云原生流行技术趋势、云原生大规模的落地实践，做最懂云原生开发者的公众号。”

玩转ECS第1讲 | 云上自动化部署和运维的正确姿势-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

演讲嘉宾简介：吴君印，阿里云资深技术专家。负责ECS整体服务层面的技术和产品架构工作，并负责阿里云智能内部OnECS的技术和产品架构工作，包括产品ECS云助手，运维编排OOS，资源编排ROS以及内部OnECS产品宙斯，致力于打造以ECS为中心的系统管理、自动化和DevOps体验。

以下内容根据演讲视频以及PPT整理而成。观看回放
更多课程请进入“玩转ECS详情页”了解

本次分享主要围绕以下三个方面：

    一、云上部署和运维的特点
    二、资源编排ROS
    三、运维编排OOS

今天主要分享的内容是云上自动化部署和运维的正确姿势，下面先来看看云上部署相比于传统的RDC部署有哪些不同。

一、云上部署和运维的特点

无论是部署还是运维，在云上都有如下四个特点：

首先，可重复。在云上部署相对于传统RDC部署而言更加灵活，只需要编写一次模版就可以随时随地拉起一套环境，做到一键部署。目前有两种类型的环境部署，一种是测试环境、预发环境、生产环境。第二种是在不同地域进行部署，如北京地域、上海地域以及杭州地域。

第二点，多环境保持一致。因为使用的是相同的模版进行部署，所有环境部署出来的结果都一样，这样可以避免人为错误，避免问题排查时的环境影响，环境造成的问题往往是最难排查的问题之一。

第三点，可审计。所有操作均通过API，所有API操作都可以被审计，集成操作审计服务ActionTrail即可。

第四点是DevOps。从环境部署到应用部署都模板化，版本管理使用Git，可以做代码评审、代码回滚。

资源编排ROS和运维编排OOS

阿里云针对云上部署和运维特点，推出了两个产品，包括资源编排ROS（Resource Orchestration Service）——解决自动化部署问题，运维编排OOS（Operation Orchestration Service）——解决自动化运维问题。两款编排产品除了支持ECS的实例，还支持其它阿里云的产品，如负载均衡，关系型数据库RDS，对象存储OSS等。

二、资源编排ROS

资源编排ROS的典型场景

资源编排ROS的典型场景主要有四种：
• 第一种是部署模版，资源编排ROS是通过模版方式达到可以重复部署的目的，使用模版可以在任何时间任何地点拉起一套环境。
• 第二种是MSP、ISV提供自己的部署模版，可以一键开出复杂的业务系统，如SAP HANA等系统，将部署时间缩短为几个小时。由于云上的环境都是标准的，只要有测试通过后的模版就可以在不同的环境、不同的账号中重复部署。
• 第三是解决方案中心，阿里云通过自身多年服务客户和双11的经验，总结了大量的最佳实践，在解决方案中心中提供了很多高质量的模版，支持开箱即用。
• 第四是CI/CD集成，在DevOps开发模式下，只有将部署模版放到CI/CD中才能打造DevOps的开发模式，轻松的做到蓝绿部署，并且支持阿里云云效。

ROS控制台及操作演示

下图是资源编排ROS主页https://rosnext.console.aliyun.com/ ，上方对ROS产品进行了简单的介绍；下方是常见的部署架构作为示例模版。

左侧菜单栏中有“我的模版”和“模版示例”，其中我的模版是需要自定义的模版，模版示例中提供了大量常见的部署形式，如Jenkins、Kafka等。解决方案中心中是由阿里云解决方案架构师团队、最佳实践团队、各业务方团队和资源编排团队合作共建，将阿里云多年沉淀的最佳实践和针对各种场景的解决方案沉淀为资编排源模版，用户可以使用这些最佳实践模版使得云上部署更加安全高效。

“资源类型”模块中展示了ROS支持的阿里云云产品。

下面以构建我的模版LNMP-deom-1作为例子，模版以JSON格式表达，也支持YAML格式，最重要的是，还提供了可视化的架构图。

可以发现所有的资源都在VPC内部，包括关系型数据库RDS和ECS实例。图中两个ECS实例挂在负载均衡LoadBalance下面。

接着可以使用此模版创建资源栈，之后通过事件tab知道每一步创建步骤。在资源tab中看到所有被模版创建的资源，只需要点击资源ID，就可以打开实例详情页面。在输出tab在有显示一个网站链接，可以发现此次网站部署成功。参数tab中提供了每次模版的参数。当用户手动修改一些资源，与模版出现不一致时，可以使用检查资源偏差查看不同点。

三、运维编排OOS

运维编排OOS的典型场景

运维编排OOS的典型场景同样分为四种：
• 首先是批量操作实例和执行远程命令，例如启动、停止等，相比于其它方式无需密码，无需登录，无需使用跳板机，且无需担心安全问题，运维编排使用了阿里云RAM进行控制。
• 第二种场景是定时运维，在固定的时间执行制定的命令，相当于云上Cron服务，并且免托管，分布式。
• 第三种场景是支持报警和事件驱动运维，当某个事件发生时自动触发告警任务。
• 第四是提供大量丰富的公共模版，阿里云总结了大量的典型运维场景，并将总结成果开源到了Github上，欢迎大家贡献优质模版，共同打造运维社区。

OOS控制台及操作演示

下图是运维编排OOS主页https://oos.console.aliyun.com/ ，左侧菜单栏中有批量操作实例模块，任务类型包含发送进程命令、批量下载文件、实例操作、实例属性修改等。批量管理软件模块中可以批量的给实例下载和安装常见的软件，在我的软件模块可以自行部署和卸载。

定时开关机模块中可以选择在指定的时间关闭、开启或重启实例。在包年包月的服务器情况下，客户需要在固定的时间升级临时宽带，等高峰过去后再下降，以达到节约成本的目的。在创建更新镜像模块中可以基于已有的实例进行更新，也可以基于已有的镜像创建实例，进一步更新，再创建新的镜像。

定时运维模块可以在固定的时间和固定的地域执行指定的任务。告警与事件运维模块中若控制台上显示当某个事件发生时自动触发模版，比如CPU使用率过高时重启实例操作。

所有的模版都提供了可视化视图，提供了更加直观的展示方式，还提供了YAML和JSON两种格式的文本，方便用版本管理软件如Git进行管理。

下图展示的是批量操作实例，发送远程命令，命令内容是发送输出命令。之后选择实例，可以手动选择，可以指定实例标题，也可以指定实例资源组，或者上传csv文件，从ECS实例表中导出csv文件来选择实例。

在高级选项部分可以配置执行模式，如出现错误时继续执行还是暂停实例，设置并发速率，允许的最大错误次数等。

此外还有更加快速的执行实例命令方式，在实例列表模块中选择具体的实例，进入实例详情页后会显示本实例远程命令，显示了历史的执行命令，同时可以发送新的远程命令。其次在实例列表中同时选择多台实例，选择更多，发送远程命令，这时多台实例就可以同时执行命令。

使用ROS、OOS的部分阿里云产品

下图中列出了支持ROS、OOS的常见阿里云产品，包括ACS容器服务、FC函数计算、SLS日志服务、SMC服务迁移中心等等，这与产品本身的部署场景契合。

云产品需要支持多种地域，阿里云有22个地域，使用ROS和OSS可以最大提高部署和运维效率。阿里云对内部系统变更有非常严格的要求，需要提供信息完整的变更单、申请、审批、以及需要为变更过程中可能出现的问题提前准备脚本。因此OSS会预先提供变更模版和回滚模版，从而提供自动化运维程度，降低人工错误。

客户对自动化运维有不同的需要，从下图左侧可以分出运维的几个层次，从最底层的手动运维、到半手工，半自动化运维、再到高度自动化运维、标准化运维以及智能运维（AIOps）、大部分客户的需求集中在中间三层，大部分的公司处于半手工，半自动化运维，异或高度自动化的方式，少部分的公司更加激进的走到了更加标准化运维，享受到了更加DevOps的方式，阿里云自动化部署ROS和自动化运维OOS的主打场景可以满足这三个主要层次的自动化需求。

今天的分享到此结束，感兴趣的同学可持续关注云上自动化部署ROS和运维OOS产品动态。

数据湖解决方案——广告行业解读-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

行业综述

游戏市场需求旺盛，行业景气度持续提升
据相关数据显示，我国广告投放刊例花费整体呈负增长趋势，2019年2月下降幅度最大达到18.3%，下降幅度虽然有所放缓，但是整体而言，我国广告投放刊例花费下降幅度仍然较大。2020年1月，我国广告投放刊例花费下滑5.6%。
分媒体来看，传统广告媒介主要包括报纸媒体、杂志、广播、电视、户外媒体和售点等。2020年1月，报纸、杂志、广播等较为传统的广告媒介刊例下降幅度较大，报纸、杂志等纸媒下降了30%以上，广播媒介下降了19.5%。电视、传统户外同样下降了4.9%和9%;整体而言，传统媒体广告刊例花费呈下降趋势。
与传统媒体广告相比，互联网广告市场规模逐渐上升。根据中关村互动营销实验室的数据，2010-2019年我国互联网广告市场增速虽然放缓，但是我国互联网广告市场规模呈现出逐年上升的发展趋势，2010-2019年我国互联网广告市场规模复合增速达40%以上。2019年我国互联网广告总收入约4367亿元人民币，相较上年增长18.22%，增幅较2018年略有放缓，但仍保持增长的态势。

行业发展方向

互联网广告时代正在来临，大数据驱动智能化精准广告投放
随着互联网的普及，以及精准化程度高、性价比高、媒体质量优等优势，互联网广告迅速崛起，不断持续冲击传统媒介，市场份额持续上升：2016-2019年，我国互联网广告规模占整体广告市场规模比重持续上升，到2019年，互联网广告所占比重已超过50%。

互联网媒体广告相对于传统广告而言具有较多优势，例如互联网广告形式更新频率比报刊广告、广播广告、电视广告等传统媒体更快，能快速适应市场环境的变化，是高度综合的媒体，扩容性高。互联网媒体广告的发展迅速较快，已不仅仅是展示广告，而是更加精准化、个性化和自动化，能够紧紧地把握市场潮流以及引领着技术的进步。

面临的痛点

大数据驱动下数据存储成难题，资源浪费成难题
互联网广告平台的增加，一方面为读者提供了更多的阅读平台，但是背后产生了大量的阅览、订阅、购买数据，而这些数据的产生已经从过去的TB级向PB级甚至EB级跨越，而要利用好这些数据，需要大量的存储空间和计算资源，尤其是为了提高广告推送的准确率以及点击率，需要对大量的数据进行复杂的运算，而这给企业提出了难题。持有的资源过多，虽然可以满足业务需求，但是在空闲期间限制，如果不持有相应的资源，那么又不能很好的解决业务问题。如何很好的寻找业务和资源消耗的平衡点，摆在了各个广告投放企业眼前。

数据湖解决方案

阿里云数据湖解决方案，助力企业真正释放数据价值

基于阿里云对象存储OSS构建的数据湖解决方案，可以全面满足数据的存储、离线分析、交互查询等各种业务诉求，帮助解决上面提到的这些难题。
首先，数据湖解决方案可为用户存储的数据提供高达12个9的可靠性，让数据安全存放，保障用户数据不丢不坏。

 其次，阿里云的数据湖解决方案，也是一套十分智能的解决方案。其中对象存储OSS，可以对接个多业务系统，存储来自不同业务系统的多种数据源，如些系统的原始数据、游戏日志数据等。等数据汇聚到数据湖之后，它的上层系统可以兼容多种计算引擎，如开源大数据引擎像Hive，Spark，阿里云EMR、DLA等，帮助用户便捷地实现数据处理和分析，不需要再重复拷贝多份。同时采用 Jindofs提供缓存加速方案，还可以获得比使用HDFS更好的体验。

这样一套整体的数据存储、处理分析解决方案，能很大程度地减少系统兼容性问题，管理维护也更加简单，帮助IT人员从复杂且繁琐的运维中解放出来，更加专注在产品创新和业务模式的运营上。

最佳案例实践

客户简介
客户是一家致力于为广告主企业构建贯穿消费者生命周期的流量网络，形成企业私有化的消费者数字资产。在国内享有很高的知名度。

业务挑战
1、智能流量平台的数据量在急剧增长，每天的业务日志数据在持续的产生和上传，曝光、点击、推送的数据在持续处理，每天新增的数据量已经在5TB左右，对整个数据处理系统提出了更高的要求。
2、通过运用AI图像识别技术对内容场景进行智能识别与自动匹配，实现不同场景下的创意的精准匹配，真正实现千人千面千种场景的沟通。
3、不断升级AI运算技术能力，建立不同营销目的下的流量协同过滤模型，实时进行流量优选，实现不同场景下的流量的高效使用。另外，从触达、互动到消费、忠诚，全面升级消费者各阶段的沟通体验，增值企业消费者数字资产。

解决方案
1、利用DLA+ OSS极致分析能力来应对业务波峰波谷。一方面轻松应对来自品牌客户的临时分析。另一方面利用DLA的强大计算能力，分析按月、季度广告投放，精确计算出一个品牌下面会有多少个活动，每个活动分媒体，分市场，分频道，分DMP的投放效果，进一步增强了加和智能流量平台为品牌营销带来的销售转化率。
2、DLA提供的Serverless的弹性服务为按需收费，不需要购买固定的资源，完全契合业务潮汐带来的资源波动，满足弹性的分析需求，同时极大地降低了运维成本和使用成本。

客户价值
为客户的智能流量平台提供了性价比极高的处理方案。
1、相对性价比提升30%，无需专门维护人员，按量付费，成本低。
2、临时业务需求承接率提升200%~300%。
3、即需即用，准备成本低，响应快速。平均任务耗时降低67%。
4、代码通用，支持数据业务无缝迁移。
5、海量资源存储在OSS上，对业务支撑效果超过自建平台。
6、计费简明，业务成本方便计算。

MySQL死锁系列-线上死锁问题排查思路-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

前言

MySQL 死锁异常是我们经常会遇到的线上异常类别，一旦线上业务日间复杂，各种业务操作之间往往会产生锁冲突，有些会导致死锁异常。这种死锁异常一般要在特定时间特定数据和特定业务操作才会复现，并且分析解决时还需要了解 MySQL 锁冲突相关知识，所以一般遇到这些偶尔出现的死锁异常，往往一时没有头绪，不好处理。

本篇文章会讲解一下如果线上发生了死锁异常，如何去排查和处理。除了系列前文讲解的有关加锁和锁冲突的原理还，还需要对 MySQl 死锁日志和 binlog 日志进行分析。

正文

日常工作中，应对各类线上异常都要有我们自己的 SOP (标准作业流程) ，这样不仅能够提高自己的处理问题效率，也有助于将好的处理流程推广到团队，提高团队的整体处理异常能力。

所以，面对线上偶发的 MySQL 死锁问题，我的排查处理过程如下：

线上错误日志报警发现死锁异常
查看错误日志的堆栈信息
查看 MySQL 死锁相关的日志
根据 binlog 查看死锁相关事务的执行内容
根据上述信息找出两个相互死锁的事务执行的 SQL 操作，根据本系列介绍的锁相关理论知识，进行分析推断死锁原因
修改业务代码

根据1，2步骤可以找到死锁异常时进行回滚事务的具体业务，也就能够找到该事务执行的 SQL 语句。然后我们需要通过 3，4步骤找到死锁异常时另外一个事务，也就是最终获得锁的事务所执行的 SQL 语句，然后再进行锁冲突相关的分析。

第一二步的线上错误日志和堆栈信息一般比较容易获得，第五步的分析 SQL 锁冲突原因中涉及的锁相关的理论在系列文章中都有介绍，没有了解的同学可以自行去阅读以下。

下面我们就来重点说一下其中的第三四步骤，也就是如何查看死锁日志和 binlog 日志来找到死锁相关的 SQL 操作。

死锁日志的获取

发生死锁异常后，我们可以直接使用 show engine innodb status 命令获取死锁信息，但是该命令只能获取最近一次的死锁信息。所以，我们可以通过开启 InnoDB 的监控机制来获取实时的死锁信息，它会周期性（每隔 15 秒）打印 InnoDb 的运行状态到 mysqld 服务的错误日志文件中。

InnoDb 的监控较为重要的有标准监控（Standard InnoDB Monitor）和锁监控（InnoDB Lock Monitor），通过对应的系统参数可以将其开启。

-- 开启标准监控
set GLOBAL innodb_status_output=ON;
-- 关闭标准监控
set GLOBAL innodb_status_output=OFF;
-- 开启锁监控
set GLOBAL innodb_status_output_locks=ON;
-- 关闭锁监控
set GLOBAL innodb_status_output_locks=OFF;

另外，MySQL 提供了一个系统参数 innodb_print_all_deadlocks 专门用于记录死锁日志，当发生死锁时，死锁日志会记录到 MySQL 的错误日志文件中。

set GLOBAL innodb_print_all_deadlocks=ON;

死锁日志的分析

通过上述手段，我们可以拿到死锁日志，下图是我做实验触发死锁异常时获取的日志(省略的部分信息)。

该日志会列出死锁发生的时间，死锁相关的事务，并显示出两个事务(可惜，多事务发生死锁时，也只显示两个事务)在发生死锁时执行的 SQL 语句、持有或等待的锁信息和最终回滚的事务。

下面，我们来一段一段的解读该日志中给出的信息，我们按照图中标注的顺序来介绍：

TRANSACTION 2078, ACTIVE 74 sec starting index read // -1 事务一的基础信息，包括事务ID、活跃时间，当前运行状态

表示的是 ACTIVE 74 sec 表示事务活动时间，starting index read 为事务当前正在运行的状态，可能的事务状态有：fetching rows，updating，deleting，inserting, starting index read 等状态。

mysql tables in use 1, locked 1  // -2 使用一个table，并且有一个表锁
LOCK WAIT 3 lock struct(s), heap size 1136, 2 row lock(s), undo log entries 1  // -3 涉及的锁结构和内存大小

tables in use 1 表示有一个表被使用，locked 1 表示有一个表锁。LOCK WAIT 表示事务正在等待锁，3 lock struct(s) 表示该事务的锁链表的长度为 3，每个链表节点代表该事务持有的一个锁结构，包括表锁，记录锁或 autoinc 锁等。heap size 1136 为事务分配的锁堆内存大小。

2 row lock(s) 表示当前事务持有的行锁个数，通过遍历上面提到的 11 个锁结构，找出其中类型为 LOCK_REC 的记录数。undo log entries 1 表示当前事务有 1 个 undo log 记录，说明该事务已经更新了 1条记录。

下面就是死锁日志中最为重要的持有或者待获取锁信息，如图中-5和-6行所示，通过它可以分析锁的具体类型和涉及的表，这些信息能辅助你按照系列文章的锁相关的知识来分析 SQL 的锁冲突。

RECORD LOCKS space id 2 page no 4 n bits 80 index PRIMARY of table `test`.`t` trx id 2078 lock_mode X locks rec but not gap  // -5 具体持有锁的信息
RECORD LOCKS space id 2 page no 4 n bits 80 index PRIMARY of table `test`.`t` trx id 2078 lock_mode X locks rec but not gap waiting // -6 等待获取锁的信息

在《锁类型和加锁原理》一文中我们说过，一共有四种类型的行锁：记录锁，间隙锁，Next-key 锁和插入意向锁。这四种锁对应的死锁日志各不相同，如下：

记录锁（LOCK_REC_NOT_GAP）: lock_mode X locks rec but not gap
间隙锁（LOCK_GAP）: lock_mode X locks gap before rec
Next-key 锁（LOCK_ORNIDARY）: lock_mode X
插入意向锁（LOCK_INSERT_INTENTION）: lock_mode X locks gap before rec insert intention

所以，按照死锁日志，我们发现事务一持有了 test.t 表上的记录锁，并且等待另一个记录锁。

通过死锁日志，我们可以找到最终获得锁事务最后执行的 SQL，但是如果该事务执行了多条 SQL，这些信息就可能不够用的啦，我们需要完整的了解该事务所有执行的 SQL语句。这时，我们就需要从 binlog 日志中获取。

binlog的获取和分析

binlog 日志会完整记录事务执行的所有 SQL，借助它，我们就能找到最终获取锁事务所执行的全部 SQL。然后再进行具体的锁冲突分析。

我们可以使用 MySQL 的命令行工具 Mysqlbinlog 远程获取线上数据库的 binlog 日志。具体命令如下所示：

Mysqlbinlog -h127.0.0.1 -u root -p --read-from-remote-server binlog.000001 --base64-output=decode-rows -v

其中 --base64-output=decode-rows 表示 row 模式 binlog日志，所以该方法只适用于 row 模式的 binlog日志，但是目前主流 MySQL 运维也都是把 binlog 日志设置为 row 模式，所以这点限制也就无伤大雅。-v 则表示将行事件重构成被注释掉的伪SQL语句。

我们可以通过死锁日志中死锁发生的具体事件和最终获取锁事务正在执行的SQL的参数信息找到 binlog 中该事务的对应信息，比如我们可以直接通过死锁日志截图中的具体的时间 10点57分和 Tom1、Teddy2 等 SQL 的具体数据信息在 binlog 找到对应的位置，具体如下图所示。

根据 binlog 的具体信息，我们可以清晰的找到最终获取锁事务所执行的所有 SQL 语句，也就能找到其对应的业务代码，接下来我们就能进行具体的锁冲突分析。

小节

死锁系列终于告一段落，如果大伙有什么疑问或者文中有什么错误，欢迎在下方留言讨论。也希望大家继续持续关注。

个人博客，欢迎来玩

【升级】10月消息队列MQ升级计划通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【消息队列MQ】【升级通知】

升级窗口：

北京时间2020年10月14日 22:00 - 2020年10月15日 04:00

北京时间2020年10月21日 22:00 - 2020年10月22日 04:00

北京时间2020年10月28日 22:00 - 2020年10月29日 04:00

升级内容：所有地域的MQ服务（包含TCP、MQTT、HTTP接入方式）。

升级影响：升级期间MQ控制台和集群中每个服务节点可能出现秒级闪断（闪断时间和集群规模正相关），客户端会自动重试机制，一般不会影响业务，但会有异常日志。

升级期间，消息可能会有重复，应用应该按最值实践，做好消息的幂等；同时可能会有消息延迟的现象。如需在控制台进行管理操作，请避开维护时间段。HTTP接入可能会出现闪断或者拒绝连接现象，每次闪断或拒绝连接不会超过1分钟，请在客户端中做好重连重试机制。同时，您可使用监控管理功能对重要业务进行监控，具体设置方法请点击MQ控制台左侧监控报警菜单。

给您带来的不便敬请谅解，有任何问题，可点击联系我们进行咨询反馈。

【升级】10月13日Donuts注册局维护通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【域名】【Donuts注册局维护通知】

维护时间：北京时间2020年10月13日 20:00-22:00

维护内容：接到注册局的通知，注册局 / 注册商将于上述时间对后台系统进行维护升级。

维护影响：届时 .chat 域名的注册、续费、信息修改和查询域名注册信息等操作，将会无法使用，在此期间会对您造成的影响如下：

1、您提交的注册（购买）、续费、转入、赎回、一口价域名业务在支付费用后状态为“处理中”，待维护结束后将变为正常的“成功”状态；

2、维护过程中您无法对域名注册信息进行修改，将提示修改失败。

如果您需要注册或管理以上业务操作，建议您避开该时间段，以免给您的业务造成影响。

由此给您带来的不便，我们表示歉意，敬请谅解。

【升级】堡垒机升级通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【堡垒机】【升级通知】

1、升级窗口：2020年10月10日-11月30日；

2、升级区域：升级国内站、国际站区域

3、升级内容：

堡垒机产品V3.2.10版本升级至V3.2.13版本，V3.2.13版本在系统架构、用户/主机配置、双因子手机号、支持语言等均进行了优化升级：

1）系统架构：支持高可用的双节点版本，提供带宽扩展包

2）主机/用户配置：新建主机或用户可直接指定到相应的组

3）用户向导：新增用户向导功能，更迅速的配置使用

4）双因子手机号新增德国、澳洲、美东、美西、迪拜、东京、英国、印度、中国澳门的手机号码

5）主机配置：标记已经释放的ecs，详细区分主机账号的报错信息

6）维护功能：支持tcp端口检测

4、升级方式：系统自动升级到最新版本

5、升级影响：需要您提前断开正在运维的会话，保存会话数据

【其他】8月28日边缘容器服务商业化通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【边缘容器服务】【商业化通知】

商业化时间：

北京时间2020年8月28日 14：30
商业化内容：

阿里云边缘容器服务已于2020年8月28日正式转商用化。

边缘容器服务基于标准Kubernetes运行环境，提供Kubernetes 集群云端托管、边缘计算业务高度自治的能力。通过将边缘算力快速接入、统一管理、统一运维，轻松实现云边一体化协同的容器应用交付、运维和管控。

商用后收费模式请参考产品计费文档：https://help.aliyun.com/document_detail/178718.htm

关于边缘容器服务：https://help.aliyun.com/document_detail/124723.html

【其他】9月29日ESSD PL0规格云盘商业化通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【ESSD PL0】【商业化通知】

阿里云ESSD PL0规格云盘已经结束公测，于2020年9月29日正式商业化上线。此次上线的ESSD PL0规格云盘拥有最低百微秒时延，最大10000的IOPS，并且支持无损变配至ESSD系列其他规格。详细功能介绍以及价格信息请参考官网介绍。

【其他】10月23日ACK Pro商业化通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【ACK Pro】【商业化】

商业化时间：

北京时间2020年10月23日00:00

商业化内容：

容器服务ACK Pro版集群将于2020年10月23日00:00正式转为商用。针对许多对于生产环境有着高稳定性和高安全性要求的企业客户，ACK Pro版集群在ACK托管版集群的基础上进一步增强了可靠性、安全性，并且提供可赔付的SLA。

转商用后定价计费请点此查看。

了解ACK Pro请点此查看。

【其他】商标局国庆/中秋期间服务器维护停止商标审核/递交申请通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【商标】【商标局国庆/中秋期间服务器维护停止商标审核/递交申请通知】

维护时间：北京时间2020年10月1日-8日

维护内容：因商标局国庆/中秋假期服务器维护，阿里云商标服务将于北京时间2020年10月1日-8日停止商标订单审核、递交商标申请。

维护影响：阿里云商标服务将于2020年9月30日16：00停止递交商标注册申请，届时对您产生的影响包括：

1、2020年9月30日16：00之后审核通过的订单将顺延至2020年10月9日递交；

2、2020年9月30日递交的申请回执（申请号）将顺延至2020年10月9日后同步到订单中；

3、2020年9月30日提交审核的商标订单将顺延至2020年10月9日开始审核

在此期间购买阿里云商标服务、填写订单、支付费用及补齐材料等不受影响。

由此给您带来的不便，我们表示歉意，敬请谅解。

【其他】OpenAPI相关服务IP变更计划通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【OpenAPI】【变更通知】

变更窗口：

北京时间2020年10月20日 00:00 - 2020年11月1号00:00

变更内容：华北1（青岛）、华北2（北京）、华北3（张家口）、华北5（呼和浩特）、华东1（杭州）、华东2（上海）、华南1（深圳）、华东2金融云、华南1金融云、华北2政务云、香港、亚太东南1（新加坡）、亚太东南2（悉尼）、亚太东南5（雅加达）、亚太南部1（孟买）、中东东部1（迪拜）、欧洲中部1（法兰克福）、美国东部1（弗吉尼亚）、美国西部1（硅谷）、英国（伦敦）等地域的OpenAPI服务IP变更。

变更影响：OpenAPI旧的的服务IP将下线不可用，如果您所负责的应用或安全策略中有涉及到硬编码阿里云OpenAPI的服务IP，请在变更前及时修改，以免变更后影响应用的正常运行。

给您带来的不便敬请谅解，有任何问题，可随时通过工单或服务电话95187联系反馈。

特别提醒：OpenAPI各服务的IP不定时会有变动，请不要以任务形式绑定固定IP，包括（不限于）自定义DNS、添加Hosts绑定、在安全组策略中绑定等行为，以免IP变动时对业务造成影响

【升级】9月20日 .COM/.NET域名注册局系统维护通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【域名】【注册局维护通知】

维护时间：北京时间2020年9月20日 09:00 - 09:45

维护内容：接到注册局的通知，注册局将于上述时间对后台系统进行维护升级。

维护影响：届时 .com/.net 域名的注册、续费、信息修改和查询域名注册信息等操作，将会无法使用，在此期间会对您造成的影响如下：

1、您提交的注册（购买）、续费、转入、赎回、一口价域名业务在支付费用后状态为“处理中”，待维护结束后将变为正常的“成功”状态；

2、维护过程中您无法对域名注册信息进行修改，将提示修改失败。

如果您需要注册或管理以上业务操作，建议您避开该时间段，以免给您的业务造成影响。

由此给您带来的不便，我们表示歉意，敬请谅解。

【升级】9月22日MMX注册局维护通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【域名】【MMX注册局维护通知】

维护时间：北京时间 2020年9月22日 13:00 - 15:00

维护内容：接到注册局的通知，注册局将于上述时间对后台系统进行维护升级。

维护影响：届时 .Vip/.Work/.Beer/.Luxe/.Fit/.Yoga 域名的注册、续费、信息修改和查询域名注册信息等操作，将会无法使用，在此期间会对您造成的影响如下：

1、您提交的注册（购买）、续费、转入、赎回、一口价域名业务在支付费用后状态为“处理中”，待维护结束后将变为正常的“成功”状态；

2、维护过程中您无法对域名注册信息进行修改，将提示修改失败。

如果您需要注册或管理以上业务操作，建议您避开该时间段，以免给您的业务造成影响。

由此给您带来的不便，我们表示歉意，敬请谅解。

【升级】9月29日Donuts注册局维护通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【域名】【Donuts注册局维护通知】

维护时间：北京时间2020年9月29日 01:00-2:30

维护内容：接到注册局的通知，注册局 / 注册商将于上述时间对后台系统进行维护升级。

维护影响：届时，您的 .ltd/.group/.pub/.live/.rocks/.band/.market/.software/.social/.lawyer/.engineer/.news/.video/.studio/.today /.plus/.world/.run/.show/.city/.gold/.today/.cool/.zone/.chat/.company/.企业/.游戏等域名的续费、转入转出、信息修改和过户域名等操作，将会无法使用，在此期间会对您造成的影响如下：

1、您提交的续费、转入、转出域名等操作在支付费用后状态为“处理中”，且可能出现“不成功”等状态；

2、维护过程中您无法对域名注册信息进行修改，将提示修改失败。

如果您需要注册或管理以上业务操作，建议您避开该时间段，以免给您的业务造成影响。

如您的业务操作失败，建议维护后再次尝试。

由此给您带来的不便，我们表示歉意，敬请谅解。

【升级】9月25日消息队列AMQP升级通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【消息队列AMQP】【升级通知】

升级窗口：北京时间2020年9月25日 00:00 - 03:00

升级内容：华北1（青岛）、华北2（北京）、华北3（张家口）、华北5（呼和浩特）、华东1（杭州）、华东2（上海）、华南1（深圳）、香港等全部地域（及铂金版）的服务升级。

升级影响：升级期间消息队列AMQP相关服务访问可能会出现多次闪断或者拒绝连接现象，每次闪断或拒绝连接不会超过 5 分钟，请在客户端中做好重连重试机制。如需在控制台进行管理操作，请避开维护时间段。

给您带来的不便敬请谅解，有任何问题，可点击联系我们进行咨询反馈。

【漏洞预警】FastAdmin 远程代码执行0day漏洞

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

2020年9月22日，阿里云应急响应中心监测到FastAdmin爆发远程代码执行0day漏洞，黑客登录前台会员中心，即可远程GetShell，风险极大。

漏洞描述

FastAdmin是一款基于ThinkPHP和Bootstrap的后台开发框架、开放会员中心的站点，上传特定文件可直接GetShell。阿里云应急响应中心提醒FastAdmin用户尽快采取安全措施阻止漏洞攻击。

影响版本

全版本（截止2020年9月22日官方暂未发布安全补丁或修复版本）

漏洞评级

严重

安全建议

1、关闭站点会员中心功能，在/application/config.php文件中，设置'usercenter' => false

2、暂时关闭文件上传功能

我们会关注后续进展，请随时关注官方公告。

如有任何问题，可随时通过工单联系反馈。

阿里云应急响应中心

2020.9.22

【漏洞预警】Linux内核AF_PACKET内存破坏导致权限提升漏洞（CVE-2020-14386）

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

近日，阿里云应急响应中心监测到Openwall社区披露一个Linux内核AF_PACKET原生套接字内存破坏漏洞，该漏洞出现在net/packet/af_packet.c中，由整数溢出导致越界写，可以通过它进行权限提升。该漏洞危害评级为高，编号为CVE-2020-14386。

漏洞描述

Linux发行版高于4.6的内核版本net/packet/af_packet.c中，在处理AF_PACKET时存在整数溢出漏洞，可以通过它进行权限提升。阿里云应急响应中心提醒用户尽快采取安全措施阻止漏洞攻击。

受影响Linux发行版系统

1、Ubuntu Bionic (18.04) 及后续的版本

2、Debian 9/10

3、CentOS 8/RHEL 8

漏洞评级

CVE-2020-14386 高危

安全建议

1、升级内核至安全版本

2、禁用CAP_NET_RAW功能

3、阿里云云安全中心Linux软件漏洞模块已支持对该漏洞一键检测和修复，详情登陆云安全中心

https://github.com/cgwalters/cve-2020-14386

https://sysdig.com/blog/cve-2020-14386-falco/

我们会关注后续进展，请随时关注官方公告。

如有任何问题，可随时通过工单联系反馈。

阿里云应急响应中心

2020.9.22

魔橙科技赋能商业银行，推动区块链金融场景应用落地-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

在魔橙科技CEO陈敏涛看来，区块链技术是以数据加密、时间戳和分布式共识算法为依托，实现链式存储、智能合约和隐私保护等高级功能的分布式账本技术。区块链技术更像数据库和操作系统，是IT基础产业，是下一代互联网的基础设施，是一个未来技术的发展路径。快速发展的区块链技术被认为是可以用于解决新一代互联网价值交换问题以及网络传输的信用问题。

他认为，区块链技术并非单纯点对点和去中心化。区块链技术的出现会让整个传统互联网平台更加可信、更加透明、更加公平。目前使用区块链技术提供的应用程序，更加互联网化，更加强调公平与双向激励，方便每个人参与进来，分享生态的成果，这才是最好的商业模式。

魔橙在应用场景中实现有效“信用传递”
区块链技术的落地就是在一个没有中心的业务模式中，帮助多方建立跨主体的信任环境，否则区块链技术可能并不是最好的解决方案。实际上，区块链技术是一个由所有节点共同维护、共同记账的“公共大账本”。

魔橙科技独创的联盟链底层技术，结合了多个共识算法优势，实现可伸缩的网络节点准入机制，允许多重共识组合相互切换。极大降低区块链网络开发成本，使得商用网络在构建及运营阶段更加灵活可控，规避了因需求调整带来的潜在风险。

核心模块包含：高性能共识算法，可伸缩节点，跨共识引擎及链上治理机制等

通过区块链底层混沌系统，能够确保参与联盟链共建节点的完全可控性，保证联盟链整体运营的稳定。链上数据公开，联盟见证者可通过区块链浏览器对所有链上数据查询，保证了联盟链的数据公开完整及数据公平。在实际企业项目中，魔橙联盟链能够基于丰富行业应用经验，并结合联盟链的底层技术，以及数据隐私保护和多方安全技术等应用框架的构建，适用于想通过区块链改进商业应用性能的商业需求。

与银行如何擦出火花？
金融一直被认为是区块链最合适的落地场景之一，在魔橙的合作方中有不少是大型银行、城商行以及券商。

在说到区块链应用的细分赛道时，陈敏涛坦言，供应链金融对魔橙来说是很重要的一个主推方向。2020年年初，魔橙参与服务世界500强商业银行的项目中。在该项目中，魔橙提供了结合业务应用场景的整体解决方案，在根据银行单一应用场景细化实现方式。因为是创新技术在金融领域的试点，项目采用敏捷方式开展实施，快速迭代如期交付。（因合作方要求，对于合作银行名字予以保密）

据魔橙科技负责该项目的总监黄洋表示，在这个项目中，魔橙的主要作用是协同银行，基于“区块链+”模式重构银行生态系统，构建新型的区块链金融服务业务模式和拓展商业银行多类应用场景拓展。目前项目搭建基于区块链技术的微服务控制台系统，包含区块链服务接口、合约网关、安全合规、链上账户管理、智能合约管理；通用服务、可信存证、交易查询中心、通用监控，前端控制台等模块。

“我们提供的是基础设施，让客户基于我们的服务，去做自己的金融服务，目的是让他们用魔橙的区块链。同时，供应链金融一个很大的特性是参与方越多越好，而且不同参与方的链与链之间是有交集的，最终市场将形成网状。”黄洋表示，魔橙的愿景是，通过底层，把所有的核心企业、上下游企业、金融机构，包括保理，券商之类的企业链接在一起，他们做他们的业务，我们降低他们的交易和信任成本。只要规模做大了，就是魔橙的诉求。
**
魔橙的目标和定位是什么**

区块链是个基础设施，最终市场上同类企业不会太多，做底层技术的也不会有几家，但是在这个基础设施上做应用的公司非常多。我们要把基础设施做好，目的是让其他业务公司用我们的区块链。

每个行业都是有门槛的，但是以技术为依托，我们会有很多合作伙伴，魔橙会和行业专家一起做事情，争取行业的支持。2020年7月，魔橙与复旦大学、上海海事大学、上海海洋大学联合研发推出“跨境贸易风险监测与可信溯源”平台正式上线。

接下来，魔橙科技将与更多金融机构共建跨产业、跨机构的数字经济新模式，实现真正意义上的产业数字化。

阿里云小程序PHP环境怎么搭建-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

最近想着阿里云能不能搭建小程序官方的demo，之前用过基于腾迅云的小程序解决方案，虽然很好，但夸何没有在腾迅云注册备案过域名，而曾经在阿里云上注册备案过域名.本文主要和大家分享阿里云如何搭建小程序PHP环境，希望能帮助到大家。
现在立即选购赠送3000元大礼包

基本环境 CentOS 7.3
（一）安装 Nginx

yum -y install nginx

查看是否安装成功

nginx -v

如果安装成功则显示

(二)安装 PHP
Wafer 的 Demo 需要 5.6 以上版本的 PHP,添加 remi 源.

wget 'https://mirrors.tuna.tsinghua.edu.cn/remi/enterprise/remi.repo' -O /etc/yum.repos.d/remi.repo

查看是否安装成功

php -v

php版本要大于5.6
(三)配置 Nginx 和 HTTPS
申请一个 SSL 证书，可以到阿里云申请免费的 SSL 证书，申请成功之后下载证书，并把压缩包中 Nginx 目录下的证书文件上传到服务器的 /data/release/nginx 目录，如果没有这个目录则新建：上传完证书以后，配置 Nginx，进入服务器的 /etc/nginx/conf.d 目录，新建一个 weapp.conf 文件，内容为以下,注意(www.xx.com改为自己的域名,1_www.xx.com_budle.crt和2_www.xx.com.key分别改为自己的证书文件)

# 重定向 http 到 https

www.xx.com

server { listen 80; server_name www.xx.com; rewrite ^(.*)$ https://$server_name$1 permanent;}server { listen 443; server_name www.xx.com; ssl on; ssl_certificate /data/release/nginx/1_www.xx.com_bundle.crt; ssl_certificate_key /data/release/nginx/2_www.xx.com.key; ssl_session_timeout 5m; ssl_protocols TLSv1 TLSv1.1 TLSv1.2; ssl_ciphers ECDHE-RSA-AES256-GCM-SHA384:ECDHE-RSA-AES128-GCM-SHA256:DHE-RSA-AES256-GCM-SHA384:ECDHE-RSA-AES256-SHA384:ECDHE-RSA-AES128-SHA256:ECDHE-RSA-AES256-SHA:ECDHE-RSA-AES128-SHA:DHE-RSA-AES256-SHA:DHE-RSA-AES128-SHA; ssl_session_cache shared:SSL:50m; ssl_prefer_server_ciphers on; root /data/release/php-demo; location ~ .php$ { root /data/release/php-demo; fastcgi_pass 127.0.0.1:9000; fastcgi_index index.php; fastcgi_param SCRIPT_FILENAME $document_root$fastcgi_script_name; include fastcgi_params; } location /weapp/ { root /data/release/php-demo; index index.html index.htm index.php; try_files $uri $uri/ /index.php; }}

运行nginx

nginx -t

(四)安装mysql
安装mysql5.7

1、配置YUM源

下载mysql源安装包

wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm

安装mysql源

yum localinstall mysql57-community-release-el7-8.noarch.rpm

检查mysql源是否安装成功
yum repolist enabled | grep "mysql.-community."

2、安装MySQL

yum install mysql-community-server

3、启动MySQL服务

systemctl start mysqld

查看MySQL的启动状态
shell> systemctl status mysqld

4、开机启动

systemctl enable mysqld
systemctl daemon-reload

5、修改root本地登录密码

mysql安装完成之后，在/var/log/mysqld.log文件中给root生成了一个默认密码。通过下面的方式找到root默认密码，然后登录mysql进行修改：
grep 'temporary password' /var/log/mysqld.log

登陆并修改默认密码
mysql -u root -p

mysql>ALTER USER 'root'@'localhost' IDENTIFIED BY '新密码!';

新建一个数据库名为 cAuth，排序规则为 utf8mb4_unicode_ci，小程序后台用到
mysql>CREATE DATABASE IF NOT EXISTS cAuth，排序规则为 DEFAULT CHARSET utf8mb4 COLLATE utf8mb4_unicode_ci;

(五)上传 Demo 和启动
到 wafer2-quickstart-php 仓库下载最新的 Demo 代码，修改 server/config.php：

Wafer php demo 配置文件
*/$config = [ 'rootPath' => '', // 微信小程序 AppID

'appId' => '', // 微信小程序 AppSecret
'appSecret' => '', // 使用腾讯云代理登录
'useQcloudLogin' => false, //不使用腾迅云代理登录 /**

这里请填写云数据库的
*/
'mysql' => [ 'host' => 'localhost', 'port' => 3306, 'user' => 'root', 'db' => 'cAuth', 'pass' => '数据库密码', 'char' => 'utf8mb4'
], 'cos' => [ /**

区域上海：cn-east广州：cn-sorth北京：cn-north广州二区：cn-south-2成都：cn-southwest新加坡：sg@see https://cloud.tencent.com/document/product/436/6224
*/

'region' => 'cn-sorth', // Bucket 名称

'fileBucket' => 'wafer', // 文件夹
'uploadFolder' => ''

], // 微信登录态有效期
'wxLoginExpires' => 7200, 'wxMessageToken' => 'abcdefgh', // 其他配置
'serverHost' => 'wx.wafersolution.com', 'tunnelServerUrl' => 'http://tunnel.ws.qcloud.la', 'tunnelSignatureKey' => '27fb7d1c161b7ca52d73cce0f1d833f9f5b5ec89', // 腾讯云相关配置可以查看云 API 秘钥控制台：https://console.cloud.tencent.com/capi
'qcloudAppId' => 1200000000,// 必须是数字
'qcloudSecretId' => '你的腾讯云 SecretId', 'qcloudSecretKey' => '你的腾讯云 SecretKey', 'networkTimeout' => 30000];

接着将 server 目录下的所有文件都上传到 /data/release/weapp/php-demo 目录下：

9.25直播预告｜如何0基础获得Apache Cassandra Administrator国际认证？-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

本周五（9月25号）下午4点不见不散哦～

本期直播主题：如何0基础获得Apache Cassandra Administrator国际认证？
直播时间：9月25号（周五）16:00-17:00
直播讲师：米诺｜阿里云NoSQL数据库产品专家
直播简介：Apache Cassandra在宽表数据库流行度中持续8+年排第一，已成为国内外流行度最高的宽表数据库。本次技术直播将为您分享0基础拿Cassandra Administrator国际认证的考试经验。

参与方式：

钉钉扫描下方海报二维码进群观看直播

传统服务器和ECS区别-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

传统服务器：

金钱成本服务周期

资源限制人力投入

阿里云ECS服务器:

根据企业运行环境按需购买

数据多次备份

超A级数据中心--双路独市电，三路网络，N+1柴油发电机后备电源

自动化运维自动迁移到其他物理机 ----稳定性和联系性

云盾----安全防护

将企业数据库资源，存储资源，计算资源打通，连接资源孤岛，应用孤岛，数据孤岛，全局快速进行市场洞察

ECS训练营-第一天-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

ECS训练营-第一天

今天完成了6个课程，首先了解了什么是ECS(elastic compute service)，然后创建了服务器实例，安装CentOS系统，用ssh远程连接了系统，完成了Apache、SQL的安装。

Class 4 使用PolarDB和ECS搭建门户网站-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

使用PolarDB和ECS搭建门户网站

1.创建资源

在页面左侧，单击 云产品资源 下拉菜单，查看本次实验资源。
单击 免费开通 创建所需资源。

资源创建过程需要1~3分钟。完成实验资源的创建后，您可以在 云产品资源 列表查看已创建的资源信息，例如：IP地址、用户名和密码等。

2.创建PolarDB数据库账号

单击页面左侧 云产品资源 > 一键复制登录url 。

打开浏览器隐身窗口（无痕模式），粘贴已复制的url地址前往 RAM用户登录 界面，登录 阿里云管理控制台 。

以Chrome浏览器为例，打开新的无痕窗口，登录 阿里云管理控制台 。

依次单击更多>打开新的无痕窗口。
在地址栏粘贴登录url，访问 RAM用户 登录页面
在登录用户名称处，输入 子用户名称 ，单击 下一步 。
输入密码，单击登录进入 阿里云管理控制台 。

在 阿里云控制台首页 左侧导航栏，依次单击 产品与服务 > 云数据库PolarDB ，进入 云数据库PolarDB管理控制台 。

单击左侧 集群列表 ，然后选择云产品资源提供的地域。例如：华东2（上海）。

创建数据库账号。
1. 在 集群列表 页面，单击 集群ID ，进入 集群详情界面 。

单击左侧导航栏 配置与管理 > 账号管理 。
单击左上方 创建账号 。

参考说明配置账号信息，然后单击确定。

数据库账号：输入数据库账号名称，例如：test_user 。
账号类型：此处选择普通账号。
密码：设置账号密码，例如：Password1213。
确认密码：再次输入密码。

创建数据库。
1. 在实例详情页，单击左侧导航栏的 数据库管理 ，然后单击 创建数据库 。

参考说明配置数据库信息，然后单击创建。

数据库（DB）名称：输入数据库名称，例如：pbootcms 。
支持字符集：默认设为utf8mb4。
授权账号：选择上一步创建的数据库账号test_user。
账号类型：默认设置为读写。
备注说明：非必填。用于备注该数据库的相关信息，便于后续数据库管理，最多支持256个字符。

设置数据库白名单。

连接数据库需要设置数据库白名单，点击 [集群白名单]，然后点击 [设置] 设置数据库集群白名单。

在白名单界面将默认的白名单地址127.0.0.1更改为 0.0.0.0/0，然后点击 [确定] 使白名单地址生效。

连接ECS服务器

打开终端工具。

Windows：打开命令窗口。
MAC：打开命令行终端Terminal。

Windows用户请检查系统中是否安装有SSH工具。检查方法：

在终端中输入命令 ssh -V 。

ssh -V

如果显示SSH版本则表示已安装，如下图所示。

如果未安装，请下载安装 OpenSSH工具。

在终端中输入连接命令 ssh [username]@[ipaddress] 。

您需要将其中的username和ipaddress替换为步骤一中创建的ECS服务器的弹性公网IP。例如：

ssh root@123.123.123.123

命令显示结果如下：

输入 yes。
同意继续后将会提示输入登录密码。密码为已创建的云服务的ECS的登录密码。

登录成功后会显示如下信息。

安装LAMP环境

LAMP是指运行在Linux下的Apache、MySQL和PHP的环境。参考以下操作在云服务器上安装开发环境。

在ECS服务器上，执行以下命令安装Apache服务及其扩展包。

yum -y install httpd httpd-manual mod_ssl mod_perl mod_auth_mysql

返回类似如下图结果则表示安装成功。

PbootCMS是使用PHP语言开发的CMS系统。参考以下操作安装PHP环境。

执行以下命令，安装PHP。

yum -y install php php-mysql gd php-gd gd-devel php-xml php-common php-mbstring php-ldap php-pear php-xmlrpc php-imap

执行以下命令下载并安装MySQL。

wget http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm
yum -y install mysql57-community-release-el7-10.noarch.rpm
yum -y install mysql-community-server

执行以下命令启动MySQL数据库。

systemctl start mysqld

搭建门户网站

在完成环境部署后，参考以下操作搭建门户网站。

在ECS服务器上，执行以下命令，安装Git。

yum -y install git

在ECS服务器上，执行以下命令下载PbootCMS源码文件。

cd ~ && git clone https://gitee.com/hnaoyun/PbootCMS.git

执行以下命令将安装包拷贝到Apache的wwwroot目录下。

cp -r PbootCMS/* /var/www/html/

chmod -R a+w /var/www/html

向数据库中导入CMS的初始数据。

执行以下命令初始化数据库pbootcms的表结构和数据。

说明: 在执行命令前，请修改一下三个参数。

数据库连接地址参见集群详情页面下方链接地址板块。
test_user为步骤二中创建的数据库账号。
Password1213步骤二中创建的数据库密码。

sql_file="/var/www/html/static/backup/sql/"$(ls /var/www/html/static/backup/sql/) &&
mysql -h数据库连接地址 -utest_user -pPassword1213 -Dpbootcms < $sql_file

执行以下命令，修改CMS系统数据库配置。

说明: 在执行命令前，请根据参数说明替换您的数据库配置。

cat > /var/www/html/config/database.php << EOF
 array(
        'type' => 'mysqli', // 数据库连接驱动类型: mysqli,sqlite,pdo_mysql,pdo_sqlite
        'host' => '数据库连接地址', // PolarDB数据库链接地址
        'user' => 'test_user', // PolarDB数据库的用户名
        'passwd' => 'Password1213', // PolarDB数据库的密码
        'port' => '3306', // 数据库端口
        'dbname' => 'pbootcms' //数据库名称
    )
);
EOF

返回ECS控制台，在ECS实例列表页面，单击已创建的ECS实例ID链接进入ECS详情页。
在左侧导航栏，单击 本实例安全组 ，然后单击安全组的ID链接查看安全组配置。

确保安全组开放了80端口访问，否则无法访问已搭建的门户网站。安全组是一种虚拟防火墙，具备状态检测和数据包过滤能力，用于在云端划分安全域。通过配置安全组规则，您可以控制安全组内一台或多台ECS实例的入流量和出流量。

访问程序。

执行以下命令重启 Apache服务。

systemctl restart httpd

在浏览器地址栏输入云服务器的公网IP地址，进入门户网站首页。

系统后台默认访问路径为http:///admin.php。默认账号为admin，密码为123456。

至此您已完成门户网站的搭建，您可以根据公司的需求自定义门户网站的内容。

Class 5 搭建个人Leanote云笔记本-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

搭建个人Leanote云笔记本

本教程将介绍如何搭建个人Leanote云笔记本。

场景体验目标

本场景将提供一台配置了CentOS 7.7的ECS实例（云服务器）。您可以参考本教程的操作基于已有的环境搭建一个Leanote云笔记本。

背景知识

Leanote是一款在线的云笔记应用，有如下特点：

支持网页、PC、手机APP客户端和微信版，随时记录，方便分享，支持语音，图片输入。
代码高亮，涵盖所有主流语言的代码高亮，随心所欲在Leanote里写代码，记知识。
Markdown 编辑器,实时同步预览。
专业数学公式编辑,像Word和Latex能编辑数学公式。
支持创建思维脑图，将散乱的想法以树状信息分层展示。
详细历史纪录，每次保存都在后端备份，轻松查找，一键恢复。
实时同步云端。

1.创建资源

请点击页面左侧的 云产品资源，在下拉栏中，查看本次实验资源信息；
在资源下拉栏点击 免费开通 按钮，开始创建实验资源。

说明：资源创建过程需要1-3分钟。完成实验资源的创建后，用户可以通过 云产品资源 查看实验中所需的资源信息，例如：IP地址、用户名、密码等。

2.连接ECS服务器

打开系统自带的终端工具。

Windows：CMD或Powershell。
MAC：Terminal。

在终端中输入连接命令ssh [username]@[ipaddress]。您需要将其中的username和ipaddress替换为第1小节中创建的ECS服务器的登录名和公网地址。例如：

ssh root@123.123.123.123

命令显示结果如下：

输入yes。
同意继续后将会提示输入登录密码。密码为已创建的云服务的ECS的登录密码。

登录成功后会显示如下信息。

3.安装MongoDB

MongoDB是一个基于分布式文件存储的高性能数据库，介于关系数据库和非关系数据库之间，它支持的数据结构非常松散是类似于json和bson格式，因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。

Leanote云笔记使用MongoDB作为后端数据库，按照以下步骤按照MongoDB数据库。

执行以下命令，安装MongoDB。

yum -y install mongodb mongodb-server.x86_64 mariadb-devel.i686

执行以下命令，启动MongoDB服务。

systemctl start mongod

执行以下命令，查看MongoDB运行状态。

systemctl status mongod

4.安装Leanote

下载Leanote二进制安装包。

wget https://nchc.dl.sourceforge.net/project/leanote-bin/2.6.1/leanote-linux-amd64-v2.6.1.bin.tar.gz

解压安装包。

tar -zxvf leanote-linux-amd64-v2.6.1.bin.tar.gz

编辑文件leanote/conf/app.conf，在文件中找到app.secret项，将该项的值改为任意字符串。（如不修改将会有安全风险）。

说明：根据Leanote官方文档，如不修改app.secret项的值，将会有安全隐患。

使用vim编辑器打开文件leanote/conf/app.conf。

vim leanote/conf/app.conf

进入vim编辑器后，输入:/app.secret=并按下回车查找app.secret位置。
找到该项位置后按下i键进入编辑模式，修改该项的值为任意字符串。
修改完成后，按下esc键退出编辑模式，输入:wq保存并退出vim编辑器。

修改后如图所示。

初始化数据库。

mongorestore -h localhost -d leanote --dir /root/leanote/mongodb_backup/leanote_install_data/

启动服务。

nohup bash /root/leanote/bin/run.sh > /root/leanote/run.log 2>&1 &

访问云笔记。

在浏览器中访问http://:9000，请将替换为左侧资源栏中的ECS公网IP地址。默认管理用户为admin，密码为abc123。登录成功后如下图所示。

ECS七天训练营入门笔记（1）-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

使用云计算的优势：
1 无需采购硬件设备，按需购买资源；
2 拥有至少50多种操作系统，轻松实现LAMP系统或者windows服务器；
3购买简单配置灵活。
阿里云计算的优点：
1 多层次的备份；
2 多路供电保证服务器无断电；
3 云盾安全防护保障服务器安全；
4 将数据库、存储和计算资源统一。

ECS学习心得１-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

传统服务器具有价格高昂，采购周期长，资源闲置浪费率高，维护成本高的缺点。

阿里云ECS覆盖50多款操作系统，包含开源LAMP组合和常见的Windows平台。

包含传统x86服务器及GPU和FPGA的异构计算，包含通用型，内存型，网络增强型，本地SSD型和计算型，甚至企业级Oracle数据库所需的超大规格独占物理机，配置及使用更为灵活。

ECS在底层对每份数据进行多次备份，物理层面拥有超A级数据中心，通过双路独市电引入、三路网络和Ｎ＋１柴油发电机后备电源确保数据安全。

ECS自动化运维将数据迁移到其他物理机，将数据恢复到故障前最后状态，屏蔽硬件故障同时保证业务稳定和连续。

ECS可在底层打通企业数据库资源，存储资源和计算资源，联通传统IT烟囱式架构下的资源孤岛，应用孤岛和数据孤岛，提高信息整合能力。

Class 6 案例分享——钉钉-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

Q：钉钉背后的技术架构是怎样的？应用了阿里云的哪些服务？
A：钉钉作为一个企业级产品，使用了热门的平台技术SaaS。钉钉很多的设计都面向云去设计，这样产品可以随着云建设更快地部署，更多地适应客户需求。钉钉目前使用了ECS、OSS、OTS，未来还将用到Open Search。钉钉很多的数据都部署在阿里云的ECS上，因此数据也就存在RDS上，即阿里云的数据库，这些数据的安全，整体服务的可靠十分重要，阿里云已有的基础设施，符合钉钉对稳定性，对性能的要求。
Q：可否具体谈谈使用云计算后为钉钉解决问题或者带来的价值？
A：钉钉上有一个非常受客户喜欢的应用叫日志，通过日志。员工每天可以发日报、周报，也可以发一些月报，钉钉的模板是可以定制化的，适合每家公司对日志的要求。日志的整体服务，实际上就部署在阿里云的ECS，这是我们和一家ISV共同开发的。如果没有阿里云，那整个数据的安全性，以及整体服务的稳定性都存在疑问，随着用户量不断增大，整个架构能不能水平扩容，都会有很大的担忧。
Q：企业级用户对应用的安全性有更高的要求，钉钉如何介入阿里云保障企业信息安全？
A：我们把安全作为钉钉的一个重要功能来设计和保障，首先从信息的存储、传输，无论是在客户端的存储还是在服务端的存储，我们都采用了最高的加密程序，对它进行加密，首先我们阿里云的基础设施安全，提供了很周全的防护，包括黑客攻击。包括DDoS攻击等，保障了网站的稳定性，阿里云这些安全方面的产品，实际上给钉钉节省了很多工作，我们不需要再担心主机被第三方，破解账号登录的问题了，我们能花费更多的时间去考虑怎样让我们的产品变得更安全。

在ECS上部署门户网站-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

根据PolarDB官方文档创建一个数据库集群,并设置白名单为ECS IP.
然后在ECS上使用LAMP一键安装,安装的时候选择MySQL5.7版本的数据库.
通过git下载PbootCM的源码并放到Apache的wwwroot目录下,并对这些文件加上所有人都可以写的权限.
然后导入CMS的初始数据:

$ sql_file="/var/www/html/static/backup/sql/"$(ls /var/www/html/static/backup/sql/) &&
mysql -h数据库连接地址 -utest_user -pPassword1213 -Dpbootcms < $sql_file

修改CMS的数据库配置,使用PolarDB数据库:

$ cat > /var/www/html/config/database.php << EOF
 array(
        'type' => 'mysqli', // 数据库连接驱动类型: mysqli,sqlite,pdo_mysql,pdo_sqlite
        'host' => '数据库连接地址', // PolarDB数据库链接地址
        'user' => 'test_user', // PolarDB数据库的用户名
        'passwd' => 'Password1213', // PolarDB数据库的密码
        'port' => '3306', // 数据库端口
        'dbname' => 'pbootcms' //数据库名称
    )
);
EOF

在ECS控制台上开放80端口,然后重启apache服务,即可通过ECS IP访问到该门户网站.

wordpress 网站安装主题-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

1、在主题库中直接搜索安装。

2、上传主题包，安装主题。

3、安装主题碰到的问题

（1）、上传的文件尺寸超过upload_max_filesize文件中定义的php.ini值.

        解决方法：
        修改/etc/php.ini文件中的   

        post_max_size = 20M
        upload_max_filesize = 20M
        然后保存，重启一下apache服务。

（2）、Wordpress上传文件提示“无法建立目录wp-content/uploads/2020/09。有没有上级目录的写权限？”

       解决方法：找到wordpress数据库，打开wp_options表，修改表中键名为upload_path的键值 这个值是一个路径，里面是空的（也可能不是空的），添加 “wp-content/uploads” 就解决了。 ＝＝＝双引号必加！类似于注册表键值

阿里云服务器选择及使用体验！-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

用图机器学习探索 A 股个股相关性变化-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

在本系列的前文 [1,2]中，我们介绍了如何使用 Python 语言图分析库 NetworkX [3] + Nebula Graph [4] 来进行<权力的游戏>中人物关系图谱分析。

在本文中我们将介绍如何使用 Java 语言的图分析库 JGraphT [5] 并借助绘图库 mxgraph [6] ，可视化探索 A 股的行业个股的相关性随时间的变化情况。

数据集的处理

本文主要分析方法参考了[7,8]，有两种数据集：

股票数据（点集）

从 A 股中按股票代码顺序选取了 160 只股票（排除摘牌或者 ST 的）。每一支股票都被建模成一个点，每个点的属性有股票代码，股票名称，以及证监会对该股票对应上市公司所属板块分类等三种属性；

表1：点集示例

顶点id	股票代码	股票名称	所属板块
1	SZ0001	平安银行	金融行业
2	600000	浦发银行	金融行业
3	600004	白云机场	交通运输
4	600006	东风汽车	汽车制造
5	600007	中国国贸	开发区
6	600008	首创股份	环保行业
7	600009	上海机场	交通运输
8	600010	包钢股份	钢铁行业

股票关系（边集）

边只有一个属性，即权重。边的权重代表边的源点和目标点所代表的两支股票所属上市公司业务上的的相似度——相似度的具体计算方法参考 [7,8]：取一段时间（2014 年 1 月 1 日 - 2020 年 1 月 1 日）内，个股的日收益率的时间序列相关性 $P_{ij}$ 再定义个股之间的距离为 (也即两点之间的边权重）：

$$l_{ij} = sqrt{2（1-P_{ij}）}$$

通过这样的处理，距离取值范围为 [0,2]。这意味着距离越远的个股，两个之间的收益率相关性越低。

表2：边集示例

边的源点 ID	边的目标点 ID	边的权重
11	12	0.493257968
22	83	0.517027513
23	78	0.606206233
2	12	0.653692415
1	11	0.677631482
1	27	0.695705171
1	12	0.71124344
2	11	0.73581915
8	18	0.771556458
12	27	0.785046446
9	20	0.789606527
11	27	0.796009627
25	63	0.797218349
25	72	0.799230001
63	115	0.803534952

这样的点集和边集构成一个图网络，可以将这个网络存储在图数据库 Nebula Graph 中。

JGraphT

JGraphT 是一个开放源代码的 Java 类库，它不仅为我们提供了各种高效且通用的图数据结构，还为解决最常见的图问题提供了许多有用的算法：

支持有向边、无向边、权重边、非权重边等；
支持简单图、多重图、伪图；
提供了用于图遍历的专用迭代器（DFS，BFS）等；
提供了大量常用的的图算法，如路径查找、同构检测、着色、公共祖先、游走、连通性、匹配、循环检测、分区、切割、流、中心性等算法；
可以方便地导入 / 导出 GraphViz [9]。导出的 GraphViz 可被导入可视化工具 Gephi[10] 进行分析与展示；
可以方便地使用其他绘图组件，如：JGraphX，mxGraph，Guava Graphs Generators 等工具绘制出图网络。

下面，我们来实践一把，先在 JGraphT 中创建一个有向图：

import org.jgrapht.*;
import org.jgrapht.graph.*;
import org.jgrapht.nio.*;
import org.jgrapht.nio.dot.*;
import org.jgrapht.traverse.*;

import java.io.*;
import java.net.*;
import java.util.*;

Graph g = new DefaultDirectedGraph<>(DefaultEdge.class);

添加顶点：

URI google = new URI("http://www.google.com");
URI wikipedia = new URI("http://www.wikipedia.org");
URI jgrapht = new URI("http://www.jgrapht.org");

// add the vertices
g.addVertex(google);
g.addVertex(wikipedia);
g.addVertex(jgrapht);

添加边：

// add edges to create linking structure
g.addEdge(jgrapht, wikipedia);
g.addEdge(google, jgrapht);
g.addEdge(google, wikipedia);
g.addEdge(wikipedia, google);

图数据库 Nebula Graph Database

JGraphT 通常使用本地文件作为数据源，这在静态网络研究的时候没什么问题，但如果图网络经常会发生变化——例如，股票数据每日都在变化——每次生成全新的静态文件再加载分析就有些麻烦，最好整个变化过程可以持久化地写入一个数据库中，并且可以实时地直接从数据库中加载子图或者全图做分析。本文选用 Nebula Graph 作为存储图数据的图数据库。

Nebula Graph 的 Java 客户端 Nebula-Java [11] 提供了两种访问 Nebula Graph 方式：一种是通过图查询语言 nGQL [12] 与查询引擎层 [13] 交互，这通常适用于有复杂语义的子图访问类型; 另一种是通过 API 与底层的存储层（storaged）[14] 直接交互，用于获取全量的点和边。除了可以访问 Nebula Graph 本身外，Nebula-Java 还提供了与 Neo4j [15]、JanusGraph [16]、Spark [17] 等交互的示例。

在本文中，我们选择直接访问存储层（storaged）来获取全部的点和边。下面两个接口可以用来读取所有的点、边数据：

// space 为待扫描的图空间名称，returnCols 为需要读取的点/边及其属性列，
// returnCols 参数格式：{tag1Name: prop1, prop2, tag2Name: prop3, prop4, prop5}
Iterator scanVertex(
            String space, Map> returnCols);
Iterator scanEdge(
            String space, Map> returnCols);

第一步：初始化一个客户端，和一个 ScanVertexProcessor。ScanVertexProcessor 用来对读出来的顶点数据进行解码：

MetaClientImpl metaClientImpl = new MetaClientImpl(metaHost, metaPort);
metaClientImpl.connect();
StorageClient storageClient = new StorageClientImpl(metaClientImpl);
Processor processor = new ScanVertexProcessor(metaClientImpl);

第二步：调用 scanVertex 接口，该接口会返回一个 scanVertexResponse 对象的迭代器：

Iterator iterator =
                storageClient.scanVertex(spaceName, returnCols);

第三步：不断读取该迭代器所指向的 scanVertexResponse 对象中的数据，直到读取完所有数据。读取出来的顶点数据先保存起来，后面会将其添加到到 JGraphT 的图结构中：

while (iterator.hasNext()) {
  ScanVertexResponse response = iterator.next();
  if (response == null) {
    log.error("Error occurs while scan vertex");
    break;
  }
  
  Result result =  processor.process(spaceName, response);
  results.addAll(result.getRows(TAGNAME));
}

读取边数据的方法和上面的流程类似。

在 JGraphT 中进行图分析

第一步：在 JGraphT 中创建一个无向加权图 graph：

Graph graph = GraphTypeBuilder
                .undirected()
    .weighted(true)
    .allowingMultipleEdges(true)
    .allowingSelfLoops(false)
    .vertexSupplier(SupplierUtil.createStringSupplier())
    .edgeSupplier(SupplierUtil.createSupplier(MyEdge.class))
    .buildGraph();

第二步：将上一步从 Nebula Graph 图空间中读出来的点、边数据添加到 graph 中：

for (VertexDomain vertex : vertexDomainList){
    graph.addVertex(vertex.getVid().toString());
    stockIdToName.put(vertex.getVid().toString(), vertex);
}

for (EdgeDomain edgeDomain : edgeDomainList){
    graph.addEdge(edgeDomain.getSrcid().toString(), edgeDomain.getDstid().toString());
    MyEdge newEdge = graph.getEdge(edgeDomain.getSrcid().toString(), edgeDomain.getDstid().toString());
    graph.setEdgeWeight(newEdge, edgeDomain.getWeight());
}

第三步：参考 [7,8] 中的分析法，对刚才的图 graph 使用 Prim 最小生成树算法（minimun-spanning-tree），并调用封装好的 drawGraph 接口画图：

普里姆算法（Prim's algorithm），图论中的一种算法，可在加权连通图里搜索最小生成树。即，由此算法搜索到的边子集所构成的树中，不但包括了连通图里的所有顶点，且其所有边的权值之和亦为最小。

SpanningTreeAlgorithm.SpanningTree pMST = new PrimMinimumSpanningTree(graph).getSpanningTree();

Legend.drawGraph(pMST.getEdges(), filename, stockIdToName);

第四步：drawGraph 方法封装了画图的布局等各项参数设置。这个方法将同一板块的股票渲染为同一颜色，将距离接近的股票排列聚集在一起。

public class Legend {
  
...
  
  public static void drawGraph(Set edges, String filename, Map idVertexMap) throws IOException {
     // Creates graph with model
     mxGraph graph = new mxGraph();
     Object parent = graph.getDefaultParent();

     // set style
     graph.getModel().beginUpdate();
     mxStylesheet myStylesheet =  graph.getStylesheet();
     graph.setStylesheet(setMsStylesheet(myStylesheet));

     Map idMap = new HashMap<>();
     Map industryColor = new HashMap<>();

     int colorIndex = 0;

     for (MyEdge edge : edges) {
       Object src, dst;
       if (!idMap.containsKey(edge.getSrc())) {
         VertexDomain srcNode = idVertexMap.get(edge.getSrc());
         String nodeColor;
         if (industryColor.containsKey(srcNode.getIndustry())){
           nodeColor = industryColor.get(srcNode.getIndustry());
         }else {
           nodeColor = COLOR_LIST[colorIndex++];
           industryColor.put(srcNode.getIndustry(), nodeColor);
         }
         src = graph.insertVertex(parent, null, srcNode.getName(), 0, 0, 105, 50, "fillColor=" + nodeColor);
         idMap.put(edge.getSrc(), src);
       } else {
         src = idMap.get(edge.getSrc());
       }

       if (!idMap.containsKey(edge.getDst())) {
         VertexDomain dstNode = idVertexMap.get(edge.getDst());

         String nodeColor;
         if (industryColor.containsKey(dstNode.getIndustry())){
           nodeColor = industryColor.get(dstNode.getIndustry());
         }else {
           nodeColor = COLOR_LIST[colorIndex++];
           industryColor.put(dstNode.getIndustry(), nodeColor);
         }

         dst = graph.insertVertex(parent, null, dstNode.getName(), 0, 0, 105, 50, "fillColor=" + nodeColor);
         idMap.put(edge.getDst(), dst);
       } else {
         dst = idMap.get(edge.getDst());
       }
       graph.insertEdge(parent, null, "", src, dst);
     }


     log.info("vertice " + idMap.size());
     log.info("colorsize " + industryColor.size());

     mxFastOrganicLayout layout = new mxFastOrganicLayout(graph);
     layout.setMaxIterations(2000);
     //layout.setMinDistanceLimit(10D);
     layout.execute(parent);

     graph.getModel().endUpdate();

     // Creates an image than can be saved using ImageIO
     BufferedImage image = createBufferedImage(graph, null, 1, Color.WHITE,
                                               true, null);

     // For the sake of this example we display the image in a window
     // Save as JPEG
     File file = new File(filename);
     ImageIO.write(image, "JPEG", file);

   }
  
  ...
    
}

第五步：生成可视化：

图1中每个顶点的颜色代表证监会对该股票所属上市公司归类的板块。

可以看到，实际业务近似度较高的股票已经聚拢成簇状（例如：高速板块、银行版本、机场航空板块），但也会有部分关联性不明显的个股被聚类在一起，具体原因需要单独进行个股研究。

图1：基于 2015-01-01 至 2020-01-01 的股票数据计算出的聚集性

第六步：基于不同时间窗口的一些其他动态探索

上节中，结论主要基于 2015-01-01 到 2020-01-01 的个股聚集性。这一节我们还做了一些其他的尝试：以 2 年为一个时间滑动窗口，分析方法不变，定性探索聚集群是否随着时间变化会发生改变。

图2：基于 2014-01-01 至 2016-01-01 的股票数据计算出的聚集性

图3：基于 2015-01-01 至 2017-01-01 的股票数据计算出的聚集性

图4：基于 2016-01-01 至 2018-01-01 的股票数据计算出的聚集性

图5：基于 2017-01-01 至 2019-01-01 的股票数据计算出的聚集性

图6：基于 2018-01-01 至 2020-01-01 的股票数据计算出的聚集性

粗略分析看，随着时间窗口变化，有些板块（高速、银行、机场航空、房产、能源）的板块内部个股聚集性一直保持比较好——这意味着随着时间变化，这个版块内各种一直保持比较高的相关性；但有些板块（制造）的聚集性会持续变化——意味着相关性一直在发生变化。

Disclaim

本文不构成任何投资建议，且作者不持有本文中任一股票。

受限于停牌、熔断、涨跌停、送转、并购、主营业务变更等情况，数据处理可能有错误，未做一一检查。

受时间所限，本文只选用了 160 个个股样本过去 6 年的数据，只采用了最小扩张树一种办法来做聚类分类。未来可以使用更大的数据集（例如美股、衍生品、数字货币），尝试更多种图机器学习的办法。

本文代码可见[18]

Reference

[1] 用 NetworkX + Gephi + Nebula Graph 分析<权力的游戏>人物关系（上篇）https://nebula-graph.com.cn/posts/game-of-thrones-relationship-networkx-gephi-nebula-graph/

[2] 用 NetworkX + Gephi + Nebula Graph 分析<权力的游戏>人物关系（下篇） https://nebula-graph.com.cn/posts/game-of-thrones-relationship-networkx-gephi-nebula-graph-part-two/

[3] NetworkX: a Python package for the creation, manipulation, and study of the structure, dynamics, and functions of complex networks. https://networkx.github.io/

[4] Nebula Graph: A powerfully distributed, scalable, lightning-fast graph database written in C++. https://nebula-graph.io/

[5] JGraphT: a Java library of graph theory data structures and algorithms. https://jgrapht.org/

[6] mxGraph: JavaScript diagramming library that enables interactive graph and charting applications. https://jgraph.github.io/mxgraph/

[7] Bonanno, Giovanni & Lillo, Fabrizio & Mantegna, Rosario. (2000). High-frequency Cross-correlation in a Set of Stocks. arXiv.org, Quantitative Finance Papers. 1. 10.1080/713665554.

[8] Mantegna, R.N. Hierarchical structure in financial markets. Eur. Phys. J. B 11, 193–197 (1999).

[9] https://graphviz.org/

[10] https://gephi.org/

[11] https://github.com/vesoft-inc/nebula-java

[12] Nebula Graph Query Language (nGQL). https://docs.nebula-graph.io/manual-EN/1.overview/1.concepts/2.nGQL-overview/

[13] Nebula Graph Query Engine. https://github.com/vesoft-inc/nebula-graph

[14] Nebula-storage: A distributed consistent graph storage. https://github.com/vesoft-inc/nebula-storage

[15] Neo4j. www.neo4j.com

[16] JanusGraph. janusgraph.org

[17] Apache Spark. spark.apache.org.

[18] https://github.com/Judy1992/nebula_scan

直播 | 阿里、携程、网易共同出品，后端架构工程实践系列直播-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

本次后端架构工程实践专场，由阿里技术、携程技术、网易技术共同出品。

携程框架架构研发部负责携程后端框架和中间件的研发，包括异地多活、ServiceMesh、消息队列、配置中心等10多个产品，支撑携程的整体业务研发。

阿里技术（阿里云开发者社区）提供分享、学习、认证、工具、资源、大赛、社群、MVP等一站式服务能力，满足开发者全生命周期成长需求。

随着函数计算等 FaaS 云产品的不断完善，研发生态对 Serverless 的认知也日渐清晰，尝试也越来越多。在诸多实践中，许多人开始陷入一种迷思，FaaS 是不是只能用在一些 “计算任务” 场景？是不是只能在小程序这个场景才能用？K8S是不是很大规模的公司才能用？云原生，Serverless是不是只是说的好听，离我其实还很远呢？我们将为你揭示，一个真正人人可用的云时代研发模式已经到来！

在此分享中，你会了解到阿里云Serverless云开发平台如何通过三套Serverless架构服务帮助应用落地到Serverless架构。包括：
1、云原生时代的架构应该怎么做？
2、Serverless架构有什么优势？
3、应用如何落地？

“云见教育共享未来”阿里云让教育服务加速进步-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

9月17日是2020年云栖大会拉开序幕的日子，今年的云栖大会以“数智未来·全速重构”为主题，进行了真正的“线上+线下”的深度尝试，除线上大会外，还在北京、上海、杭州、昆明、天津等城市开设了云栖大会阿里云MVP专场。其中，校宝在线独家承办“云见教育·共享未来”为主题的云栖大会的杭州分场，也是教育行业的专场。校宝在线作为中国深受欢迎的教育信息化综合服务提供商，一直以来以“推动教育服务加速进步”为使命，经过在教育SaaS领域的十年深耕，校宝在线已经帮助超90000个教育品牌实现信息化管理，帮助超过180000个校区实现“互联网+教育”的业务升级，服务教育从业者超100万。
随着互联网技术的蓬勃发展，“互联网+教育”的转型升级已成为教育产业发展的重要议题，而云计算作为一门新兴技术正在改变各行各业的生产方式，其高可靠性、可扩展性和高度灵活性也正逐渐影响着教育行业的发展。2020年，教育行业正处于转型升级的关键时期，教育的形态焕新，秩序重组，如何借助互联网与云计算技术，实现教育行业的创新发展，成为本次云栖大会教育专场的重要议题。

    第一位嘉宾浙江大学教授、阿里巴巴-浙江大学前沿技术联合研究中心（AZFT）智能计算机系统实验室主任--陈文智，给大家分享了《教研云助力高效数字化转型》。陈教授展示了基于教研云的新一代教学平台，能够实现教学场景的全覆盖、AI优化教学质量、云化提升教学体验以及教学数据的多维分析，未来高校科研新模式将实现科研的数字化运营，打造科研协作空间，从而构建科研新生态。
    第二位嘉宾校宝在线CPO&创新事业部总经理--李杰，他是浙江大学管理学硕士、原阿里巴巴高级产品专家、原百度商业产品经理，这次给大家分享的主题是《透过疫情，看教培行业的DT未来》，现在IT时代正在逐步迈入DT时代，未来教育越来越多的基于数据驱动，因此教育行业也要顺势而为，拥抱DT，实现机构业务数据化、行业数据标准化、产业服务生态化的三步升级。
    第三位嘉宾阿里云智能解决方案架构师--胡中泉，作为十年阿里巴巴DBA，一直从事企业数字化转型数据库解决方案架构设计，这次带来的是《鱼熊兼得——云原生数据库技术解析》。云原生数据库存储计算分离，分别无限弹性，可具备HTAP特性，同时，云原生数据库关注弹性、性能和成本优化等上层需求，相比传统数据库，云原生数据库拥有更低的TCO、更好的性能与吞吐量，更便捷的使用体验更科学的使用方式。
    第四位嘉宾校宝在线架构师--李同刚，他是阿里云MVP、校宝在线共享技术部基建业务负责人，负责并参与了校宝云服务平台、DevOps平台、开放平台建设，这次分享了非常落地的《教育信息化平台DevOps实践》。DevOps 业务链路较长，因此我们要始终从业务问题出发，实现客户价值结合业务痛点，找到切入点，团队 Leader 要想好客户价值，聚焦、不要贪，“少则得，多则惑”，同时坚持大道至简，规范先行，从客户场景出发，方案做简单些，并且制定规范，做好期望管理。

    在四位精彩的嘉宾演讲之后，本次云栖大会教育专场还专门圆桌讨论了《云时代的教育SaaS平台技术演进之路》，校宝在线架构师肖伟宇、资深net开发工程师王斌与阿里云智能容量服务产品经理范捷惟、杭州互次方技术VP金立四位嘉宾在现场给大家带来了精彩有深入的交流探讨。

每一位演讲嘉宾分享之后，现场的参会嘉宾也都提出了自己的疑惑和问题，现场交流气氛浓厚，大家对于新技术、新教育充满激情和能量。

如何度量研发效能？-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

没有可靠的度量就无法有效的改进，高度数字化的软件研发领域一直是进行各类效能度量尝试的创新重地。

阿里云·云效服务的内部版本“Aone”承载着阿里集团数百个BU协同研发和持续交付的职责，笔者在数月前短暂的参与了该平台的效能透视镜板块建设，因而得以从平台的“上帝视角”重新审视效能度量这件事，随着项目开展，略微摸索了些门道。此文中观点源于这段时间里笔者在团队内以及与周边相关团队的讨论和个人思考，且作抛砖引玉之用。

度量的分类

度量的分类方式有很多，其中比较有意思的一种角度，是根据目标意图将度量划分为“针对人的度量”和“针对事的度量”。

任何协作系统都离不开人的参与，加之可与绩效、考核等事情牵上关系，即使相关指标的分析往往伴随着争议，针对人的度量在企业里有时依然被视为一种“刚需”。譬如“代码量”、“代码质量”、“工作时长”等数据评判都是常见的依据指标。从产品实现而言，由于对结果可解释性要求高，这类度量的单因素指标居多，计算方案通常不会太复杂，宜采用小范围同维度横向比较，防止过度泛化。

相比之下，针对事度量的范畴和方法更加灵活。既包括简单的数值指标，譬如产研中的发布频率、需求交付时长；也包括需要对比分析的多元指标，譬如需求在各阶段的停留时长、缺陷在各环境的漏测率等。在就事论事的基础上，为了更全面的理解事实的客观规律，还经常需要将一组数据向上聚合（譬如整个部门、整个项目的情况）或者跨领域关联（譬如业务领域需求关联到相关代码提交情况），从而获得更宽的观察视角。由于涉及的度量主体更多，有时为了确定哪个主体是主要的影响因素，还需要进行额外的归因判定。相较于以人为目标的度量，对事进行度量时，可以包含更多的经验和推理因素。

对人或对事主要是针对度量目的而言，在实际运用时，两者采用的具体指标会有许多共同之处，并不能一概而论。根据管理学中的“平衡计分卡（The Balanced ScoreCard）”理论，度量活动要遵循“目标-度量-指标-行动”的规则，指标最终服务于目标的达成，好的度量产品不仅应当反映“发生了什么”，还应当能根据目标提供“该怎么做”的辅助建议。因此度量类产品的成败，不仅是对指标设计者的领域理解、抽象能力的挑战，而且对产品自身的业务目标清晰度也会提出很高的要求。

效能的本质

归根究底而言，效能的本质是对价值流动速度和质量的评价。

“价值流”的概念伴随着精益思想的传播，被越来越多行业所接纳。不过很少有其他哪个行业能够像软件研发行业这样，能够让价值交付的各个环节几乎完全在线数字化，从而提供大量可分析的过程数据样本。

所谓价值流动过程可以表示为，“价值原料”在可被度量的价值加工活动之间有序传递，不断叠加价值增量，最终形成可被消费的“价值产物”。下图将这一过程的度量抽象为一种非常简洁的表示结构，可称为效能度量的“元模型”。

度量中所用的各类“领域特征”则是由在此元模型之上的领域对象，以及基于这些对象的“领域指标”来定义的。

譬如在研发领域，“价值原料”可以是一个业务方的需求，或是一个开发者突发奇想的创意。可被度量的活动包括需求拆解、任务指派、代码编写、测试、部署、验证、发布等等。每个活动本身都具有可被观测的属性，实体之间也具有可被量化的关系。这些实体、属性、关系就组成了特定领域的模型，下图展示了一种简化的研发度量领域模型（为了美观省略掉很多实体关系连接，仅作示意）。

有了领域模型，就可以基于规则制定指标。指标通常被描述为各种量化特征和实体属性的数值计算。有些指标是领域无关的，譬如端到端流通时长；有些指标是多个领域之间可以复用的，譬如许多行业都会有单位时间任务吞吐量、任务按时完成率这样的指标；有些指标是领域特有的，譬如研发领域的千行代码缺陷率等等。

在指标之上，还需要有与具体运用场景相匹配的工具或平台来将度量结果转换为便于观察分析的表现形式。譬如各种图表、报表，以及事件通知。

元模型和领域对象的分离，似乎能够形成一种足够抽象的通用度量产品，通过领域相关的指标规则、展示规则、通知告警规则，快速适配不同目标和场景，然而现实情况其实更复杂。一方面受制于计算能力，有些指标实际无法根据模型+规则实时计算出来，必须单独预先算好，以空间换时间。另一方面受限于价值增值过程的可观测性，并非所有行为的结果都能立即被简单量化（否则说服人们坚持锻炼身体就容易多了），即使在高度数字化的软件研发领域，依然存在数据质量和时效性问题，在使用数据时需要加以考虑。因此各种效能的场景虽然具有十分相似的流动特征，实际产品依然会不可避免的根据业务定制化，万能的度量工具或公式是不存在的。

模型的存储

对于度量模型的存储，图数据库可能是最好的选择，没有之一。

相比结构化的SQL数据库和文档型的NoSQL数据库，图数据库属于比较小众的一种偏门奇术，主要用在知识图谱和基于关系的信息搜索领域。从基本特征而言，图数据库通常具备NoSQL的非结构化KV存储能力，允许同一类实体具有不同属性项的实例，这对于处理来自多种数据源或多个子类型的实体信息带来很大便利。同时，图数据库通常能像SQL数据库那样支持事务和多实体关联查询。不仅如此，图数据库对复杂关系的检索性能远高于SQL数据库，对于判断、循环查询的支持也比SQL存储过程更加优雅。

然而这些基础能力上的差异，并非我推荐将图数据库用于效能度量的主要原因。

好的技术选型应该能够充分适应潜在的业务需求变动，避免过早将技术实现耦合到局部的应用场景。在基于SQL表的开发模式里，“表结构设计”是在软件详细设计阶段里非常重要的一个环节，因为它不仅是对整体业务领域的建模，还关系着未来数据查询的效率和便利性。熟悉SQL表设计的同学应该知道，1对1、1对N、N对N关系，数据表的处理方法是完全不同的：N对N关系需要额外设计关联表，1对N关系通常是在后者的实体上设计外键，而1对1关系的外键设计就更有讲究了，要根据实际场景来决定该在哪个实体上放另一者的外键，然后在使用的时候顺着这个关联方向来查询。对于聚合的设计也是如此，需要事先在被聚合表上提前设计好用于聚合的外键，因此会有“事实表”、“维度表”的区分。数据的查询规则，在数据库表结构设定的时候就被确定下来了。

对业务模式比较固定的场景而言，提前考虑好数据的使用方法并做针对性优化显得合情合理，然而效能度量业务并不属于此类。在度量领域里，关联、级联、聚合都是十分常见的指标计算操作，由于指标的作用在于发现潜藏于表面之下的问题，事先不应当提前规定只能从哪一类实体作为关联查询的起点，或者必须以哪些维度做聚合观察。

就图数据库的存储模型来说，所有业务实体都是平等的，任何类型的关系都由实体间的关联来表示。这就像是在SQL表设计时，不论是1对1还是N对N关系，总是额外增加一张关联表，却无需顾虑多表JOIN带来的性能影响。这样一来，相当于将查询和聚合方式的决策推迟到实际使用的时候再做，从而有效解耦建模和查询时的相互制约，不再需要为优化查询而返工改表。

此外，由于关联直接建立于实体之间，当删除实体的时候，实体间的关联也将自动断开。这就像有垃圾回收机制的Java语言不用自己管理内存指针一样。图数据库绝不会产生由于关系修改时的不对称清除而导致的数据不一致情况。

那图数据库会不会有坑？肯定有。不过在我们目前有限的探索里，遇到比较大的麻烦主要来自它不够完善的周边工具配套、阿里云图数据库服务的某些配置限制，以及市场上稀缺具备相关技能的专业工程师。

专家经验

在研发效能领域，度量的终极目标是DevOps文化所提倡的识别和消除系统性瓶颈。

通过各式各样的过程数据，经验丰富的项目经理和管理教练往往能够准确判断出项目的潜在问题和交付风险。

在经济学领域有个十分有趣的“古德哈特定律”，即“当决策者试图以一个事物的客观测度指标作为指针来施行政策时，这一指标就再也不能有效测度事物了”。

然而效能度量并不是玄学，价值生产活动中的风险应当是有章可循的。古德哈特式的此消彼长现象其实来源于经济领域的范围太过宽广，任何实用指标往往只能是局部度量的结果。效能透视镜产品的提出者嵩华老师曾经分享过一种识别研发项目系统性风险的思路，即有的放矢的关注四种典型的全局现象：

流动阻滞
返工
落后的工程能力
技术债务

这几种现象不太容易在局部进行遮掩，且在一定条件下能够相互叠加，成为“烂项目”的标配。

透过整个研发过程中的种种现象，找到反映这些全局性问题的蛛丝马迹，不仅能在一定程度上让“专家经验”产品化、标准化，也有助于将效能数据的使用方法从当前普遍的“事后复盘”式向以全局流动速率和质量作为关注点的“风险管控”式发展，从而在可靠性和时效性两个方面都得到提升。

总结

数据不会骗人，但数据的呈现和解读依然有很大的空间值得探索。现实事物复杂而多面，度量正是为描述和对比这些具象事实而采取的抽象和量化措施，从某种意义上来说，度量的结果一定是片面的，反映部分事实。没有银弹，也没有完美的效能度量。

对于企业研发效能的提升，开发者工具、效能方法理论、效能度量指标都是缺一不可、环环相扣的几个重要板块，相信随着数据价值被越来越多的挖掘，我们终将实现更有效的反馈和更精确的赋能，让研发协作真正变得透明、简单、高效。

最后

分享十条前人总结的经验观点。

任何指标一旦用于管控，就不再可靠（古德哈特定律）。
测量的对象与人越近，越不可靠。
“凡可度量，皆可改造”是错的。
变化趋势的价值高于指标绝对值。
选择适当的而非“标准的”指标，若发现指标没用，果断舍弃。
务必了解指标的获取成本，明确指标意图和针对的企业目标。
设计“北极星指标”，指标数量越多，边际收益递减。
不要将指标对所有人透明。
让一线人员参与指标制定。
如果可能，合理缩短度量周期。

ARMS助力「掌游科技」系统重构-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

武汉掌游科技有限公司隶属于盛趣游戏（原盛大游戏）旗下，是一家经营手游发行、深度运营及综合买量的互联网游戏公司。自2014年成立至今，已成功运营超过1000款手游产品，拥有超过1亿游戏用户，活跃用户突破千万。

系统重构后产生新的需求

掌游科技有SaaS游戏发行运营平台，帮助游戏厂商通过大数据分析更好的运营游戏。随着业务量的不断上涨，之前单数据库的系统架构逐渐出现了性能瓶颈。

为了能更好的支撑业务，掌游科技将单库按业务拆分为了四个数据库，整个系统也因为分库而进行了重构。但是重构后的系统经过测试发现有很多问题，几次上线后都出现了不稳定的情况，并且由于业务复杂，开发人员众多，很难快速、全面的发现系统Bug和性能约束点，所以急需通过APM工具来发现系统中存在的各个性能约束点。

掌游科技期望APM工具能具备以下五点特性：

• 快速无侵入的接入方式：期望最大限度的不改动系统代码，以无侵入、无感知的方式将监控系统接入现有系统；

• 系统性能低损耗：接入的监控系统不对能宿主系统产生过高的性能损耗，期望不超过5%；

• 可视化的配置操作方式：不期望繁琐的、通过命令形式的配置。期望可以通过Web控制台的方式方便的进行配置，比如采样率、SQL提取规则、业务监控配置等；

• 全方位的应用监控能力：期望从应用层面、节点层面、接口层面、主机层面多维度监控系统。比如应用的整体健康度，接口的调用次数、响应时间、慢SQL分析、异常分析、JVM分析、内存快照分析、CPU/内存/IO分析等；

• 支持PHP语言：客户主要使用PHP语言进行开发，希望监控系统可以全面支持PHP语言的各个组件和框架。比如CURL、PDO、Mysqli、Yar Client、GRPC Client、Predis Client、Memcache Extension等。

解决方案

阿里云自研的应用实时监控服务ARMS完美的契合了客户的诸多痛点，通过Agent的方式无侵入的、快速的接入客户系统，通过白屏化的方式进行设置，提供各种丰富完善的视图协助客户全方位监控系统，并且ARMS结合众多客户场景和专家经验，提供智能诊断功能。帮助客户快速、准确的发现和定位到了系统重构后的很多性能约束点和隐患，让客户有的放矢的对系统进行优化。

1. 性能瓶颈和Bug一目了然：无论从CPU、内存、磁盘、网络、JVM GC、JVM堆内存、内存快照分析的主机层面还是从接口响应时间、请求数、错误数、异常分析、上下游接口、接口快照、调用链路、线程剖析的接口层面，亦或是慢SQL分析、数据库连接数、CPU/内存/磁盘使用率、网络流入/出流量监控的存储层面，以及NoSQL、MQ监控等。将系统360度无死角的监控起来，所有性能问题都无所遁形。

2. 提前预知系统问题：ARMS提供了完善的预警通知功能，可以基于主机监控、JVM监控、异常接口调用、应用调用统计、数据库指标等多个指标类型下几十钟触发条件来灵活的设置预警规则。同时提供多样化的通知方式以满足不同客户的通知需求。

3. 支持PHP：目前开源的APM工具对PHP支持的都不够完善，无论在无侵入接入方面，还是支持的组件方面，面对PHP语言构建的系统，都不能很好的支撑形成监控链路闭环。ARMS在对PHP语言系统的监控方面已经沉淀多年，绝大多数PHP的框架和组件都已支持，有很完善的问题分析定位的链路闭环和最佳实践。

Spring 5 中文解析数据存储篇-DAO支持-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

Spring核心篇章：

Spring 5 中文解析之核心篇-IoC容器

Spring 5 中文解析核心篇-IoC容器之依赖关系

Spring 5 中文解析核心篇-IoC容器之Bean作用域

Spring 5 中文解析核心篇-IoC容器之自定义Bean性质

Spring 5 中文解析核心篇-IoC容器之BeanDefinition继承与容器拓展点

Spring 5 中文解析核心篇-IoC容器之基于注解的容器配置

Spring 5 中文解析核心篇-IoC容器之类路径扫描和组件管理

Spring 5 中文解析核心篇-IoC容器之JSR330标准注解

Spring 5 中文解析核心篇-IoC容器之基于Java容器配置

Spring 5 中文解析核心篇-IoC容器之Environment抽象

Spring 5 中文解析核心篇-IoC容器之ApplicationContext与BeanFactory

Spring 5 中文解析核心篇-IoC容器之Resources

Spring 5 中文解析核心篇-IoC容器之数据校验、数据绑定和类型转换

Spring 5 中文解析核心篇-IoC容器之SpEL表达式

Spring 5 中文解析核心篇-IoC容器之AOP编程(上)")

Spring 5 中文解析核心篇-IoC容器之AOP编程(下)")

Spring 5 中文解析核心篇-IoC容器之Spring AOP API

Spring测试篇章：

Spring 5 中文解析测试篇-Spring测试

Spring 5 中文解析核心篇-集成测试之概要和集成测试注解

Spring 5 中文解析核心篇-集成测试之TestContext(上)")

Spring 5 中文解析核心篇-集成测试之TestContext(中)")

Spring 5 中文解析测试篇-集成测试之TestContext(下)")

Spring 5 中文解析测试篇-Spring MVC测试框架

Spring 5 中文解析测试篇-WebTestClient

Spring存储篇章：

Spring 5 中文解析数据存储篇-Spring框架的事物支持模型的优势

[Spring 5 中文解析数据存储篇-事务同步和声明式事物管理
](https://mp.weixin.qq.com/s?__biz=MzA3NDgzODYzNg==&tempkey=MTA3OV91TU8vcGlxSXdvTGNhZ2o0a3p2RXZvSGpJeXNCMmNCUkszbU9OZzVSc09rT19Zejl6b3JCWHZHU0JfN3ZrVDhhbzZUV3BfS2s3aHFEakhPb3V4dXVkMVp4ajFfZllOcnM2N3huU2d1ZUJZZlN6T1lZNVVKWHJjOWRkdEg3Uzg3RmpFRzZXbHMzQ3lFUUEwd1JqTl9JOGZzWGxMYWh6N1lhY05DYnFRfn4%3D&chksm=1f7b0caa280c85bcce8c4ffe9fb21629f683d5d9127116dae91dc9b9cbd2f367a19514fef76f#rd)

[Spring 5 中文解析数据存储篇-@Transactional使用
](https://mp.weixin.qq.com/s?__biz=MzA3NDgzODYzNg==&tempkey=MTA3OV9RNU1VNnhsa0ZkRlhBb3Fla3p2RXZvSGpJeXNCMmNCUkszbU9OZzVSc09rT19Zejl6b3JCWHZHU0JfNTZ4dWhENjFrNUV6dlpieWYxVndQRlBNNkFRZVBFWlVyZHdiQlhTMmZMM0g0TnppT040Nk5QUU1rcEpNY2FDN09nZnNPeG5WTU8wajZCNUowaHZnTHhZcGpYdVRlNXQzWTZUSV8yOEpJNl9nfn4%3D&chksm=1f7b0cb3280c85a5682b1c9ea3cf7d2a69abdd6fe9147ed4335a5d5cfbef7c04ed314bd389de#rd)

Spring 5 中文解析数据存储篇-编程式事物管理

完整电子书地址

Spring对数据访问对象（DAO）的支持旨在使以一致的方式轻松使用数据访问技术（例如JDBC、Hibernate或JPA）。这使你可以轻松地在上述持久性技术之间进行切换，并且还使你无需担心捕获每种技术特有的异常即可进行编码。

2.1 一致的异常层次结构

Spring提供了从特定于技术的异常（例如SQLException）到其自己的异常类层次结构的便捷转换，该异常类层次结构以DataAccessException作为根异常。这些异常包装了原始异常，因此你永远不会丢失任何有关可能出错的信息。

除了JDBC异常，Spring还可以包装JPA和Hibernate特定的异常，将它们转换为一组集中的运行时异常。这样，你就可以仅在适当的层中处理大多数不可恢复的持久性异常，而不必在DAO中使用烦人的样板捕获和抛出块以及异常声明。（尽管如此，你仍然可以在任何需要的地方捕获和处理异常。）如上所述，JDBC异常（包括特定于数据库的方言）也被转换为相同的层次结构，这意味着你可以在一致的编程模型中使用JDBC执行某些操作。

在Spring对各种ORM框架的支持中，上述讨论对于各种模板类均适用。如果使用基于拦截器的类，应用程序必须关心处理HibernateExceptions和PersistenceExceptions本身，最好是通过分别委托给SessionFactoryUtils的convertHibernateAccessException(..)或convertJpaAccessException()方法。这些方法将异常转换为与org.springframework.dao异常层次结构中的异常兼容的异常。由于未选中PersistenceException，因此它们也可能被抛出(不过，在异常方面牺牲了通用的DAO抽象)。

下图显示了Spring提供的异常层次结构。（请注意，图像中详细说明的类层次结构仅显示整个DataAccessException层次结构的子集。）

2.2 用于配置DAO或存储类的注解

确保你的数据访问对象（DAO）或存储库提供异常转换的最佳方法是使用@Repository注解。此注解还使组件扫描支持可以查找和配置DAO和存储库，而不必为其提供XML配置。以下示例显示了如何使用@Repository注解：

@Repository //1
public class SomeMovieFinder implements MovieFinder {
    // ...
}

@Repository注解

任何DAO或存储库实现都需要访问持久性资源，具体取决于所使用的持久性技术。例如，基于JDBC的存储库需要访问JDBC数据源，而基于JPA的存储库需要访问EntityManager。完成此操作的最简单方法是使用@Autowired、@Inject、@Resource或@PersistenceContext注解之一注入此资源依赖项。以下示例适用于JPA存储库：

@Repository
public class JpaMovieFinder implements MovieFinder {

    @PersistenceContext
    private EntityManager entityManager;

    // ...
}

如果使用经典的Hibernate API，则可以注入SessionFactory，如以下示例所示：

@Repository
public class HibernateMovieFinder implements MovieFinder {

    private SessionFactory sessionFactory;

    @Autowired
    public void setSessionFactory(SessionFactory sessionFactory) {
        this.sessionFactory = sessionFactory;
    }

    // ...
}

我们在此显示的最后一个示例是对典型JDBC支持的。你可以将DataSource注入初始化方法或构造函数中，在此方法中，你可以使用此DataSource创建JdbcTemplate和其他数据访问支持类（例如SimpleJdbcCall等）。以下示例自动装配数据源：

@Repository
public class JdbcMovieFinder implements MovieFinder {

    private JdbcTemplate jdbcTemplate;

    @Autowired
    public void init(DataSource dataSource) {
        this.jdbcTemplate = new JdbcTemplate(dataSource);
    }

    // ...
}

有关如何配置应用程序上下文以利用这些注解的详细信息，请参见每种持久性技术的特定介绍。

作者

个人从事金融行业，就职过易极付、思建科技、某网约车平台等重庆一流技术团队，目前就职于某银行负责统一支付系统建设。自身对金融行业有强烈的爱好。同时也实践大数据、数据存储、自动化集成和部署、分布式微服务、响应式编程、人工智能等领域。同时也热衷于技术分享创立公众号和博客站点对知识体系进行分享。关注公众号：青年IT男 获取最新技术文章推送！

博客地址： http://youngitman.tech

CSDN： https://blog.csdn.net/liyong1028826685

微信公众号：

技术交流群：

【其他】9月21日阿里云域名交易平台未实名认证.cc/.tv域名下架通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【域名】【域名交易平台】【未实名.cc/.tv域名下架】

维护时间：北京时间2020年9月21日 00:00

维护内容：未完成实名认证的.cc/.tv域名将被系统下架一口价（万网）、域名竞价等出售信息。

维护影响：自北京时间2020年8月10日 10:00起，.cc/.tv域名的注册、转入、持有者信息修改（过户）等操作将要求进行域名实名认证（包括命名审核和实名资料审核）。

阿里云域名交易平台出售中的.cc/.tv域名若未完成实名认证，一口价（万网）、域名竞价等类型将无法被正常下单购买。请尽快完成.cc/.tv域名实名认证！

出售中的.cc/.tv域名，若未能在9月21日00:00前完成域名实名认证，相关出售信息将被系统自动下架，您须待域名实名认证完成后，重新操作域名上架。

由此给您带来的不便，我们表示歉意，敬请谅解。

关于2020国庆假期的安排-米姆-阿里云服务

米姆-阿里云服务 — Wed, 02 Jul 2025 09:43:00 +0800

根据国务院办公厅关于2020年部分节假日安排的通知，10月1日至8日国庆节，中秋节放假调休，共8天。9月27日（星期日）、10月10日（星期六）上班。

在此节假日期间亲爱的各位老铁，我们依然为您安排了值班工作人员哦！

阿里云售前、售后：尹先生-13246463538

阿里云技术支持：陈先生-14737363737

其他服务需求与咨询：高先生-15869041323

我们友好的小伙伴会一直陪在您身边，有问题速速联系我们吧！也可以移步至官网智慧表单提交您的需求或问题哦，我们会在第一时间处理。

感谢大家在2020年对我们的支持，因为你们的信任，我们才能在激烈的市场竞争中不断进步与发展。未来我们不负年华，提升服务质量与体验。也祝您节日快乐。

广州米姆信息科技有限公司

2020年9月

阿里云SAE支持「禾连健康」低门槛微服务化，弹性降本20%以上

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

作者：黛忻

浙江禾连网络科技有限公司（简称：禾连健康）成立于2014年，多年来专注医疗互联网产业，致力于通过互联网技术，建立服务患者、医生、医院的大平台。

业务范围从医院Wi-Fi、患者端App、医护端App，拓展到提供一站式医院物联网应用解决方案。目前医院Wi-Fi已签约全网245个城市1700多家医院，成为中国最大的医院Wi-Fi服务商。禾健康、禾连保、禾医助几个App提供一站式家庭健康管理服务，服务1亿用户。

客户需求：

禾连是聚石塔的最早一批用户，采用ECS + Docker模式部署应用。因聚石塔定位的变化，没有持续维护相关业务；再加上禾连业务的不断发展，而聚石塔在弹性、服务治理上的能力不满足预期，禾连不得不考虑重新做技术选型。

在架构优化初期，公司基于ECS自建整套微服务架构，过程中暴露了很多问题：

（1）产品迭代跟不上业务变化：传统开发模式无法支撑公司业务的快速发展，研发既要忙于业务，又要Cover底层组件开发和运维，效率非常低；

（2）硬件闲置成本高：云上按业务峰值保有大量的包年ECS，逐台购买安骑士服务。但业务具有潮汐特性，峰谷时闲置浪费高。而且业务瞬息万变，一旦发展不符合预期，购买的ECS会长期处于闲置状态。

（3）系统维护成本高，无运维人员：公司无专职运维人员，系统相对复杂，微服务架构 + APM工具等均采用开源自研，开发&维护成本高。聚石塔上ECS + Docker高密部署的降本方案，集群初始化非常繁琐且耗时较长，需给每台ECS安装探针，运行一系列初始化脚本。研发精力严重分散，疲于奔命。

（4）效率&稳定性：系统的扩缩容困难，流量高峰时效率得不到保证。且服务发布和重启的时候偶尔会影响线上业务稳定。

使用Serverless技术构建新型互联网医疗应用

基于Serverless应用引擎（SAE），提供了一个零改造、开箱即用的Serverless PaaS，最大程度帮助用户屏蔽底层IaaS、K8s运维、以及常用微服务组件的学习成本，解决了禾连长期以来运维成本高、开发迭代和弹性效率低，硬件闲置成本高等痛点问题。

降成本：节省自建微服务架构+APM的ECS成本，无需购买ECS安全骑士服务；基于秒级弹性能力，按需自动弹、同时通过一键启停开发测试环境，极大的提升了资源利用率，比ECS方案节省20%以上的硬件成本。

提效率：提供了开箱即用的微服务治理、应用监控的能力，零运维零改造直接使用，支撑新业务快速上线；提升定位诊断效率，让企业专注于业务本身。

极致弹性，发布无感知：基于SAE 的定时弹性和监控指标弹性（CPU、Memory等），无须容量规划，秒级弹性，便可轻松应对流量暴增，保障SLA。通过配置健康检查探针，系统自动检测，做到服务发布和扩缩容时业务无感知。

一站式体验：自动集成阿里云基础设施类产品：SLB、SLS、NAS等和微服务生态产品：ACM、ARMS、AHAS，对接DevOps产品云效，提供一站式的上云体验。

消息队列在线迁移实战 | 最佳实践

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

前言

消息队列（Message Queue，下文简称MQ）是分布式互联网架构中必不可少的核心组件，包括RocketMQ、Kafka、RabbitMQ等在业界广泛使用的产品，在消息分发、异步解耦、削峰填谷、广播通知等领域发挥着巨大的作用。

在MQ的使用过程中，在线对MQ组件进行迁移是一个非常普遍的需求，在如下的几个场景中，都会涉及到MQ的在线迁移：

（1）规格升级。比如将3 Broker的Kafka集群替换成6 Broker的Kafka集群。

（2）更换另一种MQ产品。比如将RabbitMQ替换为性能和扩展性更强的RocketMQ。

（3）使用云服务替换自建MQ集群。比如将自建的RocketMQ集群替换为云上商业版RocketMQ服务。

在MQ迁移的过程中，存在3个非常重要的需求：

操作简单。
风险可控。
不影响业务系统的正常运行。

如何让MQ的在线迁移同时满足这3个重要的需求呢？本文将对几种可行的方式进行深入探讨。

理论基础

在涉及到MQ在线迁移的所有方案中，都存有一个很重要的原则：对于发往MQ的每一条消息，如果已经被它的消费者成功接收并得到处理，这条消息就不再具有业务含义。已经被成功接收并得到处理的消息，只体现出统计方面的价值，并不需要随着MQ本身的迁移而进行数据迁移。

在数据库迁移的场景中，新旧DB之间的数据迁移是非常重要的工作，这是因为DB中的数据是持久化的数据，需要伴随着数据库的生命周期而长期存在。

而对于MQ而言，消息一旦被消息者接收并得到处理，就不再是持久化的数据，可以直接删除或归档。因此在MQ在线迁移的场景中，对已经处理过的消息，是没有数据迁移必要的。这样就将问题简化为：如何在迁移的过程中确保每一条消息被成功接收并得到处理。

在系统维护期停业务迁移

我们先从一个最简单方案开始体验MQ在线迁移是如何进行的。对于不要求7*24小时连续运行的业务系统，可以利用系统维护期的时间窗口，通过停业务的方式来实现消息队列的迁移。这种迁移方式因为不需要保证业务的连续性，操作起来就非常简单。

（1）初始状态

进入维护窗口期后，关闭生产者应用，这个时候不会再有的新的消息写入MQ：

在这个状态下保持一段时间，当MQ上的所有消息都被消费者接收并成功处理后，就可以对消费者进行版本发布，使其从新的MQ上接收消息：

接下来再启动生产者，使其指向新的MQ，整个操作就已经完成。当系统运行稳定后，可以对原MQ实例进行相关数据归档后直接下线：

在停业务迁移方案中，最关键一步，在于如何在系统维护窗口期之内，确保原MQ上的所有消息被消费者接收并成功处理。因为生产者关闭之后，不会有新的消息写入原MQ，只要预留足够长的时间，原MQ上堆积的消息一定会被消费者取走。在这个方案中，新MQ和原MQ也可以是不同的产品，比如从RabbitMQ迁移到RocketMQ也是可以支持的，因为生产者和消费者都经过了版本发布的动作，只需要在新版本中对API和收发逻辑进行修改就可以实现。

双订阅方案

在互联网领域，能够容忍维护期将业务暂停的系统越来越少了，7*24不间断服务是行业的趋势，上述的停业务迁移方案就不再适用了，如何在MQ迁移的过程中确保业务持续运行呢？

有一个非常棒的idea是让消费者同时具有从原MQ和新MQ接收消息的能力，这样不管生产方往哪一个MQ发送消息，都能够确保消息得到及时的处理。这是一种不需要暂停业务的方案，我们来看一下具体的步骤。

首先对消费者进行改造，使其同时连上新老两个MQ，具备同时从新老MQ接收消息的能力，这就是所谓的“双订阅”：

接下来对生产者进行发布，使其往新MQ发送消息，等原MQ上堆积的所有消息被消费者接收并成功处理后，就可以对原MQ下线：

在对原MQ下线的时候，因为消费者还保持着双订阅的状态，所以最好先切断消费者与原MQ的连接，再关闭原MQ，否则会造成一些异常（取决于SDK的实现）。如果消费者的订阅逻辑实现的足够优雅，可以在不重启消费者的情况下，通过一个指令在线切断消费者与原MQ的连接。

这个方案看似可以用一种对业务无损的方式在线迁移MQ，在实际操作中可行性却很低，其根本原因在于：同时从两个MQ接收消息的改造工作量极大。一般情况下，每一个消费者都在引入MQ产品对应的SDK，并通过MQ提供接入点与MQ建立连接后，接下来就只需要围绕业务逻辑完成所需要的消息订阅操作。这个时候要想同时从一个新的MQ接入消息，需要在代码层面对所有的订阅逻辑进行改造，这是一项非常复杂的工作。

在新MQ和原MQ是不同消息队列产品的情况下，消费者需要同时引入两套不同的SDK，改造难度会变得更大。基于双订阅方案完成MQ的迁移后，还需要考虑将来清理掉消费者从原MQ接收处理消息的遗留代码，这也是需要一定工作量的。

如果在MQ和消费者中间，能有一个中间件来实现双订阅的逻辑，是不是消费者的代码就不需要改造呢？答案是肯定的。但引入这样的中间件本身就是一项非常有挑战的工作，还增加了整个系统的复杂度，如果仅仅是为了MQ的在线迁移而引入一个新的组件，是得不偿失的。

基于工作量和风险的考虑，尽量不要使用双订阅方案。

最优方案

双订阅的本质，在于存在一个消费者可以同时接收新旧两个MQ消息的中间状态，在这个状态下，不管生产者往哪个MQ发送消息，消息都可以得到及时的处理。能不能有一种更简单的方式让消费者可以同时接收新旧两个MQ的消息呢？当然有，而且实现方式更加的简单。

在一个可靠的分布式微服务系统中，应用都可以通过增加节点的方式而进行水平扩容，为了确保整套系统的高可用性，每一个应用都不应该长期处于单实例运行状态，而是通过多个无状态的应用实例组成一个应用集群。因此，在真实环境下，不管是消息的生产者还是消费者，都至少有2个实例在运行。在迁移MQ的过程中，“消费者可以同时接收新旧两个MQ的消息”的中间状态，并不一定要让消费者的每一个实例都通过双订阅来实现，其实只要让一部分实例从原MQ接收消息，另一部分实例从新MQ接收消息就能满足了。通过这样的思路，能极大程度上简化MQ迁移的工作量，而且在迁移的过程中确保业务不受任何影响。

在迁移之前，需要先把元数据信息从原MQ复制到新MQ集群，不同的消息队列产品之前元数据的格式不一样，需要根据业务场景进行元数据的转换，元数据包括Topic、Queue、消费组、基础配置等信息。

首先，通过灰度发布机制，让一部分消费实例连上新的MQ。如果之前的消费者是单实例，这个时候也可以增加一个新的消费实例来完成这个步骤：

接下来，让生产者往新的MQ发送消息，这个操作并不一定需要采取一刀切的方式，也可以通过灰度发布的方式让消息的转向逐步转移到新的MQ上来。最终，原MQ将不再接收新的消息，它上面堆积的消息总将会被成功接收处理，这个时候可以继续通过灰度发布的方式解除消费者与原MQ的连接，连接全部解除完之后，原MQ就可以关闭了。

在这个方案中，对于单个的生产者和消费者，都不存在同时连接新旧两个MQ的情况，因此在改造工作量非常小。而且迁移的过程通过灰度的方式实现，既不会影响业务，又可以进一步的降低风险，是消息队列在线迁移的通用方案。

常见问题

问: 为什么不在新旧MQ之间进行消息数据的同步？

答：对于MQ而言，消息一旦被消息者接收并得到处理，就不再是持久化的数据，可以直接删除或归档。在迁移的过程中，新旧MQ之间消息数据同步是没有必要的，反而会增加迁移的难度，并导致消息被重复接收。

问：迁移过程中需要验证消息幂等性吗？

答： RocketMQ、Kafka等大多数消息队列产品都没有从消息队列服务端本身确保消息只投递一次，需要消费者自行实现对幂等性的保证。因此，不管在消息队列的迁移过程中，还是正常使用中，都应该借助数据库、Redis等外部系统确保消息的幂等性，否则会造成业务逻辑重复处理。

构建在线教育弹性高可用视频处理架构实战

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

前言

近些年，在线教育行业飞速发展，为整个社会的知识传播提供了前所未有的便利性。通过多种形式的在线教育平台，学员与教师即使相隔万里也可以开展教学活动。借助丰富的网络课件，学员还可以随时随地的进行学习，真正打破了时间和空间的限制。在各种形式的网络课件中，视频课件自然是最直观表现力最丰富的形式，因此视频课件的市场占有率也在逐年提升。

视频处理需求分析

对于在线教育领域的视频课件出品方而言，每天都要对大量视频内容进行处理，下图展示了一个比较典型的场景：

（1）用户上传一个视频到平台后，会先在对象存储中对视频源文件进行暂存。

（2）平台对视频进行预处理，并打上水印。

（3）平台将视频文件转换为其他格式，并对分辨率进行调整，以适配各种不同的终端设备的要求。

（4）将处理好的视频文件保存回对象存储，并同步到CDN进行加速。

虽然从流程上来讲，这个场景比较简单，但在技术上的挑战其实是非常大的。视频课件的原作者来自于在线教育平台的广大用户，可能是平台负责内容输出的内部用户，也有可能是签约的教师，或者是平台认证过的分享型用户。用户上传视频的操作并没有固定的频率，往往集中在几个时间段，存在明显的波峰波谷。在业务高峰期，视频处理的需求量非常大，有的在线教育企业每天要完成数万个视频的转码工作。对于负责建设视频处理系统的技术团队而言，这样的业务场景就留给了他们一系列的挑战：

（1）如何确保这套系统在业务高峰期的高可用性？

（2）如何让每一个上传的视频尽可能快的处理完？

（3）如何尽可能的降低资源成本？

（4）如何高效率的应对需求的频繁变更？

基于这几个诉求，我们结合云计算的特点，来分析一下可行的解决方案。

使用SaaS化的云服务完成视频处理

随着各大云计算厂商产品线的不断丰富，我们可以很轻松的寻找到开箱即用的方案来解决这类典型的视频处理需求。以阿里云为例，视频点播类产品提供了视频采集、编辑、上传、媒体资源管理、转码处理、视频审核分析、分发加速于一体的一站式解决方案。

对于技术团队而言，采用这样的方案不用预先准备任何计算资源，甚至不用编写任何代码，就能够从无到有拥有一整套视频处理系统，完全不用考虑资源规划的问题。这样的方案非常适合在业务发展初级需要让系统快速上线的场景。

但随着业务的不断发展，开箱即用的SaaS化方案还是存在不少的局限性，基于如下的原因，大多数的技术团队还是会选择自己建设视频处理系统：

（1）对于之前已经通过FFmpeg技术实现的视频处理服务，因为涉及到复杂的业务逻辑，很难直接迁移到SaaS化方案上来。

（2）高阶的视频处理需求必须使用代码来实现：比如音频降噪、插入动态Gif水印、按固定频率截帧等等。

（3）使用高分辨率的大视频是行业趋势，对于超大视频的处理，比如10G以上的1080P视频，往往需要通过自定义的手段进行计算优化，才能保证处理的及时性。

（4）在很多种场景下，自建视频处理系统都会带来明显的成本优势。

（5）频繁的业务需求变更需要对整套系统进行更精细粒度的迭代管理，比如采用金丝雀策略降低新版本发布所带来的风险。

那么如何建设一套同时具备高性能、高可用性、高灵活性、低成本特点的视频处理系统呢？

基于分布式集群

最典型的方案是申请一组云虚拟机，在每台虚拟机上部署视频处理应用，组建成一个可以水平伸缩的服务集服。当有新的上频上传的时候，可以触发一个处理任务，并通过负载均衡或消息队列对任务进行分发，接到任务的应用节点负责完成对应的任务。

通过这个架构，在业务高峰期，用户上传视频行为比较密集，可以增加服务集群的实例数量，来提升处理能力。在业务低峰期，可以减少服务集群的实例数量，来减少资源成本。

此方案可以通过定制化的代码逻辑实现各种高阶的视频处理需求，灵活度非常高，配合可以水平伸缩的计算集群以及负载均衡机制，能同时满足性能和成本方面的需求，是一套被广泛采纳的方案。但在生产环境大规模运行的情况下，这套方案还是会暴露出很多问题：

（1）维护工作量大。

整套系统的维护工作量涵盖了虚拟机、网络、负载均衡组件、操作系统、应用等多个层面，需要投入大量的时间和精力来保障系统的高可用性与稳定性。举一个最简单的例子，当某个应用实例出现故障的时候，如何第一时间定位故障并尽可能迅速的将其从计算集群中摘除，摘除之后又如何保证之前没有完成的任务能够重新得到处理呢？这些都需要再配合完整的监控机制、故障隔离恢复机制来实现，甚至涉及到代码层的业务逻辑优化。

（2）弹性伸缩能力滞后。

有两种方式实现计算集群的弹性伸缩：通过定时任务触发，或者通过指标阈值（CPU利用率，内存使用率等）触发。不管采用哪种方式，都没有办法基于用户行为精细化管理，在遇到任务密度大幅度起伏的时候，会面临弹性伸缩能力滞后的问题。当来自用户的视频上传请求突增的时候，新增一个应用实例需要经过申请云资源>初始化>部署应用镜像>应用启动>加入负载均衡列表等多个阶段，即便通过Kubernetes+预留资源池等技术优化，也往往需要10分钟以上。

（3）资源利用率低。

滞后的弹性伸缩能力会导致伸缩策略制定的相对保守，造成计算资源的大量浪费，增加了使用成本，如下图所示：

有没有一种方案能能帮助技术团队专注于业务逻辑的实现，并可以根据用户的实际上传请求进行精细化的资源分配，实现资源利用最大化呢？随着云计算的飞速发展，各大云厂商都在积极探索新的方案，用更加“云原生”的方式来解决成本和效率的问题，阿里云提供的函数计算 + Serverless工作流就是这个领域非常具有代表性的方案。

函数计算

阿里云函数计算是事件驱动的全托管计算服务。通过函数计算，开发者无需管理服务器等基础设施，只需编写代码并上传。函数计算会为自动准备好计算资源，以弹性、可靠的方式运行代码，并提供日志查询、性能监控、报警等功能，确保系统的稳定运行。

相比传统的应用服务器保持运行状态并对外提供服务的方式，函数计算最大的区别是按需拉起计算资源对任务进行处理，在任务完成以后自动的回收计算资源，这是一种真正符合Serverless理念的方案，能最大化的提升资源利用率，减少系统系统维护工作量和使用成本。因为不需要预先申请计算资源，使用者完全不需要考虑容量评估和弹性伸缩的问题，只需要根据资源的实际使用量来进行付费。

下图展示了函数计算的工作方式：

对于使用者而言，把实现关键业务逻辑的代码上传到函数计算平台，就能以事件驱动的方式触发函数执行。函数计算已经支持各种主流的编程语言，对于即有的代码，可以通过几个非常简单的步骤部署到函数计算。函数支持的所有开发语言请参考开发语言列表。

每一次计算资源的分配，都基于事件的触发，一个事件往往对应着业务上的一个任务。函数计算支持多种多样的触发器，比如HTTP触发器的事件源就是HTTP请求，函数计算接收到一次HTTP请求后，会按照预设的规格，分配相应的计算资源来处理这个HTTP请求，请求处理完成之后，函数计算会根据用户的设置决定是否立即回收这一次拉起的计算资源。而OSS触发器，能够监控发生在对象存储OSS上的各种事件，当有用户上传新文件或者对文件进行修改的时候，自动触发函数执行，这种方式就刚好适合视频处理的业务场景。更多支持的函数触发器请参考触发器列表。

在计算资源的调度上，函数计算进行了大量优化，面对用户请求的突增，可以在毫秒级拉起大量的计算资源来并行工作，确保用户体验。

通过函数计算进行视频处理

基于函数计算的特性，搭建一套视频处理系统就非常简单，只需要配置一个OSS触发器，并将视频处理的核心代码上传到函数计算，就大功告成：

通过这套方案，使用者不再需要考虑资源管理、负载均衡、系统高可用、弹性伸缩、系统监控等一系列复杂的问题，函数计算平台会按最优的方式根据用户的上传行为调度计算资源，低成本高效率的完成视频处理任务。具体的操作步骤和代码实现可以参考视频处理Python实现Demo，在这个Demo中，演示了如何基于函数计算将用户上传的视频统一转为640 * 480分辨率的mp4格式视频。

代码开发

每一个创建好的函数都会对应一个指定的入口，函数计算会从这个函数入口开始执行，类似于本地开发中的Main()函数。以Python语言为列，一个简单的入口函数如下：

def handler(event, context):
    return 'hello world'

当有事件触发的时候，就会从入口函数开始执行，其中event参数携带了事件源相关的信息，比如在视频处理场景中，event参数携带了上传到OSS的Bucket以及文件名等信息。而context参数携带了函数的运行信息，包括函数名、超时时间、访问凭证等。通过这些信息，就能让执行代码完成预定义的各种操作。

函数计算支持各种主流的编程语言，在这个编程语言当中，Node.js和Python等脚本型语言含了丰富的类库，开发效率很高，而且运算实例启动的速度很快，能够支持对延迟特别敏感的任务，是函数计算最匹配的语言。Java和Go等语言不能像脚本型语言一样直接上传代码就能创建一个函数，需要预先进行编译，使用起来会稍微复杂一些，但配合函数计算提供的Funcraft等工具，也可以大幅度提升开发和部署的效率。不管使用哪种开发语言，都建议使用者下载官方提供的Funcraft工具，更轻松进行开发、构建、部署操作，请参考Funcraft。

像Java这样的语言，在虚拟机启动的时候需要加载比较多的类库，不能够像实现运算实例毫秒级启动并进入执行状态，不能直接使用在一些对于延迟特别敏感的业务场景。但配合函数计算提供的预留实例以及单实例多并发新功能，能够消除冷启动对业务的影响，并降低等待下游服务响应的影响，让函数计算上运行的Java语言也能实现API网关等对延时要求特别高业务场景。请参考预留实例和单实例多并发。

Serverless工作流

通过前面介绍的方案，可以轻松完成对短视频的各种定制化处理。但每一个函数计算实例，在资源规格上和总运行时长都不是无限的，目前函数计算实例可以拥有3G的内存资源和10分钟的执行时间，这也就说明，当一个视频处理任务需要占用3G以上的系统内存，或者总执行时长超过10分钟的情况下，处理任务是会失败的。

在5G时代，超大视频课件是非常普遍的需求，如何通过函数计算处理这样的大视频呢？这个时候就要出动另一个武器---Serverless工作流，来配合函数计算一起完成这个任务。

Serverless 工作流是一个用来协调多个分布式任务执行的全托管云服务。您可以用顺序、选择、并行等方式来编排分布式任务，Serverless 工作流会按照设定好的步骤可靠地协调任务执行，跟踪每个步骤的状态转换，并在必要时执行用户定义的重试逻辑，以确保工作流顺利完成。Serverless 工作流通过提供日志记录和审计来监视工作流的执行，方便您轻松地诊断和调试应用。

您可以使用 Serverless 工作流编排一系列的函数资源，同时定义流程中每一步的输入和输出，使用内置控制步骤编排复杂逻辑、发起并行执行、管理超时或终止流程。另外通过控制台能够使用图形界面显示出执行任务状态和执行顺序，同时控制台会显示每个步骤的实时状态，并提供每次执行的详细历史记录。通过Serverless工作流 + 函数计算的组合，我们可以突破时间和空间的限制，对任意大小的视频文件进行复杂的处理。

大视频处理

简单来讲，处理一个大视频的基本思路是：

（1）将视频先进行切片处理，把每一个分片的大小控制在合理的大小，以便单个函数计算实例可以对其进行快速处理。

（2）拉起多个函数计算实例对每一个分片进行并行处理。

（3）对处理结果进行合并。

通过Serverless工作流 + 函数计算进行视频处理的流程如下：

通过Serverless工作流提供的可视界面，我们能在工作流执行的过程当中，方便的查看到每一个步骤运行的信息，并配合自定义的Dashboard实现对整套视频处理系统的全面监控：

总结

基于函数计算和Serverless工作流的弹性高可用视频处理架构，充分体现了云原生时代Serverless化思想，以事件驱动的形式触发函数执行，真实计算资源真正意义上的按需使用。

对于使用而言，这套方案在保证业务灵活度的同时，可以显著降低维护成本与资源成本，并大幅度的缩短项目交付时间。

在线教育领域对于视频处理的需求量非常大，而且对于处理速度、并发吞吐量、资源利用率等方面都有极高的要求，函数计算 + Serverless工作流方案组合帮助用户轻松建设弹性高可用的视频处理架构，是实现这些复杂需求的最优解。随着云原生的不断发展，Serverless相关技术还将深入更多的业务场景，有未来有无限可能！

阿里云资深技术专家姬风：Serverless 引领云的下一个十年

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

十年前通过推出云服务器，云计算拿下了第一桶金。这种基于服务器的云服务，帮助客户节省了对 IDC 的机器采购和运维成本，同时也保持了传统服务器运维的习惯。但服务器里面运行的操作系统、应用软件，以及整个分布式架构的运维复杂度，依然没法得到彻底解决，企业为此也投入了大量成本。

事实上，基于服务器的云服务并不是云时代的终态。

试想一下，如果服务器的概念被进一步抽象，那么与服务器有关的维护工作都会变成由云来承担。这就是我们常说的Serverless。过去十年，云正在逐步向 Serverless 演进。阿里云最初发布的 ECS 是服务器抽象，随着云原生技术的发展，Docker 容器让应用运行变得简单，Kubernetes 让集群运维变得简单。

2016 年，阿里云发布的函数计算提供了函数级抽象，2019 年发布的 SAE 提供了应用级抽象，这些产品都抹去了服务器的概念，让用云方式得到极大的简化，并逐渐成为趋势。Serverless 已经不仅仅只有函数一种形态，它应该有不同的抽象级别。

阿里云有4种不同的 Serverless 产品，分别提供了容器实例、容器编排、应用、函数的抽象。抽象级别低的产品，客户会拥有更大的管理灵活度；抽象级别高的产品，由云承担的工作会越多，客户的研发和运维的效率也会越高。

这些 Serverless 产品可以给客户、给开发者带来什么样的价值呢？

Serverless有三大核心价值：

一是快速的交付：Serverless 通过进行大量的端对端整合以及云服务之间的集成，为应用开发提供了最大化的便利性，让开发者无需关注底层的 IaaS 资源，而更专注于业务逻辑开发，聚焦于业务创新，大大缩短业务的上市时间。

二是极致的弹性：在 Serverless 之前，一旦遇到突发流量，可能会直接导致各种超时异常，甚至是系统崩溃的问题。即使有限流保护以及提前扩容等手段，依然会出现评估不准的情况，进而引发灾难性的后果。有了 Serverless 之后，由于具备毫秒级的弹性能力，应对突发流量会变得更加从容。

三是更低的成本：就跟生活中用水电煤一样，我们只为实际消耗的资源买单，而无需为闲置的资源付费。Serverless 提供的端到端的整合能力，极大地降低运维的成本与压力，使 NoOps 成为可能。

基于快速交付、智能弹性、更低成本的三大核心价值，Serverless 被认为是云时代的全新计算范式，引领云在下一个十年乘风破浪。那么下一个十年的 Serverless 将会有什么趋势呢？

第一，标准开放。通过支持开源的工具链和研发框架，Serverless 能够在多云环境下使用，无厂商锁定，免除客户后顾之忧。

第二，云原生结合。与业界认为容器和 Serverless 有对立关系不同，阿里云 Serverless 将借助容器出色的可移植性和灵活性，实现应用交付模式统一；通过复用云原生生态，Serverless 在存储、网络、安全、可观测等方面更加标准、强大。

第三，事件驱动。通过采用统一的事件标准，如 CloudEvent来建立云上的事件枢纽，让 Serverless 开发集成云服务、云边端应用更简单。

第四，解锁更多业务类型。Serverless 早已不再局限在代码片段、短任务、简单逻辑，长时间运行、大内存的任务，有状态的应用，以及 GPU/TPU 的异构计算任务都会在 Serverless 产品上得到支持。

第五，更低成本。在使用成本方面，采用 Serverless 产品的 TCO 会比基于服务器自建更低，一方面是引入预付费等计费模式，比按量节省 30% 以上；另一方面，随着 Serverless 不断演进，更大的资源池、更高的资源利用率，成本会进一步压低。在迁移成本方面，可以通过选择不同形态的 Serverless 产品，采用迁移工具，甚至一行代码不改，存量应用就能迁上 Serverless，享受 Serverless 红利。

阿里巴巴的 Serverless 实践在业内处于领先地位，不仅淘宝、支付宝、钉钉、闲鱼等已经将 Serverless 应用于生产，Serverless 产品更为新浪微博、石墨文档、跟谁学、Timing 等各行各业的企业提供服务，助力企业快速数字化。而能够做到这些，离不开阿里云在 Serverless 战略上的坚持与技术投入。

Serverless如何开启云的下一个十年，闲鱼是如何布局Serverless？一个没有服务器的世界是什么样子的？所有关于Serverless的热点话题，我们将在9月18日13:00 云栖大会「Serverless，引领云的下一个十年」全面揭秘！

扫码或点击预约直播，获取Serverless 实践与趋势解读。

2020年容器应用的新思考

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

阿里云容器服务自从2016年5月正式推出，已经走过4年的旅程，服务了全球上万家企业客户。过去几年，阿里云和业界各位共同见证了容器技术的快速发展。

容器镜像已经成为了分布式应用交付的标准，Kubernetes已经成为了分布式资源调度的标准：向下封装资源，向上支撑应用，已经成为了云应用操作系统，帮助应用以一致的方式运行在公共云、边缘计算和专有云环境中。在Kubernetes之上，也浮现出服务网格等新技术，进一步简化分布式应用架构开发和运维。

阿里云提供了经典的云原生容器产品，包括：

Kubernetes服务 ACK，提供云端最佳容器运行环境
镜像服务 ACR，管理各种云原生应用资产
托管服务网格 ASM，加速新一代云原生应用架构落地

容器已经无处不在了。越来越多的应用，通过容器方式进行管理、交付，从Web应用、数据库、消息等中间件，再到数据化、智能化应用。

基于容器技术构建的新架构，会催生新的应用业务价值。其中，云原生 AI 是非常重要的应用场景，快速搭建 AI 环境，高效利用底层资源，无缝配合深度学习的全生命周期。好未来的AI中台基于容器服务搭建，不仅帮助AI服务应对各种资源的急剧增长，而且解决了5个9的SLA需求。好未来AI中台技术负责人刘东东将会在18日的分享中详细讲述更多技术落地细节。

作为容器服务的提供者，容器技术会继续发展，被应用于“新的计算形态”、“新的应用负载”和“新的物理边界”。云原生技术理念使企业用户及开发者只需要关注应用开发，无需关注基础设施及基础服务。

因此除了上述的三款经典产品，阿里云还推出了 Serverless容器服务（ASK）和边缘容器服务（ACK@Edge）两款产品。

Serverless容器服务（ASK）遵循Serverless 理念，将应用服务资源化并以 API 接口的方式提供出来，使用者只需从客户端发起调用请求即可，更重要的是，pay as you go 能够真正为用户节省成本。18日的分论坛演讲中，微博架构师胡春林先生将分享微博如何基于Serverless容器应对突发热点。

此外，容器最被熟知的基础环境是数据中心，在业务流量高峰与低谷之时，凭借容器极致弹性可以实现应用与资源伸缩，有效地保证高利用率与高性价比。随着 5G 和物联网时代的到来，传统云计算中心集中存储、计算的模式已经无法满足终端设备对于时效、容量、算力的需求。将云计算的能力下沉到边缘侧、设备侧，并通过中心进行统一交付、运维、管控，将是云计算的重要发展趋势。以 Kubernetes 为基础的云原生技术，在任何基础设施上提供与云一致的功能和体验，实现云 - 边 - 端一体化的应用分发，支持不同系统架构和网络状况下，应用的分发和生命周期管理，并且针对边缘及设备进行如访问协议、同步机制、安全机制的种种优化。

容器可以适用于多种基础环境，比如数据中心、边缘云、和多云 / 混合云，使得开发者关注回归到应用本身。今年，阿里云容器服务也将迎来一系列新产品特性，并在9月18日「企业云原生创新与实践」分论坛上重磅发布。我们提前揭秘其中一部分新产品。

第一个是容器服务ACK Pro版。它是针对金融、大型互联网、政企客户对安全、稳定、规模的更高需求，推出的高度优化的K8s运行环境。它具备几个关键优势：

（1）基于神龙架构，软硬一体化优化设计，提供卓越性能；
（2）提供高效调度能力，可以有效优化计算成本；
（3）为企业提供全面安全防护，国内首批通过可信云容器安全先进性认证。

ACK Pro正式商用后将提供可赔付的SLA。

第二个是基于ACK的云原生AI加速器。Gartner预测到2023年，70% AI应用构建在容器和Serverless环境中。在过往的几年，阿里云帮助众多企业和阿里云计算平台等内部团队基于云原生技术构建AI平台。通过容器服务Kubernetes，可以对多种异构计算资源进行统一管理，提升资源利用率，降低计算成本。通过GPU共享等技术可以实现资源利用率2~4倍提升。

通过K8s调度优化和分布式缓存等技术，可以提升AI计算效率。在模型训练场景，计算效率提升20%。此外，通过对AI任务提供统一流程管理，构建可重现、可移植、可组装的的AI流水线，AI工程效率可以提升50%。在此基础上，容器服务ACK推出云原生AI加速器，将把异构计算资源管理、调度优化，AI任务流水线，和上层AI算法引擎等全栈优化能力有机整合在一起。它面向企业AI平台建设者，可以让客户自由组合各层能力，构建符合自己需求的AI平台，加速算力的释放。

以好未来为例，它是K12在线学习的领头羊，基于ACK的云原生AI加速器，提供了上百个AI服务。峰值请求量达每天8000万次。通过GPU共享调度，节省了近50%的资源成本。

第三个是容器镜像服务企业版 ACR EE。它为众多跨国企业、互联网、在线教育、游戏等公司提供企业级云原生应用管理和分发能力。ACR EE支持容器镜像和所有符合OCI标准的应用制品管理，比如Helm Chart。以欢聚时代为例，它作为互联网出海的代表企业，其容器化应用需要在全球多地域、多 IDC 部署。使用 ACR EE，全球应用分发效率提高 85% ，成本仅为自建 1/3。

第四个是阿里云托管服务网格ASM。Gartner预测，81%的企业将采用多云/混合云战略，混合云架构已经成为企业上云的新常态。在云原生时代，以Kubernetes为代表的技术屏蔽了基础设施的差异性，可以帮助企业在混合云环境下，进行统一资源调度和应用生命周期管理。

阿里云托管服务网格ASM，是业内首个全托管，与Istio全兼容的服务网格产品。 服务网格的控制平面的组件托管在阿里云侧，用户集群只包含数据平面组件。这个架构解耦了服务网格与K8s集群的生命周期，简化升级和问题诊断；提升了系统的可伸缩性和稳定性。此外ASM全面整合阿里云可观测性、安全等能力，大大简化了服务网格生产环境的运维管理。

9月，ASM正式商用，阿里云容器服务负责人易立将在9月18日云栖大会「企业云原生创新与实践」分论坛详细介绍ASM的新特性。

去年阿里云发布边缘容器服务ACK@Edge。帮助企业将云计算能力延展到边缘，降低应用网络延时，简化海量设备的分布式管理。短短一年，已经广泛应用于音视频直播、云游戏、工业互联网、交通、物流、能源、城市大脑等应用场景中。

这一次，ACK@Edge 与阿里云智能接入网关服务 SAG 共同推出多链路、云边协同的网络方案，具备安全加密、就近接入、即插即用等多种能力，使能边缘资源、业务一站式接入上云。在边缘计算领域，阿里巴巴云原生边缘计算平台 OpenYurt 在9月9日正式成为 CNCF 沙箱级别项目（Sandbox Level Project），标志着 OpenYurt 在边缘计算场景中构建云原生基础设施的能力受到了行业的广泛认可。

此外，在本次云栖大会上，阿里云原生还将发布沙箱容器 2.0等重磅产品，通过核心技术解读与案例分享，帮助企业获得更加敏捷、高效的容器实现。

更多精彩内容，敬请期待9月18日13:00 「企业云原生创新与实践」分论坛。

预约直播：https://yunqi.aliyun.com/2020/session88

首届云原生编程挑战赛精彩盘点：他们如何从10000多支团队中脱颖而出？

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

云原生编程挑战赛，是“中间件性能挑战赛”的升级，赛题升级、赛道升级、报名团队数超过10000支，创下同类大赛报名新高。

9月14日，阿里云原生编程挑战赛决赛答辩线上直播完美落幕，10支进入决赛的团队用精彩的答辩，为历时4个月的大赛画下了圆满的句号。其中，greydog团队以出色的方案、创新的优化思路、过硬的技术实力斩获冠军。

大赛专家评审团认为，greydog团队的方案思路清晰，提出的7个技术优化点具有可落地性，在冷启动处理、OOM处理和大压力请求或超多函数场景下的解决思路具有很高的借鉴意义，能深入到赛题核心，勇于创新，具有较高的技术价值和应用价值。

ONE PIECE团队、睡衣小英雄团队并列亚军，四字成语团队、afkbrb团队、穿山甲团队获得季军。另外四支团队：井底虾蟆笔尖蛙Errr、hello,靓仔、亚洲王子王云轩、hehehlin获得优秀奖。

阿里云研究员、本次云原生编程挑战赛的决赛评委之一的叔同，在决赛答辩结束后，跟在场的选手们分享了他对于云原生的理解。

“过去我们常以虚拟化作为云平台和与客户交互的界面，为企业带来灵活性的同时也带来一定的管理复杂度；容器的出现，在虚拟化的基础上向上封装了一层，逐步成为云平台和与客户交互的新界面之一，应用的构建、分发和交付得以在这个层面上实现标准化，大幅降低了企业 IT 实施和运维成本，提升了业务创新的效率。

从技术发展的维度看，开源让云计算变得越来越标准化，容器已经成为应用分发和交付的标准，可以将应用与底层运行环境解耦；Kubernetes 成为资源调度和编排的标准，屏蔽了底层架构的差异性，帮助应用平滑运行在不同的基础设施上；在此基础上建立的上层应用抽象如微服务和服务网格，逐步形成应用架构现代化演进的标准，开发者只需要关注自身的业务逻辑，无需关注底层实现，云原生正在通过方法论、工具集和理念重塑整个软件技术栈和生命周期。

以容器为代表的云原生技术，用开放、标准的技术体系，帮助企业和开发者在云上构建和运行可弹性扩展、容错性好、易于管理、便于观察的系统，已经成为释放云价值的最短路径。最早创造和应用容器技术的是互联网公司，今天有了开放标准的云原生生态，使得容器技术得到迅速普及，越来越多的企业和开发者使用容器构建应用，共同享受这一技术红利。”

一、为什么决赛选择了Serverless这一技术方向？

事实上，基于服务器的云服务并不是云时代的终态。
试想一下，如果服务器的概念被进一步抽象，那么与服务器有关的维护工作都会变成由云来承担。这就是我们常说的Serverless。过去十年，云正在逐步向 Serverless 演进。阿里云最初发布的 ECS 是服务器抽象，随着云原生技术的发展，Docker 容器让应用运行变得简单，Kubernetes 让集群运维变得简单。

阿里云Serverless负责人、本次云原生编程挑战赛决赛评委之一的不瞋在分享中提到，2016 年，阿里云发布的函数计算提供了函数级抽象，2019 年发布的 SAE 提供了应用级抽象，这些产品都抹去了服务器的概念，让用云方式得到极大的简化，并逐渐成为趋势。Serverless 已经不仅仅只有函数一种形态，它应该有不同的抽象级别。

总的来看，Serverless有三大核心价值：

基于快速交付、智能弹性、更低成本的三大核心价值，Serverless 被认为是云时代的全新计算范式，引领云在下一个十年乘风破浪。

二、他们凭什么赢得阿里云众多技术专家的认可？

今年是云原生编程挑战赛的第一年，是过去5年“中间件性能挑战赛”的升级。大赛一经发布，就吸引了众多开发者和高校学生的注意力。据统计，本次云原生编程挑战赛总计报名团队11060支，初赛分为三大并行赛道：【赛道1】实现一个分布式统计和过滤的链路追踪；【赛道2】实现规模化容器静态布局和动态迁移；【赛道3】服务网格控制面分治体系构建。

通过三大赛道，为参赛团队更多的选择，从而让更多的开发者能够加入到比赛中来。

正如云原生编程挑战赛负责人天北所说，“为了让这么庞大的参赛团队有充足的时间备战，同时也给评委更多的时间从这么多优秀的团队和作品中做出合理公正的选择，我们将大赛的赛程设置为4个月的长期赛，对于每个坚持到最后的参赛团队而言，都是一场脑力与耐力的比拼。在大赛结束之后，我们也会把优秀的作品分享出来，让大家了解这次大赛的技术方案和参赛团队的一些创新的想法，从而赋能更多的开发者。”

本次大赛与其他编程类大赛最大的不同在于，云原生是未来十年最热的技术趋势之一，对于每一个参赛团队而言，所要处理的技术问题和挑战，都是未来大家真正深入到工作中会用到的方法和技能。每个赛题都来自于阿里云技术专家多年的实践思考，从技术痛点出发，真正能帮助选手了解Serverless、Service Mesh、Kubernetes等当下热门技术的核心。在这段比赛旅程中，阿里云的技术专家全程在钉钉群中为选手答疑解惑，启发大家从技术本身出发了解云原生是什么，解决什么问题，未来还有哪些想象力。

能从10000多支团队中脱颖而出，这十支战队有何“秘密武器”？

在赛后对这些参赛团队采访时，我们发现，他们对于新技术和新趋势抱有极大的学习热情，对于不懂的知识点会抽出时间来学习，对于已完成的方案仍然十分挑剔，每一处优化都希望尽可能达成更极致的效果。经历了4个月的磨砺，对于坚持到最后的这10支队伍而言，不仅结交到了一群热爱技术的朋友，更拓展了视野，接触到了最前沿的技术趋势。

而这4个月，对于选手的考察不仅是脑力的比拼，更是耐力的考验。在答辩现场，面对众多阿里云技术专家的“灵魂拷问”，这些选手们能够从容不迫地阐述方案、讲解技术优化思路，并在与专家们的交流中收获经验。

三、云原生在未来十年将进一步释放技术红利

云的技术发展会领先于企业落地的速度。尽管云原生技术已经被广泛接受，其在企业技术栈的落地仍然需要时间，也面临不少挑战。如容器化过程中改变传统虚拟机模式下的运维习惯，企业传统应用分布式微服务化的改造涉及 re-architecturing 等因素。

云原生被企业接受之后，落地的过程需要解决这些挑战。运维管理含有丰富组件并快速演进的云原生的基础设施也对企业 IT 人员的技术技能提出了更高的要求。但是我们坚信，云原生技术带来的资源成本降低，研发运维效率提升等巨大价值，会驱动企业迎接这些挑战。

在这个过程中，使用云原生上云，基于容器和服务网格等标准界面和混合云方案，将极大的降低迁云复杂度，使企业可以更快迁移到云上标准服务。**通过云原生上云最大化使用云的能力，高效的社会分工，使企业聚焦于自身业务发展，相信将成为企业的共识。
**

在企业迈入云原生的历程中，阿里云原生也将提供最大的助力。阿里云拥有国内最丰富的的云原生产品家族，最全面的云原生开源贡献，最大规模的云原生应用实践，最广泛的云原生客户群体，助力企业数字化转型。全链路压测、极速弹性扩缩容以及云原生的全栈技术已广泛服务于互联网、金融、零售、制造、政务等领域企业和机构，大幅降低了应用开发的门槛，让企业轻松享受云的技术红利。

对于云原生从业者来说，最大的挑战之一就是兑现新技术给业务带去的价值。站在新的一个十年起点，云原生从业者应当坚定自己对于新技术价值的理解和洞察，沉下心去将云原生的基础能力建设好，创造行业趋势，为云计算的发展做出自己的贡献。

今年是云原生编程挑战赛的第一年，是一个非常好的开始。我们看到越来越多年轻的技术力量融入到云原生的技术浪潮里，因为相信，所以看见。这些跳动的思考、新鲜的血液、创新的方案也将成为中国云原生技术发展生生不息的动力源泉。

决赛答辩方案介绍：
https://tianchi.aliyun.com/forum/?spm=5176.12282029.0.0.72d86fdcIExKCw#raceId=231793

点击决赛答辩，观看云原生编程挑战赛决赛答辩盛况。

技术与业务同行：我是如何在业务中成长的?

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

作者：慕扉

应用实时监控服务ARMS（Application Real-Time Monitoring Service）是一款应用性能管理（APM）产品，包含应用监控、Prometheus监控和前端监控三大子产品，涵盖分布式应用、容器环境、浏览器、小程序、App 等领域的性能管理，能帮助用户实现全栈式性能监控和端到端全链路追踪诊断，让应用运维从未如此轻松高效。

我主要负责阿里云ARMS前端监控平台，该业务更偏向于技术类产品。我想聊聊如何在业务中成长，期间也有困惑和迷茫，希望我的经历或者方式方法能给有类似情况的前端同学有所帮助。

我个人的成长主要分为三个阶段，分别是：

（1）监控领域初接触，建立自身监控知识体系
（2）业务痛点跟进，打造监控平台核心能力
（3）业务场景不断拓展，建立保障业务稳定体系

监控领域初接触，建立自身监控知识体系

最初业务面临的问题：业务上线之后，用户在实际访问时遇到错误，业务方无法快速感知；发生线上故障后，很多场景无法快速复现和排查原因等。基于业务的这些痛点，团队决定搭建前端监控平台来解决这些问题。

我是从Retcode2.0正式开始接触前端监控领域，面对一个新的领域，需要快速从0-1建立自身监控知识体系。这个过程是非常充实且充满挑战的，但当你完成这个阶段后会非常有成就感。面对未知和挑战，这里总结一下我认为比较重要的经验。

勇于打破自己的边界，拓展自己的技术栈

前端监控的整个体系简单总结一下：采集、日志存储、日志切分&计算、数据分析、告警，也就是工作不再局限于前端业务的开发工作，需要有Nginx服务运维能力、实时/离线分析能力、Node应用开发运维能力等等，所以我迈出了第一步，从前端->全栈的转变，让我整体熟悉并能把控前端监控从采集到最后告警诊断整个流程，在这个基础上让我后续能Cover整个监控平台。

Owner意识

对于负责的产品需要具备较强的Owner意识，把工作做大做强，服务好客户。每一个功能的开发、迭代、优化及创新，认真对待，保障每个环节做到最好。在这个过程中，我的角色也发生了改变，从最初的功能实现落地者到产品能力的主导技术方案的选型拍板者，这段时间的复盘让我不经意间意识到自己的这些变化。

以我自己的一个经历为例：最初日志服务器的部署是运维同学直接在机器上配置好，再提供服务。我接手后就遇到了一个比较大的问题：扩容。正常应用扩容是很简单的事情，通过PSP提交扩容申请单，可快速完成扩容。但当前Nginx日志服务没有基线配置，无法直接PSP扩容，只能手动配置。

对于扩容来说，当前的方案存在2个问题：

（1）手动配置扩容时间成本高
（2）无法有效保证所有机器上各类包的版本号一致。

为了解决这些问题，就需要了解Nginx日志服务的能力及运维相关的能力，通过与PE、后端同学讨论，最终决定采用Dokcer的形式解决当时扩容的问题，不仅提升了运维效率，也为后续海外业务支持打好了基础。
所以给到大家的建议是，不要单纯的完成产品的一个个功能，而是要有Owner意识，认真审视业务面临的问题，能够主动去跟进和改变，慢慢积累后续会产生质变。

业务痛点跟进，打造监控核心能力

平台从0-1搭建完成后，为了服务更多的业务，打磨产品能力，正式上云升级为阿里云ARMS前端监控平台。监控的基础能力已全部上线，后续如何发展是我需要思考的问题。如果后续在这个基础上一直做迭代优化，产品和个人都没有明显的突破与成长。

针对技术类产品，大部分是技术同学主导，在产品发展到一个阶段后，就会面临如何做后续的突破问题。我有两点建议：

（1）深入业务面临的问题，制定技术解决方案。

首先问自己几个问题：
• 业务方是谁？
• 现在业务在用自己的产品的时候都有哪些问题？
• 业务的诉求是什么？
• 自己的产品存在哪些问题？

深入挖掘这些问题，列出TOP5的答案，会发现有很多值得去做和突破的事情。

在最初的前端监控领域，产品都集中在针对采集上报的数据做统计展示阶段，通过数据指标的波动情况发现异常，然后接下来异常的定位则直接依赖于原始日志，原始日志如果覆盖不到信息，则只能靠业务同学自己复现和排查了。更多时候统计的数据无法解释，直接导致业务同学对数据的准确性产生质疑。所以监控产品要从最初的数据统计演进为问题定位。在这个阶段，主导并补齐相应的问题诊断链路。

（2）拓展视野 (技术&业务)

在主导一个产品方案/制定技术方案前，需要提前调研，辅助做出决策。调研的目的是拓展自己的技术&业务视野，其中对应的途径可以有：

• 竞品分析：当前成熟的产品听云、dynatrace、oneAPM等；

• 相关联领域同学输入/讨论：产品、后端应用监控同学等。

一个线上问题的排查，不是独立的前端监控或者应用监控就直接给到原因的，拓展自己认知的领域后，与后端中间件同学讨论，最终制定提供全链路监控的方案，来满足业务排查问题的诉求。通过这个案例可以看到，如果不跨出一步，是看不到也无法给出方案的。

业务场景不断拓展，建立保障业务稳定体系

在产品能力整体趋于稳定后，如何寻找自己的突破口？我也曾经走过误区，希望自己在技术上能有突破，所以出发点是现在有哪些技术可以在我的产品上体现出深度，直接导致越考虑越迷茫。其实，正确的出发点仍然是第二部分提到的：从业务痛点出发来制定解决方案。在这一部分不再是单点解决问题，而是体系化的考虑方案。

我有几点经验可以分享下：

开放的心态，合作共赢

技术类产品会收到各个业务方的诉求，在人力有限的情况下要支持各类诉求难度很大。这时候摆正心态，可以拉诉求方同学合作共建，更好的满足业务方诉求，同时让产品也不断拓展支持场景。

前端技术发展非常迅速，在最初小程序迅猛发展的时候，小程序的监控诉求也随之而来。但当时团队对于小程序的技术架构等并不熟悉，在此基础上做监控成本较大。其中钉钉有较多的访问量级较大的小程序，对于监控有较强的的诉求，在综合考虑业务诉求和产品拓展后，与钉钉同学合作共建支持各类小程序的监控诉求。在这次合作中，让我深刻体会到优势互补、事半功倍的效果。

体系化建设

在前期完成对于整个体系的了解，后续可以从这个体系涉及的各个环节来综合考虑解决方案。

随着业务的不断接入，监控所需的计算资源、存储资源等问题不断暴露出来，这时候我的工作不仅要保障业务稳定，更要保障平台稳定，所以在采集阶段、上报阶段、存储阶段、计算阶段考量制定保障方案。完成体系化稳定性建设后，不仅可以在大促前1分钟发现风险，也可以保障平台稳定支持大促中各类站点的监控诉求，并且在大促后沉淀赋能于日常的稳定性运维工作。

结束语

每个人的经历与负责的工作各不相同，无法直接照搬别人成功的经验，同时很多总结的点都是知易行难，但可以从优秀同学的经验及总结中找到自己认可的内容，坚持并不断在自己身上实践，只有不断实践才能慢慢转化为自己的能力。

推荐文档：
阿里云业务实时监控服务ARMS：https://www.aliyun.com/product/arms
阿里云业务实时监控服务ARMS前端监控：https://arms.console.aliyun.com/#/retcode
阿里云业务实时监控服务ARMS前端监控文档：https://help.aliyun.com/document_detail/58652.html

ARMS是阿里云原生团队非常重要的一款产品。目前已经服务了如人人视频、完美日记、畅捷通等众多客户，云原生中间件的技术和产品体系，如何帮助企业降低业务的运行成本和技术风险？如何提升业务的迭代速度？针对云原生场景下常见的技术挑战和痛点，阿里云、人人视频、畅捷通技术专家有哪些技术经验和思考？我们将在9月18日13:00 云栖大会「云原生中间件」全面揭秘！

扫码或点击阅读原文预约直播，获取云原生中间件的实战经验和落地思考。
阅读原文：https://yunqi.aliyun.com/2020/session91

解构云原生，从概念到落地：阿里云、声网、微博、好未来、CNCF的专家们怎么看？

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

钉钉2小时内扩容1万台云主机支撑2亿上班族在线开工，申通快递核心系统云原生化上云，日均处理订单3000万，IT成本降低50%，中国联通建成最大云上BSS系统支持3.6亿用户无缝覆盖，完美日记采用容器服务ACK，节省服务器成本50%以上，轻松应对大促……

这些案例的背后正是云原生的普及，推动全社会加速享受技术红利。从2009年首次上线核心中间件系统，到2011年淘宝天猫开始使用容器调度技术，再到推出自研云原生硬件神龙服务器、云原生数据库PolarDB，阿里已经在云原生领域深耕数十年。2019年双11之前，阿里核心系统完成100%上云，这也是全球规模最大的云原生实践。

目前，阿里云已将基础设施全面升级云原生。关于云原生，我们曾在年初发布了：2020 云原生7大趋势预测。对于云原生从业者而言，2020年最大的挑战就是兑现新技术给业务带去的价值，那么过去一年，阿里云原生取得了哪些成果？又有哪些企业接受了云原生的技术理念从而加速业务升级？

让我们在云栖大会做一次整体的汇报。作为今年云栖大会的重磅热点之一，云原生有哪些新玩法？

四大分论坛，拆解云原生技术实践

分论坛一：企业云原生创新与实践

以前一家企业想使用云原生的技术或产品，需要花费大量的精力研究一些开源项目，自己做运维和管理，还需要考虑集成、稳定性保障等问题，这样才能建立一个云原生平台。今天，为了方便企业和开发者更容易地使用云原生的技术和产品，更好地接受云原生的理念，并解决企业担忧的可靠性、性能、连续性等问题，阿里云为大家提供了一整套云原生产品家族，提供了非常强的 SLA 保障。

在企业云原生创新与实践分论坛，不仅有阿里云技术专家分享容器技术、Serverless容器、云原生基础设施、底层系统等产品升级和发展演进，还邀请了来自好未来、声网、新浪微博、CNCF的技术专家分享云原生实践的历程、开源项目和经验思考。

分论坛二：云原生中间件

如果把企业内部的业务比喻为一个城市系统，这个城市中的IT机构就是像水、电、煤一样的基础设施，那么中间件就类似于输水管道，推动着数据从一个应用流向另一个应用。而在云计算时代，中间件又被赋予了新的定义，那就是对云原生的支持。

本论坛将全面解读如何利用阿里云原生中间件的技术和产品体系，帮助企业降低业务的运行成本和技术风险，提升业务的迭代速度。同时，针对云原生场景下常见的技术挑战和痛点，分享技术经验和思考，并深入探讨云原生中间件如何加速企业数字化转型等热点话题。

分论坛三：Serverless，引领云的下一个十年
试想一下，如果服务器的概念被进一步抽象，那么与服务器有关的维护工作都会变成由云来承担。这就是我们常说的Serverless。过去十年，云正在逐步向 Serverless 演进。阿里云最初发布的 ECS 是服务器抽象，随着云原生技术的发展，Docker 容器让应用运行变得简单，Kubernetes 让集群运维变得简单。

Serverless将开发人员从繁重的手动资源管理和性能优化中解放出来，就像数十年前汇编语言演变到高级语言的过程一样，云计算生产力再一次发生变革。与其说Serverless是云计算的升华，不如说Serverless重新定义了云计算，将成为云时代新的计算范式，引领云的下一个十年。对于Serverless的热点话题，我们在Serverless分论坛邀请众多大咖一起来碰撞新思考。

分论坛四：企业数字化转型最佳实践

云原生，是云计算的再升级，也是企业数字化转型的最短路径。阿里巴巴作为中台概念提出者和践行者，积极推动中台发展，并完整提出从理论到实践的企业数字化转型最佳路径。本论坛将介绍业务中台技术解决方案产品为基础，围绕服务能力的标准化、可复用、可扩展、可视化、可管控等要素提供新方法和新工具，帮助业务中台实施落地。

一场Serverless重磅新品发布

在云栖大会新品发布会上，阿里云智能研究员丁宇将重磅发布4个Serverless生态产品，助力阿里云Serverless的快速发展。

• 沙箱容器2.0：阿里云Serverless产品的基石，更稳定、更安全、更弹性。
• EventBridge：云上事件枢纽，原生支持CloudEvents，更标准、更规范。
• Serverless工作流：提供简单灵活、可视化的函数编排，更直观、更便捷。
• 函数计算2.0Plus：携手开发者工具+应用中心，引领开发者体验全面升级。

在9月18日13:00 云栖大会上，丁宇将详细讲解四大产品的特性和应用实践，扫码订阅直播，第一时间获得直播开始通知。

一场面向生态合作伙伴的分享

随着阿里云在云原生领域的探索和实践，阿里云逐渐成为云原生领域的定义者，领导者，对云原生技术发展做了一些预判：

• 我们相信，云原生技术成为了云计算的新界面；
• 我们相信，云原生技术能够重塑软件研发全生命周期；
• 我们相信，云原生技术能够推动了信息产业的转型与升级；

因此说云原生是释放云计算技术红利的最短路径；这次阿里云正式发布的云原生联盟，是阿里云云原生合作伙伴计划的重要载体。以解决方案伙伴为驱动，带动分销伙伴、服务伙伴，实现三位一体，帮助伙伴在销售能力、产品和解决方案能力、服务能力的全面成长。坚持定位云原生基础设施，“练好内功、做好被集成，帮助伙伴构建自身核心竞争力，共同服务企业数字化转型”。

9月17日13:00，阿里云智能资深解决方案架构师宁晓民将分享云原生合作伙伴计划的发展与目标。

附上云栖大会云原生参会指南，一图解锁云原生重要热点和重大发布。

敬请期待 9.18云栖大会-云原生四大分论坛精彩内容。点击订阅提前订阅直播。

ARMS在APM工具选型中的实践

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

前言

当前的系统在数字化转型需求以及互联网架构实施的影响下，越来越普遍地使用了微服务架构，我们在享受微服务带来的好处（开发效率高，独立部署，水平扩展，故障与资源隔离等等）外，也带来测试，事务，应用监控等各方面的困难。

从上图可以看出，在以分布式为主的互联网架构下，应用间的调用变得越来越复杂，我们传统使用的开发工程师主动埋点，运维人员到主机上查日志，组合调用链，监控应用的运行情况，显得越来越力不从心。

为了更好地做到应用层面的监控，包括应用运行环境的基础设施数据，系统业务调用情况，性能消耗分析，在发生性能，异常与故障问题时，能够快速定位和解决问题，诞生了很多优秀的APM（Application Performance Management）工具。

这些APM工具都提供了包括指标统计信息与调用链路跟踪信息。

常见的APM工具

APM工具包括指标收集与调用链收集。指标收集例如在某一段时间的请求数，异常数，错误数，响应时间RT， IAAS层的资源使用情况（例如cpu, memory, IO, load, 网络），也包括JVM的各种运行参数（例如各内存分区情况，gc情况）。调用链收集包括业务请求中访问过的各应用，类，方式，在每个运行节点/方法上的时间消耗情况。
常见的APM工具有：
1、ARMS:由阿里巴巴自研开发的一款APM工具。由于分布式微服务框架以阿里为主体的企业很早就开始探索，阿里集团内很早就有配套的鹰眼系统做相关的应用监控，为适应产品上云输出，阿里在2016-08-04的时间就以ARMS的产品形式正式对外提供应用监控服务。
2、开源系的APM
u Pinpoint：基于java编写的开源APM工具，由韩国人开发贡献，功能完善，发展快，影响了很多其它的APM工具实现，在国内外使用比较广泛。
u Skywalking：支持open tracing标准，由我国的吴晟主导开发的分布式追踪，分析，告警的开源工具，当前是Apache旗下的开源项目，发展非常迅速，在各类开源APM工具里国内的使用比较广泛。
u ZipKin：支持open tracing标准，由Twitter公司开发贡献，于2012年的时候就开始开源发展，是比较成熟的开源APM工具。
u Jaeger：支持open tracing标准，由Uber公司开发贡献，是比较成熟的开源APM工具。

APM工具原理

尽管这些APM工具功能与实现各有不同，但基本上原理都是一样的，这个原理基于google dapper的分布式追踪技术论文，把APM工具实现总体上分为两大部分：
1、对应用运行节点上进行应用埋点，在业务运行期间进行埋点数据的生成；

2、通过APM的后端服务日志收集，数据清洗与聚合，把相应的处理结果持久化，并且提供丰富的可视化控制台。

在这个调用链追踪技术里，还原调用链的功能主要依赖于两个ID.

第一个ID是TraceID, 这个代表一个业务调用，就好像在电商系统里发起的一个下单结算；在线教育里的一个选课流程；物流系统里的揽收；这些业务从客户触发到获得响应结果就是一个完整的请求，就是一次业务调用，它每一次的业务请求的都会获得维一的TraceID;

第二个ID是RpcID (或者称为SpanID), 在一次业务请求中，可能经过的应用会有多过，以一个电商下单业务为例：它需要经过订单系统创建订单；支付系统接受支付；库存系统扣减产品库存；会员系统给买家进行积分处理；购物车系统会清理购物清单。这样对于业务流经的每一个应用，都有一个有层次的RpcID, 这个RpcID可以认为是使用目录层级记录的，从这个RpcID来看，那怕它在同一个业务中被调用了多次，它的每一次进入的RpcID都是一样的。

依赖于TraceID & RpcID,我们可以很方便地还原整个调用链。

ARMS功能上的优势：

客观来说，优秀的APM工具发展到现在，基础功能上的差异都不大。例如以前开源APM比较薄弱的自动埋点功能也跟进了ARMS这些先发的产品；在异步产品如各类MQ的支持上也慢慢拉平；SQL/API参数抓取的功能方面也是补足。我们再来列一下ARMS的优点：

1、指标数据的准确性
ARMS的agent把指标数据与调用链数据是分开两种类型来采集统计的，相应的指标数据不受调用链的采样率的影响，会在具体的运行节点进行完完全全的统计后，精准到上传加载到ARMS后端。（而有些优秀的APM工具是通过采样上来的调用链进行加工处理，再来产出相应的指标，这在准确性上会有一定的丢失。）
2、线程栈捕获
因为是JAVA自动埋点的原理是对已知的框架进行字节码加强，当某框架不在已支持的范围内，那么这段访问的信息就不会被记录下来。ARMS可以通过设定调用超过一定时长后，可以通把整个线程栈捕获下来，这样我们就可以通过线程栈的分析进行补充定位。
3、线程分析
ARMS可以通过线程分析页签，清淅地看到各类线程的资源占用情况。例如可以知道当前的某线程池线程数是多少，占用cpu最多的线程是那个，占用的百分比情况，并且可以看到线程的运行状态。
4、业务关联日志
ARMS这边可以通过给合传统的log4j等技术，在输出业务日志上可以把相应的TraceID 就像线程ID那样通过方便的配置就可以与业务日志同时输出。另外，ARMS与阿里云的SLS进行整合，可以通过ARMS的页面方便地根据调用链的TraceID查找到关联的业务日志，这样需要结合业务日志定位时，更方便实用。
5、智能合并能力
ARMS对于相同的调用，例如递当，循环会进行智能合并，显示循环的次数，执行的最大时长，最小时长，平均时长。

6、主动诊断能力
ARMS提供了主动诊断能力，可以通过选定具体的时间，执行主动诊断，ARMS会分析这一段时间内的应用运行情况，自动总结这一段时间内的问题，并且结合阿里的经验，产出具体的报表。我们依据这个报表，可以加速我们的定位与优化。
7、丰富的报警能力
完善报警体系，ARMS提供了丰富的报警规则，我们可以对相应的规则进行开启/关停，编辑，这样可以快速搭建报警体系。在报警通道方面，可以直接发对接钉钉/WebHook/Email/短信网关等。

运维能力上的优势

1、按需监控启停管理
通过ARMS的管理控制台，我们可以批量在管理应用的启停，可以一键停止所有的ARMS监控，也可以一键启动相关应用的监控。非常符合上云的按需要使用观念。
2、动态采样率变更
在面对特殊的时间点或者异常出现机率的时候，我们希望动态调整采样率，例如通过调大采样率来捕获这些概率极少的调用链，借助ARMS的配置管理，我们可以非常方便地把更齐全的调用链收集起来；通过调小采样率来保证存储空间的合理使用（其它的APM工具在做采样率的变更时，需要应用的重新配置，启动，这不但处理起来麻烦，并且影响业务的边续性，在实际操作上很难下定决心去在运行期间中断业务去做改变采样率的变更。）
3、绑定参数的开关
虽然很多APM工具都可以提供绑定参数的功能。但很多时候，如果对于业务数据敏感的系统，并不希望这类APM工具在非必要的时候采集SQL/API的运行参数。所以ARMS在它的配置管理里提供这么一个功能非常有意义，也就是当需要收集这些运行的业务参数进行问题定位分析的时候，那么只要打开就可以了，使用完毕后，再通过把这些开关关上，那么就可以保护我们的业务数据不外泄漏出去了。
4、接入简易
可通过更简易的方式如阿里容器ACK/EDAS/SAE等各种非常便捷的接入方式，只需要简单的YAML注解或按钮即可完成接入。
5、组件稳定免运维
因为ARMS是商业化的产品，所以所有的组件都是不需要我们使用方运维的。如果使用开源自建，那么我们就需要对日志收集，计算清洗服务，存储产品本身进行运维，包括相应的集群规模，清理处理，扩容处理，如果在峰值过后，不进行资源回收，也会产生额外的使用浪费。

成本使用上的优势

1、 ARMS是按接入节点，接入的小时（时长）计费的，这样可以充分发挥云上产品的优势。按需要使用，按需要的应用节点付费。另外ARMS单纯地按照节点数来计算，并不受采样率的变动而产生变化，这样对于大采样率的应用是有一定的优势。
2、 ARMS有相应的资源包，可以通过购买资源包的方式进一步节省费用。
3、因为产品的组合因素，ARMS如果搭配阿里云的容器（ACK）使用，计费会自动5折。

最后，这里列一下开源与ARMS的一个成本的比较供大家参考：

备注

1、开源的按照统一统计数据存15天，全量明细数据存3天计算（ARMS的数据是全天24小时使用，存储60天，在非容器下按年包折下来的月费用。）
2、人力成本以具有开发能力的运维人员月薪3万计算。人力成本，主要参数变动带来的发布，后端系统的不稳定带来的效率损失，后端系统的维护操作。中大型的会做一些定制的开发（例如采样的动态配置化生效）

综述

在阿里云上，ARMS在APM层面提供了足够丰富的功能；可以友好地运维操作；另外通过合理地按需使用，结合资源包，以及容器的方式运行，使用起来还高效与节省。作为基础设施的实用监控，不重复发明轮子，不重人力资源投入，综合考虑各方面因素，最终选择使用ARMS。

【升级】9月4日Afilias注册局维护通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【域名】【Afilias注册局维护通知】

维护时间：北京时间 2020年9月4日 22:00 - 23:00

维护内容：接到注册局的通知，注册局将于上述时间对后台系统进行维护升级。

维护影响：届时 .Red/.Kim/.Pro/.Asia/.Info/.Mobi/.ORG域名的注册、续费、信息修改和查询域名注册信息等操作，将会无法使用，在此期间会对您造成的影响如下：

1、您提交的注册（购买）、续费、转入、赎回、一口价域名业务在支付费用后状态为“处理中”，待维护结束后将变为正常的“成功”状态；

2、维护过程中您无法对域名注册信息进行修改，将提示修改失败。

如果您需要注册或管理以上业务操作，建议您避开该时间段，以免给您的业务造成影响。

由此给您带来的不便，我们表示歉意，敬请谅解。

【升级】9月11日消息队列AMQP升级通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【消息队列AMQP】【升级通知】

升级窗口：北京时间2020年9月11日 00:00 - 03:00
升级内容：华东1（杭州）、北京、深圳、上海、内蒙古、张家口、香港、青岛等全部区域（铂金版）服务升级。
升级影响：升级期间消息队列AMQP相关服务访问可能会出现多次闪断或者拒绝连接现象，每次闪断或拒绝连接不会超过 5 分钟，请在客户端中做好重连重试机制。如需在控制台进行管理操作，请避开维护时间段。

给您带来的不便敬请谅解，有任何问题，可点击联系我们进行咨询反馈。

权威认可！蚂蚁分布式金融核心套件bPaaS成金融核心系统的最佳实践-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

日前，由国家金融与发展实验室金融科技研究中心与神州信息共同发起，由金融科技50人论坛具体推动和落实的 “首届NIFD-DCITS全球金融科技创新案例”征集活动在“金融科技创新应用与发展”研讨会上公布成果。

经过为期一年的征集评选，蚂蚁分布式金融核心套件bPaaS从112个来自国内外金融机构、科技企业的参选案例中脱颖而出，正式入选 “2020全球金融科技创新案例库”，并收录于《“新基建+数字金融”全球金融科技创新实践（2020）》一书中，已由中国金融出版社发行。

分布式金融核心套件bPaaS（Business Platform As a Service）是凝结了蚂蚁多年“大中台、小前台”架构实践沉淀的分布式金融核心能力，它依托蚂蚁集团的金融领域建模和微服务应用架构实践，可以帮助金融机构快速建立数字化对客服务和数字化运营能力，支撑其快速业务创新, 促进业务发展。

以网商银行为例，作为中国第一家核心系统基于云计算架构的商业银行，网商银行基于分布式金融核心套件bPaaS的金融基础服务和基础组件，提供产品业务创新迭代所需要的整套技术服务，同时保障底层基础设施具备更高的稳定性、可用性及性能。在没有一个网点的情况下，截至目前，网商银行已为超过2000万家小微企业及个体经营者提供了金融服务。

实际上，bPaaS的精髓就在于，以非常强大的可编排、可组合、可配置、可扩展的技术服务能力，来支撑业务的快速敏捷和灵活多变，让金融机构“复制蚂蚁的核心技术能力”成为现实。当前，bPaaS 已从对内提供服务开放给对外提供服务，将自带支付宝10余年来的技术发展和业务创新能力赋能金融机构，是分布式架构下金融核心系统的最佳实践。

据悉，包括蚂蚁企业级分布式关系数据库OceanBase、金融级分布式架构SOFAStack、移动开发平台mPaaS和分布式金融核心套件bPaaS等在内的数十个系列、上百款产品和解决方案正通过阿里云新金融统一对外输出，服务各种类型的金融机构。未来，还会有越来越多的蚂蚁金融科技产品和解决方案通过阿里云新金融对外输出，全力助推金融客户完成数字化转型。

论程序的健壮性——就看Redis-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

“众里寻他千百度，蓦然回首，那人却在，灯火阑珊处”。多年的IT生涯，一直希望自己写的程序能够有很强的健壮性，也一直希望能找到一个高可用的标杆程序去借鉴学习，不畏惧内存溢出、磁盘满了、断网、断电、机器重启等等情况。但意想不到的是，这个标杆程序竟然就是从一开始就在使用的分布式缓存——Redis。

Redis（Remote Dictionary Server )，即远程字典服务，是 C 语言开发的一个开源的高性能键值对（key-value）的内存数据库。由于它是基于内存的所以它要比基于磁盘读写的数据库效率更快。因此Redis也就成了大家解决数据库高并发访问、分布式读写和分布式锁等首选解决方案。

那么既然它是基于内存的，如果内存满了怎么办？程序会不会崩溃？既然它是基于内存的，如果服务器宕机了怎么办？数据是不是就丢失了？既然它是分布式的，这台Redis服务器断网了怎么办？

今天我们就一起来看看Redis的设计者，一名来自意大利的小伙，是如何打造出一个超强健壮性和高可用性的程序，从而不惧怕这些情况。

一、 Redis的内存管理策略——内存永不溢出

Redis主要有两种策略机制来保障存储的key-value数据不会把内存塞满，它们是：过期策略和淘汰策略。

1、过期策略

用过Redis的人都知道，我们往Redis里添加key-value的数据时，会有个选填参数——过期时间。如果设置了这个参数的值，Redis到过期时间后会自行把过期的数据给清除掉。“过期策略”指的就是Redis内部是如何实现将过期的key对应的缓存数据清除的。

在Redis源码中有三个核心的对象结构：redisObject、redisDb和serverCron。

redisObject：Redis 内部使用redisObject 对象来抽象表示所有的 key-value。简单地说，redisObject就是string、hash、list、set、zset的父类。为了便于操作，Redis采用redisObject结构来统一这五种不同的数据类型。

redisDb：Redis是一个键值对数据库服务器，这个数据库就是用redisDb抽象表示的。redisDb结构中有很多dict字典保存了数据库中的所有键值对，这些字典就叫做键空间。如下图所示其中有个“expires”的字典就保存了设置过期时间的键值对。而Redis的过期策略也是围绕它来进行的。

serverCron：Redis 将serverCron作为时间事件来运行，从而确保它每隔一段时间就会自动运行一次。因此redis中所有定时执行的事件任务都在serverCron中执行。

了解完Redis的三大核心结构后，咱们回到“过期策略”的具体实现上，其实Redis主要是靠两种机制来处理过期的数据被清除：定期过期（主动清除）和惰性过期（被动清除）。

惰性过期（被动清除）：就是每次访问的时候都去判断一下该key是否过期，如果过期了就删除掉。该策略就可以最大化地节省CPU资源，但是却对内存非常不友好。因为不实时过期了，原本该过期删除的就可能一直堆积在内存里面！极端情况可能出现大量的过期key没有再次被访问，从而不会被清除，占用大量内存。
定期过期（主动清除）：每隔一定的时间，会扫描Redis数据库的expires字典中一定数量的key，并清除其中已过期的 key。Redis默认配置会每100毫秒进行1次（redis.conf 中通过 hz 配置）过期扫描，扫描并不是遍历过期字典中的所有键，而是采用了如下方法：

（1）从过期字典中随机取出20个键；
（server.h文件下ACTIVE_EXPIRE_CYCLE_LOOKUPS_PER_LOOP配置20）

（2）删除这20个键中过期的键；

（3）如果过期键的比例超过 25% ，重复步骤 1 和 2；

具体逻辑如下图：

因为Redis中同时使用了惰性过期和定期过期两种过期策略，所以在不同情况下使得 CPU 和内存资源达到最优的平衡效果的同时，保证过期的数据会被及时清除掉。

2、淘汰策略

在Redis可能没有需要过期的数据的情况下，还是会把我们的内存都占满。比如每个key设置的过期时间都很长或不过期，一直添加就有可能把内存给塞满。那么Redis又是怎么解决这个问题的呢？——那就是“淘汰策略”。

官网地址：https://redis.io/topics/lru-cache
Reids官网上面列出的淘汰策略一共有8种，但从实质算法来看只有两种实现算法，分别是LRU和LFU。

LRU（Least Recently Used）：翻译过来是最久未使用，根据时间轴来走，淘汰那些距离上一次使用时间最久远的数据。
LRU的简单原理如下图：

从上图我们可以看出，在容器满了的情况下，距离上次读写时间最久远的E被淘汰掉了。那么数据每次读取或者插入都需要获取一下当前系统时间，以及每次淘汰的时候都需要拿当前系统时间和各个数据的最后操作时间做对比，这么干势必会增加CPU的负荷从而影响Redis的性能。Redis的设计者为了解决这一问题，做了一定的改善，整体的LRU思路如下：

（1）、Redis里设置了一个全局变量 server.lruclock 用来存放系统当前的时间戳。这个全局变量通过serverCron 每100毫秒调用一次updateCachedTime()更新一次值。

（2）、每当redisObject数据被读或写的时候，将当前的 server.lruclock值赋值给 redisObject 的lru属性，记录这个数据最后的lru值。

（3）、触发淘汰策略时，随机从数据库中选择采样值配置个数key, 淘汰其中热度最低的key对应的缓存数据。

注：热度就是拿当前的全局server.lruclock 值与各个数据的lru属性做对比，相差最久远的就是热度最低的。

Redis中所有对象结构都有一个lru字段, 且使用了unsigned的低24位，这个字段就是用来记录对象的热度。

LFU（Least Frequently Used）：翻译成中文就是最不常用。是按着使用频次来算的，淘汰那些使用频次最低的数据。说白了就是“末尾淘汰制”！
刚才讲过的LRU按照最久未使用虽然能达到淘汰数据释放空间的目的，但是它有一个比较大的弊端，如下图：

如图所示A在10秒内被访问了5次，而B在10秒内被访问了3 次。因为 B 最后一次被访问的时间比A要晚，在同等的情况下，A反而先被回收。那么它就是不合理的。LFU就完美解决了LRU的这个弊端，具体原理如下：

上图是末尾淘汰的原理示意图，仅是按次数这个维度做的末尾淘汰，但如果Redis仅按使用次数，也会有一个问题，就是某个数据之前被访问过很多次比如上万次，但后续就一直不用了，它本身按使用频次来讲是应该被淘汰的。因此Redis在实现LFU时，用两部分数据来标记这个数据：使用频率和上次访问时间。整体思路就是：有读写我就增加热度，一段时间内没有读写我就减少相应热度。

不管是LRU还是LFU淘汰策略，Redis都是用lru这个字段实现的具体逻辑，如果配置的淘汰策略是LFU时，lru的低8位代表的是频率，高16位就是记录上次访问时间。整体的LRU思路如下：

（1）每当数据被写或读的时候都会调用LFULogIncr(counter)方法，增加lru低8位的访问频率数值；具体每次增加的数值在redis.conf中配置默认是10（# lfu-log-factor 10）

（2）还有另外一个配置lfu-decay-time 默认是1分钟，来控制每隔多久没人访问则热度会递减相应数值。这样就规避了一个超大访问次数的数据很久都不被淘汰的漏洞。

小结：“过期策略” 保证过期的key对应的数据会被及时清除；“淘汰策略”保证内存满的时候会自动释放相应空间，因此Redis的内存可以自运行保证不会产生溢出异常。

二、 Redis的数据持久化策略——宕机可立即恢复数据到内存

有了内存不会溢出保障后，我们再来看看Redis是如何保障服务器宕机或重启，原来缓存在内存中的数据是不会丢失的。也就是Redis的持久化机制。

Redis 的持久化策略有两种：RDB（快照全量持久化）和AOF（增量日志持久化）

1、 RDB

RDB 是 Redis 默认的持久化方案。RDB快照（Redis DataBase），当触发一定条件的时候，会把当前内存中的数据写入磁盘，生成一个快照文件dump.rdb。Redis重启会通过dump.rdb文件恢复数据。那那个一定的条件是啥呢？到底什么时候写入rdb 文件？

触发Redis执行rdb的方式有两类：自动触发和手动触发
“自动触发”的情况有三种：达到配置文件触发规则时触发、执行shutdown命令时触发、执行flushall命令时触发。

注：在redis.conf中有个 SNAPSHOTTING配置，其中定义了触发把数据保存到磁盘触发频率。

“手动触发”的方式有两种：执行save 或 bgsave命令。执行save命令在生成快照的时候会阻塞当前Redis服务器，Redis不能处理其他命令。如果内存中的数据比较多，会造成Redis长时间的阻塞。生产环境不建议使用这个命令。

为了解决这个问题，Redis 提供了第二种方式bgsave命令进行数据备份，执行bgsave时，Redis会在后台异步进行快照操作，快照同时还可以响应客户端请求。

具体操作是Redis进程执行fork（创建进程函数）操作创建子进程(copy-on-write)，RDB持久化过程由子进程负责，完成后自动结束。它不会记录 fork 之后后续的命令。阻塞只发生在fork阶段，一般时间很短。手动触发的场景一般仅用在迁移数据时才会用到。

我们知道了RDB的实现的原理逻辑，那么我们就来分析下RDB到底有什么优劣势。

优势：

（1）RDB是一个非常紧凑(compact类型)的文件，它保存了redis在某个时间点上的数据集。这种文件非常适合用于进行备份和灾难恢复。

（2）生成RDB文件的时候，redis主进程会fork()一个子进程来处理所有保存工作，主进程不需要进行任何磁盘IO操作。

（3）RDB在恢复大数据集时的速度比AOF的恢复速度要快。

劣势：

RDB方式数据没办法做到实时持久化/秒级持久化。在一定间隔时间做一次备份，所以如果Redis意外down掉的话，就会丢失最后一次快照之后的所有修改

2、 AOF（Append Only File）

AOF采用日志的形式来记录每个写操作的命令，并追加到文件中。开启后，执行更改 Redis数据的命令时，就会把命令写入到AOF文件中。Redis重启时会根据日志文件的内容把写指令从前到后执行一次以完成数据的恢复工作。

其实AOF也不一定是完全实时的备份操作命令，在redis.conf 我们可以配置选择 AOF的执行方式，主要有三种：always、everysec和no

AOF是追加更改命令文件，那么大家想下一直追加追加，就是会导致文件过大，那么Redis是怎么解决这个问题的呢？
Redis解决这个问题的方法是AOF下面有个机制叫做bgrewriteaof重写机制，我们来看下它是个啥

注：AOF文件重写并不是对原文件进行重新整理，而是直接读取服务器现有的键值对，然后用一条命令去代替之前记录这个键值对的多条命令，生成一个新的文件后去替换原来的AOF文件。

我们知道了AOF的实现原理，我们来分析下它的优缺点。

优点：

能最大限度的保证数据安全，就算用默认的配置everysec，也最多只会造成1s的数据丢失。

缺点：

数据量比RDB要大很多，所以性能没有RDB好！

小结：因为有了持久化机制，因此Redis即使服务器宕机或重启了，也可以最大限度的恢复数据到内存中，提供给client继续使用。

三、Redis的哨兵模式——可战到最后一兵一卒的高可用集群

内存满了不会挂，服务器宕机重启也没问题。足见Redis的程序健壮性已经足够强大。但Redis的设计者，在面向高可用面前，仍继续向前迈进了一步，那就是Redis的高可用集群方案——哨兵模式。

所谓的“哨兵模式”就是有一群哨兵（Sentinel）在Redis服务器前面帮我们监控这Redis集群各个机器的运行情况，并且哨兵间相互通告通知，并指引我们使用那些健康的服务。

Sentinel工作原理：

1、 Sentinel 默认以每秒钟1次的频率向Redis所有服务节点发送 PING 命令。如果在down-after-milliseconds 内都没有收到有效回复，Sentinel会将该服务器标记为下线（主观下线）。

2、这个时候Sentinel节点会继续询问其他的Sentinel节点，确认这个节点是否下线，如果多数 Sentinel节点都认为master下线，master才真正确认被下线（客观下线），这个时候就需要重新选举master。

Sentinel的作用：

1、监控：Sentinel 会不断检查主服务器和从服务器是否正常运行

2、故障处理：如果主服务器发生故障，Sentinel可以启动故障转移过程。把某台服务器升级为主服务器，并发出通知

3、配置管理：客户端连接到 Sentinel，获取当前的 Redis 主服务器的地址。我们不是直接去获取Redis主服务的地址，而是根据sentinel去自动获取谁是主机，即使主机发生故障后我们也不用改代码的连接！

小结：有了“哨兵模式”只要集群中有一个Redis服务器还健康存活，哨兵就能把这个健康的Redis服务器提供给我们（如上图的1、2两步），那么我们客户端的链接就不会出错。因此，Redis集群可以战斗至最后一兵一卒。

这就是Redis，一个“高可用、强健壮性”的标杆程序！

作者：宜信技术学院谭文涛

阿里云多账号网络互通最佳实践-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

前言

在企业起步阶段，规模较小，一般采用单账号模式。随着企业的发展，单账号的缺陷越来越明显，多账号相对于单账号有众多优点：
• 多账号间的资源默认隔离，减少了单账号因为一个资源或服务问题导致其它资源和服务也出现问题的可能性；
• 多账号减少了单帐户过于宽泛的 RAM 权限带来的风险；
• 多账号便于成本结算、独立管理、环境隔离等。

因此中大型企业上云时通常选择多账号，但是多账号间往往存在着大量的网络互通场景，如何解决多账号的网络互通问题呢？
VPC 作为云上最常用的网络环境，不同账号的 VPC 之间默认是无法互通的，多账号网络互通常用的解决方案是 CEN（云企业网）和 VPN 网关。

基于 VPN 的网络架构

VPN 网关是一款基于 Internet 的网络连接服务，通过加密通道的方式实现企业数据中心、企业办公网络或 Internet 终端与 VPC 安全可靠的连接。VPN 网关可以实现跨地域、跨账号的 VPC 互通，在需要连接的 VPC 上创建 VPN 网关，网关之间通过基于 Internet 的 IPSec 加密隧道来传输私网数据，以实现安全可靠的多账号 VPC 间通信。

图1

如上图所示：服务分别部署在账号1、2、3的 VPC 网络环境中，每个服务基于多可用区和 SLB 实现同城双活，前端 VPC 部署前端服务，后端 VPC 部署后端应用，前端服务处理 Web 请求时需调用部署在账号2、账号 3 的后端应用，分别为每个 VPC 创建 VPN网关，VPN 之间配置 IPSEC、路由，以此来实现多账号网络互通。

基于 CEN 的网络架构

云企业网（Cloud Enterprise Network）是承载在阿里云提供的高性能、低延迟的私有全球网络上的一张高可用网络，可以在跨地域、跨账号的 VPC 间搭建私网通道，通过自动路由分发及学习，提高网络的快速收敛和跨网络通信的质量和安全性，实现全网资源的互通，打造一张具有企业级规模和通信能力的互联网络。

图2

如上图所示：首先创建 CEN 实例，将要互通的网络实例（专有网络和边界路由器）加载到 CEN 中，再购买一个带宽包（同 Region 无需购买带宽包），配置路由、跨账号授权等，即可实现服务在不同账号的 VPC 间互通。

VPN 和 CEN 网络架构比较

VPN 和 CEN 都可实现多账号网络互通，两者有何区别呢？
• VPN 需要为每个 VPC 配置 VPN 网关，创建 IPsec 连接、配置 VPN 网关路由等，随着 VPC 数量的增加，人工配置成本成倍增加；同时 VPN 连接使用共享的公网资源进行通信，网络延时和丢包率等都无法保证，其网络带宽受限于公网 IP 的带宽。在实际使用中 VPN 网关很少用于多账号网络互通，多用于本地数据中心与 VPC 互通以构建混合云。
• CEN 专线连接在网络质量、安全性和传输速度等方面都优于 VPN，但是 CEN 在跨账号连接时需要配置跨账号授权、路由等，存在一定的配置成本；跨 Region 通信时需要购买带宽，存在一定的费用成本；每个 CEN 实例在每个 Region 可加载的网络实例数量有限。

由此可见，VPN 和 CEN 都能解决多账号网络互通问题，但是不一定适合所有的场景，还有其他的方案吗？

ResourceSharing 介绍

不同于 VPN 和 CEN，资源共享服务（ResourceSharing）通过在账号间共享 VSwitch 来实现多账号网络互通。
如下图所示：企业账号 A、B、C、D 加入 ResourceDirectory（资源目录）后，资源所有者账号 A 把虚拟交换机共享给账号 B、C、D，这样账号 A、B、C、D 都能使用该虚拟交换机，并在该交换机上挂载 ECS/RDS/SLB 等资源，以此来实现不同账号的资源共享同一个子网。

图3

相对于 CEN 和 VPN，ResourceSharing 极大地简化了配置，在网络规模较复杂的场景下尤为明显。

基于 ResourceSharing 的网络架构

如下图所示为基于 ResourceSharing 的网络架构：账号 1 所在的 VPC 使用两个 VSwitch 作为多可用区以实现同城双活，用于部署前端服务；再共享三个 VSwitch 给账号 2 和账号 3 用于部署后端服务：“Shared VSwitch For AZ1 ECS” 用于挂截账号 2 和账号 3 在 AZ1 的 ECS 资源，“Shared VSwitch For AZ2 ECS” 用于挂截账号 2 和账号 3 在 AZ2 的 ECS 资源，“Shared VSwitch For SLB” 用于挂截账号 2 和账号 3 的 SLB 资源；这样基于资源共享的方式，前端服务与后端服务均在同一个 VPC 下，所有服务天然支持网络互通。

图4

由于每个账号仍然独立管控自己的资源，所以服务之间既实现了多账号间网络互通，又保证了相关资源在账号间的隔离，此外，相对于 CEN 和 VPN，ResourceSharing 有一定的优势：
• 整个体系在一个 VPC 中，因此不需要网关、路由、IPSEC、跨账号授权等相关配置，极大地简化了工作量。
• 服务在 VPC 内部通信，不依赖公网带宽，减少了网络延时和丢包率带来的风险。
• ResourceSharing 是完全免费的，能为用户节省不少成本。

总结

ResourceSharing 有众多优势，是否能取代 VPN 和 CEN 满足所有的应用场景呢？
• 由于 VPC 是地域级别的资源，因此 ResourceSharing 是不能跨 Region 共享 VSwitch 的，而 CEN 则没有这个限制，所以跨 Region 间 VPC 通信时通常选择 CEN 的方式。如下图所示 Region A 和 Region B 的 VPC 通过 CEN 互通。
• 当用户需要将本地数据中心与 VPC 互通以构建混合云时，ResourceSharing 显然无法满足需求。如下图所示通过 VPN 的方式将本地数据中心与安全登陆 VPC 快速连接起来。
• 当企业对安全有更高要求时，往往需要通过 VPC 将网络划分成多个安全域，ResourceSharing 由于共享 VSwitch 所在的实例都在同一个 VPC，无法满足需求。如下图所示：根据安全级别的不同，将整个网络分隔成多个 VPC，通过 CEN 实现不同安全域 VPC 的网络互通，利用 ResourceSharing 实现多账号同安全域 VPC 的网络互通。

图5

VPN 网关、CEN 和 ResourceSharing 分别适用于不同的场景，如上图所示为集团化的大型企业，网络架构较为复杂，同时用到了三种方案，用户在实际使用时，需要根据自己的需求和网络规模选择最合适的方案。

来了！2020云栖大会：蚂蚁金融科技产品能力再升级-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

当前，全球正在经历一场数字化变革，给各行各业带来了前所未有的影响。尤其在金融行业，以云计算、大数据以及移动互联网等为代表的科技已经开始广泛的运用到金融服务各个领域中，传统金融行业迎来了技术全面赋能的未来金融时代，金融科技正在为金融行业的业务场景创新与技术应用创新提供助力。

但科技与金融的融合并非一蹴而就，金融行业的数字化转型客观上还面临着如何快速搭建线上业务，如何利用互联网获客、扩大业务规模和覆盖范围，如何基于互联网用户群体的特性开发新的产品等诸多问题。

对于传统的金融机构而言，该如何构建深度融合的技术创新体系，更好推动数字化转型？在9月17日下午13点云栖大会数字金融源动力专场分论坛中，蚂蚁金融科技将发布“三驾马车”企业级分布式关系数据库OceanBase、移动开发平台mPaaS和金融级分布式架构SOFAStack的全新能力。

OceanBase 2.2 版本和全新一体机产品发布

OceanBase是蚂蚁集团完全自研的企业级分布式关系数据库，作为底层的基础设施，在为金融客户持续提供安全稳定的服务的同时，能够承载上层千变万化的业务需求和各种不同的使用场景。

据了解，OceanBase已服务大量金融、电信等行业企业，在南京银行、西安银行、天津银行、苏州银行、东莞银行、常熟农商行、广东农信、中国人保、招商证券、浙江移动等多家银行、保险、证券及运营商机构上线。

此次云栖大会，OceanBase聚焦客户需求，将发布完整的平台能力，混合负载引擎，多种容灾方式，以及全新的OceanBase一体机。

mPaaS：全新视频云营业厅方案发布

作为国内领先的移动开发平台，mPaaS能够为金融服务机构提供移动开发、测试、发布、分析、智能化运营各个方面的云到端的一体化解决方案，并将在本次云栖大会中推出全新的视频云营业厅解决方案，包括视频柜员、智能远程定损理赔、金融直播、智能双录等新的业务构想。

mPaaS已经服务了中国农业银行、广发银行，华夏银行，西安银行、国寿保险等众多B端客户，助力企业在数字时代赢得先机。例如，常熟农商银行引入mPaaS打造新一代移动金融中心，大幅提升App启动速度，有效降低闪退率和崩溃率，用户服务质量显著提升。而视频云营业厅的推出，则将金融行业更多业务场景搬到了“云上”，构建起了广域办事通道，将业务半径限制彻底“松绑”，极大改善了业务办理效率和用户体验，为企业的“全渠道数字化运营”提供了坚强后盾。

SOFAStack：金融级应用PaaS - 高可用管理解决方案发布

蚂蚁金融级分布式架构SOFAStack，能够提供从服务构建、应用开发、部署发布、服务治理、监控运维、容灾高可用等全生命周期、全栈式解决方案，不仅支撑着蚂蚁的丰富复杂业务，而且已全面对外开放，其中包括中国人保、南京银行、浙商证券、上海华瑞银行、四川农信银行等数十家金融机构。

其中，作为首期国家发改委的数字化转型伙伴行动的金融机构，四川农信借助阿里金融云平台、蚂蚁金融级分布式架构SOFAStack、mPaaS技术框架、数据中台等技术支撑，推动其IT架构由集中式向分布式的架构转型。

此次云栖大会，SOFAStack再次深入金融级PAAS运维领域，并发布金融级应用PaaS - 高可用管理解决方案，服务各类型的金融服务机构，助力其打造更好地服务大量用户的能力。

事实上，这些产品能力升级的重磅发布，都是基于蚂蚁金融科技的定位——不断加强金融数字化基础设施的能力。“蚂蚁金融科技和阿里云共同的使命，就是成为金融行业数字化的基础设施，为金融机构的数字化转型按下‘加速按钮’”，蚂蚁集团OceanBase CEO、金融云总经理杨冰表示。

未来，蚂蚁集团将继续坚持开放的战略依托多年沉淀下来的技术和经验，对外输出更多优质的金融科技产品和解决方案，助力金融机构建立基于云计算、数据智能、分布式业务系统等金融新基建，打造全新的金融服务体验和用户连接渠道，实现客户、场景、产品、服务等的全面数字化升级转型。

掌握基础设施技术脉搏，搭载数字化转型发展列车，更多精彩内容，赶快“阅读原文”来云栖大会“数字金融源动力”专场参加吧~~

直达云栖会场：https://yunqi.aliyun.com/2020/session152

智能语音组件适配指南 | 《无需从0开发 1天上手智能语音离在线方案》第七章-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

智能语音终端调试指南

1. 使用串口调试

1.1 用内置串口命令调试

YoC支持丰富的串口命令，通过串口命令可以完成很多调试操作。系统支持串口命令介绍如下：

help

> help
help            : show commands
ping            : ping command.
ifconfig        : network config
date            : date command.
ps              : show tasks
free            : show memory info
sys             : sys comand
log             : log contrtol
iperf           : network performance test
kv              : kv tools

输入 help 命令，可以查看当前所有支持命令：

ps 命令可以打印出当前系统所有的线程状态，每项含义介绍如下：

部分信息详细说明如下:

• 线程状态有ready、pend、suspend、sleep、deleted
– ready：表示当前线程已经等待被调度，系统的调度原则是：若优先级不同则高优先级线程运行，优先级相同则各个线程时间片轮转运行
– pend：表示当前线程被挂起，挂起原因是线程在等待信号量、互斥锁、消息队列等，例如调用：aos_sem_wait，aos_mutex_lock 等接口，线程就会被挂起并置成pend状态。如果是信号量等待时间是forever，则left tick 的值为 0；如果有超时时间，则 left tick 的值就是超时时间，单位为毫秒
– suspend：表示当前线程被主动挂起，就是程序主动调用了 task_suspend 函数
– sleep：表示当前线程被主动挂起，就是调用了 aos_sleep 等睡眠函数， left tick 的值即表示睡眠的时间
– deleted：当前线程已经被主动删除，也就是调用 krhino_task_del函数

• %CPU 状态只有在 k_config.h 文件中 RHINO_CONFIG_HW_COUNT和RHINO_CONFIG_TASK_SCHED_STATS宏被设置 1 的时候才会出现。
• 第一行 CPU USAGE: 640/10000 表示，当前系统的整体负载，如上示例，系统的CPU占有率是 0.64%

free

> free
                   total      used      free      peak 
memory usage:    5652536    605316   5047220   1093576

free 命令可以使用输出当前系统的堆状态，其中：

• total 为总的堆的大小
• used 为系统使用的堆大小
• free 为系统空余的堆大小
• peak 为系统使用的堆最大空间

单位为 byte

>free mem

------------------------------- all memory blocks --------------------------------- 
g_kmm_head = 1829bfc8
ALL BLOCKS
address,  stat   size     dye     caller   pre-stat    point
0x1829cb20  used       8  fefefefe  0x0        pre-used;
0x1829cb38  used    4128  fefefefe  0xbfffffff pre-used;
0x1829db68  used    1216  fefefefe  0x180190b6 pre-used;
0x1829e038  used    2240  fefefefe  0x180190b6 pre-used;
0x1829e908  used    4288  fefefefe  0x180190b6 pre-used;
0x1829f9d8  free     592  abababab  0x180aaa6d pre-used; free[     0x0,     0x0] 
0x1829fc38  used      40  fefefefe  0x180cb836 pre-free [0x1829f9d8];
0x1829fc70  used      40  fefefefe  0x180cb836 pre-used;
0x1829fca8  used   18436  fefefefe  0x1810448d pre-used;
0x182a44bc  used      40  fefefefe  0x180cb836 pre-used;
...
0x183a5ce0  used      16  fefefefe  0x1801d477 pre-used;
0x183a5d00  used      40  fefefefe  0x1801d477 pre-used;
0x183a5d38  used      12  fefefefe  0x1801a911 pre-used;
0x183a5d54  used      32  fefefefe  0x18010d40 pre-used;
0x183a5d84  used    4288  fefefefe  0x180190b6 pre-used;
0x183a6e54  free  4559244  abababab  0x18027fd9 pre-used; free[     0x0,     0x0] 
0x187ffff0  used  sentinel  fefefefe  0x0        pre-free [0x183a6e54];

----------------------------- all free memory blocks ------------------------------- 
address,  stat   size     dye     caller   pre-stat    point
FL bitmap: 0x10f4b
SL bitmap 0x84
-> [0][2]
0x18349b88  free       8  abababab  0x1802a1b1 pre-used; free[     0x0,     0x0] 
-> [0][7]
0x182df2f8  free      28  abababab  0x0        pre-used; free[     0x0,     0x0] 
-> [0][25]

0x182df3c8  free     100  abababab  0x18010ea5 pre-used; free[     0x0,     0x0] 
...
0x182b5704  free  160204  abababab  0x1804fe55 pre-used; free[     0x0,     0x0] 
SL bitmap 0x4
-> [16][2]
0x183a6e54  free  4559244  abababab  0x18027fd9 pre-used; free[     0x0,     0x0] 

------------------------- memory allocation statistic ------------------------------ 
     free     |     used     |     maxused
     5047040  |      605496  |     1093576

-----------------alloc size statistic:-----------------
[2^02] bytes:     0   |[2^03] bytes:  1350   |[2^04] bytes: 398770   |[2^05] bytes: 29121   |
[2^06] bytes: 408344   |[2^07] bytes: 396962   |[2^08] bytes:   350   |[2^09] bytes:   231   |
[2^10] bytes:    55   |[2^11] bytes:    38   |[2^12] bytes: 396677   |[2^13] bytes:  1410   |
[2^14] bytes:    14   |[2^15] bytes:    16   |[2^16] bytes:     0   |[2^17] bytes:     4   |
[2^18] bytes:    17   |[2^19] bytes:     0   |[2^20] bytes:     0   |[2^21] bytes:     0   |
[2^22] bytes:     0   |[2^23] bytes:     0   |[2^24] bytes:     0   |[2^25] bytes:     0   |
[2^26] bytes:     0   |[2^27] bytes:     0   |

free mem 命令可以打印出堆内各个节点的细节信息整个打印信息被分成 4个部分

• 第一部分为系统所有堆节点，包含了节点的地址、大小、占用状态、调用malloc的程序地址等
• 第二部分为当前系统空置的堆节点，信息与第一部分相同，只是单独列出了free的节点，可以观察系统的内存碎片情况
• 第三部分为系统的总体堆内存使用情况，和 free 命令打印出的信息相同
• 第四部分为堆节点的大小统计，与2的次方为单位进行划分

 >free list
                                total      used      free      peak 
memory usage:    5652536    605316   5047220   1093576

  0: caller=0xbffffffe, count= 1, total size=4128
  1: caller=0x180190b6, count=25, total size=85696
  2: caller=0x180aaa6c, count= 1, total size=592
  3: caller=0x180cb836, count= 3, total size=120
  4: caller=0x1810448c, count= 1, total size=18436
  5: caller=0x18010a68, count=39, total size=1716
  6: caller=0x18014548, count= 8, total size=580
  7: caller=0x18054dda, count= 1, total size=1028
...
 52: caller=0x18010d40, count= 2, total size=64
 53: caller=0x1801d5b8, count= 3, total size=72
 54: caller=0x1801d476, count= 6, total size=196
 55: caller=0x1801d5ac, count= 3, total size=48092
 56: caller=0x1801a910, count= 1, total size=12
 57: caller=0x18027fd8, count= 1, total size=4559244

free list 是另一种形式的堆内存使用统计，统计了程序内各个malloc的调用并且还没有free的次数。这个统计信息对于查找内存泄露非常有帮助。多次输出该命令，若 count 的值出现了增长，则可能有内存泄露的情况出现。

以上命令的 caller 信息，我们可以通过在 yoc.asm 反汇编文件查找函数来确认具体的调用函数。

注意：free mem和free list只有在开启CONFIG_DEBUG_MM和CONFIG_DEBUG时才能使用，因为它需要占用一些内存空间用于存放这些调试信息。

sys

具体显示的信息如下：

其中 sys app 和sys id 两个命令是在需要FOTA升级的时候才会使用到，一般是OCC网站颁发的信息，不可更改，如果没有走过FOTA流程一般为空。其余的版本号信息，是代码宏定义，可以在代码中修改。

date

data命令是用于查询和设置当前系统时间，一般系统连上网络以后会定期调用ntp，来和服务器同步时间，这个命令可以查询同步时间和设置系统时间

> date
    TZ(08):Tue Aug 11 18:03:14 2020 1597168994
       UTC:Tue Aug 11 10:03:14 2020 1597140194
       date -s "2001-01-01 12:13:14"
> date -s "2020-08-11 18:15:38"
set date to: 2020-08-11 18:15:38
    TZ(08):Wed Aug 12 02:15:38 2020 1597198538
       UTC:Tue Aug 11 18:15:38 2020 1597169738
       date -s "2001-01-01 12:13:14"

log

log命令可以用于控制打印等级和打印的模块

> log
Usage:
    set level: log level 0~5
        0:disable 1:F 2:E 3:W 4:I 5:D
    add ignore tag: log ignore tag
    clear ignore tag: log ignore
> log level 0
> log ignore fota
log tag ignore list:
fota
> log ignore RTC
log tag ignore list:
fota
RTC
>

log level num 用于控制打印等级
0：关闭日志打印；
1：打印F级别的日志；
2：打印E级别及以上的日志；
3：打印W级别及以上的日志；
4：打印I级别及以上的日志；
5：打印D级别及以上的日志，也是就日志全开

log ignore tag 用于控制各个模块的打印
例如log ignore RTC 表示关闭 RTC 模块的日志打印

需要注意的是：log 命令只能控制通过 LOG 模块打印出来的日志，直接通过 printf 接口打印的日志不能被拦截。所以推荐用 LOG 模块去打印日志。

kv是一个小型的存储系统，通过key-value 的方式存储在flash中

> kv
Usage:  
    kv set key value
    kv get key
    kv setint key value
    kv getint key
    kv del key
>

kv set key value 是设置字符串类型的value kv setint key value 是设置整形的value

例如：

kv set wifi_ssid my_ssid
kv set wifi_psk my_psk

如上两条命令是用于设置wifi的 ssid和psk，重启后系统会去通过kv接口获取flash的kv value值，从而进行联网。

ifconfig

> ifconfig

wifi0   Link encap:WiFi  HWaddr 18:bc:5a:60:d6:04
        inet addr:192.168.43.167
    GWaddr:192.168.43.1
    Mask:255.255.255.0
    DNS SERVER 0: 192.168.43.1

WiFi Connected to b0:e2:35:c0:c0:ac (on wifi0)
    SSID: yocdemo
    channel: 11
    signal: -58 dBm

ifconfig命令可以查看当前网络连接的状态，其中：

• 第一部分是本机的网络状态，包括本机mac地址，本机IP，网关地址、掩码、DNS Server地址
• 第二部分是连接的路由器信息，包括wifi的名称，mac地址，连接的信道、信号质量

1.2 创建自己的串口命令

上一节介绍了系统内置的串口命令，本节介绍如何创建自定义串口命令用于调试。 YoC中，串口命令代码模块为cli，其代码头文件为cli.h。自定义串口命令时，需要包含这个头文件。

代码示例如下：

/*
 * Copyright (C) 2019-2020 Alibaba Group Holding Limited
 */
#include 
#include 

#define HELP_INFO 
    "Usage:ntmycmd testn"

static void cmd_mycmd_ctrl_func(char *wbuf, int wbuf_len, int argc, char **argv)
{
        int i;
    
    for (i = 0; i < argc; i ++) {
        printf("argv %d: %sn", i, argv[i]);
    }
 
    printf(HELP_INFO);
}

void cli_reg_cmd_my_cmd(void)
{
    static const struct cli_command cmd_info = {
        "my_cmd",
        "my_cmd test",
        cmd_mycmd_ctrl_func,
    };

    aos_cli_register_command(&cmd_info);
}

其中，
• 需要定义一个被cli回调的函数，当串口输入这个命令时就会触发这个回调，本例为cmd_mycmd_ctrl_func；
• 需要定义一个命令字符串，用于cli比较用于输入字符串来触发回调，本例为my_cmd；
• 需要定义帮助信息，用于串口输入help命令时打印出来，本例为my_cmd test；
• 最后在系统初始化时把这个命令注册到cli里面，本例为cli_reg_cmd_my_cmd；

这样就可以拥有自己的串口调试命令了，效果如下:

> my_cmd first cmd test
argv 0: my_cmd
argv 1: first
argv 2: cmd
argv 3: test
Usage:
    mycmd test

2. 使用GDB调试

GDB是C/C++ 程序员的程序调试利器，很多问题使用GDB调试都可以大大提高效率。GDB在查看变量、跟踪函数跳转流程、查看内存内容、查看线程栈等方面都非常方便。

同时，GDB也是深入理解程序运行细节最有效的方式之一，GDB 对于学习了解C语言代码、全局变量、栈、堆等内存区域的分布都有一定的帮助。

下面我们来介绍GDB在基于玄铁内核的嵌入式芯片上的调试方法。

2.1 建立GDB连接

这一小节讲解一些嵌入式GDB调试使用的基础知识，和在PC上直接使用GDB调试PC上的程序会有一些区别。

CK GDB是运行在PC上的GDB程序，通过仿真器和JTAG协议与开发板相连接，可以调试基于玄铁CPU内核的芯片。其中DebugServer为作为连接GDB和CKLink仿真器的桥梁和翻译官，一端通过网络与GDB连接，另一端通过USB线与仿真器连接。

由于GDB与DebugServer通过网络通讯，他们可运行在同一个或不同的PC上。仿真器CKLink与开发板通过20PIN的JTAG排线连接。

CKLink

CKLink 实物如下图所示。可以通过淘宝购买。其使用方法可以查看：CKLink设备使用指南。

DebugServer

DebugServer有Windows 版本和Linux版本，下载和安装过程请参考：《Windows调试环境安装》，《Linux调试环境安装》。

以Windows版本的DebugServer为例，安装完成以后，打开程序有如下界面：

点击连接按钮，如果连接成功会有CPU和GDB的信息打印，告知当前连接的CPU信息和开启的GDB服务信息。具体使用可以参考OCC资源下载页面下的文档:《DebugServer User Guide_v5.10》。

2.2 启动GDB及配置

GDB工具包含在整体的编译调试工具链里面，也可以通过OCC下载。GDB的使用都需要通过命令行完成，通过在终端敲入命令来完成交互启动GDB通过如下命令进行：

csky-abiv2-elf-gdb xxx.elf

其中 xxx.elf 为当前板子上运行的程序，它包含了所有的程序调试信息，如果缺少elf文件则无法进行调试。

启动GDB后输入如下命令连接DebugServer。这条命令在DebugServer的界面会有打印，可以直接复制。

target remote [ip]:[port]

需要注意的是：运行GDB程序对应的PC需要能够通过网络访问DebugServer开启的对应的IP
连上以后就可以通过GDB 访问调试开发板上的芯片了。

.gdbinit 文件

.gdbinit 文件为GDB启动时默认运行的脚本文件，我们可以在.gdbinit 文件里面添加启动默认需要执行的命令，例如：target remote [ip]:[port]，那么在启动GDB的时候，会直接连接DebugServer，提高调试效率。

2.3 常用GDB命令

这一小节介绍一些常用的GDB命令及使用方法。
加载程序

• 命令全名： load
• 简化：lo
• 说明：将 elf 文件加载到芯片中，这个命令对代码在flash运行的芯片无效。

举例：

(cskygdb) lo
Loading section .text, size 0x291a00 lma 0x18600000
        section progress: 100.0%, total progress: 69.01% 
Loading section .ram.code, size 0x228 lma 0x18891a00
        section progress: 100.0%, total progress: 69.02% 
Loading section .gcc_except_table, size 0x8f8 lma 0x18891c28
        section progress: 100.0%, total progress: 69.08% 
Loading section .rodata, size 0xeeac4 lma 0x18892520
        section progress: 100.0%, total progress: 94.12% 
Loading section .FSymTab, size 0x9c lma 0x18980fe4
        section progress: 100.0%, total progress: 94.13% 
Loading section .data, size 0x2e3c4 lma 0x18981400
        section progress: 100.0%, total progress: 98.98% 
Loading section ._itcm_code, size 0x9b70 lma 0x189af7c4
        section progress: 100.0%, total progress: 100.00% 
Start address 0x18600014, load size 3903412
Transfer rate: 238 KB/sec, 4003 bytes/write.

继续执行

• 命令全名：continue
• 简化：c
• 说明：继续执行被调试程序，直至下一个断点或程序结束。

举例：

(cskygdb)c

当DebugServer连接上开发板，程序会自动停止运行。等GDB挂进去以后，用c就可以继续运行程序。

当程序在运行的时候，GDB直接挂入也会使程序停止运行，同样用c 命令可以继续运行程序。

同样，当 load完成后，也可以使用c运行程序。

暂停运行

使用组件按键 ctrl + c 可以停止正在运行的程序。

停止运行程序后就可以进行各种命令操作，如打印变量，打断点，查看栈信息，查看内存等。

当操作完成以后，使用c 继续运行，或者使用 n/s 单步执行调试。

打印变量

• 命令全名： print
• 简化： p

打印变量可以打印各种形式

• 变量
• 变量地址
• 变量内容
• 函数
• 计算公式

举例：

(cskygdb)p g_tick_count
(cskygdb)p &g_tick_count
(cskygdb)p *g_tick_count
(cskygdb)p main
(cskygdb)p 3 * 5

可以指定打印格式按照特定格式打印变量

• x 按十六进制格式显示变量。
• d 按十进制格式显示变量。
• o 按八进制格式显示变量。
• t 按二进制格式显示变量。
• c 按字符格式显示变量。

通过这个功能，还可以进行简单的各种进制转换

举例：

(cskygdb)p /x g_tick_count
(cskygdb)p /x 1000
(cskygdb)p /t 1000

注意：有些局部变量会被编译器优化掉，可能无法查看。 p 命令是万能的，可以 p 变量地址，可以p 变量内容，可以p 函数地址；基本上所有符号，都可以通过p查看内容。

设置断点

• 命令全名： breakpoint
• 简化：b

设置断电可以让程序自动停止在你希望停止的地方，断点可以以下面多种方式设置

• 行号
• 函数名
• 文件名：行号
• 汇编地址

举例：

(cskygdb)b 88
(cskygdb)b main
(cskygdb)b main.c:88
(cskygdb)b *0x18600010

硬件断点

嵌入式芯片一般都有硬件断点可以设置，它相对于普通断点的不同是，该断点信息保存在cpu 调试寄存器里面，由cpu通过运行时的比较来实现断点功能，而普通断点则是通过修改该处代码的内容，替换成特定的汇编代码来实现断点功能的。需要注意的是：硬件断点的设置会影响cpu的运行速度，但是对于一些微型的嵌入式芯片，代码放在flash这种无法写入，只能读取介质上时，就只能通过设置硬件断点才能实现断点功能，普通的断点设置将不会生效。设置硬件断点通过另外一个命令设置，举例：

(cskygdb)hb main

设置内存断点

• 命令全名： watchpoint
• 简化：watch

设置内存断电可以在内存的内容发生变化的时候自动停止运行。可以通过设置变量、内存断点

举例：

(cskygdb)watch g_tick_count
(cskygdb)watch *0x18600010

内存断点和硬件断点是相同的原理，只要是cpu运行导致的内存修改都会自动停止运行。内存断点和硬件断点都会都会占用cpu的调试断点数，每个芯片都由固定有限的个数可供设置，一般为4个或者8个等。

查看断点

• 命令全名：info breakpoint
• 简化：i b

举例：

(cskygdb) i b
Num     Type           Disp Enb Address    What
1       breakpoint     keep y   0x18704f9c in main 
                                           at vendor/tg6100n/aos/aos.c:110
2       breakpoint     keep y   0x1871ca9c in cpu_pwr_node_init_static 
                                           at kernel/kernel/pwrmgmt/cpu_pwr_hal_lib.c:88

使能断点

• 命令全名：enable
• 简化：en

举例：

(cskygdb)en 1

禁止断点

• 命令全名：disable
• 简化：dis

举例：

(cskygdb)dis 1

查看栈信息

• 命令全名： backtrace
• 简化： bt

例如：

(cskygdb) bt
#0  board_cpu_c_state_set (cpuCState=1, master=1)
    at vendor/tg6100n/board/pwrmgmt_hal/board_cpu_pwr.c:103
#1  0x1871cb98 in cpu_pwr_c_state_set_ (
    all_cores_need_sync=, master=, 
    cpu_c_state=CPU_CSTATE_C1, 
    p_cpu_node=0x189d2100 )
    at kernel/kernel/pwrmgmt/cpu_pwr_hal_lib.c:275
#2  _cpu_pwr_c_state_set (target_c_state=CPU_CSTATE_C1)
    at kernel/kernel/pwrmgmt/cpu_pwr_hal_lib.c:495
#3  cpu_pwr_c_state_set (target_c_state=CPU_CSTATE_C1)
    at kernel/kernel/pwrmgmt/cpu_pwr_hal_lib.c:524
#4  0x1871d20c in tickless_enter ()
    at kernel/kernel/pwrmgmt/cpu_tickless.c:381
#5  0x1871ce74 in cpu_pwr_down ()
    at kernel/kernel/pwrmgmt/cpu_pwr_lib.c:70
#6  0x187095a4 in idle_task (arg=)
    at kernel/kernel/rhino/k_idle.c:48
#7  0x1870bf44 in krhino_task_info_get (task=, 
    idx=, info=0x8000000)
    at kernel/kernel/rhino/k_task.c:1081
Backtrace stopped: frame did not save the PC

选择栈帧

• 命令全名： frame
• 简化：f

举例：

(cskygdb) f 2
#2  _cpu_pwr_c_state_set (target_c_state=CPU_CSTATE_C1)
    at kernel/kernel/pwrmgmt/cpu_pwr_hal_lib.c:495
495                 ret = cpu_pwr_c_state_set_(p_cpu_node, target_c_state, master, FALSE);

选择了栈帧就可以通过 p 命令查看该栈函数内的局部变量了。（函数内的局部变量是存放在栈空间中的）

单步执行

• 命令全名： next
• 简化：n

举例：

(cskygdb) n

单步执行进入函数

• 命令全名： step
• 简化：s

举例：

(cskygdb) s

单步执行（汇编）

• 命令全名： nexti
• 简化：ni

举例：

(cskygdb) ni

单步执行进入函数（汇编）

• 命令全名： stepi
• 简化：si

举例：

(cskygdb) si

相对于s 的单步执行，si的单步执行精确到了汇编级别，每一个命令执行一条汇编指令。对于优化比较严重的函数，s 的按行单步执行流程往往会比较混乱，按汇编的单步执行则会比较符合芯片底层的逻辑。当然使用si单步调试程序，也需要程序员对于汇编指令有比较好的了解，调试难度也比较大。但是对于嵌入式程序，编译器必然会对程序进行各种优化，s 的单步调试往往不是很好的选择。

完成当前函数

• 命令全名： finish
• 简化：fin

举例：

(cskygdb) fin

当想跳出该函数调试时，使用该命令会相当方便。但是该命令有一个限制，当在不会支持普通断点的设备上调试时（代码放在flash上执行），这个命令需要配合另一条命令才能生效

(cskygdb) set debug-in-rom

这条命令的意思是，告诉gdb这个代码是放在flash上的，需要使用硬件断点才能使用fin命令，这条命令只需要执行一次。

设置变量

• 命令格式：

set [variable] = [value]

举例：

(cskygdb) set g_tick_count = 100
(cskygdb) set *0x186000010 = 0x10

在调试一些程序逻辑时，通过设置变量数值可以让程序走期望的流程，来方便调试。

查看内存

• 命令格式

x /[n][f][u] [address]

其中：
• n 表示显示内存长度，默认值为1
• f 表示显示格式，如同上面打印变量定义
• u 表示每次读取的字节数，默认是4bytes
– b 表示单字节
– h 表示双字节
– w 表示四字节
– g 表示八字节

举例：

(cskygdb) x /20x 0x18950000
0x18950000:     0x6f445f6c      0x72652077      0x21726f72      0x6c43000a
0x18950010:     0x546b636f      0x72656d69      0x5f6c633a      0x61746164
0x18950020:     0x6c633e2d      0x6365535f      0x74696220      0x2070616d
0x18950030:     0x61207369      0x30206c6c      0x21212120      0x6c43000a
0x18950040:     0x546b636f      0x72656d69      0x5f6c633a      0x61746164

这条命令对于调试踩内存，栈溢出等大量内存变化的场景非常有帮助。

2.4 快速上手调试

接下来，你可以找一块开发板，按照下面步骤体验GDB调试过程：

• 如前面介绍，下载并安装DebugServer
• GDB 连上DebugServer
• lo //灌入编译好的 elf
• b main //打断点到 main函数入口
• c //运行程序
• 如果顺利，这时程序应该自动停在main函数入口
• n //单步执行下一行程序，可以多执行几次
• 找几个全局变量， p 查看结果

大部分开发板上电都自动会运行程序，连上DegbuServer就会停止运行。

注意事项

• 调试的时候 elf 文件一定要和运行程序对应上，不然没法调试，使用一个错误的elf文件调试程序，会出现各种乱七八糟的现象。而且同一份代码，不同的编译器，不同的主机编译出来的elf都可能不相同。所以保存好编译出来的elf相当重要
• 对于一些代码运行在 flash的芯片方案，GDB调试的时候要注意转换，和在ram上GDB调试命令有一些不一样。
• watch 只能观察到CPU的内存更改行为，如果是外设（DMA等）运行导致的内存变化，不能被watch到
• CKLink 连接开发板可能存在各种问题连接不上，要仔细检查，包括：开发板是否上电，芯片是否上电，芯片是否在运行，JTAG排线是否插反等等。

3. CPU异常分析及调试

3.1 CPU异常案例

在开发板运行过程中，有时会突然出现如下打印，进而程序停止运行，开发板也没有任何响应：

CPU Exception: NO.2
r0: 0x00000014  r1: 0x18a70124  r2: 0x00001111  r3: 0x10020000  
r4: 0x00000000  r5: 0x00000001  r6: 0x00000002  r7: 0x07070707  
r8: 0x00000000  r9: 0x09090909  r10: 0x10101010 r11: 0x11111111 
r12: 0x40000000 r13: 0x00000000 r14: 0x18b166a8 r15: 0x186d9c0a 
r16: 0x16161616 r17: 0x47000000 r18: 0x3f800000 r19: 0x00000000 
r20: 0xc0000000 r21: 0x40000000 r22: 0x00000000 r23: 0x00000000 
r24: 0x40400000 r25: 0x12345678 r26: 0x12345678 r27: 0x12345678 
r28: 0x12345678 r29: 0x12345678 r30: 0x12345678 r31: 0x12345678 
vr0: 0x12345678 vr1: 0x00000000 vr2: 0x00000000 vr3: 0x00000000 
vr4: 0x00000000 vr5: 0x00000000 vr6: 0x00000000 vr7: 0x00000000 
vr8: 0x00000000 vr9: 0x00000000 vr10: 0x00000000    vr11: 0x00000000    
vr12: 0x00000000    vr13: 0x00000000    vr14: 0x00000000    vr15: 0x00000000    
vr16: 0x00000000    vr17: 0x00000000    vr18: 0x00000000    vr19: 0x00000000    
vr20: 0x00000000    vr21: 0x00000000    vr22: 0x00000000    vr23: 0x00000000    
vr24: 0x00000000    vr25: 0x00000000    vr26: 0x00000000    vr27: 0x00000000    
vr28: 0x00000000    vr29: 0x00000000    vr30: 0x00000000    vr31: 0x00000000    
vr32: 0x00000000    vr33: 0x00000000    vr34: 0x00000000    vr35: 0x00000000    
vr36: 0x00000000    vr37: 0x00000000    vr38: 0x00000000    vr39: 0x00000000    
vr40: 0x00000000    vr41: 0x00000000    vr42: 0x00000000    vr43: 0x00000000    
vr44: 0x00000000    vr45: 0x00000000    vr46: 0x00000000    vr47: 0x00000000    
vr48: 0x00000000    vr49: 0x00000000    vr50: 0x00000000    vr51: 0x00000000    
vr52: 0x00000000    vr53: 0x00000000    vr54: 0x00000000    vr55: 0x00000000    
vr56: 0x00000000    vr57: 0x00000000    vr58: 0x00000000    vr59: 0x00000000    
vr60: 0x00000000    vr61: 0x00000000    vr62: 0x00000000    vr63: 0x00000000    

epsr: 0xe4000341
epc : 0x186d9c12

这段打印表明程序已经崩溃。接下来以它为例，来一步一步分析如何调试和解决。

3.2 基础知识介绍

3.2.1 关键寄存器说明

• pc：程序计数器，它是一个地址指针，指向了程序执行到的位置
• sp：栈指针，它是一个地址指针，指向了当前任务的栈顶部，它的下面存了这个任务的函数调用顺序和这些被调用函数里面的局部变量。在玄铁CPU框架里，它对应了 R14 寄存器
• lr：连接寄存器，它也是一个地址指针，指向子程序返回地址，也就是说当前程序执行返回后，执行的第一个指令就是lr寄存器指向的指令，在玄铁CPU框架里，它对对应了 R15 寄存器
• epc：异常保留程序计数器，它是一个地址指针，指向了异常时的程序位置，这个寄存器比较重要，出现异常后，我们就需要通过这个寄存器来恢复出现异常时候的程序位置。
• epsr：异常保留处理器状态寄存器，它是一个状态寄存器，保存了出异常前的系统状态。
这几个重要的寄存器都在上面的异常打印中打印出来了。

3.2.2 关键文件说明

• yoc.elf：保存了程序的所有调试信息，GDB调试时必须用到该文件，编译完程序后务必保留该文件。
• yoc.map：保存了程序全局变量，静态变量，代码的存放位置及大小。
• yoc.asm：反汇编文件，保存了程序的所有反汇编信息。这些文件都保存在每个solutions目录中。如果使用CDK开发，则位于项目的Obj目录中。
其中：
• yoc.map 文件必须在编译链接的时候通过编译选项生成，例如：CK的工具链的编译选项为-Wl,-ckmap='yoc.map'
• yoc.asm 文件可以通过elf 文件生成，具体命令为csky-abiv2-objdump -d yoc.elf > yoc.asm

3.2.3 异常号说明

在XT CPU架构里，不同的cpu异常会有不同的异常号，我们往往需要通过异常号来判断可能出现的问题。

这些异常中，出现最多的是 1、2 号异常，4、7 偶尔也会被触发，3号异常比较好确认。

3.3 异常分析过程

GDB准备及连接
参考上节：《2. 使用GDB调试》。

恢复现场

在GDB 使用 set 命令将异常的现场的通用寄存器和 PC 寄存器设置回CPU中，便可以看到崩溃异常的程序位置了

(cskygdb)set $r0=0x00000014
(cskygdb)set $r1=0x18a70124
(cskygdb)set $r2=0x00001111
(cskygdb)set $r3=0x10020000 
...
(cskygdb)set $r14=0x18b166a8
(cskygdb)set $r15=0x186d9c0a
...
(cskygdb)set $r30=0x12345678
(cskygdb)set $r31=0x12345678
(cskygdb)set $pc=$epc

不同的CPU 通用寄存器的个数有可能不相同，一般有 16个通用寄存器、32个通用寄存器两种版本，我们只需要把通用寄存器，即 r 开头的寄存器，设置回CPU即可。 pc，r14，r15 三个寄存器是找回现场的关键寄存器，其中r14，r15分别是 sp 寄存器和 lr寄存器，pc寄存器需要设置成epc。其余的通用寄存器是一些函数传参和函数内的局部变量。

设置完成以后，通过 bt命令可以查看异常现场的栈：

(cskygdb) bt
#0  0x186d9c12 in board_yoc_init () at vendor/tg6100n/board/init.c:202
#1  0x186d9684 in sys_init_func () at vendor/tg6100n/aos/aos.c:102
#2  0x186dfc14 in krhino_task_info_get (task=, idx=, info=0x11)
    at kernel/kernel/rhino/k_task.c:1081
Backtrace stopped: frame did not save the PC



从 bt 命令打印出来的栈信息，我们可以看到 异常点在 init.c 的 202 行上，位于board_yoc_init函数内。 到这里，对于一些比较简单的错误，基本能判断出了什么问题。 如果没法一眼看出问题点，那我们就需要通过异常号来对应找BUG了。

3.4 通过异常号找BUG

程序崩溃后，异常打印的第一行就是CPU异常号。

CPU Exception: NO.2

如上，我们示例中的打印是2号异常。 2号异常是最为常见的异常，1号异常也较为常见。4号、7号一般是程序跑飞了，运行到了一个不是程序段的地方。3号异常就是除法除零了，比较好确认。其余的异常基本不会出现，出现了大概率也是芯片问题或者某个驱动问题，不是应用程序问题。

CPU Exception: NO.1

一号异常是访问未对齐异常，一般是一个多字节的变量从一个没有对齐的地址赋值或者被赋值。例如：

uint32_t temp;
uint8_t data[12];
temp = *((uint32_t*)&data[1]);

如上代码，一个 4字节的变量 temp从一个单字节的数组中取4个字节内容，这种代码就容易出现地址未对齐异常。这种操作在一些流数据的拆包组包过程比较常见，这个时候就需要谨慎小心了。

有些CPU 可以开启不对齐访问设置，让CPU可以支持从不对齐的地址去取多字节，这样就不会出现一号异常。但是为了平台兼容性，我们还是尽量不要出现这样的代码。

CPU Exception: NO.2

二号异常是访问错误异常，一般是访问了一个不存在的地址空间。例如：

uint32_t *temp;
*temp = 1;

如上代码，temp指针未初始化，如果直接给 temp指针指向的地址赋值，有可能导致二号异常，因为temp指向的地址是个随机值，该地址可能并不存在，或者不可以被写入。二号异常也是最经常出现的异常，例如常见的错误有：

• 内存访问越界
• 线程栈溢出
• 野指针赋值
• 重复释放指针（free）

请注意你代码里的 memset、memcpy、malloc、free 、strcpy等调用。

大部分2号异常和1号异常的问题，异常的时候都不是第一现场了，也就是说异常点之前就已经出问题了。

比如之前就出现了 memcpy的内存访问越界，内存拷贝超出变量区域了。memcpy的时候是不会异常的，只有当程序使用了这些被memcpy 踩了内存时，才会出现一号或二号异常。

这个时候异常点已经不是那个坑的地方了，属于“前人埋坑，后人遭殃”型问题。

如果是一些很快就复现的问题，我们可以通过GDB watch命令，watch那些被踩的内存或变量来快速的定位是哪段代码踩了内存。

如果是一些压测出现的问题，压测了2天，出了一个2号异常，恭喜你，碰到大坑了。类似这种，比较难复现的问题，watch已经不现实了。

结合异常现场GDB查看变量、内存信息和review代码逻辑，倒推出内存踩踏点，是比较正确的途径。

再有，就是在可疑的代码中加 log日志，增加压测的机器，构造缩短复现时间的case等一些技巧来加快BUG解决的速度。

CPU Exception: NO.4/NO.7

四号异常是指令非法，即这个地址上的内容并不是一条CPU机器指令，不能被执行。七号异常是断点异常，也就是这个指令是断点指令，即 bktp 指令，这是调试指令，一般代码不会编译生成这种指令。这两种异常大概率是指针函数没有赋值就直接跳转了，或者是代码段被踩了

例如：

typedef void (*func_t)(void *argv);

func_t f;
void *priv = NULL;

if (f != NULL) {
    f(priv);
}

如上代码，f是一个函数指针，没有被赋值，是一个随机值。直接进行跳转，程序就肯定跑飞了。这种异常，一般epc地址，都不在反汇编文件 yoc.asm 中。

CPU Exception: NO.3

3号异常是除零异常，也是最简单、最直接的一种异常。例如：

int a = 100;
int b = 0;

int c = a / b;

如上代码，b 变量位 0，除零就会出现三号异常。

3.5 不用GDB找到异常点

有些时候无法使用GDB去查看异常点，或者搭环境不是很方便怎么办？这个时候我们可以通过反汇编文件和epc地址来查看产生异常的函数。打开yoc.asm 反汇编文件，在文件内搜索epc地址，就可以找到对应的函数，只是找不到对应的行号。

例如：

186d9b14 :
186d9b14:   14d3        push        r4-r6, r15
186d9b16:   1430        subi        r14, r14, 64
186d9b18:   e3ffffc6    bsr         0x186d9aa4  // 186d9aa4 
186d9b1c:   3001        movi        r0, 1
186d9b1e:   e3fe3221    bsr         0x1869ff60  // 1869ff60 
186d9b22:   e3fe4ca9    bsr         0x186a3474  // 186a3474 
186d9b26:   e3fffe7d    bsr         0x186d9820  // 186d9820 
...
186d9bfc:   1010        lrw         r0, 0x188d1a50  // 186d9c3c 
186d9bfe:   e00c6aeb    bsr         0x188671d4  // 188671d4 
186d9c02:   ea231002    movih       r3, 4098
186d9c06:   ea021111    movi        r2, 4369
186d9c0a:   b340        st.w        r2, (r3, 0x0)
186d9c0c:   1410        addi        r14, r14, 64
186d9c0e:   1493        pop         r4-r6, r15
186d9c12:   9821        ld.w        r1, (r14, 0x4)
186d9c14:   07a4        br          0x186d9b5a  // 186d9b5a 
186d9c14:   188d19c0    .long   0x188d19c0

如上的汇编代码，根据异常的epc地址0x186d9c12，我们可以确认异常发生在board_yoc_init函数内。

浅谈基于 Git 的版本控制工作流-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

博主说：本文借鉴了很多「 DRPrincess」博主的文章内容，在此对其表示感谢。

为了更好的理解基于 Git 的版本控制工作流，我们不妨先来回答几个问题？

什么是版本控制？
什么是版本控制系统？
为什么要做版本控制？
为什么选择基于 Git 的版本控制？

要回答这些问题，最好的方法，莫过于回顾一下版本控制的发展历史。

因此，在本文中，我们就从「[版本控制简史」出发，揭开「基于 Git 的版本控制工作流」的神秘面纱。

版本控制简史

版本控制，是指对软件开发过程中各种程序代码、配置文件及说明文档等文件变更的管理。版本控制最主要的目的就是追踪文件的变更。它将什么时候、什么人更改了文件的什么内容等信息忠实地了记录下来。每一次文件的改变，文件的版本号都将增加。

除了记录版本变更外，版本控制的另一个重要功能是并行开发。软件开发往往是多人协同作业，版本控制可以有效地解决版本的同步以及不同开发者之间的开发通信问题，提高协同开发的效率。并行开发中最常见的不同版本软件的错误修正问题也可以通过版本控制中分支与合并的方法有效地解决。

但版本控制是目的而不是实现的工具，所以我们还需要通过某种工具来实现版本控制的目的，我们将这样的工具称之为 Version Controll System，缩写为 VCS，即版本控制系统。我们可以把一个版本控制系统简单的理解为一个“数据库”，在需要的时候，它可以帮我们完整地保存一个项目的快照。当我们需要查看一个之前的快照（称之为“版本”）时，版本控制系统可以显示出当前版本与上一个版本之间的所有改动的细节。

早在 1986 年 12 月，Dick Grune 就以 shell 脚本的形式发布了第一个流行的版本控制系统 CVS 的雏形。1989 年 4 月，Brian Berliner 设计了 CVS 并编写了代码。CVS 是一个 C/S 系统，其设计思路为，在一台服务器上建立一个源代码库，库里可以存放许多不同项目的源程序，由源代码库管理员统一管理这些源程序。每个用户在使用源代码库之前，首先要把源代码库里的项目文件下载到本地，然后用户可以在本地任意修改，最后用 CVS 命令进行提交，由 CVS 源代码库统一管理修改。这样，就好像只有一个人在修改文件一样，既避免了冲突，又可以做到跟踪文件变化等。

2000 年，CollabNet Inc 开发了 Subversion，缩写为 SVN，是一个开放源代码的版本控制系统，现已发展成了 Apache 基金会的项目。相对于 CVS，SVN 采用了分支管理系统，它的设计目标就是取代 CVS，但与 CVS 相同的是，SVN 也采用了 C/S 体系，项目的各种版本都存储在服务器上，程序开发人员首先将从服务器上获得一份项目的最新版本，并将其复制到本机，然后在此基础上，每个开发人员可以在自己的客户端进行独立的开发工作，并且可以随时将新代码提交给服务器。当然也可以通过更新操作获取服务器上的最新代码，从而保持与其他开发者所使用版本的一致性。

2005 年，Linux 之父 Linus Torvalds 为了帮助管理 Linux 内核开发而开发了一个开放源码的版本控制软件 Git。说起来，Git 的诞生还有一些戏剧性，Linus 最初使用 BitKeeper 作为版本控制系统，但在 2005 年，Andrew Tridgell 写了一个程序，可以连接 BitKeeper 的存储库，BitKeeper 著作权拥有者 Larry McVoy 认为 Andrew Tridgell 对 BitKeeper 内部使用的协议进行逆向工程，决定收回无偿使用 BitKeeper 的许可。Linux 内核开发团队与 BitMover 公司进行磋商，但无法解决他们之间的歧见。最终，Linus Torvalds 决定自行开发版本控制系统替代 BitKeeper，就用十天的时间编写出了 Git 的第一个版本。

如上所述，从 CVS、到 SVN、再到 Git 的变化，也是版本控制系统演进的过程。我们可以将 CVS、SVN 和 Git 大致分为两类：

集中式版本控制系统：CVS 和 SVN 属于这一类。它们用集中管理的单一服务器，来保存所有文件修订版本，而协同工作的人们都通过客户端连到这台服务器，下载最新的代码或者是更新提交。但是如果中央服务器宕机了，那宕机的这一段时间，大家都无法更新提交更新，没法协同工作；更糟糕的情况下，如果中央服务器的数据没有做备份而且损坏，那么所有记录就都丢失了。
分布式版本控制系统：Git 属于这一类。分布式版本控制系统最大的特点就是客户端并不只是提取最新版本的文件快照，而是把代码仓库完整地镜像下来，每个客户端其实都可以当做是中央服务器，当中央服务器数据损坏了，从任何一个本地客户端都可以重新恢复。而且我们可以随时随地提交代码，因为我们提交代码是提交到本地的服务器，所以效率大大提高。

现如今，Git 应该算是最受欢迎的版本控制工具了。例如现在世界上最大的两个代码托管平台 GitHub 和 GitLab，都是基于 Git 进行版本控制的；在国内，大家使用较多的中文代码托管平台 Gitee，也是基于 Git 进行版本控制的。由此可见，Git 作为版本控制工具，其速度快、分布式等特性，深受大家喜爱的。因此，了解基于 Git 的版本控制工作流，还是与我们有益的！

什么是工作流？

工作流，即工作流程。在项目开发过程中，多人协作是很常见的现象，每个人拉取自己分支、实现自己的业务逻辑，虽然各自在分支上互不干扰，但是我们总归需要把分支合并到一起，而且真实项目中涉及到很多问题，例如版本迭代，版本发布，bug 修复等，为了更好的管理代码，需要制定一个工作流程，这就是我们说的工作流，也有人叫它分支管理策略。

工作流不涉及任何命令，因为它就是一个规则，完全由开发者自定义，并且自行遵守，正所谓无规矩不成方圆，就是这个道理。其中，Git Flow 出现的最早，GitHub Flow 在 Git Flow 的基础上，做了一些优化，适用于持续版本的发布，而 GitLab Flow 出现的时间比较晚，所以综合了前面两种工作流的优点，制定而成的一种工作流。接下来，我们就详细了解这三个工作流。

Git Flow

Git Flow 是 Vincent Driessen 2010 年发布出来的他自己的分支管理模型，到现在为止，使用度非常高，可以说是一个非常成熟的 Git 工作流。Git Flow 的分支结构，按功能来说，可以分为 5 种分支，从 5 种分支的生命周期上，又可以分为长期分支和短期分支，或者更贴切的描述为，主要分支和辅助分支。

主要分支

在采用 Git Flow 工作流的项目中，代码的中央仓库会一直存在以下两个长期分支：

master
develop

其中，origin/master分支上的最新代码永远是版本发布状态，origin/develop分支则是最新的开发进度。当develop上的代码达到一个稳定的状态，可以发布版本的时候，develop上这些修改会以某种特别方式被合并到master分支上，然后标记上对应的版本标签。

辅助分支

除了主要分支，Git Flow 的开发模式还需要一系列的辅助分支，来帮助更好的并行开发，简化功能开发和问题修复。辅助分支不需要一直存在，仅当我们需要的时候，创建辅助分支就可以，当我们不需要的时候，也可以删除辅助分支。辅助分支分为以下几类：

Feature Branch
Release Branch
Hotfix Branch

Feature 分支用来做分模块功能开发，命名看开发者喜好，不要和其他类型的分支命名弄混淆就好，举个坏例子，命名为master就是一个非常不妥当的举动。模块完成之后，会合并到develop分支，然后删除自己。

Release 分支用来做版本发布的预发布分支，建议命名为release-xxx。例如在软件1.0.0版本的功能全部开发完成，提交测试之后，从develop检出release-1.0.0，测试中出现的小问题，在release分支进行修改提交，测试完毕准备发布的时候，代码会合并到master和develop，master分支合并后会打上对应版本标签v1.0.0，合并后删除自己，这样做的好处是，在测试的时候，不影响下一个版本功能并行开发。

Hotfix 分支是用来做线上的紧急 bug 修复的分支，建议命名为hotfix-xxx。当线上某个版本出现了问题，将检出对应版本的代码，创建 Hotfix 分支，问题修复后，合并回master和develop，然后删除自己。这里注意，合并到master的时候，也要打上修复后的版本标签。

Merge 加上 --no-ff 参数

需要说明的是，Git Flow 的作者 Vincent Driessen 非常建议，合并分支的时候，加上--no-ff参数，这个参数的意思是不要选择 Fast-Forward 合并方式，而是策略合并，策略合并会让我们多一个合并提交。这样做的好处是保证一个非常清晰的提交历史，可以看到被合并分支的存在。下面是对比图，左侧是加上参数的，后者是普通的提交：

示意图

如上图所示，这是 Vincent Driessen 于 2010 年给出的 Git Flow 示意图，也是我们所有想要学习 Git Flow 的人都应该了解的一张图。图中画了 Git Flow 的五种分支，master、develop、feature、release和hoxfixes，其中master和develop字体被加粗代表主要分支。master分支每合并一个分支，无论是hotfix还是release，都会打一个版本标签。通过箭头可以清楚的看到分支的开始和结束走向，例如feature分支从develop开始，最终合并回develop；hoxfixes从master检出创建，最后合并回develop和master，master也打上了标签。

GitHub Flow

GitHub Flow 是世界上最大的代码托管平台，也称为“世界上最大的同性交友网站” GitHub 制定并使用的工作流，其是一个轻量级，基于分支的工作流，支持团队和项目的定期部署，由 Scott Chacon 在 2011 年 8月 31 号正式发布。

模型说明

在 GitHub Flow 中，只有一个长期分支master，而且master分支上的代码永远是可发布状态。一般来说，master会设置为受保护状态，只有有权限的人才能推送代码到master分支。以 GitHub 官方教程为准，遵循 GitHub Flow 需要经历以下几个步骤：

创建分支
添加提交
提出 PR 请求
讨论和评估你的代码
部署
合并

简单解释一下，其大致流程为：如果有新功能开发、版本迭代或者 bug 修复等需求，我们就从master分支上检出新的分支；将检出的新分支代码拉取到本地，在本地环境中进行编码，完成后，向远程新分支仓库推送代码；当我们需要反馈问题、取得帮助，或者想合并分支代码时，可以发起一个 Pull Request，常简称为 PR；当我们的代码通过项目维护者（有权限向master分支合并代码的人）讨论和评估后，就可以部署代码；待部署完成、验证通过后，代码就应该被合并到目标分支。

示意图

与 Git Flow 的示意图相比，GitHub Flow 的示意图可以称得上简单明了，因为 GitHub Flow 推荐做法就是只有一个主分支master，团队成员们的分支代码通过 PR 来合并到主分支上。实际上，上面的图仅是创建分支的示意图，但无论是创建分支还是添加提交、提出 PR 请求等，都不过是围绕着主分支按照上述的流程推进而已，如果大家感兴趣，可以通过「深入理解 GitHub Flow」查看全部示意图。

特色功能

因为 GItHub Flow 的初衷就是用于在 GitHub 上进行团队协作，所以借助于 GitHub 平台的功能，GItHub Flow 中也引入了一些比较实用的工作流程，其中最出色的两个功能莫过于 PR 与问题追踪了。

PR

在工作流中引入 PR，是 GItHub Flow 的一个特色，它的用处并不仅仅是合并分支，还有以下功能：

控制分支合并权限
问题讨论或者寻求其他小伙伴们的帮助
Code Review

有了 PR 功能之后，相信我们再提交代码的时候，就得慎之又慎了。否则的话，代码写的太烂，就等着被喷吧！

问题追踪

在日常开发中，我们可能会用到很多第三方的开源库，如果使用过程中遇到了问题，我们可以去其 GitHub 仓库上搜索一下 Issue 列表，看看有没有人遇到过、项目维护者修复了没有，一般未解决的 Issue 是Open状态，已解决的 Issue 是Closed状态，这就是问题追踪。

如果你是一个项目维护者，除了标记 Issue 的开启和关闭，还可以给它标记上不同的标签。当提交的时候，如果提交信息中有fix #1等字段，可以自动关闭对应编号的 Issue。

GitLab Flow

这个工作流十分地年轻，是 GitLab 的 CEO Sytse Sijbrandij 在 2014 年 9月 29 正式发布出来的。因为出现的比前面两种工作流稍微晚一些，所以它有个非常大的优势，集百家之长，补百家之短。GitLab 既支持 Git Flow 的分支策略，也支持 GitHub Flow 的 PR 和问题追踪。

Git Flow & GitHub Flow 的瑕疵

当 Git Flow 出现后，它解决了之前项目管理的很让人头疼的分支管理，但是实际使用过程中，也暴露了很多问题：

默认工作分支是develop，但是大部分版本管理工具默认分支都是master，开始的时候总是需要切换很麻烦。
Hotfix 和 Release 分支在需要版本快速迭代的项目中，几乎用不到，因为刚开发完就直接合并到master发版，出现问题develop就直接修复发布下个版本了。
Hotfix 和 Release 分支，一个从master创建，一个从develop创建，使用完毕，需要合并回develop和master。而且在实际项目管理中，很多开发者会忘记合并回develop或者master。

GitHub Flow 的出现，非常大程度上简化了 Git Flow ，因为只有一个长期分支master，并且提供 GUI 操作工具，一定程度上避免了上述的几个问题，然而在一些实际问题面前，仅仅使用master分支显然有点力不从心，例如：

版本的延迟发布（例如 iOS 应用审核到通过中间，可能也要在master上推送代码）
不同环境的部署（例如：测试环境，预发环境，正式环境）
不同版本发布与修复（是的，只有一个master分支真的不够用）

GitLab Flow 解决方案

为了解决上面提到的那些问题，GitLab Flow 给出了以下的解决方法。

版本的延迟发布 Prodution Branch

master分支不够，于是添加了一个prodution分支，专门用来发布版本。

不同环境的部署 Environment Branches & Upstream First

每个环境，都对应一个分支，例如下图中的pre-production和prodution分支都对应不同的环境，这个工作流模型比较适用服务端，测试环境，预发环境，正式环境，一个环境建一个分支。

这里要注意，代码合并的顺序，要按环境依次推送，确保代码被充分测试过，才会从上游分支合并到下游分支。除非是很紧急的情况，才允许跳过上游分支，直接合并到下游分支。这个被定义为一个规则，名字叫 “upstream first”，翻译过来是 “上游优先”。

版本发布分支 Release Branches & Upstream First

只有当对外发布软件的时候，才需要创建release分支。对外发布版本的记录是非常重要的，如果线上出现了一个问题，需要拿到问题出现对应版本的代码，才能准确定位问题。

在 Git Flow 中，版本记录是通过master上的tag来记录的。发现问题，创建hotfix分支，完成之后合并到master和develop。

在 GitLab Flow 中，建议的做法是每一个稳定版本，都要从master分支拉出一个分支，比如2-3-stable、2-4-stable等等。发现问题，就从对应版本分支创建修复分支，完成之后，先合并到master，然后才能再合并到release分支，遵循 “上游优先” 原则。

分支命名实践

现如今，越来越多的公司都会利用 GitLab 来搭建自己的代码托管平台，因此就以 GitLab Flow 为例，给出一个较好的分支命名实践。

如果存在多个环境，则为每个环境建立一个长期分支，可以命名为：

master，表示主分支，用于生产环境；
beta，表示内测分支，用于内测环境；
test，表示测试分支，用于测试环境。

在此，着重解释一下“内测环境”吧，实际上，内测环境应该是生产环境的一部分，是从生产环境隔离出来一部分用于内测，以保证线上回归测试时不影响真实的用户，因此两者共用一套生产数据库，仅是通过流量入口做区分。

接下来，根据不同的目的，为新拉取的分支取不同的名称：

如果是开发需求，则从master拉取新分支，命名为feature-1xx-2xx-3xx，其中每一部分都有不同的含义，如
- feature为固定词，表示这是一个新特性分支；
- 1xx表示新特性的描述，为防止分支名过长，可以用缩写；
- 2xx表示新分支创建的时间，格式为YYYYMMDD；
- 3xx表示新分支的创建者，姓名拼音或者英文名均可。

给出一个开发需求的分支命名示例，feature-SupportIM-20200711-chariesgavin，整个分支名称的含义就是，“某人在某时创建了某个功能的新特性分支”。开发、测试及代码合并的流程，大致如下：

从master分支拉取新的开发分支，进行编码，自测；
自测完成后，将代码合并到test分支，并且在test环境进行测试；
test环境测试通过后，将代码合并到beta分支，并且在beta环境进行线上回归测试；
beta环境测试通过后，将代码合并到master分支，并且将代码同步到生产环境；
生产环境上线后，就再从master分支打一个tag，其作用和稳定分支stable、发布分支release一样，用于回滚代码，命名为tag-xxx，其中xxx自定义即可，如版本号。

如果线上的代码一直没问题，自然是万事大吉，但难免会遇到各种各样的问题。这时，我们就遇到了另一种场景，即 BUG 修复。

如果是 BUG 修复，则从master拉取新分支，命名为hotfix-1xx-2xx-3xx，其中每一部分都有不同的含义，如
- hotfix为固定词，表示这是一个修复 BUG 的分支；
- 1xx表示 BUG 的描述，为防止分支名过长，可以用缩写；
- 2xx表示新分支创建的时间，格式为YYYYMMDD；
- 3xx表示新分支的创建者，姓名拼音或者英文名均可。

给出一个 BUG 修复分支命名示例，hotfix-messageRepeat-20200711-chariesgavin，整个分支名称的含义就是，“某人在某时创建了修复某个 BUG 的新分支”。理论上来说，BUG 修复的开发、测试及代码合并的流程应该和上述的开发需求是一致的，毕竟如果生产环境出现了问题，其他前置环境肯定也是跑不掉的，修复已知问题终归是值得提倡的；但在比较紧急的情况下，没有足够的时间让我们在不同的环境进行测试，该流程也是可以简化的，大致如下：

从master分支拉取新的开发分支，进行编码，自测；
自测完成后，将代码直接合并到beta分支，上线到内测环境进行测试；
内测环境通过后，再将代码合并到master分支，同步到生产环境，并从master分支打一个tag，备份稳定代码；
最后，再将修复 BUG 的代码同步到不同环境的稳定分支。

在这里，有一点可能让我们诟病，那就是分支名称太长了。确实，当我们想把更多的信息都揉进一个名称的时候，难免会遇到这样的问题！但如果是feature-1.0或者hotfix-20200710这类名称，可能开发周期稍微长一些的时候，大家都容易忘了这样的分支到底是谁创建的、实现了什么功能吧？因此，与之相比，我感觉分支名称稍微长一些还是可以接受的。

当然，就如 Git Flow 一样，任何工作流想要起作用，都需要我们认同它、打心里接受它，然后才能自觉的遵守其规范，毕竟，公司总不至于因为我们不遵守分支命名规范而开除我们吧？公司采取硬性规定的另算。但这些工作流之所以能得到大家广泛的认同，并且流传之广，自然还是尤其魅力的，或多或少还是能够提高团队协作效率的。采取与否，您来决定！

参考资料：

电商行业业务及数据库上云-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

阿里云最佳实践频道：【点击查看更多上云最佳实践】
这里有丰富的企业上云最佳实践，从典型场景入门，提供一系列项目实践方案，降低企业上云门槛的同时满足您的需求！

场景描述

该方案适用于新零售领域的电商行业，包括电商公司初创，满足快速搭建平台；以及中型企业应对发展阶段，满足业务快速占领市场。对于头部客户搬站，方案借鉴参考。本文重点解决阿里云资源的开通配置，以及其他云厂商或自建的MySQL搬迁到阿里云RDS。

方案优势

通过SLB流量分发，快速扩展应用对外服务能力
通过Redis缓解高并发的数据读写，QPS支持万级到千万级
提供高可用的数据库架构，保障数据的可用性和可靠性
将电商静态资源存储在oss,通过cdn分发，提升用户
访问体验
云产品，支持随时弹性升级、扩容配置

产品列表

云服务器 ECS
数据库 RDS
数据传输 DTS
负载均衡 SLB
专有络 VPC

直达最佳实践》》

容器Swarm集群向ACK集群灰度迁移-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

阿里云最佳实践频道：【点击查看更多上云最佳实践】
这里有丰富的企业上云最佳实践，从典型场景入门，提供一系列项目实践方案，降低企业上云门槛的同时满足您的需求！

场景描述

随着K8S生态的完善，越来越多的客户需要从Swarm集群迁移向ACK集群，本实践向您介绍阿里云上的容器Swarm集群向ACK集群灰度迁移。

解决问题

迁移过程中维持业务的延续性
迁移过程业务高可用
迁移过程可灰度
迁移过程可回滚
迁移进度可把控

产品列表

专有网络 VPC
云数据库 RDS MySQL
容器服务 ACK
云服务器 ECS

直达最佳实践》》

金融行业从经典网络向VPC容器化改造-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

阿里云最佳实践频道：【点击查看更多上云最佳实践】
这里有丰富的企业上云最佳实践，从典型场景入门，提供一系列项目实践方案，降低企业上云门槛的同时满足您的需求！

场景描述

本实践介绍经典网络向VPC容器化改造实践以及配置步骤，可适用于金融等行业。

解决问题

经典网络管理困难
应用发布不灵活
运维效率低

产品列表

专有网络 VPC
容器服务 Kubernetes版
日志服务 SLS
云数据库 RDS版
NAT网关
容器镜像服务 ACR

直达最佳实践》》

弹性裸金属自建ORACLE数据库单机版-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

阿里云最佳实践频道：【点击查看更多上云最佳实践】
这里有丰富的企业上云最佳实践，从典型场景入门，提供一系列项目实践方案，降低企业上云门槛的同时满足您的需求！

场景描述

本文重点解决在弹性裸金属（神龙）服务器上自建ORACLE数据库单机的问题，通过ESSD和神龙的搭配使用为业务系统提供强大的数据库性能支撑，展示云上数据库在备份和恢复上的优势。

解决问题

如何利用云上强劲资源，如神龙服务器、ESSD存储，支撑数据库高效稳健运行。
如何利用云上资源和产品优势兼顾单机数据库的可用性。
如何快速备份和恢复数据库数据，保证云上数据的安全性。

产品列表

专有网络 VPC
弹性公网IP
弹性裸金属服务器
块存储

直达最佳实践》》

Spring 5 中文解析数据存储篇-理解Spring事物抽象-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

Spring核心篇章：

Spring 5 中文解析之核心篇-IoC容器

Spring 5 中文解析核心篇-IoC容器之依赖关系

Spring 5 中文解析核心篇-IoC容器之Bean作用域

Spring 5 中文解析核心篇-IoC容器之自定义Bean性质

Spring 5 中文解析核心篇-IoC容器之BeanDefinition继承与容器拓展点

Spring 5 中文解析核心篇-IoC容器之基于注解的容器配置

Spring 5 中文解析核心篇-IoC容器之类路径扫描和组件管理

Spring 5 中文解析核心篇-IoC容器之JSR330标准注解

Spring 5 中文解析核心篇-IoC容器之基于Java容器配置

Spring 5 中文解析核心篇-IoC容器之Environment抽象

Spring 5 中文解析核心篇-IoC容器之ApplicationContext与BeanFactory

Spring 5 中文解析核心篇-IoC容器之Resources

Spring 5 中文解析核心篇-IoC容器之数据校验、数据绑定和类型转换

Spring 5 中文解析核心篇-IoC容器之SpEL表达式

Spring 5 中文解析核心篇-IoC容器之AOP编程(上)")

Spring 5 中文解析核心篇-IoC容器之AOP编程(下)")

Spring 5 中文解析核心篇-IoC容器之Spring AOP API

Spring测试篇章：

Spring 5 中文解析测试篇-Spring测试

Spring 5 中文解析核心篇-集成测试之概要和集成测试注解

Spring 5 中文解析核心篇-集成测试之TestContext(上)")

Spring 5 中文解析核心篇-集成测试之TestContext(中)")

Spring 5 中文解析测试篇-集成测试之TestContext(下)")

Spring 5 中文解析测试篇-Spring MVC测试框架

Spring 5 中文解析测试篇-WebTestClient

Spring存储篇章：

Spring 5 中文解析数据存储篇-Spring框架的事物支持模型的优势

完整电子书地址

1.2 理解Spring框架事物抽象

Spring事务抽象的关键是事务策略的概念。事务策略由TransactionManager定义，特别是用于命令式事务管理的org.springframework.transaction.PlatformTransactionManager接口和用于响应式事务管理的org.springframework.transaction.ReactiveTransactionManager接口。以下清单显示了PlatformTransactionManager API的定义：

public interface PlatformTransactionManager extends TransactionManager {

    TransactionStatus getTransaction(TransactionDefinition definition) throws TransactionException;

    void commit(TransactionStatus status) throws TransactionException;

    void rollback(TransactionStatus status) throws TransactionException;
}

尽管你可以从应用程序代码中以编程方式使用它，但它主要是一个服务提供接口（SPI）。由于PlatformTransactionManager是接口，因此可以根据需要轻松对其进行模拟或存根。它与JNDI之类的查找策略无关。与Spring框架IoC容器中的任何其他对象（或bean）一样，定义了PlatformTransactionManager实现。这一优点使Spring框架事务成为值得抽象的，即使在使用JTA时也是如此。与直接使用JTA相比，你可以更轻松地测试事务代码。

同样，为了与Spring的理念保持一致，可以由任何PlatformTransactionManager接口方法抛出的TransactionException未检查异常(也就是说，它扩展了java.lang.RuntimeException类)。事物基础架构故障几乎总是致命的。在极少数情况下，应用程序代码实际上可以从事务失败中恢复，应用程序开发人员仍然可以选择捕获和处理TransactionException。实际一点是，开发人员没有被迫这样做。

getTransaction(..)方法根据TransactionDefinition参数返回TransactionStatus对象。如果当前调用堆栈中存在匹配的事务，则返回的TransactionStatus可能表示一个新事务或一个现有事务。后一种情况的含义是，与Java EE事务上下文一样，TransactionStatus与执行线程相关联。

从Spring框架5.2开始，Spring还为使用响应式类型或Kotlin协程的响应式应用程序提供了事务管理抽象。以下清单显示了由org.springframework.transaction.ReactiveTransactionManager定义的事务策略：

public interface ReactiveTransactionManager extends TransactionManager {

    Mono getReactiveTransaction(TransactionDefinition definition) throws TransactionException;

    Mono commit(ReactiveTransaction status) throws TransactionException;

    Mono rollback(ReactiveTransaction status) throws TransactionException;
}

响应式事务管理器主要是服务提供接口（SPI），尽管你可以从应用程序代码中以编程方式使用它。由于ReactiveTransactionManager是接口，因此可以根据需要轻松对其进行模拟或存根。

TransactionDefinition接口指定：

传播：通常，事务范围内的所有代码都在该事务中运行。但是，如果在已存在事务上下文的情况下运行事务方法，则可以指定行为。例如，代码可以在现有事务中继续运行（常见情况），或者可以暂停现有事务并创建新事务。Spring提供了EJB CMT熟悉的所有事务传播选项。要了解有关Spring中事务传播的语义的信息，请参阅事务传播。
隔离：此事务与其他事务的工作隔离的程度。例如，此事务能否看到其他事务未提交的写入？
超时：该事务在超时之前将运行多长时间，并由基础事务基础结构自动回滚。
只读状态：当代码读取但不修改数据时，可以使用只读事务。在某些情况下，例如使用Hibernate时，只读事务可能是有用的优化。

这些设置反映了标准的事物概念。如有必要，请参考讨论事务隔离级别和其他核心事务概念的资源。了解这些概念对于使用Spring框架或任何事务管理解决方案至关重要。

TransactionStatus接口为事务代码提供了一种控制事务执行和查询事务状态的简单方法。这些概念应该很熟悉，因为它们对于所有事务API都是通用的。以下清单显示了TransactionStatus接口：

public interface TransactionStatus extends TransactionExecution, SavepointManager, Flushable {

    @Override
    boolean isNewTransaction();

    boolean hasSavepoint();

    @Override
    void setRollbackOnly();

    @Override
    boolean isRollbackOnly();

    void flush();

    @Override
    boolean isCompleted();
}

无论你在Spring中选择声明式还是编程式事务管理，定义正确的TransactionManager实现都是绝对必要的。通常，你可以通过依赖注入来定义此实现。TransactionManager实现通常需要了解其工作环境：JDBC、JTA、Hibernate等。

TransactionManager实现通常需要了解其工作环境：JDBC、JTA、Hibernate等。以下示例显示了如何定义本地PlatformTransactionManager实现（在这种情况下，使用纯JDBC）。

你可以通过创建类似于以下内容的bean来定义JDBC数据源：

然后，相关的PlatformTransactionManager Bean定义将引用DataSource定义。它应类似于以下示例：

如果你在Java EE容器中使用JTA，则可以使用通过JNDI获得的容器DataSource以及Spring的JtaTransactionManager。以下示例显示了JTA和JNDI查找：

JtaTransactionManager不需要了解数据源（或任何其他特定资源），因为它使用了容器的全局事务管理基础结构。

dataSource bean的先前定义使用jee名称空间中的标记。有关更多信息，参考JEE Schema。

你还可以轻松使用Hibernate本地事务，如以下示例所示。在这种情况下，你需要定义一个Hibernate LocalSessionFactoryBean，你的应用程序代码可使用该Hibernate LocalSessionFactoryBean获取Hibernate Session实例。

DataSource bean定义与先前显示的本地JDBC示例相似，因此在以下示例中未显示。

如果通过JNDI查找数据源（由任何非JTA事务管理器使用）并由Java EE容器管理，则该数据源应该是非事务性的，因为Spring框架（而不是Java EE容器）管理事务。

在这种情况下，txManager bean是HibernateTransactionManager类型。就像DataSourceTransactionManager需要引用数据源一样，HibernateTransactionManager需要引用SessionFactory。以下示例声明了sessionFactory和txManager bean：


    
    
        
            org/springframework/samples/petclinic/hibernate/petclinic.hbm.xml
        
    
    
        
            hibernate.dialect=${hibernate.dialect}

如果使用Hibernate和Java EE容器管理的JTA事务，则应使用与前面的JDBC JTA示例相同的JtaTransactionManager，如以下示例所示：

如果使用JTA，则无论使用哪种数据访问技术（无论是JDBC、Hibernate JPA或任何其他受支持的技术），事务管理器定义都应该相同。这是由于JTA事务是全局事务，它可以征用任何事务资源。

在所有这些情况下，无需更改应用程序代码。你可以仅通过更改配置来更改事务的管理方式，即使更改意味着从本地事务转移到全局事务，反之亦然。

作者

个人从事金融行业，就职过易极付、思建科技、某网约车平台等重庆一流技术团队，目前就职于某银行负责统一支付系统建设。自身对金融行业有强烈的爱好。同时也实践大数据、数据存储、自动化集成和部署、分布式微服务、响应式编程、人工智能等领域。同时也热衷于技术分享创立公众号和博客站点对知识体系进行分享。关注公众号：青年IT男 获取最新技术文章推送！

博客地址： http://youngitman.tech

CSDN： https://blog.csdn.net/liyong1028826685

微信公众号：

技术交流群：

如何在Joomla中删除组件菜单链接-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

有时，Joomla用户已删除组件，但仍在其管理区域中看到该组件的菜单项。

在本教程中，您将学习如何摆脱不必要的菜单项。Akeeba订阅将用作示例组件。

您可以在下图中看到以语言字符串形式渲染的不需要的菜单项：

要彻底删除它，请打开您站点的数据库。

找到#__menu表，其中#__是您的数据库前缀。单击此数据库表。

浏览表记录，直到找到由不需要的组件创建的记录。

单击删除。

您将看到“确认”框，提示您确认您确实要删除数据库表记录。

单击确定。

您将看到您的组件记录不再在表中列出：

在您的Joomla控制面板中，转到“组件”菜单。您将看到那里也没有列出不需要的菜单项：

架构设计 | 分布式体系下，服务分层监控策略-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

一、分布式故障

分布式系统的架构，业务开发，这些在良好的思路和设计文档规范之下，是相对来说好处理的，这里的相对是指比较分布式架构下生产环境的突然故障。

在实际的开发中，有这样一个很妖娆的情况：越是核心复杂的业务，越是担心出问题，越容易出问题。

所以当核心服务的链路出现故障时，如何快速定位问题就是一件很头疼的事情，尤其是一些特殊情况下，问题很模糊很难复现，外加客户或者领导催促，这种场景心里阴影是大部分开发都有的。更有甚者，可能问题发生的切入点的开发是某人负责的，实际问题是发生在请求链路的其他服务上，这种情况遇多了，甩锅水平会直线上升。

越是复杂的系统，越是经验丰富的开发或者运维，对监控系统就越是有执念，尤其是全链路的监控，底层，网络，中间件，服务链路，日志观察预警等，用来快速定位问题，省时省心。

二、全链路监控

1、监控层次

在分布式系统中，需要监控的体系和层次极其复杂，通常整体上划分为三个层次：应用服务，软件服务，硬件服务。

通常情况，运维管理硬件服务，开发管理应用和软件服务。

2、应用服务

应用层为开发的业务逻辑服务，也是最容易突发问题的一个层面，当在一家公司待久了，因为开发过多个业务线，就会感觉自己不是开发，是个打杂的，每天都要分出大量时间处理各种问题。应用层监控涉及下面几个核心模块：

请求流量

任何服务，高并发的流量都会暴露各种服务问题，尤其核心接口的流量更是监控的重点。

服务链路

一次请求发生问题，快速判断问题所在的服务，或者哪些服务之间，这对快速处理问题是至关重要的。

日志体系

核心接口日志记录也是必备的功能，通常情况下基于日志体系的分析结果，可以明确系统的异常点，重点优化。

3、软件服务

为了解决分布式系统的各种复杂业务场景，通常会引入各种中间软件来做支撑，例如必备的数据库，缓存，消息MQ等，通常这些中间件都会有自带的监控管理端口。

数据库：较多使用Druid监控分析；

消息队列：常用RocketMQ和控制台；

Redis缓存：提供命令获取相关监控数据；

还有一些公司甚至直接在中间件层开发一套管理运维和监控的聚合平台，这样更容易从整体上分析问题。

4、硬件服务

硬件层面，运维最关注的三大核心内容：CPU、内存、网络。底层硬件资源爆发的故障，来自上层的应用服务或者中间件服务触发的可能性偏高。

硬件层面的监控有许多成熟的框架，例如zabbix，grafana等，当然这些组件功能很丰富，不仅仅在硬件层应用。

5、雪崩效应

有些故障导致大面积服务瘫痪，也称为雪崩效应，可能故障源没有快速处理，也没有熔断机制，导致整个服务链路全部垮掉，这是常见的问题，所以在处理故障时，要学会基于全栈监控信息，全局关联分析核心故障点，快速切断单点服务的故障，保证整个系统的可用性。

三、注意事项

监控系统虽然作用很大，但是实际搭建的时候难度还是很大，需要有较好的意识，不是业务开发那种感觉，方方面面需求都需要处理，做监控系统的基本策略如下。

1、选择性

不是所有服务的所有环境，和所有接口都需要监控，通常都是监控核心链路，核心中间件，和服务所在环境。

例如：交易链路，交易库，和部署的环境；或者大客户高并发业务，一旦出问题需要及时响应，立即处理。说的直接点，带来收益的服务是需要重点关注的。

非关键服务即使出现问题，是有缓冲时间的，所以不需要花费精力添加监控，在做监控系统的时候存在这样一句话：简单的链路添加监控，复杂了容易出错；复杂链路添加监控，更复杂更容易出错，然而这样却是为了更好的解决故障。

2、独立性

监控系统的本身发生故障，不能影响正常业务流程，即使在一定情况下没有监控信息，也不能因为监控服务影响正常业务服务。

3、整体性

聚合的监控系统可以观察监控链路的全局状态，这样可以快速定位故障坐标，可以关联性分析问题原因。

4、预警性

例如CPU突然升高，某个中间件服务突然停止，内存占用过高，这些可以基于监控系统做预警通知，然后邮件或者消息通知到相关负责人，达到快速响应的目的，这个场景大部分开发都熟悉，且有心理阴影。

大数据简介，技术体系分类整理-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

一、大数据简介

1、基础概念

大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术则主要用来解决海量数据的存储和分析。

2、特点分析

大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）。

3、发展过程

Google在2004年前后发表的三篇论文，分别是文件系统GFS、计算框架MapReduce、NoSQL数据库系统BigTable。海量数据文件，分析计算，并存储，确立了大数据的基本原理和思路。

天才程序员DougCutting，也是Lucene、Nutch项目发起人。根据Google论文原理初步实现类似GFS和MapReduce的功能，后来发展成为大名鼎鼎的Hadoop。

再后来，Hadoop经过高速的发展，已经形成一个生态体系，基于Hadoop之上，有实时计算，离线计算，NoSQL存储，数据分析，机器学习等一系列内容。

从这一系列事情发展看技术规律：Google业务实践中创造性的提出论文作为基础，业务的成长和需求，迫使技术不断更新换代。所以业务是技术不断发展的关键。

二、Hadoop框架

1、Hadoop简介

注意这里基于Hadoop2.X版本描述。后续如果没有特别说明，都是2.7版本。

Hadoop是一个由Apache基金会所开发的分布式系统基础架构；

提供海量的数据存储能力，和分析计算能力；

作为Apache的顶级项目，包含众多子项目是一个生态圈；

2、框架特点

可靠性：Hadoop按位存储和存储多个数据副本，提供可靠服务；

扩展性：Hadoop利用计算机集群分配数据并完成计算任务，可以方便地扩展到数以千计的节点中；

高效性：基于MapReduce思想，为海量的数据提供高效的并行计算；

容错性：自动保存数据的多个副本，并且能够自动将失败的任务重新分配；

3、组成结构

HDFS存储

NameNode

存储文件相关的元数据，例如：文件名，文件目录，创建时间，权限副本数等。

DataNode

文件系统存储文件块数据，以及和数据块ID的映射关系。

Yarn调度

负责资源管理和作业调度，将系统资源分配给在Hadoop集群中运行的各种应用程序，并调度要在不同集群节点上执行的任务。

开源组织： Apache软件

应用场景：

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。

四、技术栈分类

存储体系：Hadoop-HDFS、HBase、MongoDB、Cassandra

计算体系：Hadoop-MapReduce、Spark、Storm、Flink

数据同步：Sqoop、DataX

资源调度：YARN、Oozie、Zookeeper

日志收集：Flume、Logstash、Kibana

分析引擎：Hive、Impala、Presto、Phoenix、SparkSQL

集群监控：Ambari、Ganglia、Zabbix

五、源代码地址

GitHub·地址
https://github.com/cicadasmile/big-data-parent
GitEE·地址
https://gitee.com/cicadasmile/big-data-parent

穿越数据的变迁（数据闪回PR）-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

在当下数据为王的时代，客户的业务数据是一个企业的核心资产，各个行业客户都在不断追求在其使用的数据库上有更为强大、细粒度的数据备份恢复功能，以应对各样的数据丢失、业务逻辑错误带来的商业风险。例如，在游戏行业里，有大量客户存在“游戏回档”的实际需求，以应对运营或故障风险。再例如，2020年某上市公司出现删库跑路事件，公司市值遭到严重打击。对于上述情况，传统的定时或手动备份的数据由于存在备份时间点与黑天鹅事件之间的时间差，因此均不是理想完备的解决方案。对于防范上述数据风险，最理想的功能是，数据能够以秒级颗粒度恢复至黑天鹅事件发生的瞬时时间点上。

在传统关系型数据库中（如Oracle）提供了数据闪回功能，帮助客户完成数据的按时间恢复。而在主流的高速缓存产品Redis、Memcached上却鲜有类似的功能，个中原因主要是考虑到作为缓存产品，其中的数据可以丢失，而通过背后配备的持久化、事务性的关系型数据库可以对缓存进行重新加载。但是，随着大量客户对于低延迟的业务应用性能要求不断的提高，对于一些对延迟要求极高的场景下，例如游戏行业，越来越多的客户选择化简架构，将Redis直接作为内存数据库来使用，这便对Redis的数据安全可恢复提出了更大的挑战。阿里云Redis作为行业内的领军产品，拥有国内最强大的Redis产品系列，在托管社区Redis版本的同时大力发展自主研发、兼容Redis协议增强型键值存储产品Tair（阿里云Redis企业版）。其中“更安全”是阿里云Redis向广大客户提供服务的重要部分，针对上述客户诉求，阿里云在Tair中的性能增强版上特别推出了数据闪回功能，帮助客户实现在其指定时间点上恢复指定Redis实例数据的能力，提前为客户可能出现的风险准备好一剂“后悔药”。功能示意如下图所示：
使用这个能够帮助用户穿越数据变迁的黑科技只需简单几步。
• 开通阿里云Redis企业版性能增强版实例
• 开启数据闪回功能
• 正常读写Redis数据库
• 一旦发生即时数据恢复要求，选择对应实例和欲恢复的时间点，产生新实例
• 切换应用连接的实例地址
下面以一个简单的示例演示：

首先，我们先对一个阿里云Tair实例写入一些数据，写入脚本如下：
% cat preparerepldata.sh

!/bin/bash

echo "started at: date +%m%d%H%M%S"
for i in seq -f "%010g" 1 $1
do

namerand=$[ $RANDOM % 3 ]
timerand=`date +%m%d%H%M%S`
nationrand=$[ $RANDOM % 3 ]
redis-cli -h   r-t4nq2viog3z4rshoxxpd.redis.singapore.rds.aliyuncs.com -a 'gnuhpc:Pa$$w0rd'   hset userprofile foo$timerand $namerand
sleep 0.75 #consider the   latency for connection establish

done

echo "ended at: date +%m%d%H%M%S"

我们运行上述脚本以大约一秒的速率写入带时间戳的KV到一个叫做userprofile的hash结构中，一共写入120个Key，代表业务写入。

% bash preparerepldata.sh 120
OK
OK
…

% redis-cli -h hosts -a 'username:password' hkeys userprofile | wc -l

% redis-cli -h hosts -a 'username:password' hkeys userprofile | sort -n
foo0803202709
…
foo0803202909

如命令执行所示，我们是在08月03日20：27：09 –08月03日 20：29：09 写入了120条数据。

随后在业务运行中，发现08月03日20：28：10之后，上述业务运行中发生数据风险，我们需要将新创建一个数据库，将原数据库在此时间点之前的数据恢复到这个新的数据库实例中。

我们到阿里云Redis控制台的备份恢复功能，选择数据闪回功能，点击“马上闪回”按钮，选择克隆源类型是“过去时间点”，然后选择要恢复的时间点：

新建的实例就是我们要将指定时间点数据恢复到的目标实例，这里值得一提的数据闪回只要求目标实例容量大于等于源实例，而架构则可以与源实例不同，也就是说用户可以自由选择目标实例为标准主从、集群或者读写分离架构的任何一个。

点击支付后等待片刻后实例创建完毕并完成数据恢复。

我们连接新创建的实例，看看究竟数据恢复的情况如何？

% redis-cli -h hosts -a 'username:password' hkeys userprofile | wc -l
62

% redis-cli -h hosts -a 'username:password' hkeys userprofile | sort -n
foo0803202709
…
foo0803202810
可以看到，我们已经成功的恢复数据到了08月03日 20：28：10的数据，在此时间点之后的数据修改均没有生效，用户完美地规避了指定的时间点之后发生的数据风险。

作为全球数据库领域最领先的企业之一，阿里云数据库的核心理念是更快、更稳、更安全（Faster, Stronger, Securer）的数据库，致力于为用户提供拥有极致性能、高稳定性和更加安全可靠的数据库产品。作为“更安全”的践行，阿里云Redis团队在Redis企业版（Tair）中提供的数据闪回功能，具备了用户指定秒级时间点的数据恢复功能，通过此功能为企业的高贵数据资产做最高级别的保驾护航，客户可以更加放心的将Redis作为内存数据库使用以简化架构与业务的快速迭代。另外，我们云数据库专属集群MyBase还支持Redis，这是阿里云专为大中型企业用户定制优化的解决方案，填补了市场空白，具有资源独享、自主可运维、多数据库混合部署等特点，让用户既享受到云数据库的灵活性，又满足企业对数据库合规性、高性能和安全性要求。
========微博消息版========
让您不再有“从删库到跑路”的噩梦！阿里云Redis企业版性能增强版特别推出数据闪回功能，帮助客户实现在其指定时间点上恢复指定Redis实例数据的能力，详见https://help.aliyun.com/document_detail/148479.html。

2020云栖大会来了！阿里云数据库6大专场重磅发布技术突破-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

SpringCloud 应用在 Kubernetes 上的最佳实践 — 线上发布（优雅上下线）-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

作者 | 骄龙

导读：本篇是《SpringCloud 应用在 Kubernetes 上的最佳实践》系列文章的第八篇，主要介绍了如何做到流量的无损上/下线。更多相关文章阅读可查看文末。

前言

上篇我们讲的是发布回滚过程，尤其是在 Kubernetes 的回滚过程中，原生有提供 Rollout 到上一个版本的能力，能保证我们在发布过程中遇到问题时快速回退的能力。然而在每一次上线的过程中，我们最难处理的就是正在运行中的流量，如何做到流量的无损上/下线，是一个系统能保证 SLA 的关键。

介绍

什么是优雅上线？就如下面这个房子一样，未建好的房子，人住进去会有危险，房子应该建好，装修好，人才能住进去。

那么如何做到优雅上线呢？我们先来看一个 WEB 应用的加载过程，就像上面造房子一样，是个漫长的过程：

应用的加载是漫长的，在加载过程，服务是不可预期的；如过早地打开 Socket 监听，则客户端可能感受到漫长的等待；如果数据库、消息队列、REDIS 客户端未完成初始化，则服务可能因缺少关键的底层服务而异常。

所以在应用准备完成后，才接入服务，即做到优雅上线。当然应用上线后，也可能因如数据库断连等情况引起服务不可用；或是准备完成了，但在上线前又发生数据库断连，导致服务异常。为了简化问题，后面两种情况作为一个应用自愈的问题来看待。

什么是优雅下线？与建房子相反就像下面的危房一样，人住在里面很危险，人应该先从房子出来，然后推掉房子。

那么如何做到优雅下线呢？我们先来看一个 WEB 应用的停止过程：

所以关闭服务接入（转移服务接入），完成正在处理的服务，清理自身占用的资源后退出即做到优雅下线。

如何实现优雅下线

从上面介绍看，似乎不难，但事实上，很少有系统真正实现了优雅上下线。因为软件本身由无数各种各样相互依赖的结构组成，每个结构都使用一些资源，污染一些资源；通常在设计之初优雅上下线也不被作为优先考虑的需求，所以对于下线的过程，通常都没被充分考虑，在设计上通常要求：

结构（组件）应形成层次关系；
用户线程需能收到停止信号并响应退出；否则使用 daemon 线程；
结构应按依赖关系自下向上构建：就像建房子一样，自内向外构建而成；
结构应按依赖关系自上向下销毁：就像拆房子一样，自外向内拆解。

优雅下线实现路径

大致分为一个完整的过程，需要经历一下四个关键的节点，如下图：

接收信号：停止信号可能从进程内部触发（比如 Crash 场景），如果自退出的话基本上无法保证优雅下线；所以能保证优雅下线的前提就是需要正确处理来自进程外部的信号；
停止流量接收：由于在停止之前，我们会有一些正在处理的请求，贸然退出会对这些请求产生损耗。但是在这段时间之内我们绝不能再接收新的业务请求，如果这是一个后台任务型（消息消费型或任务调度型）的程序，也要停止接收新的消息和任务。对于一个普通的 WEB 场景，这一块不同的场景实现的方式也会不一样，下面的 Srping Cloud 应用的下线流程会详细讲解；
销毁资源：常见的是一些系统资源，也包括一些缓存、锁的清理、同时也包括线程池、关闭阻塞中的的 IO 操作，等到我们这些服务器资源销毁之后，就可以通知主线程退出。

Spring Cloud 应用

一个 Spring boot 应用通常由应用本身和一系列的 Starter 组成，对于 Spring boot 体系，需要了解如下核心概念：

Starter：提供一系列的模块，由 Spring boot 核心通过 auto-configuration 机制加载；
Bean：一切皆 Bean，starter 模块的加载产生各种 Bean；
Context：Bean 的容器，容器拥有生命周期，Bean 需要感知生命周期事件；
LifeCycle：生命周期管理接口；
ApplicationEvent：模块之间，模块与容器之间，通过发送或监听事件来达到互相通讯的目的。

所以对于应用上下线这个主题，我们应尽可能利用其丰富的原生事件机制，Spring Cloud 中内置的 Starter 机制针对整个生命周期管理的过程有了很好的封装。

Spring Cloud 应用的优雅上线

Spring Cloud 启动过程触发回调及事件如下，详细介绍见 application-events-and-listeners，简单罗列如下：

Spring 自身及其组件大量基于这些事件构建，如响应 WebServerInitializedEvent 事件向服务注册中心注册服务，对于应用一般可利用：

InitializingBean or @PostConstruct：在 Bean 装配完后，被回调，如完成数据源初始化连接；
ApplicationReadyEvent、ApplicationRunner、CommandLineRunner：如开始监听消息队列，处理消息；注册到SLB等；先通过配置禁用服务的自动注册，在这里做手动服务注册。

Spring Cloud 应用的优雅下线

Spring Cloud 本身可以作为一个应用单独存在，也可以是依附在一个微服务集群中，同时还能作为反向代理架构中的一个网关。不同的场景，需要用到的方法也不一样，我们就常用的三种场景针对性的加以说明。

场景一：直接访问 WEB 服务

客户端直接访问 WEB 应用，在这个用例下，优雅下线需要做的事情有：

正在处理的请求完成处理
应用自身完成安全下线并正常退出
客户端感知到连接异常

Spring-boot 从 2.3 开始内置了 WEB 应用优雅下线的能力，需配置如下，具体介绍参见 graceful-shutdown。

server.shutdown=graceful
spring.lifecycle.timeout-per-shutdown-phase=20s

其实现方式：

首先关闭 socket 监听，等待正在处理的所有请求完成：具体可见 WebServerGracefulShutdownLifecycle，通过 getPhase 返回最大值，达到早于 WEB 容器关闭执行的目的；
然后触发 WEB 容器关闭：具体可见 WebServerStartStopLifecycle。

但其实，对于未被 WEB 容器完全接收的请求，客户端仍会收到连接被重置的异常，只是这个时间窗口极小。该需求从提出到实现的时间跨度较长，感兴趣的可参见 github 上的讨论。

场景二：经由反向代理的服务优雅下线

因为实例前面还有反向代理，相比上个场景，需要新增“反向代理下线”这个处理流程。即若应用已经下线，但反向代理未摘除该应用实例时客户端将感知到失败。一般采取的策略有：

反向代理支持失败转移到其它应用实例；
在关闭应用前，如将健康探测接口返回不健康以及等待足够的超时，让反向代理感知并摘除实例的路由信息。

对于仍在使用 2.3 以前版本的 Spring Cloud 应用，可参见一个方案，实现方式：

使用自身的 shutdownHook 替换 Spring 的 shutdownHook；
先改变 health 状态，等待一段时间，让反向代理感知并摘除实例的路由信息。

场景三：在微服务集群中下线单个服务

在优雅关闭 Spring Cloud 应用自身之前，我们除了完成场景一之中的目标之外，还需要将自身节点从注册中心中下线。目前在 Spring Cloud 中针对注册中心下线的场景暂未提供开箱即用的方法，下面介绍两种可能的实现方案：

方案 1：先通过脚本、或通过监听 ContextClosedEvent 反注册服务摘除流量；等待足够时间，如使用 ribbon 负载均衡器，需要长于配置的刷新时间；对于基于 HTTP 的服务，若 Spring Cloud 版本小于 2.3，则时间需加上预期的请求处理时间；

方案 2：客户端支持连接感知重试，如重试，实现方案可参考Spring-retry，针对连接异常 RemoteConnectFailureException 做重试。

针对 Eureka 中的场景，有一个很好的参考的例子，请参见：https://home1-oss.github.io/home1-oss-gitbook/release/docs/oss-eureka/GRACEFUL_SHUTDOWN.html

Kubernetes 下的机制

Kubernetes 中针对应用的的管控提供了丰富的手段，正常的情况它提供了应用生命周期中的灵活扩展点，同时也支持自己扩展它的 Operator 自定义上下线的流程。

抛开实现成本，以下线的情况来说，一个 Kubernetes 应用实例下线之前，管控程序会向 POD 发送一个 SIGTERM 的信号，应用响应时除了额外响应这一个信号之外，还能触发一段自定义的 PreStop 的挂在脚本，代码样例如下：

yaml
lifecycle:                   
      preStop:                   
        exec:                    
          command:               
          - sh
          - -c
          - "sleep 5"

上面的例子一点特殊说明：因服务控制面刷新与 POD 收到 SIGTERM 同时发生，所以这里通过 sleep 5 让服务控制面先完成刷新，应用进程再响应 SIGTERM 信号。

Spring Cloud 与 Kubernetes 的结合

Kubernetes 会根据健康检查的情况来更新服务(Service)列表，其中如果 Liveness 失败，则会触发容器重建，这是一个相对很重的操作；若 Readiness 失败，则 Kubenetes 则默认不会将路由服务流量到相应的容器；基于这一机理，Spring Cloud 2.3 开始，也做了原生的的支持，具体参见 liveness-and-readiness-probes-with-Spring-boot，这些健康检查端点可对接 Kubnetes 相应的 probe：

/actuator/health/liveness
/actuator/health/readiness

同时，Spring Boot 内置了相应的 API、事件、Health Check 监控，部分代码/配置片段如下：

java
// Available as a component in the application context
ApplicationAvailability availability;
LivenessState livenessState = availabilityProvider.getLivenessState();
ReadinessState readinessState = availabilityProvider.getReadinessState();
....
// 对于应用，也可以通过API，发布相应的事件，来改变应用的状态
AvailabilityChangeEvent.publish(this.eventPublisher, ex, LivenessState.BROKEN);
// 同时，应用监控也可影响这健康状态，将监控与健康关联，在K8S体系下，可以实现如离群摘除，应用自愈的能力
// application.properties
management.endpoint.health.group.liveness.include=livenessProbe,cacheCheck

回到 Spring Cloud 应用 在微服务集群中下线单个服务 的章节中，我们的应用如果跑在 Kuberntes 中，如果我们使用了原生的 Kubernetes 机制去管理应用生命周期的话，只需要发布一个应用事件 (LivenessState.BROKEN) 即可实现优雅下线的能力。

EDAS提供内置的优雅上下线能力

通过上面两部分了解了 Spring Cloud 和 K8s 中的机制，EDAS 基于原生的机制，衍生出来了自己的方法，除了最大化利用这些能力：主动更新 Liveness、Readiness、Ribbon 服务列表之外，我们还提供了无代码侵入的开箱即用的能力，列举如下：

后续

这一章节之后，和发布相关的内容都已经更新完毕，下一章节我们要开始高可用部分的能力，高可用也是系统保障 SLA 的关键部分，简单的理解是流量洪峰到来如何保证系统不会受到影响？当然我们还有一部分要达成的是洪峰退去之后资源是否存在浪费？敬请期待 ...

数据湖构建服务搭配Delta Lake玩转CDC实时入湖-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

什么是CDC

Change Data Capture(CDC)用来跟踪捕获数据源的数据变化，并将这些变化同步到目标存储(如数据湖或数据仓库)，用于数据备份或后续分析，同步过程可以是分钟/小时/天等粒度，也可以是实时同步。CDC方案分为侵入式(intrusive manner)和非倾入性(non-intrusive manner)两种。

侵入式

侵入式方案直接请求数据源系统(如通过JDBC读取数据)，会给数据源系统带来性能压力。常见的方案如下:

最后更新时间(Last Modified)

源表需要有修改时间列，同步作业需要指定最后修改时间参数，表明同步某个时间点之后变更的数据。该方法不能同步删除记录的变更，同一条记录多次变更只能记录最后一次。

自增id列

源表需要有一个自增id列，同步作业需要指定上次同步的最大id值，同步上次之后新增的记录行。该方法也不能同步删除记录的变更，而且老记录的变更也无法感知。

非侵入式

非侵入性一般通过日志的方式记录数据源的数据变化(如数据库的binlog)，源库需要开启binlog的功能。数据源的每次操作都会被记录到binlog中(如insert/update/delete等)，能够实时跟踪数据插入/删除/数据多次更新/DDL操作等。

示例:

insert into table testdb.test values("hangzhou",1);
update testdb.test set b=2 where a="hangzhou";
update testdb.test set b=3 where a="hangzhou";
delete from testdb.test where a="hangzhou";

通过将binlog日志有序的回放到目标存储中，从而实现对数据源的数据导出同步功能。

常见的CDC方案实现

开源常见的CDC方案实现主要有两种:

Sqoop离线同步

sqoop是一个开源的数据同步工具，它可以将数据库的数据同步到HDFS/Hive中，支持全量同步和增量同步，用户可以配置小时/天的调度作业来定时同步数据。

sqoop增量同步是一种侵入式的CDC方案，支持Last Modified和Append模式。

缺点:

直接jdbc请求源库拉取数据，影响源库性能
小时/天调度，实时性不高
无法同步源库的删除操作，Append模式还不支持数据更新操作

binlog实时同步

binlog日志可以通过一些工具实时同步到kafka等消息中间件中，然后通过Spark/Flink等流引擎实时的回放binlog到目标存储(如Kudu/HBase等)。

缺点:

Kudu/HBase运维成本高
Kudu在数据量大的有稳定性问题, HBase不支持高吞吐的分析
Spark Streaming实现回放binlog逻辑复杂，使用java/scala代码具有一定门槛

Streaming SQL+Delta Lake实时入湖方案

前面介绍了两种常见的CDC方案，各自都有一些缺点。阿里云E-MapReduce团队提供了一种新的CDC解决方案，利用自研的Streaming SQL搭配Delta Lake可以轻松实现CDC实时入湖。这套解决方案同时通过阿里云最新发布的数据湖构建（Data Lake Formation，DLF）服务提供一站式的入湖体验。

Streaming SQL

Spark Streaming SQL在Spark Structured Streaming之上提供了SQL能力，降低了实时业务开发的门槛，使得离线业务实时化更简单方便。

Spark Streaming SQL支持的语法如下:

下面以实时消费SLS为例:

# 创建loghub源表
spark-sql> CREATE TABLE loghub_intput_tbl(content string)
         > USING loghub
         > OPTIONS
         > (...) 
# 创建delta目标表
spark-sql> CREATE TABLE delta_output_tbl(content string)
         > USING delta
         > OPTIONS
         > (...);
# 创建流式SCAN
spark-sql> CREATE SCAN loghub_table_intput_test_stream
         > ON loghub_intput_tbl
         > USING STREAM;
# 将loghub源表数据插入delta目标表         
spark-sql> INSERT INTO delta_output_tbl SELECT content FROM loghub_table_intput_test_stream;

Delta Lake

Delta Lake是Databricks开源的一种数据湖格式，它在parquet格式之上，提供了ACID事务/元数据管理等能力，同时相比parquet具有更好的性能，能够支持更丰富的数据应用场景(如数据更新/schema演化等)。

E-MapReduce团队在开源Delta Lake基础上做了很多功能和性能的优化，如小文件合并Optimize/DataSkipping/Zorder，SparkSQL/Streaming SQL/Hive/Presto深度集成Delta等。

Streaming SQL+Delta Lake CDC实时入湖

Spark Streaming SQL提供了Merge Into 的语法，搭配Delta Lake的实时写入能力，可以很方便的实现CDC实时入湖方案。

如上图所示，只需要SQL就能完成CDC实时入湖，细节步骤详见E-MapReduce文档。

阿里云最新发布的数据湖构建（Data Lake Formation，DLF）服务，提供了完整的一站式入湖解决方案。

----

更多数据湖技术相关的文章请点击：阿里云重磅发布云原生数据湖体系

更多数据湖相关信息交流请加入阿里巴巴数据湖技术钉钉群

如何基于 Flink 生成在线机器学习的样本？-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

作者：曹富强（微博）

在线机器学习与离线相比，在模型更新的时效性，模型的迭代周期，业务实验效果等方面有更好的表现。所以将机器学习从离线迁移到在线已经成为提升业务指标的一个有效的手段。

在线机器学习中，样本是关键的一环。本文将给大家详细的介绍微博是如何用 Flink 来实现在线样本生成的。

为何选择 Flink 来做在线的样本生成？

在线样本生成对样本的时效性和准确性都有极高的要求。同样对作业的稳定性及是否容灾也都有严格的指标要求。基于这个前提，我们对目前较为流行的几种实时计算框架（Storm 0.10, Spark 2.11, Flink 1.10）进行了分析比较，结论如下：

因此，我们决定使用 Flink 来作为在线样本生成的实时流计算框架。

如何实现？

在线样本生成，简单描述一个业务场景：对用户的曝光数据和点击数据实时的做关联，关联后将数据输出到 Kafka 中，给下游的在线训练作业用。

首先我们要确定两个数据流关联的时间窗口。这一步一般建议先离线对两个数据流的日志做关联，通过离线的方式对两份数据在不同的时间范围内做 join，来判断在线需要的时间窗口。比如业务接受的最低关联比例是 85%，并且通过离线测试确认 20 分钟内两个数据流可以关联 85%的数据，那么就可以采用 20 分钟作为时间窗口。这里的关联比例和窗口时间实际上是在准确性和实时性之间的一个 trade-off。

确定时间窗口后，我们并没有使用 Flink 的 time window 来实现多个数据流的 join，而是选择采用 union + timer 方式来实现。这里主要考虑两点：第一、Flink 自带的 join 操作不支持多个数据流。第二、使用 timer+state 来实现，自定义程度更高，限制更少，也更方便。

接下来，我们把样本生成过程细分为：

① 输入数据流

一般我们的数据源包括 Kafka，Trigger，MQ 等。Flink 需要从数据源中实时的读取日志。

② 输入数据流的格式化和过滤

读取日志后，对数据做格式化，并且过滤掉不需要的字段和数据。
指定样本 join 的 key。例如：用户 id 和内容 id 作 key。
输出的数据格式一般为 tuple2（K,V）,K:参与 join 的 key。V：样本用到的字段。

③ 输入数据流的 union

使用 Flink 的 union 操作，将多个输入流叠加到一起，形成一个 DataStream。
为每个输入流指定一个可以区分的别名或者增加一个可以区分的字段。

④ 输入数据流的聚合：keyby 操作

对 join 的 key 做 keyby 操作。接上例，表示按照用户 id 和内容 id 对多个数据流做 join。
如果 key 存在数据倾斜的情况，建议对 key 加随机数后先聚合，去掉随机数后再次聚合。

⑤ 数据存储 state + timer

定义一个Value State。
keyby后的process方法中，我们会重写processElement方法，在processElement方法中判断，如果value state为空，则new 一个新的state，并将数据写到value state中，并且为这条数据注册一个timer（timer会由Flink按key+timestamp自动去重），另外此处我们使用的是ProcessingTime（表示onTimer()在系统时间戳达到Timer设定的时间戳时触发）。如果不为空则按照拼接的策略，更新已经存在的结果。比如：时间窗口内用户id1，内容id1的第一条日志数据没有点击行为，则这个字段为0，第二条点击数据进入后，将这个字段更新为1。当然除了更新操作，还有计数、累加、均值等各种操作。如何在process里区分数据是来自曝光还是点击呢，使用上面步骤③定义的别名。
重写onTimer方法，在onTimer方法中主要是定义定时器触发时执行的逻辑：从value state里获取到存入的数据，并将数据输出。然后执行state.clear。
样本从窗口输出的条件有2个：第一，timer到期。第二，业务需要的样本都拼接上了。

此处参考伪代码：

public class StateSampleFunction extends KeyedProcessFunction {
    /**
     * 这个状态是通过过程函数来维护,使用ValueState
     */
    private ValueState state;

    private Long timer = null;

    public StateSampleFunction (String time){
        timer = Long.valueOf(time);
    }

    @Override
    public void open(Configuration parameters) throws Exception {
        // 获取state
        state = getRuntimeContext().getState(new ValueStateDescriptor<>("state", TypeInformation.of(new TypeHint< ReturnSample >() {})));
    }

    @Override
    public void processElement(Tuple2value, Context context, Collector< ReturnSample > collector) throws Exception {
        if (value.f0 == null){
            return;
        }

        Object sampleValue = value.f1;
        Long time = context.timerService().currentProcessingTime();
        ReturnSample returnSample = state.value();
        if (returnSample == null) {
            returnSample = new ReturnSample();
            returnSample.setKey(value.f0);
            returnSample.setTime(time);
            context.timerService().registerProcessingTimeTimer(time +timer);
        }

        // 更新点击数据到state里
        if (sampleValue instanceof ClickLog){
            ClickLog clickLog = (ClickLog)values;
            returnSample =(ReturnSample) clickLog.setSample(returnSample);
        }
        state.update(returnSample);
    }

    /**
     * @param timestamp
     * @param ctx
     * @param out
     * @throws Exception
     */
    @Override
    public void onTimer(long timestamp, OnTimerContext ctx, Collector< ReturnSample > out) throws Exception {
        ReturnSample value = state.value();
        state.clear();
        out.collect(value);
    }
}

⑥ 拼接后的日志格式化和过滤

拼接后的数据需要按照在线训练作业的要求对数据做格式化，比如 json、CSV 等格式。
过滤：决定什么样的数据是合格的样本。例如：有真正阅读的内容才算是可用的样本。

⑦ 输出

样本最终输出到实时的数据队列中。下面是实际的作业拓扑和运行时状态：

整个样本拼接过程的流程图：

StateBackend 的选取

使用 RocksDB/Gemini 作为 state 的 Backend 的优势和建议：

我们用大数据对 memory 和 RocksDB，Gemini 做了实验对比，结果显示 RocksDB 和 Gemin 在数据处理，作业稳定性和资源使用等方面比 memory 更合理。其中 Gemini 的优势最为明显。

此外，如果是大数据量的 state，建议使用 Gemini + SSD 固态硬盘。

样本的监控

1. Flink 作业的异常监控

作业失败监控
Failover 监控
Checkpoint 失败的监控
RocksDB 使用情况的监控
作业消费 Kafka 的 Comsumer Lag 的监控
作业反压的监控

2. 样本输入端 Kafka 的消费延迟监控

3. 样本输出端 Kafka 的写入量的监控

4. 样本监控

拼接率监控
正样本监控
输出样本格式的监控
输出标签对应的值是否在正常范围
输入标签对应的值是否为 null
输出标签对应的值是否为空

样本的校验

样本生成后，如何验证数据是否准确

在线和离线的相互校验

将在线样本从输出的 Kafka 中接入到 HDFS 上离线存储。并按照在线 join 的时间窗口来分区。

用同等条件下生成的离线样本和在线样本做对比

白名单用户的全流程校验

将白名单用户的日志和样本结果存入 ES 等实时数仓中，来做校验。

故障的处理

样本异常对线上模型训练的影响非常大。当发现异常报警时，首先要做的是向在线模型训练作业发送样本异常的报警。收到报警信息后，模型停止更新。从而避免影响模型线上效果。

普通意义的业务故障解决后，丢弃原来的数据，所有输入日志流从最新的时间点开始消费并生成新的样本即可。重要业务需要重置输入日志流的 Kafka offset 从故障时间点开始重新生成样本数据。

平台化

通过平台化对样本生成的流程做出严格的规范非常重要。在平台化的过程中，需要提供简单通用的开发模板以提高作业开发效率；提供平台化的作业监控和样本指标监控框架，避免重复造车；提供通用的样本输出落地策略，和在线/离线校验策略，更便捷的为业务方服务。

微博基于 Flink 搭建的在线样本生成平台架构，如图：

UI 页面，如图：

基于平台化开发，用户只需要关心业务逻辑部分即可。需要用户开发的有：

对应输入数据的数据清洗逻辑
样本输出前的数据清洗逻辑

其余的在 UI 上配置即可实现，具体有：

输入 Kafka 的配置信息及对应数据清洗的 UDF 类
样本拼接的时间窗口
窗口内对字段的聚合操作
样本输出的 Kafka 配置信息及输出前数据清洗和格式化的 UDF 类

资源情况由平台方审核并配置。完成后，自动生成并提交作业。

作业提交后:

1. 平台会提供如前所述的作业相关监控，如下：

■ Flink 作业的异常监控

作业失败监控
Failover 监控
Checkpoint 失败的监控
RocksDB 使用情况的监控
作业消费 Kafka 的 Comsumer Lag 的监控
作业反压的监控

■ 样本监控

拼接率监控
正样本监控
输出样本格式的监控
输出标签对应的值是否在正常范围
输入标签对应的值是否为 null
输出标签对应的值是否为空

2. 平台会自动将数据落盘，存储到HDFS上。方便离线验证或者离线训练。

3. 用户只需将精力放到样本的验证上即可，由平台方保证作业的稳定性。

作者介绍：

曹富强，微博机器学习研发中心-高级系统工程师。现负责微博机器学习平台数据计算/数据存储模块，主要涉及实时计算 Flink、Storm、Spark Streaming，数据存储Kafka、Redis，离线计算 Hive、Spark 等。目前专注于 Flink/Kafka/Redis 在微博机器学习场景的应用，为机器学习提供框架，技术，应用层面的支持。

【其他】阿里云SCDN改版通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【SCDN】【产品改版通知】

安全加速SCDN产品将于2020年10月1日起进行产品改版，老版本SCDN将停止续费，阿里云提供了优惠或免费的迁移方案，建议您迁移到新版SCDN。新版SCDN产品详情点此查看。

新老版本差异：

老版SCDN主要提供CDN分发+DDoS高防的产品能力，最高提供联通，电信双线300G DDoS防护能力。

新版SCDN将主要提供安全CDN带宽，独享资源，并提供全网100W QPS，单点6W QPS能力，同时支持频次控制和流量管理等功能。

老用户迁移方案，详情请参考

如有任何疑问欢迎加入 SCDN产品改版钉钉群 34125539 咨询

【其他】9月11日ECS第七代高主频实例公测通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【ECS第七代高主频实例】【公测通知】

公测时间：2020年9月11日至10月31日

公测内容：阿里云中国站（www.aliyun.com）ECS将开放新增第七代高主频实例产品公测，首次开放地域包括杭州、广州、乌兰、河源，后续会有更多地域开放。

七代高主频实例产品是依托第三代神龙架构，采用intel最新一代cooper lake处理器，可以提供3.8Ghz的全核睿频，为用户提供稳定可靠的超高性能。实例的规格名称为hfg7/hfc7/hfr7系列，具体的产品规格参数及使用场景请详见官方文档介绍。购买方式及售卖价格请参考相关售卖地域页面高主频产品。

【其他】Flink全托管版商业化通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【Flink全托管服务】【商业化通知】

Flink全托管服务将于2020.9.15号开始结束公测进行商业化收费，为了保证您业务平稳过渡，请各位用户评估业务影响。针对在公测期间申请公测时间过长的用户，我们将免费服务期限统一限制为2020.9.30 23:59:59，特此通知，如有其他问题，请通过工单联系我们

【其他】9月16日数据湖分析产品更名通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【数据湖分析】【产品名称变更通知】

变更时间：2020年9月16日

变更内容：自2020年9月16日0时起，阿里云产品“数据湖分析”名称正式变更为“云原生数据湖分析”。如有任何问题，可点击联系我们进行咨询反馈

助力企业数字化转型 | 斑羚在线、环宇数通、乘云科技入选阿里云原生合作伙伴计划

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

近日，北京三家重量级伙伴“斑羚在线、环宇数通、乘云科技”喜获阿里云正式授牌认证。自从2019年加入“云原生合作计划”以来，在云原生技术方面，双方开展了深度合作，推进企业进行数字化转型，达成生态共赢。而在此之前，这三家企业与阿里云已经建立了深厚的合作基础，在“新基建”的战略背景下，基于阿里云丰富全面的云原生产品、成熟的云计算技术及平台支撑能力，斑羚在线、环宇数通、乘云科技将为华为区域的企业级用户提供快速可靠、个性化的云原生技术解决方案，造福华北区的广大阿里云客户。

这么优秀的伙伴，是怎样快速发展起来的呢？让我们逐一为大家揭示。

01 斑羚在线：一站式全方位服务

北京斑羚在线网络科技有限公司提供基于阿里云的专业软件开发服务，响应及时、服务精细、团队稳定，深耕IT服务行业10余年，是客户认可的“软件开发明星企业”，更是值得依赖的云服务合作伙伴。作为新零售行业的践行者，斑羚在线独立开发运营的校园新零售项目“零食盒子”，已覆盖全国26省市，超300所高校，触达500万人次高校人群，每日消费笔数达4万以上。除新零售行业，直播领域也是近年来斑羚在线的主攻方向，公司先后向用户提供了“LiveMall电商直播” “螃蟹横屏演艺直播”等解决方案，助力企业创建属于自己的直播+购物平台，转型线上逆市增长。

此次加入阿里云原生合作伙伴计划，斑羚在线将专注于以阿里云产品和先进技术为核心，向客户提供专属定制开发，按需定制，集群部署，以及领先的技术、完备的解决方案、完善的服务及成熟的渠道等一站式全方位服务。

斑羚在线获得“云原生合作计划伙伴”授牌

02 环宇数通：助力企业轻松不如云时代

北京环宇数通科技有限公司成立于2009年，核心成员来自于国内顶尖安全厂商与集成商。2013年研发出自主知识产权数通云产品，2015年环宇数通正式进入阿里云生态体系大家庭，通过3年时间的努力奋斗、群策群力共同打造了一支优秀的云计算、大数据服务团队。2016年成为阿里云全国授权服务中心，2018年获得ISO27001国际安全资质，2019年成为国信安全合作伙伴。

基于阿里云原生全面的技术和产品，环宇数通为客户提供电商解决方案、App解决方案、金融解决方案、游戏解决方案。以某互联网金融公司为例，得益于微消息队列 MQTT 的多协议、多语言和多平台的支持能力，目前 MQTT 广泛应用于移动互联网以及物联网领域，覆盖移动直播、车联网、金融支付、智能餐饮、即时聊天等多种应用场景。相比使用HTTP等其他协议，客户使用消息队列RocketMQ + 微消息队列 for MQTT的组成方案能节省至少2人月的开发成本，还能通过这套方案支撑起对于安全和可靠性要求极高的金融级业务场景，并轻松扩展到百万组别的客户端。

环宇数通获得“云原生合作计划伙伴”授牌

03 乘云科技：成立6年，营收破亿

乘云科技成立于2014年，是基于阿里云生态的专业的云计算业务供应商，为泛行业客户提供云计算资源转售、云服务技术支持、云产品渠道生态共创以及云业务IT咨询等。成立六年来，发展迅速，2019年营业收入突破一亿元。

乘云总部设立在北京，在沈阳、成都、武汉、深圳分别设有分公司。在河北的邢台设有50多人的外呼中心。乘云的理念就是用普惠的云计算、云服务、服务于全国的云计算用户。针对云上技术服务和上云的技术服务，乘云有一系列的解决方案，基于阿里云完善的基础设施，整合云上PaaS层的调配资源，完善客户的技术架构的同时，协助客户提供优质的云上管理方案。

乘云科技获得“云原生合作伙伴计划”授牌

乘云作为阿里云优质的服务商，提供全站的上云解决方案，全流程的技术协助、云上便捷的运维管理能力，上云企业的技术培训指导，面对客户新需求的定制化的架构服务，以及面对中大型企业主流的混合云架构的落地都是具备成熟的闭环能力的。

随着云计算的全面到来，普通的创业者也能拥有和500强企业一样的计算资源。创业公司像飞机，速度够快才能起飞，通过现有的云端资源才能更快的让产品落地。通过阿里云，普通的创业者也能和大企业同台竞争，让创业进入快消时代。

在企业数字化转型加速的浪潮下，越来越多的企业开始探索云原生架构如何落地。通过云原生，企业可以最大化使用云的能力。阿里云将与合作伙伴携手，通过全面丰富的云原生技术和产品，激发更多企业在云原生时代的生命力。

点击：云原生合作伙伴计划，了解更多云原生合作伙伴计划细节和加入详情。

阿里云 SAE 携手云效助力「石家庄掌讯」持续交付、降本提效

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

背景

石家庄掌讯信息技术有限公司创立于2009年，是一家提供企业信息化咨询、创新型软件产品、电商代运营服务，标准化管理、快速发展的高新技术企业。当前公司正处于企业互联网市场突破转型重要阶段，希望将更多精力转移到业务创新，提升开发和交付效率，低成本试错。因此选择一套低门槛开箱即用的持续交付、快速部署&运维平台尤为重要。

面对的挑战

组织、人员权限管理复杂：
Jenkins的权限管理独立一套，与其它系统不能很好的对接，维护成本非常高。
好的工程实践、流程规范不容易复用，质量更无法保证：
代码开发过程中加入了阿里巴巴P3C规范，与集成工作流无打通，不得不依赖人工介入的效果，当项目的时间紧，任务重，往往执行不到位，效果无法保证，形同虚设。代码质量很难保证。
FTP手工发布效率慢，Jenkins需要编写大量的脚本，降本提升效率成为了瓶颈：
公司在很长一段时间在使用Jenkins作为自动化部署工具，Jenkins易用的插件化模式和灵活的流水线脚本编写能力是我们一直使用他的原因。不过对于我们这种0运维人员的小团队来说，一些平台细小的不便性也会团队效率带来很大的负面影响。Jenkins的流水线脚本编写维护的繁琐性以及第三方平台(服务)与Jenkins整合的复杂度都给我们带来不小的麻烦。
缺少专职运维人员和微服务改造实战经验，研发运维效率不高:
公司未设置专职运维人员，在做业务创新同时，微服务架构同步改造进行中。采用自建微服务架构+APM，技术门槛和人力不足很难在短时间成功落地。急切需要一条快速上手的平台支撑，需要最大限度屏蔽底层IaaS, 容器，以及常用微服务套件的学习成本。
测试开发环境和生产环境的闲置计算资源较高:
长期保有固定的IaaS资源，单台ECS单部署应用，导致资源利用率很低，存在较多的闲置浪费。

架构图

解决效果

总体上来说，掌讯信息公司在与云效&SAE共建之后，通过Codeup自动化代码检查提升了代码质量，降低了生产的故障，FLow自动化流水线、SAE的接入不但降低了成本，同时提升了交付效率。

1. 降成本：

零成本投入提高质量管理能力和持续交付能力
免费使用的codeup代码库让我们节省了自建git代码库的成本，codeup中集成的代码审查和安全审查模块又让我们节省了质量管理的投入成本。免费的流水线flow让我们节省了原本在jenkins中投入的环境成本。这些还只是节省的有形成本，对于平台整合后效率的提升所节省的成本更是不可估量。

低成本高质量玩转微服务架构
对于我们这样的小团队想要玩转微服务架构一直是一个可望不可即的事情，直到发现了阿里云的SAE(Serverless应用引擎)产品，SAE(Serverless应用引擎)节省了自建微服务架构的ECS成本。基于秒级弹性能力，无需长期保有固定资源，按需启停和自动弹性、按分钟计费，极大的提升了资源利用率。使用SAE(Serverless应用引擎)后，公司单从硬件成本上就节省了50%。

2. 提效率：

SAE，从0到1的高效体验
SAE 提供了应用托管和应用监控的开箱即用的体验，帮助我们关注业务开发而非底层资源的运维，节省了大量的人力成本。目前，我们通过 SAE 上线了 5 个核心业务：商品中心、用户中心、销售中心、采购中心和库存中心。

SAE，0改造使用Serverless技术
SAE实现了微服务应用的无缝迁移，WAR/JAR无需容器化改造直接部署，这也是SAE区别其它Serveless产品的重要优势，平滑迁移企业在线应用。

云效codeup代码库，加速你的code review
在codeup代码库中code review是在每一次commit后自动进行审查，和我们之前的集中时间，集中人力做code review工作相比，分散在commit后的自动审查模式更节约时间，并且自动化的触发模式减少了人为参与产生误判的可能性。

云效flow，高易用性，高集成性
使用云效flow产品后很多问题迎刃而解，可视化的流水线配置让之前繁琐的脚本编写工作一去不复返。flow高度集成阿里云产品线，在流水线flow中轻松集成我们在阿里云使用的SAE环境。我们曾尝试让一名有3年工作经验的普通的开发人员在flow中构建一个java测试应用部署的流水线，结果他在没有查看任何文档的情况下很快的完成了流水线的配置工作。这些体验都让我们切身感受到flow产品的高易用性和高集成性。

3. 提升质量，减少故障：

一提到流量增长，大家第一时间可能想到的就是加机器加带宽，但往往这个时候加机器已经来不及了。以往我们都是提前预估峰值，按峰值保有ECS资源，但经常出现容量预估不准的情况（比如资源浪费或资源不足），更严重的是会影响系统的SLA。通过SAE的秒级自动弹性，我们可以轻松的动态扩容应对峰值大考，峰谷时按需自动缩容。

以前团队中的code review工作只能指定专人在合并代码后执行审查任务，并根据生成的审查报告统一对问题进行修订，在使用云效codeup代码库后，代码审查工作被分配在每次commit后自动执行，以前统一的审核时间被分配在团队中每个人commit代码后自动执行，不但减少了人员参与的人力成本而且减少了code review工作执行的时间成本，大大提高了工作效率。由于整个code review工作提前到了代码commit阶段，将发现并解决代码潜在问题的阶段提前到了代码合并之前，这样就减少了在后续环节中出现遗漏问题的可能性，这里不得不提一下codeup审查代码阶段包含的敏感信息和依赖包漏洞扫描功能，这两个在codeup中自带的安全扫描功能，不但调高了代码质量的安全性，而且潜移默化的提高了团队的安全意识。

对比	原来	现在
代码规范评审	代码评审环节滞后，人为控制环节多。	commit自动化评审
代码安全评审	缺失安全评审工作	commit自动化安全评审
发布方式	Jenkins手工编写流水线脚本	高度可视化操作--简单
	Jenkins通过API方式集成阿里云产品(SAE)	高度集成阿里云产品(SAE)--便捷
分布式环境建设	购买ECS设备构建环境	SAE无需购买ECS，按资源使用量弹性付费
分布式环境运维	自建运维环境，集成多种运维工具	SAE提供统一运维平台，高度集成阿里云运维相关产品。

结语

企业创新要做的是成长速度快于消费者需求变化的速度，所以「掌讯信息」深感依靠自身摸索固然也可以持续提升能力，但面临的挑战要求能力的提升也必须更快、更好。在寻求提升开发和交付效率，低成本试错中，「掌讯信息」发现阿里经过数年互联网研发实战，已经总结出了一套高效能的研发思想、流程及工具，那就是阿里云SAE+云效。

持续交付、降本提效是一个很大的主题，一篇文章要讲透是不够的，只是简单分享了我们在这个过程中遇到的几个关键问题。「掌讯信息」在实践中其实都在摸着石头过河。希望大家可以多交流，共同探索互联网交付效率的成功模式。

最后，感谢「SAE + 云效」这两款工具及官方团队给予我们的支持，希望在未来更加深度的合作中，「掌讯信息」和「SAE + 云效」都能为更多团队的交付效率提供更多更好的经验。

作者介绍
乔亚浩，2009年加入石家庄掌讯信息技术有限公司，从业务开发至产品管理，现任职「掌讯企业智能服务部主管」。先后承担多次技术攻坚及推动技术演进：前端混合开发技术落地，产品后端微服务化改造、服务自动化构建及容器化部署、云效CI/CD落地等。

SpringCloud 应用在 Kubernetes 上的最佳实践 — 高可用（熔断）

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

前言

阿里巴巴十多年的双十一，锤炼出来了一套业界领先的高可用技术，有一些已经商业化（云产品 PTS、AHAS），也有的开源了如：Sentinel、ChaosBlade。我们这一系列的高可用章节也主要介绍这方面的内容。今天介绍熔断部分，即开源产品 Sentinel 的核心能力。

问题定义

在一个常见的分布式应用中，一个请求先通过终端到达 Gateway，再经过防火墙和网络负载均衡，其中还包括调用下游的其它服务和第三方应用，才能到达前端网络服务；如下图所示。

和这样一个架构一样，大家可能也会遇到如下的一些熟悉的 Case ：

瞬间洪峰流量导致系统超出最大负载，load 飙高，系统崩溃导致无法正常提供服务。
“黑马”热点数据击穿缓存，DB 被打垮，挤占正常流量。
调用端被不稳定服务拖垮，线程池被占满，导致整个调用链路卡死甚至系统雪崩
......

这些不稳定的场景可能会导致严重后果。大家可能想问：如何做到均匀平滑的用户访问？如何预防流量过大或服务不稳定带来的影响？这时候我们就要请出微服务稳定性的法宝 —— 高可用流量防护，其中重要的手段就是流量控制和熔断降级，它们是保障整个系统稳定性重要的一环。

流量控制

流量是非常随机性的、不可预测的。前一秒可能还风平浪静，后一秒可能就出现流量洪峰了（例如双十一零点的场景）。然而我们系统的容量总是有限的，如果突然而来的流量超过了系统的承受能力，就可能会导致请求处理不过来，堆积的请求处理缓慢，CPU/Load 飙高，最后导致系统崩溃。因此，我们需要针对这种突发的流量来进行限制，在尽可能处理请求的同时来保障服务不被打垮，这就是流量控制。

熔断降级

一个服务常常会调用别的模块，可能是另外的一个远程服务、数据库，或者第三方 API 等。例如，支付的时候，可能需要远程调用银联提供的 API；查询某个商品的价格，可能需要进行数据库查询。然而，这个被依赖服务的稳定性是不能保证的。如果依赖的服务出现了不稳定的情况，请求的响应时间变长，那么调用服务的方法的响应时间也会变长，线程会产生堆积，最终可能耗尽业务自身的线程池，服务本身也变得不可用。

Spring Cloud 中如何做熔断？

在原来的 Spring Cloud 产品族中，有自带的熔断组件 Hystrix ，是 Netflix 公司提供的一个开源的组件，提供了熔断、隔离、降级的这些特性，不过 Hystrix 在 2018 年 11 月份开始，就不再迭代开发，进入维护的模式。不过好消息是也就是这一年开源了 Spring Cloud for Alibaba 产品族，其中的 Sentinel 完美的对 Hystrix 做了补充，下面针对 Sentinel 做一些基本介绍。

Sentinel 工作原理？

Sentinel 以资源流量（URL、线程、本地函数、Dubbo服务等）为切入点，根据用户输入的规则，自适应的做到流量控制、熔断降级、系统负载保护等多个维度，全方位的保障系统的稳定性。并提供了一套具备丰富的应用场景、完备的实时监控、广泛的开源生态、完善灵活的 SPI 扩展点的完美的高可用解决方案产品，一个基本的原理介绍图如下，详细介绍请参考官方文档。

在使用上，针对主流框架默认提供自动适配的能力来定义需要保护的资源，并提供设施对资源进行实时统计和调用链路分析。同时，Sentinel 也提供开放的接口，方便您自定义并改变规则。

快速使用 Sentinel 的方式

除了在开源提供的方案之外，Sentinel 已经以多种形态进入到了各种云产品的组合解决方案中，列举如下：

一、在 AHAS 中使用

Sentinel 现在已经是阿里云云产品 AHAS 的重要能力，使用方式请参考官方文档，相比开源的方式接入，云产品主要省去了繁琐的配置，提供了更快的接入方式，以及更友好的产品管控界面，以及更强大的能力；当然除此之外，最重要的是在接入和运行的过程中，都可以获得原厂同学的直接的支持。

二、在容器服务 Kubernetes 集群中使用

在容器服务中我们目前做到了纯白屏和云原生的方式进行安装，使用方式请参考官方文档来安装所需的 pilot，在集群中安装完 pilot 之后，会自动选择集群中打上了相应 AHAS 注解的 POD 进行 Sentinel Agent 的挂载，配置如下：

annotations:
  # 是否开启 AHAS 应用流控插件, on、true 表示开启, off、false表示关闭
  ahasPilotAutoEnable: "on"
  # 服务名称，会显示在 AHAS 控制台上
  ahasAppName: ""

三、在 EDAS 中使用

在 EDAS 中，如果选择的是部署在容器服务K8s集群或 Serverless K8s 集群中的应用支持通过重新部署来接入AHAS，并可在EDAS内嵌的监控页面中实时监控流量规则，所有的配置能力都能通过一个控制台白屏化操作完成，全面可视化地保障您的应用可用性，使用方式可以参考文档。

结尾

本文简单介绍了高可用流量防护的背景和手段，在熔断的场景下，我们理解十年的积累打磨了高可用产品 AHAS 来为 Kubernetes Spring Cloud 应用保驾护航。除此之外，AHAS 高可用防护还提供以下能力：

针对不稳定弱依赖的熔断降级能力，支持慢调用比例/异常比例策略，支持渐进式恢复策略。
机器维度的系统自适应保护，智能化调配系统流量
全自动托管、高可用的集群流量控制
针对 Nginx 网关及 Spring Cloud Gateway、Zuul 等 API Gateway 的网关流控
针对 Istio/Envoy 集群的 Mesh 高可用防护

需要注意的是，流控降级的配置是需要结合容量规划、依赖梳理来做的。我们可以借助阿里云 PTS 等压测工具对我们的服务进行全链路压测，了解每个服务的最大承受能力，来确定流控和熔断降级的阈值。同时，业务系统需要具备实时监控的能力，以便实时地根据流量情况做出相应的限流降级策略调整，我们下面的章节中将介绍这一利器。

闲鱼靠什么支撑起万亿的交易规模？| 云原生Talk

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

造梦者 | 王树彬，阿里巴巴闲鱼架构负责人

2014年6月28日，阿里即将赴美上市的这一年，西溪园区的一个茶水间里，28个人日夜赶工了三个月后，上线了一个闲置交易平台——闲鱼。今年5月份，在阿里巴巴的年报中对外公布了闲鱼的数据：GMV2000亿元，同比增长100%，每天在线卖家数超过3000万人。闲鱼已经从一个茶水间创业的内部小产品，变成了在C2C领域的领先平台。

据艾媒数据估计，2020年全年的二手物品交易市场的规模将达到万亿以上。线上交易的繁荣亟需技术架构做相应的调整、演进才能支撑业务的快速发展。闲鱼对于阿里而言，有比营收更重要的意义，那就是创新。创新不只体现在业务模式上，闲鱼的技术架构也在探索最新的方向——向Flutter化、云原生/Serverless化发展。

2009年，从浙江大学毕业的王树彬，在UT斯康达工作了三年后，加入阿里巴巴。2017年，王树彬首次将Flutter引入到闲鱼，从2018年开始，王树彬带领闲鱼技术团队在下一盘更大的棋：布局Serverless。颠覆性创新往往是从边缘性的地方出现，而向云原生化/Serverless化升级，对于闲鱼是一条全新的路，但趟出了这条路，对于很多做线上交易的公司有着巨大的借鉴意义。

今天，我们就一起聊聊闲鱼的云原生故事。

01 为什么要做Serverless？

闲鱼是依托阿里电商体系的前台型业务，有非常独特的业务特点和用户诉求，在底层依托阿里系统的同时，在表现层和业务层需要探索适合闲鱼的、并且更加快速灵活的研发体系。

按照传统的开发方式，闲鱼原有的 IT 系统会面临很多痛点，比如：

1、客户端交互层、服务端业务胶水层、领域层边界划分不清晰，这就导致很小的业务需求就需要整条链路的同学参与，协同成本高，开发调试周期长。

2、服务端存在巨型应用，研发耦合、发布耦合、运维耦合严重，甚至系统稳定性也受到很大挑战，单个业务问题往往会影响整个应用。

3、运维成本极高。为了保障业务的稳定性和可用性，阿里对每一个应用上线都有相应的规范和规则。哪怕是一个很小的内部应用，一天可能只有一两个访问量，上线也需要遵守既有的规范，这势必会消耗一些固定资源。单个应用消耗的资源可能很有限，但所有应用消耗的资源累积起来也是一个不小的数字。而对于巨型应用，由于影响面巨大，发布时要有更加严格的流程和步骤，一次发布至少要耗时6小时，导致运维成本极高。

Serverless 的出现，一方面使云端一体化研发成为可能，很多小业务需求的协同成本可以大大降低。另一方面，Serverless 使业务胶水层的巨型应用，有了比微服务更加合理的拆分方式。

传统巨型应用的成本（速度）、稳定、质量相互制约的瓶颈，可以用下面这个三角形来直观的表示。

云原生/Serverless 这些新技术的出现，可以使应用运维能力下沉，传统巨型应用的成本（速度）、稳定、质量相互制约的瓶颈才有可能被打破。闲鱼在落地新技术的过程中，先围绕 Flutter 重点攻坚了 Flutter 混合工程体系、高性能组件库。然后围绕Serverless 重点攻坚云端一体化研发体系、服务端业务组装层架构体系。

闲鱼客户端基于 Flutter 进行架构演进与创新，通过 Flutter 统一 Android 和 iOS 双端提升研发效能之后，希望通过 Flutter+Serverless 解决各角色间存在的大量的协同问题，正是这些问题导致整体研发效率低，移动端离业务越来越远，服务端没有时间做底层领域沉淀。通过 Serverless 的引入，闲鱼会明显看到整体研发效率的提升。

02 一边探索，一边实践

2018年，闲鱼技术团队开始探索 Serverless，整体分为四个阶段：自建Dart Server、依托FaaS平台、云端一体化、传统巨型应用Serverless化。

2018年5月，以 Serverless 思路构建了2s内冷启动的 Dart Server 应用框架，用于服务端业务胶水层的轻量化开发。

2018年底到2019年初，闲鱼启动与Gaia团队协同共建基于Gaia平台的Dart 运行时，并上线了部分业务。注：Gaia是基于阿里云的面向淘宝业务特点封装的、用于淘宝业务的FaaS平台。

2019年，闲鱼基于Gaia的Dart Runtime标准化，探索 Flutter+FaaS 云端编程一体化，领域接口元数据化，最终诞生了 Nexus 等胶水层业务框架，并在闲鱼20多个业务落地。

2020年，闲鱼开始进行云端的工程&工具一体化，目标是实现一个工程、多端部署。现在，王树彬正带着技术团队攻坚业务胶水层的传统巨型应用治理，使传统应用向Serverless化迁移，“最快3个月，最晚6个月，我们就会交出一份漂亮的答卷。”

具体来看过去这两年的时间里，闲鱼在Serverless上的实践成果，主要分为5个方面：

1、云端编程模型一体化框架（Nexus API）
这个框架的目标是使Flutter、FaaS的编程模型统一，打通UI、交互、数据、逻辑。王树彬提到，一开始说要做Flutter + FaaS一体化的时候，我们对“一体化“这三个字的认知相对比较模糊，只是知道端侧的同学可以用 Dart 这门语言来写FaaS函数，这其实还停留在语言上的一体化。对于FaaS所能做的事，也仅仅停留在前端实施已久的BFF层面。

我们花了很长时间来讨论，基于Dart生态下，前端的 FaaS 在研发交付其实并不高效，研发阶段主要面临的问题是：

编程语言不统一：编程语言本身虽然不是最大的障碍，但这也确实给前端开发者增加不少门槛，而且更重要的是语言背后的生态、环境与体系更是一道高高的墙。

开发模式与架构割裂，环境复杂：端侧一个工程，FaaS侧也有一个独立的工程，它们背后有自己的一套构建、调试、集成/发布的工具链；除此之外，FaaS 还有自己配套的环境、Runtime、框架作为支撑。开发者面对这样复杂的 FaaS 研发环境与双重的研发工作流是无法做到高效交付的。

最终，我们对一体化有了一个比较清晰的共识，那就是要实现两个核心的一体化：

语言一体化
开发模式与架构一体化

编程语言的一体化可以为开发者提供一种熟悉的技术栈，开发模式与架构一体化能帮助开发者解决工程割裂以及背后复杂的 FaaS 本地运行环境问题，带来与原研发模式基本一致的研发体验。

通过这两个层面的一体化，最终达到开发 Flutter 页面和开发 FaaS 无明显Gap。例如，闲鱼客户端Flutter以往是用Redux框架开发，在Nexus API框架下，可以使Redux与FaaS调用无缝集成。

2、CLI 开发工具标准化

云端一体化开发时，通过 CLI（命令行工具）屏蔽 FaaS 开发的一些细节，使客户端开发 FaaS 时的开发体验标准化，符合客户端同学的本地开发习惯。

3、基础服务 BaaS 化

过去两年，我们在逐渐简化基础服务能力，如对象存储、消息、搜索。同时，建设业务领域层服务的元数据中心，这些简化的基础服务能力，再加上已有的业务领域层服务，使客户端同学可以快速组装业务。

4、云端工程一体化

闲鱼在成功引入 Flutter 后，在端侧形成了以 Flutter 为主、H5为辅的跨端研发体系，使传统的 Android 和 iOS 的两端研发，合并成一端。在端上的生产力得到释放时，我们发现端的同学有机会向下层走一点，使服务端面向简单的数据组装逻辑，由端的同学一人闭环完成，这套模式尤其适用于一些小业务的需求。类似的尝试业界其实早就有了，例如 GraphQL 框架的流行，前端的BFF层的形成。但有了Serverless，服务端轻量代码的开发可以极大地简化，所以闲鱼选择这个时机推进云端一体化。
云端一体化涉及到云端编程框架、工具链、工程体系、基础服务BaaS化、领域服务下沉，同时，也涉及人员上的组织保障、分工重塑、安全生产培训等。

5、传统巨型应用的Serverless化改造

Serverless不是银弹，但与业务胶水层的特点很匹配，非常适用于解决胶水层的传统巨型应用的拆分，这也是闲鱼正在攻坚的下一个难题。

03 难题与破局

闲鱼落地 Serverless 的过程中并非一帆风顺。王树彬提到，在Serverless云端一体化过程中，遇到了一些技术难题，比如Java富客户端的异构语言访问、开放环境如何统一以及客户端同学对领域接口不熟悉等问题。

在闲鱼的Java系统中，存在大量的Java富客户端应用。针对Java富客户端的异构语言访问，闲鱼以Sidecar的模式，建立Java的Proxy来解决这类问题。

紧接着，为了让开发环境统一，闲鱼开发了自己的CLI工具（GCLI）。GCLI是一个基于支撑 FaaS 研发生命周期的命令行工具，它定义了闲鱼 FaaS 开发闭环，统一了 FaaS 的研发环境，是提升FaaS研发效率的利器。GCLI 将研发闭环拆解成适合Serverless 研发习惯的开发指令。为了让用户继承其研发习惯和工具，闲鱼优先选择了基于本地的开发方案；使用Docker技术统一开发环境，在 Dcoker 内声明Dart FaaS技术栈依赖的运行环境(软件+配置)。借助容器技术，FaaS 的软件环境可以移植到任何支持Linux运行的操作系统，从而解决了环境统一的问题；GCLI 通过 FaaS Open API 实现本地和函数平台实现互操作，形成完整的研发闭环。

最后，针对客户端同学对领域接口不熟悉的问题，闲鱼开发了领域层的元数据中心。

云端一体化重塑了传统的云、端边界，减少了协同，也给人员的分工带来了更大的灵活性，技术上的研发效率、研发质量也明显提升。而这些改变对于业务带来的直接好处，就是可以让业务有更快的迭代速度、更快地适应市场和用户需求的变化。

云端一体化目前应用在闲鱼的重交互场景以及轻量业务场景中，其带来的技术效率、质量提升更容易以量化的数据形式呈现。例如，以典型的中大型业务需求抽样统计，开发人日降低了30%，千行代码Bug率降低了20%。如果以零散需求统计，数据提升会更加明显。以往的小需求由于多个同学参与，往往排期需要几周，而云端一体化后，资源的灵活性明显提高，使需求响应速度大大提升。

“但是，还有一些问题没有解决”，王树彬说，在 Serverless 的巨型应用拆分方面，闲鱼遇到的问题更加严峻，比如：

微服务和 Serverless 的选型
在 Functions 之间代码复用

对函数的依赖做统一升级

这几个问题的方案，闲鱼还在逐步验证中，待经验成熟后再向大家详细分享，欢迎持续关注。

04 借鉴与思考

什么样的公司、应用或场景应该选用 Serverless 的架构模式？目前没有具体的定义，关键在于想清楚。想清楚，就需要平衡好收益、成本、效率和应对市场的能力。其中，成本是企业更为关注的因素，这其中包括基础设施搭建的成本、运维成本、扩容成本、安全成本等。

Netflix是落地 Serverless 的一个成功的典型，Netflix 在产品设计上一直都有创新的基因，除了不间断的 A/B 测试之外，每周都会发布很多新功能。为了确保这样高强度的工作成果，就需要一个 API 服务平台来帮助客户端工程师快速而有效地将更改的需求部署到服务层。FaaS 通过把那些与服务相关的所有平台组件抽象为业务逻辑本身来实现这一目标，而 Serverless 模式能够为Netflix提供一个平台，即使没有服务器和运营经验的工程师也可以开发高可用的服务。

采用 FaaS 模式，本质上是对交易速度和可能性的定制化。有些应用程序的 FaaS 服务表现得很好——Netflix API 的情况就是如此，Netflix 运行的是相对统一的微服务，只需要访问和改变下游服务的数据。然而，如果服务需要定制化，例如需要改变服务平台的各个组成部分，像 RPC、数据访问、缓存、认证等，那么 FaaS 模式可能无法为这些服务提供足够的灵活性。

自建 Serverless 平台对企业IT人员的要求比较高，同时建设成本也很高。另外，实施Serverless 需要一个成熟的生态。绝大多数情况下，已经上云的企业应该优先考虑云厂商的Serverless产品，而没有上云的企业，需要考虑现有系统的生态情况是否能与云厂商的Serverless产品兼容。

对于 Serverless 产品的选型，应该综合几个方面来看：生态的成熟度，支持的开发语言，功能丰富度，收费标准等，关键是结合企业自身业务发展的需求。

05 关于未来

O'Reilly 曾对 Serverless 的应用情况进行了过一次调查，发现软件行业的开发者关注和应用 Serverless 非常多，这在意料之中，但是金融和银行业也在高度关注Serverless，原因之一是越来越多的金融科技初创企业的诞生，它们承担了传统基础架构的责任，并且以更开放的心态，接纳和拥抱 Serverless 。

对于拒绝 Serverless 的理由，60% 的受访者表示是安全问题。因为很多行业对于 IT 环境的安全性要求很高，而采用任何新技术都可能会带来安全风险。

此外，开发者另外一层顾虑主要是担心被厂商绑定，这就导致具备一定规模的组织会基于开源方案，如 Knative，搭建自己的 Serverless 平台。而一旦某个开源方案成为主流，云厂商就会主动去兼容开源标准并增大社区投入。

Serverless 除了对技术和业务产生影响外，对于企业组织架构和技术人员也提出了新的要求。

首先，Serverless 改变了沟通结构。按照康威定律，组织架构需要适应新的沟通结构，才是最好的匹配。闲鱼以前负责客户端和服务端的同学是分开的，在全新的 Flutter+Serverless 的背景下，组织结构也需要做相应的调整。经过讨论，闲鱼最终决定按照业务线划分，将客户端、服务端的同学按业务线重新组合到一起。

其次，Serverless 使客户端的同学有机会更多的了解业务，这就要求客户端同学更加具有业务敏感度。Serverless 促使客户端同学扩大了技术边界，也需要了解一定的服务端开发概念。

最后，Serverless 要求原有的服务端同学有更好的数据建模、领域建模能力，从而有助于底层接口复用度更好。

从最开始不被外界看好，甚至被调侃为“咸鱼”，到如今实现了千万DAU，盘活了一个万亿级市场，闲鱼的出现，无论是对前端的电商生态，还是用户在互联网上的生活形式，都产生了重要的影响。

为了支撑起闲鱼万亿的交易规模，王树彬和技术团队正在紧锣密鼓地进行传统巨型应用的 Serverless 化改造，“闯过了 Serverless 的这一关，才是我比较满意的状态。”

云栖大会预告：

在9月17-18日云栖大会上，王树彬将在「Serverless分论坛 — 2020 Serverless 新浪潮」分享《闲鱼Serverless架构实践》的话题，敬请期待。

阿里云原生十年磨剑：让企业在数字经济时代焕发生命力

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

日前，国际知名咨询机构 Gartner 发布了最新云厂商产品评估报告，作为亚洲唯一入选的云厂商，阿里云在计算大类中，以 92.3% 的高得分率拿下全球第一，并且刷新了该项目的历史最佳成绩。本次报告，Gartner 更多关注云原生领域，比如在软件基础设施层面，Gartner 重点评测了中间件等领域，阿里云得分位列全球第二。

以计算项为例，本次测试选取了 Large-scale provisioning of VMs、Scheduled autoscaling、Workload migration service 等 33 条评估细项，涉及容器服务能力（ACK）在内的多项领域，在必备能力和推荐能力的评估项目中，阿里云全部拿到满分，并获得分析师的一致好评。

在软件基础设施服务领域的 21 条评估细项中，涵盖各类数据库服务、服务网格 ASM 、 FaaS 、消息队列等领域，阿里云得分率 82.2% ，位居第二。同计算、存储一样，数据库与中间件产品能力也是分析师认可阿里云的优势领域。

从 2011 年率先在国内布局容器技术开始，阿里在云原生领域已经深耕了十余年。在这期间涌现了众多云原生技术和产品，并在开源领域贡献了多款深受开发者欢迎的开源项目，如 Dubbo、RocketMQ、Sentinel、Spring Cloud Alibaba、OpenYurt 等。

在 2020 阿里云线上峰会上，阿里云智能总裁张建锋表示，阿里云将做深基础，做厚中台，做强生态，有信心真正做好数字经济时代的基础设施。经实践证明，云原生是企业实现数字化转型的最短路径。

云原生产品全面升级

目前，阿里云拥有国内最丰富的云原生产品家族，覆盖八大类别 20 余款产品，涵盖底层基础设施、数据智能、分布式应用等，可以满足不同行业场景的需求。同时，阿里拥有最全面的云原生开源贡献。截至目前，阿里拥有 400 多个开源项目，3600 多位贡献者参与了阿里开源项目，在开源社区获得 30 多万个 Star。

除了支持集团内部应用规模化运维，阿里云云原生技术还向全社会输出。阿里云拥有国内最大的容器集群和客户群体，其容器服务（ACK）已在中国及海外 19 个公有云可用区开服，同时也支持客户在自有机房和边缘端的部署使用 Kubernetes。同时，阿里云还提供了丰富的差异化产品：兼容 Istio 的托管版服务网格、基于弹性容器实例的无服务器 Kubernetes（ASK）、提供镜像扫描的独享版容器镜像服务（ACR），还有基于轻量虚拟机技术的安全沙箱容器运行时和托管服务网格（ASM），它是业内首个全托管Istio兼容的服务网格产品，为容器化的微服务应用提供一致的流量控制和观测能力。

在中间件领域，阿里云原生拥有全球最大规模的软负载集群，消息处理量日均万亿条，双十一峰值可以达到亿级 TPS ；RPC 调用量日均万亿次，双十一峰值可以达到亿级 QPS 。通过阿里云全面的云原生产品，企业相当于站在巨人的肩膀上，即使是普通的中小企业业务系统也能具备阿里电商的敏捷、弹性、稳定性。

过去十年，云逐步向 Serverless 演进。2016 年阿里云发布的函数计算提供了函数级抽象，2019 年发布的 SAE 提供了应用级抽象，这些产品都抹去了服务器的概念，让用云方式得到极大的简化，并逐渐成为趋势。阿里巴巴不仅在淘宝、支付宝、钉钉、闲鱼上将 Serverless 应用于生产，新浪微博、石墨文档、跟谁学、Timing 等企业也通过阿里云 Serverless 产品，免去了维护复杂机器状态的工作，大幅降低了 IT 成本。

云原生服务升级，从服务技术到服务业务

阿里云拥有国内最大规模的云原生应用实践。疫情驱动企业线下业务转到线上，架构互联网化渐成趋势。全链路压测、极速弹性扩缩容以及云原生的全栈技术已广泛服务于互联网、金融、零售、制造、政务等领域企业和机构，大幅降低了应用开发的门槛，加速企业数字化转型的进程。

利用 PTS 压测，实现资源规划可视化

根据 Amazon 统计，每慢 100 毫秒，交易额下降 1% 。这些事件和统计数据为大家敲响了警钟，也说明了性能压测对于企业应用的重要性。性能测试服务 PTS 是一个 SaaS 性能测试平台，提供场景 API 编排功能。结合阿里巴巴的自研平台和引擎，支持按需设定压测模式、压测量级、压测时间，快速发起压测，监控压测过程并生成报告等功能，同时也兼容开源工具 JMeter 。

作为电商行业的独角兽，完美日记通过性能测试服务 PTS 和应用高可用服务 AHAS，第一次参加双十一就成为 2019 年美妆行业第一，第一个破亿。通过大促之前反复压测，完美日记把可能出现的问题都在大促前暴露出来，大大小小提前发现并解决了20多个问题，最终把不确定性变成了确定性。

快速扩容，容器服务秒级扩容千个 Pod 的能力，平滑应对突发流量高峰

阿里云是连续两年国内唯一进入 Gartner 《公有云容器服务竞争格局》报告的云厂商；在 Forrester 首个企业级公共云容器平台报告中，阿里云容器服务位列Strong Performer ，中国第一。

容器镜像服务可自动执行并优化基本镜像分发流程，支持通过 P2P 大规模分发到 1 万个节点，效率高达以前的 4 倍。企业可在数分钟内扩展到 1000 个节点，而阿里云 Serverless Kubernetes 版 (ASK) 和弹性容器实例 ECI 可在 30 秒内启动 500 个容器组。

新一代容器服务 ACK，可以将最新神龙弹性裸金属实例的强大性能发挥得淋漓尽致，具备极致性能、高效调度、全面安全的特点：

新一代神龙架构具备业界第一的 I/O 转发能力，提供最高 100G 网络带宽；阿里云高速 Terway 容器网络通过网卡直通和数据平面加速，延迟下降 30%。
第 7 代实例最大支持 192 个 vCPU。ACK 智能 CPU 调度可以轻松释放强大算力，无需应用调整可以实现 QPS 20~30% 提升；结合 ENI 网卡密度提升，可以缩减 50% 的计算成本。

弹性裸金属实例支持阿里云安全容器，提升端到端安全隔离能力，与开源方案相比性能提升 30%。也支持阿里云首发机密计算容器，基于软硬一体技术有效保护数据隐私。

云原生正在打通数字化落地的“最后一公里”。疫情期间，阿里云 2 小时内支撑了复工第一天钉钉业务 1 万台云主机的扩容需求。基于云服务器和容器化的应用部署方案，让应用发布扩容效率大大提升，为全国用户提供线上工作的流畅体验。

面对指数级增长的流量，希沃课堂通过容器服务 ACK 高效管理神龙裸金属服务器和 Serverless 弹性容器实例，顺利积累超过 30 万教师开设 200 万节课程，助力希沃课堂整体业务性能提升 30%，运维成本降低 50%。

基于阿里云边缘容器服务 ACK@Edge 底座，盒马全程保障疫情期间居民日常供应。结合了云原生技术体系良好的资源调度和应用管理能力，与边缘计算就近访问，实时处理的优势，轻松实现全方位的降本提效，门店计算资源成本节省 50%，新店开服效率提升 70%。

云原生中间件助力应用架构向互联网化演进

应用架构向互联网化演进是保障业务稳定和持续创新的根本，应用容器化、微服务化、异步化是实现架构演进的三步曲。应用容器化：通过将应用和环境打包，以容器化的方式实现快速部署，快速交付。微服务化：将一个单体多模块的大应用分解为具有一些原子业务能力的微服务，通过微服务化实现业务快速迭代和变更上线。异步化：引入消息队列中间件，将应用之间的通信异步化，提升应用系统的可用性，减少响应时间。

云上消息的准确和不丢失对于业务可靠和稳定至关重要。以出行领域为例，如果数据丢失，不仅会导致运行轨迹出现错误，后续应用在自动驾驶上还会带来安全的问题。汽车产业互联网平台大搜车通过云上消息队列 Kafka 的优化版本减少了数据的丢失情况，保证了业务的可靠性和稳定性。

Timing App是一款提供在线学习的教育社交类应用，目前已有用户700万人。该企业无专职运维人员，之前采用单体PHP架构，无法满足快速增长的业务需求。通过阿里云Serverless应用引擎 SAE 来管理底层 IaaS 资源，解决了客户长期以来代码耦合度高、运维复杂、开发迭代效率低、资源利用率不高等问题。

EDAS 3.0 无侵入构建云原生应用，提供更多维度自动监控

EDAS3.0 除了在微服务治理和容器纳管上提供了差异化的产品竞争力外，还将阿里巴巴应用应用安全三板斧，即可观测、可灰度、可回滚融合其中，并实现了 K8s 集群的监管控一体化，提供了更多维度的自动监控、智能诊断和报告输出等功能。中国邮政、安利、福特汽车、红岭创投等来自政企、新零售、制造、新金融等行业的客户正通过 EDAS 来构建云上的容器应用。

为提振消费，刺激经济快速复苏，成都市政府通过“消费券”项目，第一次活动就吸引 2000 多万市民报名。为支撑大流量高并发的报名场景，在与阿里云技术专家深入讨论后，成都信通决定采用阿里云企业级分布式应用服务 EDAS 。EDAS 的动态扩缩容、灰度发布等能力，为成都信通提供了一整套的应用生命周期的管理，真正做到一键部署、一键发布。同时 EDAS 平台对应用快速扩缩容以及对流量控制、熔断、降级等功能的支持，很好地帮助成都信通在面对大流量、高并发场景时，业务系统依旧能够持续平稳的运行。

十年磨一剑！面向未来，阿里云将继续与企业并肩前行，激发更多企业在数字化转型浪潮下的生命力，迎接云原生的下一个十年。

9月18日云栖大会《企业云原生实践》分论坛，敬请期待。

云原生：重新定义信息产业生态体系

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

作者：宁晓民（灭道），阿里云原生生态负责人

信息产业竞争的核心是技术生态体系的竞争

半个世纪以来，信息产业的生态竞争从微型机、服务器到PC互联网，到移动互联网，再到云计算时代，以操作系统为核心的产业生态系统的竞争愈演愈烈。

1、基于Wintel体系的计算机产业生态
在PC时代，以微软和Intel推动软硬件功能的深度适配，协同创新和持续升级，Wintel体系以操作系统为核心，构建了PC计算机软硬件的生态体系，形成了数百个各类基于Windows的软件开发工具，在全球范围内建立了上千万名研发人员参与的开发者社区，每年培训了数以亿计的各类应用软件开发人员，基于Window的各类应用软件数以百万计，拥有超过10亿以上的用户。Wintel体系通过整合软硬件，开发者，软件商，用户等资源，形成了全球个人计算机市场难以撼动的产业生态

2、基于Android/iOS体系的智能设备产业生态
从苹果公司推出IPhone智能手机为标志，代表着从原来的PC互联网时代进入到了移动互联网时代，从而全球移动智能设备形成了以Android/iOS为核心的产业生态。苹果公司以软硬件结合为重点，以iOS操作系统为纽带，构建起以“CPU（ARM）+操作系统+开发工具+应用商店+各类应用”为核心的产业生态。同样Google公司以开源为手段，构建与之相配的Android体系产业生态

3、基于云原生（Cloud Native）体系的云计算产业生态
从2006年第一次提出“云计算”的概念起，云计算、大数据、物联网、人工智能等相关的技术及产业发展势如破竹，不断渗透当代信息产业，从而实现信息产业升级。应用迁云、上云的过程越来越快，从原来的云托管（Cloud Hosting）到云原生（Cloud Native），生于云长于云，最大化的运用云的能力，从而最大化的释放云计算的技术红利。以容器、微服务、服务网格、不可变基础设施及声明式API等技术为主的云原生技术，能够实现应用系统与基础设施解耦，从而让开发者聚焦于业务而不是底层基础设施，云原生进而成为云计算时代的新“操作系统”。以云原生技术为核心，构建起以“云厂商+异构软硬件+云边端+Serverless化+软件全生命周期+开发者+企业客户”为核心的新一代信息产业生态。

云原生是释放云计算技术红利的最短路径

2013年一个名叫“Docker”的开源项目发布，以“应用封装+容器镜像”，直接将一个应用运行所需的完整环境，实现了“一次发布，随处运行”，彻底解决了PaaS用户一致性的问题，进而通过Kubernetes开源项目，采用了一整套容器化设计模式和对应的控制模型，从而明确了如何以容器为核心构建真正能够跟开发者对接起来的应用交付和开发范式。容器+Kubernetes技术的逐步成熟与发展，以“云原生（Cloud Native）”为关键词的技术生态雏形基本确立。
经过6~7年的技术发展，云原生的概念逐渐被广大的客户和合作伙伴所熟知，云原生技术、云原生产品、云原生架构的概念逐步定义出来。
云原生技术：让系统更加弹性可靠容错、松耦合、易管理、可观察；代表技术是容器、微服务、服务网格、不可变基础设施和声明式API。
云原生产品：云计算平台提供的数据库、大数据、中间件、函数技术、容器服务等开放标准的原生产品服务。
云原生架构：生于云长于云，最大化运用云的能力，依赖云产品构建的IT架构，让开发者聚焦于业务而不是底层技术。
生产力决定生产关系，以云原生为代表的先进生产力，改变整个信息产业格局，从而重新定义新的信息产业生态。

（1）云原生会成为云计算的新界面

以容器、Kubernetes技术为主，向下封装底层基础设施差异性，如异构环境，异构硬件，向上支撑多样性的工作负载，如新型计算等，覆盖云、边、端，赋能无边界计算、分布式云，云原生逐步成为云计算的新界面，新一代的操作系统。

（2）云原生重塑软件的全生命周期

云原生通过底层基础设施与应用的解耦，在软件研发、交付、运维的全生命周期层面的效率提升，从而对软件行业上下游产业链都会带来变革。在微服务领域，在应对系统复杂性的同时，对可观测性、易测试、环境适应性的层面实现更大解耦，让开发人员聚焦于业务开发。在Mesh化层面，实现网络和流量下沉基础设施，方便软件基础设施和业务解耦，独立演进，实现全链路精准流量控制和资源动态隔离，从而带来效率的提升。以全托管、免运维、极致弹性、按需部署、按需计费、强安全为特点的Serverless无服务器架构也推动着软件研发运维模式重大升级

（3）云原生加速信息产业转型升级

随着云原生应用的越来越多，软件厂商从基础设施的资源需求，向精细化管理、更优成本、极致弹性、以及研发效能、交付优化的全生命周期的转化。而底层基础设施的变革，带来的“降维打击”，从而推动整个信息产业的重构。从ISV（独立软件提供商）的软件全生命周期，到硬件厂商、云厂商、ISV、企业客户之间的新一轮的软硬件的供需体系，再到云计算技术、社区、ISV、开发者之间的技术互动体系中，云原生技术作为新一代云技术操作系统，加速推动整个信息产业的快速升级。

云原生合作伙伴计划是阿里云原生生态体系的重要载体

“开放、被集成、共赢”是阿里云的一贯追求，今年阿里云智能总裁行癫升级了阿里云公司战略“做深基础、做厚中台、做强生态”，生态建设成为阿里云战略的重之之重。在6月份阿里云生态大会上，阿里云智能基础产品事业部高级研究员蒋江伟宣布阿里云启动“云原生合作伙伴计划“，重点扶持100个头部伙伴，赋能10000家合作伙伴，50万开发者，帮助伙伴云原生技术升级，助力企业数字化转型。

信息产业竞争的核心是技术生态体系，从以Wintel体系的PC时代到Android/iOS的移动互联网，再到云原生体系云计算时代，对于企业和伙伴来讲，抓住技术发展趋势，提前布局是企业长盛不衰的根本。

“阿里云原生合作伙伴计划”是阿里云原生生态体系的重要载体，生态竞争的核心。“阿里云原生合作伙伴计划”具有合作模式多样化、合作对象强强化、合作范围立体化的特点，采用“集成/被集成”的方法，从而帮助阿里云生态伙伴优化资源配置，降低交易费用，实现规模化经济。

“阿里云原生合作伙伴计划”主要是从市场合作、产研合作、产业链合作、技术标准4个维度，采用多维度、松耦合、立体式的合作模式，助力阿里云原生伙伴销售能力、产品/解决方案能力、服务能力的全方位能力成长。

（1）市场合作

阿里云原生合作伙伴计划，在传统电销、分销（代理、reseller、总代、虚商）的基础上，发展解决方案伙伴，以产品和解决方案集成的方式进行产品销售。同时在商机、品牌等市场合作之上，帮助伙伴从原来线上线下拜客模式，走向产品和解决方案推广模式，在以云原生体系为核心的云计算生态中，助力伙伴实现向高附加值的产品型公司进行转型，帮助伙伴成长与成功。

（2）产研合作

阿里云原生合作伙伴计划，以集成/被集成为手段，实现产品双向互动，帮助伙伴与阿里云各自产品线布局。在以云原生体系为核心的云计算生态体系中，采用OEM、OBM、ODM等方式共创、共建新产品，实现三方伙伴产品一方化，通过阿里云直销、云市场、生态等多渠道，帮助伙伴产品推广，实现更大的规模经济效益。

（3）产业链合作

阿里云原生合作伙伴计划，以云原生产品售前、售中、售后的全链路，以产品研发、测试、交付的全周期，全面和伙伴进行服务合作，通过培训赋能，实现服务伙伴云原生能力认定，通过能力中心、交付伙伴、外包（委外）等方式进行产品、服务的合作。

（4）技术标准

技术是第一生产力，以云原生体系为核心的云计算生态体系，技术发展与成熟是根本。当前云原生技术发展趋势是，以容器、Kubernetes为核心的云原生技术逐渐稳定与成熟，后期将发展为以服务治理、云边端一体化、Serverless等上层技术栈为创新发展的核心。阿里云原生合作伙伴计划，愿和业界同行一起在国际、国家、行业技术标准，以及一些自组织产业联盟共建、共同定义一些技术标准，共同发展云原生生态体系。一个典型的案例就是在2019年，阿里云和微软共同发布全球首个云原生应用标准定义与架构模型OAM，它是一个专注于描述应用的标准规范。有了这个规范，应用描述就可以彻底与基础设施部署和管理应用的细节分开。

回顾信息产业的历次变革，每次都伴随着新技术的发展，进而推动整个生态体系的再平衡而形成的。从2013年Docker开源、容器技术快速发展开始，2014年Kubernetes开源项目大幅度提高了调度和资源管理能力。无数实践已经证明，云原生成为了云计算的新一代操作系统，以云原生体系为核心的新的信息产业生态已经形成。

阿里云原生助力企业数字化转型

随着对云原生技术的探索、实践和积累，阿里云原生形成了业界“四个最”：阿里云拥有国内最丰富的云原生产品家族，最全面的云原生开源贡献，最大规模的云原生应用实践，最大的容器集群和客户群体，致力于帮助客户最大化利用云的价值。

2019年、2020年阿里云容器服务两次成为国内唯一入选Gartner公共云容器报告，“与去年相比，阿里云在产品丰富度上更进一步，与AWS并列成为全球容器产品最完善的云服务厂商。”2019年全球知名市场调研机构 Forrester 发布首个企业级公共云容器平台报告。报告显示：阿里云容器服务创造了中国企业最好成绩，与谷歌云位于同一水平线，进入强劲表现者象限。“阿里云容器服务提供了广泛的开发和应用服务支持能力，并且具备丰富的市场生态和合作伙伴体系，是企业在中国寻求最完备云服务能力的首要选择。”

据IDC报告，全球前1000的大企业中，67％的企业已将数字化转型变成企业级战略，企业数字化转型也正成为许多中国企业的核心战略。随着企业上云成为业界趋势，全面使用开源技术和云产品构建软件服务的时代已经到来。如何更好地拥抱云计算、拥抱云原生、用技术加速创新，将成为企业数字化转型升级成功的关键。
云时代下，企业需要新技术架构，使之更好地利用云计算优势，让业务更敏捷、成本更低、可伸缩性更强。而云原生架构的应用意义正在于此。数据显示，2020 年，超过 50% 的全球组织在生产环境中运行容器化应用程序，到 2022 年将超过 75% 。云原生正逐步成为企业数字化转型的“最短路径”。

阿里云根据自身积累多年的云原生技术、产品和上云实践，提出完整云原生架构的设计原则、解决方案以及最佳实践，帮助企业找到数字化转型“最短路径”，完成从“压迫感”到“掌控感”的主被动力量转变，加速实现 IT 能力提升，打好降本增效组合拳。

阿里云坚信以云原生为核心的新一代操作系统，会成为云计算时代新界面，会重塑软件行业的全生命周期，推动信息产业的转型升级。阿里云原生生态体系是云计算、大数据、物联网、人工智能的信息产业竞争的核心。“万物生长，合作共赢”是阿里云原生生态的愿景，帮助伙伴成长是阿里云原生生态的使命，阿里云愿意和广大伙伴一起，在新的信息产业生态中，互利共赢，共同成长！

Spring Cloud 应用在 Kubernetes 上的最佳实践 — 高可用（混沌工程）

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

前言

从上篇开始，我们进入到了高可用的章节，上篇提到的熔断能力，是历年保障大促当天晚上整个系统不被洪峰流量打垮的法宝，本篇介绍的措施与熔断有不一样的地方，一个是线上洪峰来临时的保护措施，他更多的是流量低峰或者在专门的演练环境中，针对可能遇见的各类故障，采取演练的手段，来窥探对业务的影响。他的主要目的是让我们自己更加了解自己业务系统的薄弱环节，以便来对症下药增强系统的高可用能力。本文重点介绍为什么要做混沌工程以及如何使用 ChaosBlade 工具和 AHAS 平台快速实施混沌工程。

为什么需要混沌工程

任何一个系统都会有未曾可知的故障出现，拿现代工艺已经很好的磁盘来说，有统计数据的磁盘最低的年故障率都可达到 0.39% 。即便是这么底层基础设施，也会有这么高的不确定性。尤其当下大部分的服务形态都是分布式架构，在分布式系统架构下，服务间的依赖日益复杂，更很难评估单个服务故障对整个系统的影响；并且请求链路长，监控告警的不完善导致发现问题、定位问题难度增大；同时业务和技术迭代快，如何持续保障系统的稳定性和高可用性受到很大的挑战。

云原生系统挑战更大

谈到云原生，可以说云原生是一个理念，主要包含的技术有云设施、容器、微服务、服务网格、Serverless等技术。云设施指公有云、专有云和混合云等，是云原生系统的基础设施，基础实施的故障可能对整个上层业务系统造成很大影响，所以说云设施的稳定性是非常重要的。
容器服务的挑战可以分两大类，一类是面向 k8s 服务提供商，服务是否稳定，另一类是面向用户，配置的扩缩容规则是否有效，实现的 CRD 是否正确，容器编排是否合理等问题。
分布式服务的挑战主要是复杂性，单个服务的故障很难判断对整个系统的影响；service mesh，sidecar 的服务路由、负载均衡等功能的有效性，还有 sidecar 容器本身的可用性。
一些新兴的部署模式的挑战 如 serverless，现在基本上都是函数加事件的形式，资源调度是否有效，而且 serverless 服务提供商屏蔽了一些中间件，你能掌控的是函数这些服务，那么你可以通过混沌工程去验证你函数调用的一些配置，比如超时配置，还有相关的一些降级策略，这些是否合理。
以上技术都有相同的共性，比如弹性可扩展、松耦合、容错性高、还有一些易于管理，便于观察这些特性。所以说在云原生时代，通过混沌工程可以更有效的推进系统的“云原生”化。

每个职位都需要懂混沌工程

混沌工程是一种思想，他让系统中的每个参与者都学会去考虑一件事情：如果所依赖的某服务中断了服务该怎么办？对于以下四类人群而言，意义尤显突出：

对于架构师来说，可以验证系统架构的容错能力，我们需要面向失败设计的系统，混沌工程的思想就是践行这一原则的方式。
对于开发和运维，可以提高故障的应急效率，实现故障告警、定位、恢复的有效和高效性。
对于测试来说，可以弥补传统测试方法留下的空白，之前的测试方法基本上是从用户的角度去做，而混沌工程是从系统的角度进行测试，降低故障复发率。
对于产品和设计，通过混沌事件查看产品的表现，提升客户使用体验。所以说混沌工程面向的不仅仅是开发、测试，拥有最好的客户体验是每个人的目标所以实施混沌工程，可以提早发现生产环境上的问题，并且可以以战养战，提升故障应急效率和可以使用体验，逐渐建设高可用的韧性系统。

混沌工程实操

在一次完整的演练流程中，需要先做好计划，对相关的演练计划有一个行为预期；演练相关计划的同时，我们推荐的最佳实践是需要配合有业务的自动化测试，每演练一次需要全方位的跑完自动化测试用例，这样才能全面的了解真正的业务产生时对业务造成的影响：

在上面的图中描述了一次完整的故障演练需要经过的步骤，其中的最重要的一步的实践是如何“执行预制混沌实验”？因为这一步需要一个专业的工具，在业内目前最流行的工具是 Netflix 的 Chaos Monkey 和阿里巴巴开源的 ChaosBlade ，我们接下来主要是介绍如何使用 ChaosBlade 来完成一次演练。

使用 ChaosBlade 去做

ChaosBlade 是阿里巴巴一款遵循混沌实验模型的混沌实验执行工具，具有场景丰富度高，简单易用等特点，而且扩展场景也特别方便，开源不久就被加入到 CNCF Landspace 中，成为主流的一款混沌工具。目前包含的场景有基础资源、应用服务、容器服务、云资源等。ChaosBlade 下载解压即用，可以通过执行 blade 命令来执行云原生下微服务的演练场景，下面是模拟 Kubernetes 下微服务中数据库调用延迟故障。

使用 AHAS 故障演练平台去做

AHAS 故障演练平台是阿里云对外部用户开放的云产品，使用方式可参考官方文档。其底层的故障注入能力大部分来源于 ChaosBlade 实现，另一部分使用自身小程序扩展实现。AHAS 相比于 ChaosBlade，除了简单易用的白屏操作之外，还实现了上层的演练编排、权限控制、场景管理等，而且还针对微服务新增应用维度演练，简化演练成本，优化演练体验。

结尾

混沌工程是一种主动防御的稳定性手段，体现的是反脆弱的思想，实施混沌工程不能只是把故障制造出来，需要有明确的驱动目标。我们要选择合适的工具和平台，控制演练风险，实现常态化演练。阿里巴巴内部从最早引入混沌工程解决微服务的依赖问题，到业务服务、云服务稳态验证，进一步升级到公共云、专有云的业务连续性保障，以及在验证云原生系统的稳定性等方面积累了比较丰富的场景和实践经验；这一些经验沉淀我们都通过开源产品以及云产品 AHAS 一一对外输出。

【升级】9月1日阿里云华南1、华南2地域网络升级通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【网络】【升级通知】
升级窗口：北京时间2020年9月1日 00:00-01:00
升级内容：由于华南地区运营商相关服务存在一定风险，可能导致网络拥塞，为预防对云上客户产生影响，阿里云计划在9月1日凌晨对华南地域网络做预防性调整，将部分移动流量调整至华东出口。
升级影响：升级过程中通过南方部分省份移动线路访问阿里云华南1（深圳）、华南2（河源）地域的云资源可能会出现1次不超过30s的间断性网络丢包，应用重连即可恢复正常。升级后，大部分省份延时不会有变化，南方部分省份（如四川、福建）移动用户访问阿里云华南1（深圳）、华南2（河源）地域的云资源延时会有部分增加。

给您带来的不便敬请谅解，有任何问题，可点击联系我们进行咨询反馈。

【升级】8月27日至9月2日Centralnic注册局维护通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【域名】【Centralnic注册局维护通知】

维护时间：北京时间2020年8月27日 - 9月2日

维护内容：接到注册局的通知，注册局将于上述时间对后台系统进行不间断地维护升级。

维护影响：届时.xyz/.art/.love/.icu/.site/.online/.website/.host/.store/.fun/.press/.space/.tech/.ink/.wiki/.design域名的注册、续费、信息修改和查询域名注册信息等操作，将会无法使用，在此期间会对您造成的影响如下：

1、您提交的注册（购买）、续费、转入、赎回、一口价域名业务在支付费用后状态为“处理中”，待维护结束后将变为正常的“成功”状态；

2、维护过程中您无法对域名注册信息进行修改，将提示修改失败。

如果您需要注册或管理以上业务操作，建议您避开该时间段，以免给您的业务造成影响。

由此给您带来的不便，我们表示歉意，敬请谅解。

【升级】8月30日.COM/.NET注册局系统维护公告

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【域名】【注册局维护通知】

维护时间：北京时间2020年8月30日 09:00 - 09:45

维护内容：接到注册局的通知，注册局将于上述时间对后台系统进行维护升级。

维护影响：届时 .com/.net 域名的注册、续费、信息修改和查询域名注册信息等操作，将会无法使用，在此期间会对您造成的影响如下：

1、您提交的注册（购买）、续费、转入、赎回、一口价域名业务在支付费用后状态为“处理中”，待维护结束后将变为正常的“成功”状态；

2、维护过程中您无法对域名注册信息进行修改，将提示修改失败。

如果您需要注册或管理以上业务操作，建议您避开该时间段，以免给您的业务造成影响。

由此给您带来的不便，我们表示歉意，敬请谅解。

【升级】9月1日消息队列AMQP升级通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【消息队列AMQP】【升级通知】

升级窗口：北京时间2020年9月1日15:00 - 18:00

升级内容：华北5（呼和浩特）、华北2（北京）、华东1（杭州）、华东2（上海）、华南1（深圳）、香港、青岛等地域的服务升级。

给您带来的不便敬请谅解，有任何问题，可点击联系我们进行咨询反馈。

【升级】9月消息队列MQ升级计划通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【消息队列MQ】【升级通知】

升级窗口：

北京时间2020年8月31日 22:00 - 2020年9月1日 04:00

北京时间2020年9月3日 22:00 - 2020年9月4日 04:00

北京时间2020年9月7日 22:00 - 2020年9月8日 04:00

北京时间2020年9月9日 22:00 - 2020年9月10日 04:00

北京时间2020年9月14日 22:00 - 2020年9月15日 04:00

北京时间2020年9月16日 22:00 - 2020年9月17日 04:00

北京时间2020年9月21日 22:00 - 2020年9月22日 04:00

北京时间2020年9月23日 22:00 - 2020年9月24日 04:00

北京时间2020年9月25日 22:00 - 2020年9月29日 04:00

升级内容：所有地域的MQ服务（包含TCP、MQTT、HTTP接入方式）。

给您带来的不便敬请谅解，有任何问题，可点击联系我们进行咨询反馈。

【升级】9月3日消息队列AMQP华东1（杭州）地域升级通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【消息队列AMQP】【升级通知】

升级窗口：北京时间2020年9月3日15:00 - 18:00
升级内容：华东1（杭州）地域的服务升级。
升级影响：升级期间消息队列AMQP相关服务访问可能会出现多次闪断或者拒绝连接现象，每次闪断或拒绝连接不会超过 5 分钟，请在客户端中做好重连重试机制。如需在控制台进行管理操作，请避开维护时间段。

给您带来的不便敬请谅解，有任何问题，可点击联系我们进行咨询反馈。

滴滴基于 Flink 的实时数仓建设实践-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

随着滴滴业务的高速发展，业务对于数据时效性的需求越来越高，而伴随着实时技术的不断发展和成熟，滴滴也对实时建设做了大量的尝试和实践。本文主要以顺风车这个业务为引子，从引擎侧、平台侧和业务侧各个不同方面，来阐述滴滴所做的工作，分享在建设过程中的经验。

1.实时数仓建设目的

随着互联网的发展进入下半场，数据的时效性对企业的精细化运营越来越重要，商场如战场，在每天产生的海量数据中，如何能实时有效的挖掘出有价值的信息，对企业的决策运营策略调整有很大帮助。

其次从智能商业的角度来讲，数据的结果代表了用户的反馈，获取结果的及时性就显得尤为重要，快速的获取数据反馈能够帮助公司更快的做出决策，更好的进行产品迭代，实时数仓在这一过程中起到了不可替代的作用。

1.1 解决传统数仓的问题

从目前数仓建设的现状来看，实时数仓是一个容易让人产生混淆的概念，根据传统经验分析，数仓有一个重要的功能，即能够记录历史。通常，数仓都是希望从业务上线的第一天开始有数据，然后一直记录到现在。但实时流处理技术，又是强调当前处理状态的一个技术，结合当前一线大厂的建设经验和滴滴在该领域的建设现状，我们尝试把公司内实时数仓建设的目的定位为，以数仓建设理论和实时技术，解决由于当前离线数仓数据时效性低解决不了的问题。

现阶段我们要建设实时数仓的主要原因是：

公司业务对于数据的实时性越来越迫切，需要有实时数据来辅助完成决策
实时数据建设没有规范，数据可用性较差，无法形成数仓体系，资源大量浪费
数据平台工具对整体实时开发的支持也日渐趋于成熟，开发成本降低

1.2 实时数仓的应用场景

实时 OLAP 分析：OLAP 分析本身就是数仓领域重点解决的问题，基于公司大数据架构团队提供的基于 Flink 计算引擎的 stream sql 工具，Kafka 和 ddmq (滴滴自研)等消息中间件，druid 和 ClickHouse 等 OLAP 数据库，提升数仓的时效性能力，使其具有较优的实时数据分析能力。
实时数据看板：这类场景是目前公司实时侧主要需求场景，例如“全民拼车日”订单和券花销实时大屏曲线展示，顺风车新开城当日分钟级订单侧核心指标数据展示，增长类项目资源投入和收益实时效果展示等。
实时业务监控：滴滴出行大量核心业务指标需要具备实时监控能力，比如安全指标监控，财务指标监控，投诉进线指标监控等。
实时数据接口服务：由于各业务线之间存在很多业务壁垒，导致数仓开发很难熟悉公司内全部业务线，需要与各业务线相关部门在数据加工和数据获取方面进行协作，数仓通过提供实时数据接口服务的方式，向业务方提供数据支持。

2. 滴滴顺风车实时数仓建设举例

在公司内部，我们数据团队有幸与顺风车业务线深入合作，在满足业务方实时数据需求的同时，不断完善实时数仓内容，通过多次迭代，基本满足了顺风车业务方在实时侧的各类业务需求，初步建立起顺风车实时数仓，完成了整体数据分层，包含明细数据和汇总数据，统一了 DWD 层，降低了大数据资源消耗，提高了数据复用性，可对外输出丰富的数据服务。

数仓具体架构如下图所示：

从数据架构图来看，顺风车实时数仓和对应的离线数仓有很多类似的地方。例如分层结构；比如 ODS 层，明细层，汇总层，乃至应用层，他们命名的模式可能都是一样的。但仔细比较不难发现，两者有很多区别：

与离线数仓相比，实时数仓的层次更少一些
从目前建设离线数仓的经验来看，数仓的数据明细层内容会非常丰富，处理明细数据外一般还会包含轻度汇总层的概念，另外离线数仓中应用层数据在数仓内部，但实时数仓中，app 应用层数据已经落入应用系统的存储介质中，可以把该层与数仓的表分离。
应用层少建设的好处：实时处理数据的时候，每建一个层次，数据必然会产生一定的延迟。
汇总层少建的好处：在汇总统计的时候，往往为了容忍一部分数据的延迟，可能会人为的制造一些延迟来保证数据的准确。举例，在统计跨天相关的订单事件中的数据时，可能会等到 00:00:05 或者 00:00:10 再统计，确保 00:00 前的数据已经全部接受到位了，再进行统计。所以，汇总层的层次太多的话，就会更大的加重人为造成的数据延迟。
与离线数仓相比，实时数仓的数据源存储不同
在建设离线数仓的时候，目前滴滴内部整个离线数仓都是建立在 Hive 表之上。但是，在建设实时数仓的时候，同一份表，会使用不同的方式进行存储。比如常见的情况下，明细数据或者汇总数据都会存在 Kafka 里面，但是像城市、渠道等维度信息需要借助 Hbase，MySQL 或者其他 KV 存储等数据库来进行存储。

接下来，根据顺风车实时数仓架构图，对每一层建设做具体展开：

2.1 ODS 贴源层建设

根据顺风车具体场景，目前顺风车数据源主要包括订单相关的 binlog 日志，冒泡和安全相关的 public 日志，流量相关的埋点日志等。这些数据部分已采集写入 Kafka 或 ddmq 等数据通道中，部分数据需要借助内部自研同步工具完成采集，最终基于顺风车数仓ods层建设规范分主题统一写入 Kafka 存储介质中。

命名规范：ODS 层实时数据源主要包括两种。

一种是在离线采集时已经自动生产的 DDMQ 或者是 Kafka topic，这类型的数据命名方式为采集系统自动生成规范为：cn-binlog-数据库名-数据库名 eg：cn-binlog-ihap_fangyuan-ihap_fangyuan
一种是需要自己进行采集同步到 kafka topic 中，生产的topic命名规范同离线类似：ODS 层采用：realtime_ods_binlog_{源系统库/表名}/ods_log_{日志名} eg: realtime_ods_binlog_ihap_fangyuan

2.2 DWD 明细层建设

根据顺风车业务过程作为建模驱动，基于每个具体的业务过程特点，构建最细粒度的明细层事实表；结合顺风车分析师在离线侧的数据使用特点，将明细事实表的某些重要维度属性字段做适当冗余，完成宽表化处理，之后基于当前顺风车业务方对实时数据的需求重点，重点建设交易、财务、体验、安全、流量等几大模块；该层的数据来源于 ODS 层，通过大数据架构提供的 Stream SQL 完成 ETL 工作，对于 binlog 日志的处理主要进行简单的数据清洗、处理数据漂移和数据乱序，以及可能对多个 ODS 表进行 Stream Join，对于流量日志主要是做通用的 ETL 处理和针对顺风车场景的数据过滤，完成非结构化数据的结构化处理和数据的分流；该层的数据除了存储在消息队列 Kafka 中，通常也会把数据实时写入 Druid 数据库中，供查询明细数据和作为简单汇总数据的加工数据源。

命名规范：DWD 层的表命名使用英文小写字母，单词之间用下划线分开，总长度不能超过 40 个字符，并且应遵循下述规则：realtime_dwd_{业务/pub}_{数据域缩写}_[{业务过程缩写}]_[{自定义表命名标签缩写}]

{业务/pub}：参考业务命名
{数据域缩写}：参考数据域划分部分
{自定义表命名标签缩写}：实体名称可以根据数据仓库转换整合后做一定的业务抽象的名称，该名称应该准确表述实体所代表的业务含义
样例：realtime_dwd_trip_trd_order_base

2.3 DIM 层

公共维度层，基于维度建模理念思想，建立整个业务过程的一致性维度，降低数据计算口径和算法不统一风险；
DIM 层数据来源于两部分：一部分是 Flink 程序实时处理ODS层数据得到，另外一部分是通过离线任务出仓得到；
DIM 层维度数据主要使用 MySQL、Hbase、fusion(滴滴自研KV存储) 三种存储引擎，对于维表数据比较少的情况可以使用 MySQL，对于单条数据大小比较小，查询 QPS 比较高的情况，可以使用 fusion 存储，降低机器内存资源占用，对于数据量比较大，对维表数据变化不是特别敏感的场景，可以使用HBase 存储。

命名规范：DIM 层的表命名使用英文小写字母，单词之间用下划线分开，总长度不能超过 30 个字符，并且应遵循下述规则：dim_{业务/pub}_{维度定义}[_{自定义命名标签}]：

{业务/pub}：参考业务命名
{维度定义}：参考维度命名
{自定义表命名标签缩写}：实体名称可以根据数据仓库转换整合后做一定的业务抽象的名称，该名称应该准确表述实体所代表的业务含义
样例：dim_trip_dri_base

2.4 DWM 汇总层建设

在建设顺风车实时数仓的汇总层的时候，跟顺风车离线数仓有很多一样的地方，但其具体技术实现会存在很大不同。

第一：对于一些共性指标的加工，比如 pv，uv，订单业务过程指标等，我们会在汇总层进行统一的运算，确保关于指标的口径是统一在一个固定的模型中完成。对于一些个性指标，从指标复用性的角度出发，确定唯一的时间字段，同时该字段尽可能与其他指标在时间维度上完成拉齐，例如行中异常订单数需要与交易域指标在事件时间上做到拉齐。

第二：在顺风车汇总层建设中，需要进行多维的主题汇总，因为实时数仓本身是面向主题的，可能每个主题会关心的维度都不一样，所以需要在不同的主题下，按照这个主题关心的维度对数据进行汇总，最后来算业务方需要的汇总指标。在具体操作中，对于 pv 类指标使用 Stream SQL 实现 1 分钟汇总指标作为最小汇总单位指标，在此基础上进行时间维度上的指标累加；对于 uv 类指标直接使用 druid 数据库作为指标汇总容器，根据业务方对汇总指标的及时性和准确性的要求，实现相应的精确去重和非精确去重。

第三：汇总层建设过程中，还会涉及到衍生维度的加工。在顺风车券相关的汇总指标加工中我们使用 Hbase 的版本机制来构建一个衍生维度的拉链表，通过事件流和 Hbase 维表关联的方式得到实时数据当时的准确维度

命名规范：DWM 层的表命名使用英文小写字母，单词之间用下划线分开，总长度不能超过 40 个字符，并且应遵循下述规则：realtime_dwm_{业务/pub}_{数据域缩写}_{数据主粒度缩写}_[{自定义表命名标签缩写}]_{统计时间周期范围缩写}：

{业务/pub}：参考业务命名
{数据域缩写}：参考数据域划分部分
{数据主粒度缩写}：指数据主要粒度或数据域的缩写，也是联合主键中的主要维度
{自定义表命名标签缩写}：实体名称可以根据数据仓库转换整合后做一定的业务抽象的名称，该名称应该准确表述实体所代表的业务含义
{统计时间周期范围缩写}：1d:天增量；td:天累计(全量)；1h:小时增量；th:小时累计(全量)；1min:分钟增量；tmin:分钟累计(全量)
样例：realtime_dwm_trip_trd_pas_bus_accum_1min

2.5 APP 应用层

该层主要的工作是把实时汇总数据写入应用系统的数据库中，包括用于大屏显示和实时 OLAP 的 Druid 数据库(该数据库除了写入应用数据，也可以写入明细数据完成汇总指标的计算)中，用于实时数据接口服务的 Hbase 数据库，用于实时数据产品的 MySQL 或者 Redis 数据库中。

命名规范：基于实时数仓的特殊性不做硬性要求。

3. 顺风车实时数仓建设成果

截止目前，一共为顺风车业务线建立了增长、交易、体验、安全、财务五大模块，涉及 40+ 的实时看板，涵盖顺风车全部核心业务过程，实时和离线数据误差<0.5%，是顺风车业务线数据分析方面的有利补充，为顺风车当天发券动态策略调整，司乘安全相关监控，实时订单趋势分析等提供了实时数据支持，提高了决策的时效性。

同时建立在数仓模型之上的实时指标能根据用户需求及时完成口径变更和实时离线数据一致性校验，大大提高了实时指标的开发效率和实时数据的准确性，也为公司内部大范围建设实时数仓提供了有力的理论和实践支持。

4. 实时数仓建设对数据平台的强依赖

目前公司内部的实时数仓建设，需要依托数据平台的能力才能真正完成落地，包括 StreamSQL 能力，数据梦工程 StreamSQL IDE 环境和任务运维组件，实时数据源元数据化功能等。

4.1 基于StreamSQL的实时数据需求开发

StreamSQL 是滴滴大数据引擎部在 Flink SQL 基础上完善后形成的一个产品。

使用 StreamSQL 具有多个优势：

描述性语言：业务方不需要关心底层实现，只需要将业务逻辑描述出来即可。
接口稳定：Flink 版本迭代过程中只要 SQL 语法不发生变化就非常稳定。
问题易排查：逻辑性较强，用户能看懂语法即可调查出错位置。
批流一体化：批处理主要是 HiveSQL 和 Spark SQL，如果 Flink 任务也使用 SQL 的话，批处理任务和流处理任务在语法等方面可以进行共享，最终实现一体化的效果。

StreamSQL 相对于 Flink SQL （1.9 之前版本）的完善：

完善 DDL：包括上游的消息队列、下游的消息队列和各种存储如 Druid、HBase 都进行了打通，用户方只需要构建一个 source 就可以将上游或者下游描述出来。
内置消息格式解析：消费数据后需要将数据进行提取，但数据格式往往非常复杂，如数据库日志 binlog，每个用户单独实现，难度较大。StreamSQL 将提取库名、表名、提取列等函数内置，用户只需创建 binlog 类型 source，并内置了去重能力。对于 business log 业务日志 StreamSQL 内置了提取日志头，提取业务字段并组装成 Map 的功能。对于 json 数据，用户无需自定义 UDF，只需通过 jsonPath 指定所需字段。
扩展UDX：丰富内置 UDX，如对 JSON、MAP 进行了扩展，这些在滴滴业务使用场景中较多。支持自定义 UDX，用户自定义 UDF 并使用 jar 包即可。兼容 Hive UDX，例如用户原来是一个 Hive SQL 任务，则转换成实时任务不需要较多改动，有助于批流一体化。

Join 能力扩展：

基于 TTL 的双流 join：在滴滴的流计算业务中有的 join 操作数据对应的跨度比较长，例如顺风车业务发单到接单的时间跨度可能达到一个星期左右，如果这些数据的 join 基于内存操作并不可行，通常将 join 数据放在状态中，窗口通过 TTL 实现，过期自动清理。
维表 join 能力：维表支持 HBase、KVStore、Mysql 等，同时支持 inner、left、right、full join 等多种方式。

4.2 基于数据梦工厂的 StreamSQL IDE 和任务运维

StreamSQL IDE：

提供常用的SQL模板：在开发流式 SQL 时不需要从零开始，只需要选择一个 SQL 模板，并在这个模板之上进行修修改改即可达到期望的结果
提供 UDF 的库：相当于一个库如果不知道具有什么含义以及如何使用，用户只需要在 IDE 上搜索到这个库，就能够找到使用说明以及使用案例，提供语法检测与智能提示
提供代码在线DEBUG能力：可以上传本地测试数据或者采样少量 Kafka 等 source 数据 debug，此功能对流计算任务非常重要。提供版本管理功能，可以在业务版本不断升级过程中，提供任务回退功能。

任务运维：任务运维主要分为四个方面

日志检索：Flink UI 上查询日志体验非常糟糕，滴滴将 Flink 任务日志进行了采集，存储在 ES 中，通过 WEB 化的界面进行检索，方便调查。
指标监控：Flink 指标较多，通过 Flink UI 查看体验糟糕，因此滴滴构建了一个外部的报表平台，可以对指标进行监控。
报警：报警需要做一个平衡，如重启报警有多类如 ( 机器宕机报警、代码错误报警 )，通过设置一天内单个任务报警次数阈值进行平衡，同时也包括存活报警 ( 如 kill、start )、延迟报警、重启报警和 Checkpoint 频繁失败报警 ( 如 checkpoint 周期配置不合理 ) 等。
血缘追踪：实时计算任务链路较长，从采集到消息通道，流计算，再到下游的存储经常包括 4-5个环节，如果无法实现追踪，容易产生灾难性的问题。例如发现某流式任务流量暴涨后，需要先查看其消费的 topic 是否增加，topic 上游采集是否增加，采集的数据库 DB 是否产生不恰当地批量操作或者某个业务在不断增加日志。这类问题需要从下游到上游、从上游到下游多方向的血缘追踪，方便调查原因。

4.3 基于数据梦工厂的实时数据源元数据化(meta化表)

将 topic 引入成实时表，metastore 统一管理元数据，实时开发中统一管理 DDL 过程。对实时数仓来说，通过元数据化，可以沉淀实时数仓的建设成果，使数仓建模能更好的落地。

目前数据梦工厂支持的元数据化实时数据源包括 Postgre、DDMQ、MySQL、Druid、ClickHouse、Kylin、Kafka。

5. 面临的挑战和解决方案思考

虽然目前滴滴在实时数仓建设方面已初具规模，但其面临的问题也不容忽视。

5.1 实时数仓研发规范

问题：为了快速响应业务需求，同时满足数仓的需求开发流程，迫切需要建设一套面向实时数据开发的规范白皮书，该白皮书需要涉及需求对接、口径梳理、数据开发、任务发布、任务监控、任务保障。

目前解决方案：目前由数据 BP 牵头，制定了一套面向实时数据指标的开发规范：

常规流程：需求方提出需求，分析师对接需求，提供计算口径，编写需求文档。之后由数仓 BP 和离线数仓同学 check 计算口径，并向实时数仓团队提供离线 Hive 表，实时数仓同学基于离线 Hive 表完成数据探查，基于实时数仓模型完成实时数据需求开发，通过离线口径完成数据自查，最终交付给分析师完成二次校验后指标上线。

口径变更--业务方发起：业务方发起口径变更，判断是否涉及到实时指标，数仓 BP 对离线和实时口径进行拉齐，向离线数仓团队和实时数仓团队提供更口口径和数据源表，实时数仓团队先上测试看板，验收通过后切换到正式看板

存在的不足：

当针对某个业务进行新的实时数据建设时，会有一个比较艰难的初始化过程，这个初始化过程中，会和离线有较多耦合，需要确定指标口径，数据源，并进行大量开发测试工作
在指标口径发生变更的时候，需要有一个较好的通知机制，目前还是从人的角度来进行判断。

5.2 离线和实时数据一致性保证

目前解决办法：由业务、BP、离线数仓共同保证数据源、计算口径与离线一致，数据加工过程，逐层与离线进行数据比对，并对指标结果进行详细测试，数据校验通过并上线后，根据离线周期进行实时和离线数据的校验。

待解决的问题：结合指标管理工具，保证指标口径上的一致性，扩展数据梦工厂功能，在指标加工过程中，增加实时离线比对功能，降低数据比对成本。

6. 未来展望：批流一体化

虽然 Flink 具备批流一体化能力，但滴滴目前并没有完全批流一体化，希望先从产品层面实现批流一体化。通过 Meta 化建设，实现整个滴滴只有一个 MetaStore，无论是 Hive、Kafka topic、还是下游的 HBase、ES 都定义到 MetaStore 中，所有的计算引擎包括 Hive、Spark、Presto、Flink 都查询同一个 MetaStore，实现整个 SQL 开发完全一致的效果。根据 SQL 消费的 Source 是表还是流，来区分批处理任务和流处理任务，从产品层面上实现批流一体化效果。

更多 Flink 技术交流，可以钉钉扫码加入 Flink 的社区大群～

蚂蚁架构师郭援非：分布式数据库是金融机构数字化转型的最佳路径-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

2020年8月26-28日，在中科软科技举办的中国财险科技应用高峰论坛上，蚂蚁集团高级解决方案架构师郭援非发表了《OceanBase分布式关系数据库助力保险业务创新》的主题演讲，为大家分享了蚂蚁集团企业级分布式关系数据库OceanBase的发展历程、产品价值，以及在保险行业的最佳实践应用。

以下为演讲整理：

各位朋友，下午好！

支付宝在全球有十几亿用户，他们可以同时进行可靠、稳定、高效的支付交易，这背后离不开一个重要的秘密武器——OceanBase。今天我很荣幸向大家介绍OceanBase的发展过程、产品特点，以及在保险行业的最佳实践。

分布式数据库OceanBase的迭代

OceanBase数据库立项于2010年，第一个客户是淘宝收藏夹。2013年，OceanBase开始了对SQL的支持。2014年，OceanBase开始支持网商银行的所有业务，成为了全球首个应用在金融核心业务系统的分布式关系数据库。从2014年到2016年，支付宝全部的交易系统和核心账务系统都跑在OceanBase之上。多年来全世界十几亿用户在支付宝上发生的所有交易都是由OceanBase来承载，始终稳若磐石。

2017年，我们开始向更多的外部客户输出我们的技术，我们帮助南京银行打造了“鑫云+”互联网金融业务核心。OceanBase服务过的这些场景里既包括新兴的互联网金融核心业务、传统的金融核心业务，也包括对传统数据库的替换、对MySQL的替换，都非常成功。

2019年， OceanBase参加了世界数据库范围内最权威的TPC-C认证测试，我们取得了6088万tpmC的成绩，是第二名传统数据库公司甲骨文的两倍。TPC-C绝对不是一个简单的跑分测试，实际上，它是要求被测试的对象必须满足数据库的ACID四个事务特征才能够进行的测试。

2020年，我们又一次参加了TPC-C测试，达到了7.07亿tpmC，跑出了接近去年12倍的成绩，再次问鼎TPC-C榜首。今年6月份OceanBase正式独立成公司，我们立志于成为世界领先的企业级数据技术解决方案提供商。

数据库形态演进

金融业的核心业务系统，包括保险行业的核心业务系统仍旧大规模使用传统集中式数据库。这种方案带来了两个问题，一是集中式数据库造价非常高，来自于两方面，一方面是软件License很贵；另一方面是硬件很贵，因为它必须使用高端硬件，比如IBM的大机、EMC的高端存储，这些都是非常昂贵的，时间长了再大的企业也很难承受；二是扩展性非常不好，传统集中式数据库都是基于共享存储（shared-storage）的方式做横向扩展，当面临关键业务系统发展需要不断扩容的时候，这种方案有心无力，难以做有效的支撑。

对于上面这种方案业界提了一种补丁方案，十几年前曾有人提出既然传统集中式数据库很贵，那么在单机开源的基础上加一个语法兼容，这样就解决了它昂贵的问题。但是发展到今天，我们在金融领域的核心系统还没有看到广泛使用这种方案。原因很简单，金融业核心系统使用传统集中式数据库主要不是因为它们在语法上的完善和优秀，根本原因在于它们的稳定可靠，而这个补丁方案做不到这些，同时这个方案也没有解决扩展性的问题。

说到扩展性同样是在十几年以前，最早在互联网企业中提出了这么一种方案，叫做分库分表，一个典型的例子就是在多台单机的MySQL上，用Proxy把MySQL单机集成为MySQL集群，提供很好的算力。这种方案同样具有很大的问题，当计算发生在单个MySQL机器内部的时候一切很好，但是一旦用户的负载跨越MySQL单机边界的时候，你可能会发现分库分表系统的表现并不尽如人意。具体来说，在全局事务、数据强一致性、负载均衡以及复杂SQL方面都不能很好的支持，所以这种方案的使用场景非常受限。截止到今天，在银行、保险、券商行业的核心业务系统中依然没有广泛使用过这种方案。

那么到底是否存在这样一种数据库系统，它既可以提供传统集中式数据库的高可靠性，又成本可控，同时扩展性良好？在这个基础之上还能够满足事务的ACID、具备强一致性、复杂SQL的处理能力？答案是有，而且可以更好，那就是OceanBase。

OceanBase的三大独特价值

首先，OceanBase是一款完全自主研发的分布式关系数据库，代码是百分之百自研的，包括SQL引擎、存储引擎都是我们的工程师自己一行一行代码写出来的。这一点很重要，它意味着当你的数据库出现问题的时候，我们的工程师不需要求助开源社区，我们自己就可以兜底，这对于要求稳定，要求可靠，要求有可预期性的金融领域的核心业务系统是一个刚需，这一点OceanBase可以充分提供。

第二， OceanBase是全世界唯一一款经过长时间复杂金融场景验证的原生分布式数据库。数据库其实是一个非常复杂的系统，它的复杂度甚至不亚于操作系统，对它的各种复杂应用场景的测试不是一个简单的测试程序可以穷尽的。目前，可能唯一有效的方法就是在实践中找到足够复杂、足够多的场景对数据库进行反复的使用，使用到最后没有问题为止大家才会信任它。我们非常高兴的告诉大家，OceanBase做到了。

第三，OceanBase数据库是全世界范围内唯一一款基于普通的X86云服务器，在TPC-C领域获得第一名的原生分布式数据库。登顶TPC-C榜单意味着OceanBase不但可以提供世界级的性能，而且可以提供单机数据库一样的完整体验，这一点意味着用户可以像使用单机数据库一样使用OceanBase。

OceanBase核心特性

在OceanBase数据库中，我们通过“五高一多”的特点定义了分布式数据库的领先标准。

高可用

我们通过Paxos协议和多副本技术，可以提供很好的高可用性，当出现灾难的时候我们可以做到RPO=0，RTO<30秒，这完全可以满足企业的容灾需求。同时由于我们使用的是Paxos协议， Paxos协议是支持日志空洞的，这就带来一个好处，当在网络出现波动的时候，我们可以给到更好的性能保证。

OceanBase的高可用性，是完全在通用X86服务器和普通硬件上提供出来的，没有使用任何高端硬件，所以我们的成本会更低一些。

高扩展

在实际生产系统中单个OceanBase集群内的服务器可以达到100台以上。而且OceanBase具有很好的线性扩展比。高扩展性还体现在扩容时的自动负载均衡，这意味着当DBA需要扩容的时候，所做的只是增加一台机器到集群里，接下来，我们的OceanBase管理系统会自动的根据系统的负载情况，把数据迁移到新加的机器上。整个扩容缩容过程中，业务没有感知。

高性能

我们采用了很多先进的技术来提高数据库的性能。比如LSM Tree、无锁结构、消除磁盘的随机写等等，这些技术帮助我们充分使用硬件的能力，再辅以高扩展性，我们就可以提供一个世界级性能的OceanBase集群。

在实际的生产系统里，我们可以在峰值的时候提供6100万次每秒，单表最大容量可以到3200亿行。和高性能伴随的是低成本，因为我们采用了LSM Tree结构，所以当数据落盘的时候是更有组织的，可以做到1：3的压缩比。

高透明

我们实现了不少关键技术，比如全局一致性快照、全局索引、自动事务两阶段提交。使用OceanBase数据库，应用就像使用一台单机数据库一样，不需要做针对分布式数据库的特别感知和修改。

高兼容

我们在一套OceanBase集群上同时为您提供两套生态，一套是Oracle生态，一套是MySQL生态，有效地降低业务迁移改造的成本。同时我们和国内主流的操作系统、芯片也都做了互认的支持，可以有效满足技术供应链安全的需求。

多租户

多租户就是在一个OceanBase集群上，可以建立很多个租户，每个租户对应一个Oracle实例或者是MySQL实例。可以用这个特性实现业务大集中，把以前全国一省一套的传统集中式数据库都集中在一个OceanBase数据库集群那里。也可以做不同种类的小业务的集中，之前几十个小的业务现在都集中在一个OceanBase集群里统一管理，这个特性不但可以有效利用集群资源，更可以有效降低 DBA的运维成本。

OceanBase产品定位与形态

OceanBase可以提供拥有世界级性能的OLTP引擎，同时也提供一个非常优秀的OLAP引擎，这意味着辅以刚才提到的多租户功能，您可以在一个OceanBase的集群里创建不同的实例，有的专门用于交易，有的专门用于分析，当然也可以创建一个大的实例，既做交易又做分析。OceanBase目前真正做到了一套HTAP引擎，它能够同时支持交易和分析型业务。

OceanBase的容灾架构，既支持经典的主备容灾方式，同时也支持基于Paxos协议的容灾方式，我们支持同机房三副本，也支持同城三机房，甚至是两地三中心，三地五中心，这些不同的容灾级别可以完全满足您的容灾诉求。

关于部署模式，如果您希望和阿里云其他的优秀产品，比如和金融级分布式中间件SOFA或者对象云存储OSS一起使用，那么OceanBase可以在阿里云的专有云上为您输出。如果您只想使用OceanBase，我们也可以以一个纯License的方式提供给您，就在您的服务器上安装我们的软件，一样可以获得一个高可用、高扩展、高性能的集群。如果您希望只是购买一个公有云的服务，您可以在阿里云的公有云上购买一个OceanBase的RDS。这些不同选项可以无缝适配您各种不同的需求。

OceanBase在保险业的实践

OceanBase在保险业的最佳实践，一个很好的案例就是人保健康险。如果不熟悉的朋友可以打开您的手机支付宝，在上面搜“好医保”就可以看到人保健康险的产品。人保健康利用了金融级分布式数据库OceanBase和金融级分布式中间件SOFAStack解决了高并发保单处理能力速度慢的问题，目前每日平均出单量在15万左右。

自2018年4月11日人保健康险好医保产品成功上线后，截止到目前，好医保已成为支付宝网红保险产品。OceanBase上线中国人保健康以后，取得了显著的收益：

处理能力提升了上千倍，并可根据业务情况动态扩容

2018款好医保住院医疗保险，每天1万单的日结文件，处理速度从以前的4小时缩短至6分钟

新产品上线时间缩短80%以上，从原来的数周缩短至数天

采用多种协议转换和标准化对接流程，使外部渠道接入效率提升6倍，支持第三方业务快速拓展

谢谢大家听完我的汇报，期待着未来我们可以用OceanBase数据库更好地服务于保险行业，和各位好朋友一起打造面向未来的保险业的核心业务系统。

阿里云操作系统选择说明指南如何选择阿里云服务器操作系统？-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

如何轻松搞定SAP HANA数据库备份？-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

企业上云等级保护三级解决方案-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

本文介绍企业上云满足等保合规三级的最佳实践。

1.场景描述

网络安全法中明确要求国家实行网络安全保护制度，网络运营者有义务履行等级保护制度要求。阿里云除了提供满足等保合规要求的云平台外，还为用户的应用系统提供完整的云原生、高性价比的等保三级解决方案。

2.解决的问题

等保2.0合规要求
云上高等级安全体系建设

3.部署架构图

图1：企业上云等保三级合规部署架构图

4.选用的产品

更多有关以下产品的介绍，可点击这里或扫描文后二维码查看相关产品详情。

4.1云安全中心

云安全中心是一个实时识别、分析、预警安全威胁的统一安全管理系统，通过防勒索、防病毒、防篡改、合规检查等安全能力，帮助用户实现威胁检测、响应、溯源的自动化安全运营闭环，保护云上资产和本地主机并满足监管合规要求。

4.2 Web应用防火墙

阿里云Web应用防火墙（WAF）对网站或APP的业务流量进行恶意特征识别及防护，将正常、安全的流量回源到服务器。避免网站服务器被恶意入侵，保障业务的核心数据安全，解决因恶意攻击导致的服务器性能异常问题。

4.3云防火墙

集中管理公网IP的访问策略，内置威胁入侵防御模块(IPS)，支持失陷主机检测、主动外联行为的阻断、业务间访问关系可视，留存6个月网络流量日志，等保必备。

4.4 SSL证书

在云上签发各品牌数字证书，实现网站HTTPS化，使网站可信，防劫持、防篡改、防监听、安全加密。统一生命周期管理，简化证书部署，一键分发到CDN、负载均衡、OSS等其它云上产品。

4.5堡垒机

集中管理资产权限，全程记录操作数据，实时还原运维场景，助力企业用户构建云上统一、安全、高效运维通道；保障云端运维工作权限可管控、操作可审计、合规可遵从。

4.6数据库审计

智能解析数据库通信流量，细粒度审计数据库访问行为，帮助企业精准识别、记录云上数据安全威胁，为云端数据库提供全方位的安全、诊断、维护及合规能力。

4.7日志服务SLS

行业领先的日志大数据解决方案，一站式提供数据收集、清洗、分析、可视化和告警功能。全面提升海量日志处理能力，实时挖掘数据价值，智能助力研发/运维/运营/安全等场景。

4.8密钥管理服务

密钥管理服务（KMS）提供安全合规的密钥托管和密码服务，助您轻松使用密钥来加密保护敏感的数据资产，控制云上的分布式计算和存储环境。您可以追踪密钥的使用情况，配置密钥的自动轮转策略，以及利用托管密码机所具备的中国国家密码管理局或者FIPS认证资质，来满足您的监管合规需求。

5.详细信息

点击这里或扫描下方二维码查看最佳实践详情。

6.更多最佳实践

点击这里或扫描下方二维码查看更多阿里云最佳实践。

我们是阿里云智能全球技术服务-SRE团队，我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队；提供专业、体系化的SRE服务，帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统，提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云，让客户云上业务运行更加稳定可靠的技术，您可用钉钉扫描下方二维码，加入阿里云SRE技术学院钉钉圈子，和更多云上人交流关于云平台的那些事。

企业上云等保二级合规-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

本文档介绍企业上云满足等保合规2.0的最佳实践。

1.场景描述

阿里云安全帮助您快速、省心地通过等保合规。在阿里云，您可享受一站式等保测评，包括完备的攻击防护、数据审计、数据备份与加密、安全管理服务。可充分利用云平台的免费管理软件，包括RAM、ActionTrail、云监控等，满足等保2.0需求。

2.解决的问题

等保2.0合规要求
云上安全体系建设

3.部署架构图

图1：企业上云等保合规2.0部署架构图

4.选用的产品

更多有关以下产品的介绍，可点击这里或扫描文后二维码查看相关产品详情。

4.1云安全中心

4.2Web应用防火墙

阿里云Web应用防火墙（WAF）对网站或者APP的业务流量进行恶意特征识别及防护，将正常、安全的流量回源到服务器。避免网站服务器被恶意入侵，保障业务的核心数据安全，解决因恶意攻击导致的服务器性能异常问题。

4.3云防火墙

集中管理公网IP的访问策略，内置威胁入侵防御模块（IPS），支持失陷主机检测、主动外联行为的阻断、业务间访问关系可视，留存6个月网络流量日志，等保必备。

4.4SSL证书

4.5数据库审计

4.6日志服务 SLS

5.详细信息

点击这里或扫描下方二维码查看最佳实践详情。

6.更多最佳实践

点击这里或扫描下方二维码查看更多阿里云最佳实践。

CentOS-7 安装 Redis-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

wget安装

[root@RedisSrv1 ~]# yum install wget

安装gcc依赖

[root@RedisSrv1 ~]# yum install gcc -y
-- 请先检查gcc的版本是否低于5，如果是请先升级，可以使用以下命令：
[root@RedisSrv1 redis-stable]# gcc -v
CentOS7默认安装的是4.8.5，而redis6.0只支持5.3以上版本，这里将gcc升级到9
[root@RedisSrv1 redis-stable]# yum -y install centos-release-scl
[root@RedisSrv1 redis-stable]# yum install devtoolset-9-gcc*
gcc版本切换
临时切换：scl enable devtoolset-9 bash
永久切换：echo “source /opt/rh/devtoolset-9/enable” >> /etc/profile

下载最新稳定版 Redis

[root@RedisSrv1 /]# cd /opt/
[root@RedisSrv1 /]# wget http://download.redis.io/releases/redis-stable.tar.gz

解压redis安装包

[root@RedisSrv1 opt]# tar -zxvf redis-stable.tar.gz

进到解压后的redis目录中进行编译

[root@RedisSrv1 opt]# cd redis-stable

[root@RedisSrv1 redis-stable]# make MALLOC=libc
make[1]: Leaving directory `/opt/redis-stable/src'

编译完成后，进入到src目录下，可以看到，生成了可执行文件
生成了src目录文件之后，进入src（源文件目录）继续编译
[root@RedisSrv1 redis-stable]# cd src/

#安装到 /usr/local/redis-stable 目录
[root@RedisSrv1 src]# make install PREFIX=/usr/local/redis-stable

Hint: It's a good idea to run 'make test' ;)

    INSTALL install
    INSTALL install
    INSTALL install
    INSTALL install
    INSTALL install

 --将配置文件移动到/home/redis/目录
cp /opt/redis-stable/redis.conf /usr/local/redis-stable
--修改文件权限  
chmod -R 700 /usr/local/redis-stable/
[root@RedisSrv1 redis-stable]# cd /usr/local/redis-stable/bin
[root@RedisSrv1 bin]# ./redis-server /usr/local/redis-stable/redis.conf


--关闭redis进程
[root@server01 src]# ps -ef | grep redis
root       1177      1  0 09:09 ?        00:00:00 ./redis-server 0.0.0.0:6379
root       1185   1147  0 09:11 pts/0    00:00:00 grep --color=auto redis
[root@server01 src]# 
[root@server01 src]# ps -aux | grep redis
root       1177  0.0  0.2 144008  2028 ?        Ssl  09:09   0:00 ./redis-server 0.0.0.0:6379
root       1187  0.0  0.0 112708   976 pts/0    R+   09:11   0:00 grep --color=auto redis
[root@server01 src]# 
[root@server01 src]# kill -9 1177
[root@server01 src]# 
[root@server01 src]# ps -aux | grep redis
root       1189  0.0  0.0 112708   980 pts/0    R+   09:12   0:00 grep --color=auto redis
[root@server01 src]# 

开放防火墙6379端口
firewall-cmd --zone=public --add-port=6379/tcp --permanent

重新加载防火墙设置
firewall-cmd --reload

查看是否生效
firewall-cmd --list-ports

卸载Redis

查看进程
[root@RedisSrv1 src]# ps aux |grep redis

杀掉进程
kill -9 进程号

查看相关文件
[root@RedisSrv1 src]# find / -name "redis*"

删除文件
rm -rf 文件

Redis 自启动

[root@RedisSrv1 ~]# vim /usr/lib/systemd/system/redis.service
[Unit]
Description=Redis persistent key-value database
After=network.target
After=network-online.target
Wants=network-online.target

[Service]
Type=forking
PIDFile=/var/run/redis_6379.pid
ExecStart=/usr/local/redis-stable/bin/redis-server /usr/local/redis-stable/redis.conf --supervised systemd
ExecReload=/bin/kill -USR2 $MAINPID
ExecStop=/usr/local/redis-stable/bin/redis-cli -p 6379 shutdown

[Install]
WantedBy=multi-user.target

[root@RedisSrv1 ~]# systemctl daemon-reload
[root@RedisSrv1 ~]# systemctl start redis
[root@RedisSrv1 ~]# systemctl status redis
[root@RedisSrv1 ~]# systemctl stop redis

操作审计日志分析实战一：使用 SQL 分析投递到 OSS 中的操作审计日志-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

简单了解原理

（1）在操作审计创建跟踪可以将账号下发生的云上管控操作日志持续投递到SLS Logstore和OSS Bucket；
（2）在数据湖分析（DLA）服务，可以通过简单的设置将操作日志从OSS Bucket导入DLA。

DLA是一款基于Serverless的强大的交互式数据查询分析服务，能够便捷的对不同格式的数据源进行格式化整合并使用统一SQL查询分析。将OSS Bucket 中的操作日志导入DLA后，
（1）DLA将OSS Bucket内以Array形式保存的一行多条日志记录拆分为多条数据；
（2）DLA将以JSON保存的每条操作日志转换为结构化的数据表。
这使面向OSS Bucket的数据解析被大大的简化，直接实现可视化的标准SQL分析。

开始实践

Step1：确认最佳实践的前提条件

1、确认您已经在操作审计创建了跟踪。如果还未创建跟踪，请先完成创建账号追踪操作，并配置将操作记录投递到对象存储（OSS）。
2、确认开通了DLA服务，请参见开通DLA服务。

Step2：在DLA服务中创建Schema

1、登录Data Lake Analytics管理控制台。
2、在页面左上角，选择与OSS所在地域一致的DLA地域。
3、单击左侧导航栏的数据湖构建 > 数据入湖，在数据入湖页面单击ActionTrail日志清洗中的进入向导。
4、在ActionTrail日志清洗页面，根据页面提示进行参数配置。

5、完成上述参数配置后单击创建，创建Schema。
服务端预设的操作审计日志Schema结构如下方表格所示。

Schema表结构介绍

Step3：开启同步

Schema创建成功后，ActionTrail投递到OSS Bucket中的日志数据尚未同步到DLA中，DLA中尚未创建OSS日志文件对应的表，您还需要通过单击立即同步来创建表并同步表数据。
1、单击立即同步启动数据同步任务。

在配置页签下，单击更新更新Schema配置。

2、单击表页签，查看数据同步情况。

数据同步到DLA以后，您就可以在DLA中使用标准SQL语法对ActionTrail日志数据进行分析。

Step4：数据分析示例

1、单击DLA控制台左侧 SQL执行选项卡，选择目标前面设置的数据库。

2、输入查询语句，在这里输入单击同步执行

3、得到查询结果

您可以使用任何符合SQL语法的语句去对DLA中的日志信息进行查询。

常用查询案例

案例1：查询某个AK的操作日志

1、输入语句：select * from action_trail where user_identity_access_key_id = '你的目标AK' limit 20;

2、单击同步执行得到前20条符合条件的记录如下

案例2：查询某个AK访问某个产品的操作日志
1、输入语句，查询AK为指定值，调用Ecs服务的记录：select * from action_trail where user_identity_access_key_id = '你的目标AK' AND service_name = 'Ecs' limit 20;

2、单击同步执行得到前20条符合条件的记录如下

阿里云高效基因序列检索助力新冠肺炎病毒序列快速分析-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

AnalyticDB for MySQL是云端托管的PB级高并发低延时数据仓库，通过AnalyticDB for MySQL向量检索功能构建基因检索系统，支持毫秒级针对10亿级别的向量数据进行查询分析，更加快速、高效地为新冠肺炎病毒防控、研发治疗药物以及相关疫苗提供帮助。

1.背景信息

2019年年底，中国的新兴商业中心武汉，爆发了一种名为新型冠状病毒肺炎（简称新冠肺炎）的疫情。在新冠肺炎流行的两个多月中，中国造成了3300多人死亡，8万2千多人感染。随着疫情的进一步蔓延，目前已经横跨了109个国家，造成了80多万人感染，4万多人失去了生命。到目前为止，疫情使得50多个国家停摆，全世界范围内造成了数千亿美元的经济损失。在疫情防治期间，阿里云提供了高效基因序列检索技术，助力新冠肺炎病毒序列分析。

2.基因序列检索技术应用范围和现状

对于当下疫情，基因序列检索技术主要应用于以下场景：

用于新冠肺炎的溯源和分析，帮助疫情防控找到病毒宿主，做好有效防范。
通过基因序列检索技术，发现蝙蝠和穿山甲身上的冠状病毒RNA序列匹配度高达96%和99.7%，可以推断蝙蝠和穿山甲很可能是新冠肺炎的宿主。
用于分析新冠肺炎病毒的复制和传播过程，为研发治疗药物和疫苗提供帮助。
通过基因序列检索技术对基因序列按功能区域划分，了解各个模块的功能，从而更好地分析出病毒的复制和传播过程，进而找到关键节点，为研发治疗药物和疫苗提供帮助。
用于检索到与冠状病毒相似的病毒基因序列。
基因序列检索技术也可以检索与新冠肺炎病毒相似的病毒基因序列，例如SARS、MERS等病毒，从而借鉴相关药物靶点设计机制，更快、更高效地研发检测试剂盒、疫苗以及相关的治疗药物。

基于当下疫情的快速蔓延，当前的基因匹配算法太慢，迫切需要高效匹配算法进行基因序列检索。阿里云AnalyticDB for MySQL团队将基因序列片段转化成对应的1024维特征向量，将两个基因片段的匹配问题，转换成了两个向量间的距离计算问题，从而大大降低了计算开销，实现毫秒级返回相关基因片段，完成基因片段的首次筛选。然后，使用基因相似计算BLAST算法，完成基因相似度的精确排查，从而高效率完成基因序列的匹配计算。匹配算法从原来O(M+N)的复杂度降低到O(1)。同时，阿里云AnalyticDB for MySQL提供强大的机器学习分析工具，通过基因转向量技术，将局部的和疾病相关的关键靶点基因片段转成特征向量，用于基因药物的研发，大大加速了基因分析过程。

3. AnalyticDB for MySQL基因检索系统

新冠肺炎病毒的RNA序列可以用一串核酸序列（又称碱基序列）表示，RNA序列含有四种核苷酸，分别用A、C、G和T表示，分别代表腺嘌呤、胞嘧啶、鸟嘌呤、胸腺嘧啶。每个字母代表一种碱基，无间隔排列在一起。每一个物种的RNA序列均不相同但又有规律，基因检索系统可以通过输入一串病毒的基因片段，检索相似的基因，用来对病毒的RNA序列进行分析。
为方便演示AnalyticDB for MySQL基因片段检索方法，我们从GenBank下载了大量病毒的RNA片段，并将GenBank内部关于病毒的论文以及Google Scholar中相关病毒的论文导入AnalyticDB for MySQL基因检索数据库中。
AnalyticDB for MySQL基因检索的演示界面如下图所示，将新冠肺炎病毒的序列（COVID-19）上传到AnalyticDB for MySQL基因检索系统中，AnalyticDB for MySQL基因检索系统只需几毫秒即可检索到相似的基因片段（当前示例系统只返回匹配度超过0.8的基因片段）。从返回的基因片段得出穿山甲携带的新冠肺炎病毒(GD/P1L)、蝙蝠携带的新冠肺炎病毒(RaTG13)以及SARS和MARS病毒，其中GD/P1L的序列匹配度最高为0.974，由此推断出新冠肺炎病毒很可能是通过穿山甲传染到人的。

图1：AnalyticDB for MySQL基因检索演示界面

如果RNA片段非常相似，说明这两个RNA可能有相似的蛋白质表达和结构。通过基因检索工具，可以看到SARS和MARS与新冠肺炎病毒的匹配度为0.8以上，说明可以将一些SARS或者MARS的研究成果应用到新冠肺炎病毒上。系统提取了每种病毒的论文，通过文本分类算法，将论文划分为检测类、疫苗类和药物类，例如下图为SARS的七种检测方法、四种疫苗接种方法和10中治疗药物。其中，对SARS有效的荧光定量PCR检测，目前正应用于新冠肺炎病毒的检测；基因疫苗的方法以及诱导体内免疫疫苗的方法，也正在展开研究；治疗药物中瑞德西韦以及相关的干扰素也都用于新冠肺炎病毒的治疗上。

图2：SARS病毒相关论文检索分类结果

单击上图干扰素链接可以查看相关论文，当前系统调用了自动翻译软件，抽取中文版文件名关键词作为文件名，方便用户阅读。

图3：论文查看效果

4.实现架构

图4：基因检索实现架构

AnalyticDB for MySQL基因检索系统中，AnalyticDB for MySQL负责存储和查询所有结构化数据（例如基因序列的长度，长度包含基因的论文名称、基因种类、DNA或者RNA等）和基因序列产生的特征向量。查询数据时，通过基因向量抽取模型将基因转化成向量，在AnalyticDB for MySQL向量数据库中进行粗排检索，然后在返回的向量匹配结果集中使用经典的BLAST算法进行精确检索，返回最相似的基因序列。
AnalyticDB for MySQL基因检索系统的核心是基因向量抽取模型，该模块可以将核苷酸序列转化成向量。目前AnalyticDB for MySQL抽取了各种病毒的RNA全部序列样本进行训练，可以非常方便地对病毒的RNA进行相似度计算。同时，基因向量抽取模型也可以扩展应用于其他物种基因检索。

5.基因向量抽取算法

目前词向量技术已经非常成熟，被广泛应用于机器翻译、阅读理解、语义分析等相关领域，并取得了巨大成功。词向量化采用了分布式语义的方法表示一个词的含义，一个词的含义就是这个词所处的上下文语境。例如高中英语中的完形填空题，一篇短文空出10个地方，学生根据空缺词的上下文语境选择合适的词。也就是说上下文语境能够准确地表达这个词，如果某位同学选择了正确的选词，表示该同学理解了空缺词的含义。因此，通过上下文词的关系，采用词向量算法，可以为每个词生成一个向量，通过计算两个词向量之间的相似度，得到两个词的相似度。
同样的道理，基因序列的排列具有一定的规律，并且每一部分基因序列所表达的功能和含义不同。可以将很长的基因序列划分成小的单元片段（也就是词）进行分析，并且这些词也有上下文语境，这些词相互连接、相互作用共同完成相对应的功能，形成合理的表达。因此，生物科学家们采用词向量算法对基因序列单元进行向量化，两个基因单元相似度很高，说明需要这两个基因单元共同来表达和完成相应的功能。
总体而言，AnalyticDB for MySQL基因向量抽取算法分为三步：
（1）在氨基酸序列中定义词。生物信息学中用K-mers来分析氨基酸序列，K-mer是指将核酸序列分成包含K个碱基的字符串，即从一段连续的核酸序列中迭代选取长度为K个碱基的序列，若核酸序列长度为L，K-mer长度为K，那么可以得到L-K+1个K-mers。例如下图所示，假设某序列长度为12，设定选取的k-mer长度为8，则得到（12-8+1=5）5个5-mers。这些k-mer，就是氨基酸序列中的词。

图5：8-mers核酸序列示意图

（2）找到氨基酸序列的上下文语境，将基因序列中的词转换成1024维向量。对于词向量算法而言，另一个重要的问题就是上下文的语境。AnalyticDB for MySQL基因向量抽取算法在氨基酸片段中选择一个长度为L的窗口，该窗口内的氨基酸片段可认定为在同一语境内。例如CTGGATGA是一段核酸序列，选取了长度为10的窗口，AnalyticDB for MySQL基因向量抽取算法将CTGGATGA转换成5个5-mers即{AACTG, ACTGG, CTGGA, GGATG, GATGA}。对于其中一个5-mer{CTGGA}而言，另外四个{AACTG, ACTGG, GGATG, GATGA}5-mers就是当前5-mer {CTGGA}的上下文语境。AnalyticDB for MySQL基因向量抽取算法套用词向量空间训练模型，对已有生物基因的K-mers进行训练，便可将一个K-mer（基因序列中的一个词）转换成1024维向量。
（3）类似于词向量模型，K-mer向量模型也拥有和词向量模型相似的数理计算性质。公式一说明核苷酸序列ACGAT的向量减去GAT序列的向量和AC序列的向量距离非常接近。公式二说明核苷酸序列AC的向量加上ATC序列的向量和ACATC序列的向量距离也很接近。因此，根据这些数理特征，计算一个长氨基酸序列向量时，可以将这个序列中每一段的K-mer序列进行累加，最后进行归一化就能得到整个氨基酸序列的向量。同时，为提升精度，可以将基因片段看作一个文本，使用doc2vec4将整个序列转换成向量进行计算。为进一步验证算法性能，AnalyticDB for MySQL基因向量抽取算法计算了常用于基因检索库中的BLAST算法序列与基因转向量l2距离序列的相似度，两个序列的斯皮尔曼等级相关系数是0.839。以上得出结论，将DNA序列转换成向量用于相似基因片段的初次筛选，是有效且可行的。

6.向量检索功能概述

一般包含向量检索的应用系统中，开发者通常会使用向量检索引擎（例如Faiss）存储向量数据，然后使用关系型数据库存储结构化数据。因此，查询时也需要交替查询两个系统，明显额外增加了开发人员的工作量，数据查询性能也不是最优。
AnalyticDB for MySQL是云端托管的PB级高并发低延时数据仓库，可以毫秒级针对10亿级别的向量数据进行查询，100毫秒级别的响应时间。AnalyticDB for MySQL全面兼容MySQL协议以及SQL:2003语法标准，其向量检索功能支持对图像、文本推荐、声纹、核苷酸序列等相似性进行查询和分析，目前在多个城市的安防项目中已大规模部署了AnalyticDB for MySQL。
AnalyticDB for MySQL支持结构化和非结构化数据的近似检索和分析，通过SQL接口即可快速搭建基因检索或者基因+结构化数据混合检索等系统。在混合检索场景中AnalyticDB for MySQL的优化器会根据数据的分布和查询条件选择最优执行计划，在保证数据召回率的同时，得到最优的性能。例如，通过以下一条SQL即可检索RNA核酸序列。

-- 查找RNA和提交的序列向量相近的基因序列。
select  title, # 文章名
        length, # 基因长度
        type, # mRNA或DNA等
        l2_distance(feature, array[-0.017,-0.032,...]::real[]) as distance # 向量距离 
from demo.paper a, demo.dna_feature b
where a.id = b.id
order by distance; # 用向量相似度排序

上述SQL中表demo.paper用于存储上传的每篇文章的基本信息，demo.dna_feature存储各个物种的基因序列对应的向量。通过基因转向量模型，将要检索的基因转成向量[-0.017,-0.032,...]，然后在AnalyticDB for MySQL数据库中进行检索。
当前系统也支持结构化信息+非结构化信息（核苷酸序列）的混合检索，例如查找和冠状病毒相关的类似基因片段时，只需要在SQL中增加where title like'%COVID-19%'即可。
本文参考的相关文献，感兴趣的读者可访问这里或扫描下方二维码了解详情。

作者：李倩

阿里云云原生数据仓库AnalyticDB产品经理

阿里云云原生数据仓库AnalyticDB产品经理，见证了AnalyticDB从初创到至今的壮大发展，参与了所有重大功能设计。

钉钉猛增40倍流量压力阿里云DBA如何应对-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

1.背景

由于受新型冠状病毒感染的肺炎疫情影响，钉钉流量从春节后开始出现了飞跃性增长。此次疫情流量主要来源于钉钉远程办公和在线教育功能，从字面来看，好像只是钉钉的两个业务功能，但在钉钉内部依赖模块不下20个，主要有消息、视频会议、直播、家校、健康打卡等业务场景。如何保障超过20个业务在如此爆发式增长下的性能和稳定性，是对钉钉后台系统、数据库系统的一个很大挑战。
本文将从数据库DBA的视角来介绍我们是如何打赢这场“战役”的，在这个过程中我们究竟遇到了哪些挑战，我们是如何组织我们的团队，如何思考，如何真正利用技术克服这些挑战，最后通过这场战役，我们又沉淀了哪些经验及技术。

2.对数据库系统的挑战

数据库是钉钉业务系统运行的强依赖，在这种类似双11的场景下，如何规划部署数据库成了稳定性中最重要的一环。但是这次的战役来得突然，并没有很多时间准备，因此面临了非常多的困难与挑战，总结下来有以下3点：
（1）系统所需要的容量是多少，无法预估
以消息模块为例，在春节前，钉钉消息日常流量峰值不到千万，第一次容量评估，大家给2月3号定的目标是日常峰值的3倍。随着2月10号开课高峰的到来，又将2月10号的目标调整为10倍。之后又因为2月17号开学季的到来，再次将目标调整为40倍。所以总容量相比日常峰值翻了40倍！
（2）时间紧，扩容需求众多，资源不足
疫情流量的猛增，给系统带来的冲击不亚于每年的双11。电商会花半年时间准备双11，但这次留给我们的时间只能以小时来计。另一方面，钉钉出于成本的考虑，资源池中基本没有空余的机器，现有的资源部署密度也比较高，如何腾挪资源在较短的时间内为钉钉接近20个核心集群进行扩容是一个很大的问题。
（3）极限场景下如何保障系统稳定性与用户体验
在各种因素制约导致集群无法扩容且系统达已经达到瓶颈时我们能怎么办？有哪些应急手段能用？是否存在一个平衡点，将对用户的影响降到最低？

3.应对措施

3.1人员合理化安排

（1）数据库团队成立疫情期间钉钉业务保障小组
小组成员包含了数据库团队DBA/数据库内核/CORONA/TDDL/DTS/精卫/NOSQL各产品线同学。根据钉钉业务线进行分工，每个DBA跟进一个业务线，参与高峰期的保障，及时播报线上系统状况与水位，让重保决策人员及时了解系统的状况。对线上出现的问题紧急处理，保证问题在短时间内得到修复。对不合理的业务场景进行优化，保证已知问题只出现一次。参与系统的压测，发现潜在风险点及时修正，对系统容量不够的系统进行及时扩容，在资源满足的情况下让数据库在高峰来临之前已经具备足够的容量。
（2）数据库团队与钉钉稳定性团队紧密合作
由于前期资源有限，需要扩容的系统众多，此时钉钉稳定性团队主动站出来帮DBA分担了大量的的压力。他们将数据库的扩容需求根据业务的重要性进行优先级划分，统一扩容需求，DBA根据优先级顺序，结合业务的目标容量进行判断，在有限的资源下有条不紊地进行扩容，保证资源优先用在刀刃上，大大提升了扩容效率。

3.2资源紧急协调

疫情突然爆发，所有人都预期流量会增长，但涨多少很难预估，必须要早作准备。为了保证资源不会成为系统扩容的阻力，DBA和云资源团队进行合理规划，短期内通过借用集团上云的机器，同时缩容其他BU数据库集群，凑出400台左右的机器，保证高优先级系统的扩容需求。同时协调云资源进行搬迁，在短短几天内搬迁了300多台机器到钉钉资源池，保证了钉钉所有数据库的扩容需求。
资源到位后就是检验数据库弹性的时候了，依托于PolarDB-X三节点分布式的部署架构，我们可以较为方便地对原有集群进行在线升级和扩容，对用户影响很低，并且保证数据的一致性。有些场景用户需要从原有集群将数据迁移到分库分表更多的新集群，我们利用DTS搭配成熟的管控平台也能较为流畅地完成。最终可以做到只要有资源，数据库也能具有极致的弹性，满足业务需求。

3.3应急与优化

在系统高峰来临之前，数据库团队内部已经准备好紧急预案：

参数降级，调整数据库参数充分发挥数据库能力，提高吞吐
资源降级，调整资源限制，CPU隔离放开及数据库BP大小紧急上调
针对异常SQL，确认影响后紧急限流，或者通过SQL Execute Plan Profile进行紧急干预
全集群流量备库分流，依据压力情况最大可100%读流量切换到备库
准备数据库弱一致脚本，在必要时进一步提高数据库吞吐

同时结合业务的限流/降级预案保证了很多数据库系统在未知高峰流量到来时的稳定运行。
但业务限流降低了很多用户的体验，之前业务限流值设置为30QPM/群，表示为每个群在一分钟之内只能发送30条消息，很多时候在1分种的前20s甚至更短时间就已经发出30条消息，在剩下40s以上的时间内用户的体验就是无法使用钉钉。针对这种情况DBA建议减小限流窗口，将限流值30QPM改成30/20S，限流降低了97%，大大改善了用户的体验。

3.4 DB容量预估及性能分析

业务上往往通过集群的CPU情况即可大概分析出系统的水位，但是对DB而言不仅是CPU，IO、网络、SQL、锁等等，任何一个组件的瓶颈往往都会成为最终容量的瓶颈。不同的业务模型，往往瓶颈不一样，即使都是查询量较大的业务，有些可能是CPU的瓶颈，有些可能是内存命中率不够导致的瓶颈，有些则是索引设计不合理导致的瓶颈。更复杂的部分在于，有些瓶颈往往不是线性的，可能压力提升2倍还没什么问题，硬件能力都还有富余，但是提升到3倍就直接崩溃。在这种场景下我们如何比较准确地评估DB的容量呢？
以往我们都是通过经验并和业务方一起进行全链路压测进行DB容量（集群能支撑多少读写）的预估，这种方式有以下几个问题：（1）压测数据集和数据库总量相比往往比较小，DB命中率基本100%，这对于分析有IO的业务模型存在较大误差；（2）成本较大，需要打通上下游整个链路，需较多的人员参与，即使进行全链路压测，真正压到DB端的往往也只是核心的几个接口，无法100%覆盖线上所有的接口，而很多慢SQL往往都来自这些易忽略的接口。
解决这个痛点问题的方法很容易想到——只要把线上的业务流量全部采集下来回放一遍即可，但实现起来是非常复杂的。我们真正需要的其实是针对DB的一种通用的单链路压测能力，并不依赖上游业务，DB层可以自己进行流量的生成、放大或缩小，甚至具备将事务比例更改后再次压测的能力。从2019年开始，在DBA和达摩院数据库实验室科学家们共同的努力下，我们开发了ClouDBench实现了上述的需求，并在此次的战役中帮助DBA进行容量的评估。效果如下图所示：

图1：ClouDBench容量评估效果展示

蓝色是真实业务在某个时刻的性能曲线，绿色是我们采集DB端流量回放出来的性能曲线，可以看出两条曲线在时序上高度拟合，特别是InnoDB内部的指标都非常接近，包括流量的波动。
当我们能够比较真实地回放出业务的workload，我们即可以对压力进行放大，以此来分析DB的容量，并分析出极限场景下的性能瓶颈，从而进行DB的优化及验证优化效果。ClouDBench目前已经在公共云数据库自治服务Database Autonomy Service（DAS）中灰度上线。

4.成果及思考

短短两周内各数据库系统具备了数倍到40倍以上的能力，其中不乏超大型数据库集群，存储空间超过1PB，所有这些都充分证明了阿里云数据库的弹性能力。此次疫情带来的爆发式流量对我们来说是毫无防备的，经历过此役，经验总结下来有以下几点：

4.1人员组织

首先在人员组织上，业务和开发要对突发流量具备敏锐的嗅觉，及时发现提早准备，由业务方稳定性负责人成立应急小组，梳理依赖业务以及对应后台系统，将各业务线owner和后台数据库产品owner纳入应急小组。由应急小组统一容量规划、人力配备以及资源协调，实现业务方、后台产品团队、资源团队联动。

4.2技术架构

在技术架构上，一方面是要使用具有足够弹性的数据库产品，保证使用的数据库产品有自由扩容和缩容的能力，既要保证流量增大后能扩容，也要保证日常流量时可以缩容。管控等各个运维组件需要在实现自动化运维的同时，对于很多关键操作留有应急开关，确保在一些极端场景下，可以较方便地从自动驾驶切换成手动模式，确保任务平稳高效地运行下去。

4.3应急手段

在面对系统瓶劲时，在业务上和数据库产品上都要提前做好预案。在业务上要有降级和限流功能，在系统无法承受压力时，可以降级一部分非核心功能，限制一些次核心功能来保核心业务的正常运行。在数据库产品上需要具有在不扩容的情况下，通过一些优化手段瞬间提升数据库吞吐的能力，更重要的是这些能力需要有较好的兼容性，在不同的部署环境、不同的DB架构下都具有相应的工具和预案。
另一方面，我们需要有评估和检测预案效果的手段，我们现在可以利用ClouDBench对DB进行容量的分析和预测，但是当前的使用成本还是过高，后续ClouDBench需要更加自动化，降低使用成本，将能力透传给业务的owner，在大促之前，自动进行大量的DB单链路压测，评估系统水位，发现性能瓶颈，优化DB参数，验证预案效果。

作者：章左中

阿里云智能数据库产品团队运维专家

阿里巴巴运维专家，从事数据库领域十年以上，先后在甲骨文（中国）、网易等公司任职，在传统行业和互联网行业都有着丰富的经验。目前在阿里云数据库事业部从事专家服务相关工作，擅长数据库优化、架构设计及异构数据库之间的迁移等。

作者：陈荣耀

阿里云智能数据库产品团队运维专家

曾就职于烽火通信任职Oracle DBA，2015年加入阿里，现任阿里云数据库运维专家，有丰富的Oracle、MySQL运维开发经验，擅长数据库故障诊断、性能调优、稳定性建设。目前主要负责数据库性能压测、流量回放（ClouuDBench ）等。

Java创建对象的方法有哪些？-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

1.运用New 关键字创建实例，这是最常用的创建对象方法。
2.运用反射，调用Java.lang.Class类当中newInstance方法。只能调用公共的无参构造函数。
3.运用反射，调用java.lang.reflect.Constructor类中的newInstance方法提供无参或有参实例。除了无参构造器，还可以调用有参数的/私有的/受保护的构造函数。事实上Class的newInstance方法内部调用Constructor的newInstance方法。这也是众多框架Spring、Hibernate、Struts等使用后者的原因。
4.调用对象的clone方法。必须先实现java.lang.Cloneable接口。
5.使用序列化和反序列化。必须先实现Serializable接口。
6.使用unsafe.allocateInstance(class)创建对象。
本文来源于：奈学开发者社区，如有侵权，请联系我删除~

Zeppelin SDK ：Flink 平台建设的基石-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

作者：章剑锋（简锋），阿里巴巴高级技术专家

用过 Zeppelin 的人应该比较熟悉 Zeppelin 的 UI，因为 Zeppelin 的主要使用场景都是交互式，用户需要手动来操作。那除了这种手动的方式，还有其他的方式吗？如果你不想用 Zeppelin UI，但又想用 Zeppelin 提交和管理大数据作业（比如 Flink Job）的能力该怎么办？或者是你在 Zeppelin 里写好了代码，想定时调度起来，或者集成到其他系统里，该怎么办？

如果你有这样的诉求，那么 Zeppelin Client API （SDK）就是你所需要的东西。

Zeppelin 简介

对于不熟悉 Zeppelin 的人，可以用一句话来解释 Zeppelin：大数据引擎的入口，交互式大数据分析平台底座。Zeppelin 最大的特点是连接多种引擎，具有可插拔式，下面这张图例举了一些常用的引擎，当然 Zeppelin 还支持其他很多引擎，这里就不一一例举。

虽然 Zeppelin 有 Rest API，但是 Zeppelin 的 Rest API 太多，对于很多不熟悉 Zeppelin 的人来说使用 Rest API 门槛太高，所以 Zeppelin 专门开发了一个 Client API （SDK），方便大家做集成。Zeppelin Client API （SDK）分为 2 个层面的的东西（接下来会逐个详细介绍）：

Zeppelin Client API （Low Level API)
Session API （High Level API)

Zeppelin Client API （Low Level API）

Zeppelin Client API 可以在 Note 和 Paragraph 的粒度进行操作。你可以先在 notebook 里写好代码 (比如开发阶段在 notebook 里写代码，做测试），然后用 Low Level API 用编程的方式把 Job 跑起来（比如生产阶段把作业定时调度起来）。Zeppelin Client API 最重要的 class 是 ZeppelinClient，也是 Zeppelin Client API 的入口。下面例举几个重要的接口（这些 API 都比较直观，我就不多做解释了）。

public String createNote(String notePath) throws Exception 

public void deleteNote(String noteId) throws Exception 

public NoteResult executeNote(String noteId) throws Exception 

public NoteResult executeNote(String noteId, 
                              Map parameters) throws Exception
                              
public NoteResult queryNoteResult(String noteId) throws Exception 

public NoteResult submitNote(String noteId) throws Exception

public NoteResult submitNote(String noteId, 
                             Map parameters) throws Exception 
                             
public NoteResult waitUntilNoteFinished(String noteId) throws Exception

public String addParagraph(String noteId, 
                           String title, 
                           String text) throws Exception
                           
public void updateParagraph(String noteId, 
                            String paragraphId, 
                            String title, 
                            String text) throws Exception
                            
public ParagraphResult executeParagraph(String noteId,
                                        String paragraphId,
                                        String sessionId,
                                        Map parameters) throws Exception
                                        
public ParagraphResult submitParagraph(String noteId,
                                       String paragraphId,
                                       String sessionId,
                                       Map parameters) throws Exception
                                       
public void cancelParagraph(String noteId, String paragraphId)
    
public ParagraphResult queryParagraphResult(String noteId, String paragraphId) 
    
public ParagraphResult waitUtilParagraphFinish(String noteId, String paragraphId)

那这些 API 能用来做什么呢？

一个典型的用途是我们在 Zeppelin 里写好代码，做好测试，然后在第三方系统里集成进来。比如下面的代码就是把 Zeppelin 自带的 Spark Basic Features 用编程的方式跑起来，你不仅可以跑 Zeppelin Note，还可以拿到运行结果（ParagraphResult）。怎么处理运行结果，就留给你发挥想象的空间吧（可以在你的系统里展示出来，或者可视化出来，或者传给其他系统做消费等等）。

此外，对于 Dynamic forms（动态控件，比如文本框，下拉框等等），你还可以动态的提供参数，如下面例子里的 maxAge 和 marital。

ClientConfig clientConfig = new ClientConfig("http://localhost:8080");
ZeppelinClient zClient = new ZeppelinClient(clientConfig);

String zeppelinVersion = zClient.getVersion();
System.out.println("Zeppelin version: " + zeppelinVersion);

ParagraphResult paragraphResult = zClient.executeParagraph("2A94M5J1Z", "20150210-015259_1403135953");
System.out.println("Execute the 1st spark tutorial paragraph, paragraph result: " + paragraphResult);

paragraphResult = zClient.executeParagraph("2A94M5J1Z", "20150210-015302_1492795503");
System.out.println("Execute the 2nd spark tutorial paragraph, paragraph result: " + paragraphResult);

Map parameters = new HashMap<>();
parameters.put("maxAge", "40");
paragraphResult = zClient.executeParagraph("2A94M5J1Z", "20150212-145404_867439529", parameters);
System.out.println("Execute the 3rd spark tutorial paragraph, paragraph result: " + paragraphResult);

parameters = new HashMap<>();
parameters.put("marital", "married");
paragraphResult = zClient.executeParagraph("2A94M5J1Z", "20150213-230422_1600658137", parameters);
System.out.println("Execute the 4th spark tutorial paragraph, paragraph result: " + paragraphResult);

这下面这张图就是上面我们要 Zeppelin Client API 跑的 Zeppelin 自带的 Spark Basic Features。

Session API （High Level API）

Session API 是 Zeppelin 的high level api，Session API 里没有 Note，Paragraph 的概念，粒度是你提交的代码。Session API里最重要的class就是 ZSession，这也是Session API的入口，一个 ZSession 代表一个独立的Zeppelin Interpreter 进程，对于 Flink 来说就是一个独立的 Flink Session Cluster。下面例举一些典型的接口（这些 API 都比较直观，我就不多做解释了）。

public void start() throws Exception

public void start(MessageHandler messageHandler) throws Exception

public void stop() throws Exception

public ExecuteResult execute(String code) throws Exception

public ExecuteResult execute(String subInterpreter,
                             Map<< span="">String, String> localProperties,
                             String code,
                             StatementMessageHandler messageHandler) throws Exception

public ExecuteResult submit(String code) throws Exception

public ExecuteResult submit(String subInterpreter,
                            Map<< span="">String, String> localProperties,
                            String code,
                            StatementMessageHandler messageHandler) throws Exception
                           
public void cancel(String statementId) throws Exception
 
public ExecuteResult queryStatement(String statementId) throws Exception

public ExecuteResult waitUntilFinished(String statementId) throws Exception

那这个 API 能用来做什么呢？一个典型的用途是就是我们动态创建 Session （Zeppelin Interpreter 进程），动态的提交运行代码，并拿到运行结果。比如你不想用 Zeppelin 的 UI，要自己做一个 Flink 的开发管理平台，那么你就可以自己做 UI，让用户在 UI 上配置 Flink Job，输入 SQL，然后把所有的这些信息发送到后端，后端调用 ZSession 来运行 Flink Job。

下面的 Java 代码就是用编程的方式调用了 2 条 Flink SQL 语句，并且在 MyStatementMessageHandler1 和 MyStatementMessageHandler2 中读取源源不断发送过来更新的 SQL 运行结果（怎么来使用这个结果就靠你的想象力了）。

需要说明的是像 Flink Interpreter 这种流式结果数据更新是通过 WebSocket 实现的，所以下面的代码里有会有 CompositeMessageHandler，MyStatementMessageHandler1 以及 MyStatementMessageHandler2，这些 MessageHandler 就是用来处理通过 WebSocket 发送过来的流式数据结果。下面是 2 条我们在 Zeppelin 里运行的 Flink SQL。

接下来我们会用 Zeppelin Session API 来跑着这 2 条 Flink SQL，然后我们会在MyStatementMessageHandler1，MyStatementMessageHandler2 里拿到结果展示出来。

ZSession session = null;
try {
    ClientConfig clientConfig = new ClientConfig("http://localhost:8080");
    Map<< span="">String, String> intpProperties = new HashMap<>();

    session = ZSession.builder()
        .setClientConfig(clientConfig)
        .setInterpreter("flink")
        .setIntpProperties(intpProperties)
        .build();

    // CompositeMessageHandler allow you to add StatementMessageHandler for each statement.
    // otherwise you have to use a global MessageHandler.
    session.start(new CompositeMessageHandler());
    System.out.println("Flink Web UI: " + session.getWeburl());

    System.out.println("-----------------------------------------------------------------------------");
    String initCode = IOUtils.toString(FlinkAdvancedExample.class.getResource("/init_stream.scala"));
    ExecuteResult result = session.execute(initCode);
    System.out.println("Job status: " + result.getStatus() + ", data: " + result.getResults().get(0).getData());

    // run flink ssql
    Map<< span="">String, String> localProperties = new HashMap<>();
    localProperties.put("type", "update");
    result = session.submit("ssql", localProperties, "select url, count(1) as pv from log group by url",
                            new MyStatementMessageHandler1());
    session.waitUntilFinished(result.getStatementId());

    result = session.submit("ssql", localProperties, "select upper(url), count(1) as pv from log group by url",
                            new MyStatementMessageHandler2());
    session.waitUntilFinished(result.getStatementId());

} catch (Exception e) {
    e.printStackTrace();
} finally {
    if (session != null) {
        try {
            session.stop();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

public static class MyStatementMessageHandler1 implements StatementMessageHandler {

    @Override
    public void onStatementAppendOutput(String statementId, int index, String output) {
        System.out.println("MyStatementMessageHandler1, append output: " + output);
    }

    @Override
    public void onStatementUpdateOutput(String statementId, int index, String type, String output) {
        System.out.println("MyStatementMessageHandler1, update output: " + output);
    }
}

public static class MyStatementMessageHandler2 implements StatementMessageHandler {

    @Override
    public void onStatementAppendOutput(String statementId, int index, String output) {
        System.out.println("MyStatementMessageHandler2, append output: " + output);
    }

    @Override
    public void onStatementUpdateOutput(String statementId, int index, String type, String output) {
        System.out.println("MyStatementMessageHandler2, update output: " + output);
    }
}

除了编程方式跑 Flink Job，这个 Session API 还能给我们带来什么呢？

在 Zeppelin 里如果你可以通过 %flink.conf 来对你的 Flink Cluster 进行非常丰富的配置，但是 %flink.conf 是纯文本的配置，不熟悉 Flink 的人很容易配错（如下图）。如果你是自己做 Flink 开发平台的话就可以做一个更完整的 UI，用一些下拉框等等把一些配置选项固定下来，用户只要选择就行了，不需要自己输入文本来配置。

还有下面这类 paragraph 的 local properties 配置，比如 type，template, resumeFromLatestCheckpoint 也是比较容易写错的，同理你可以在自己 UI 里用一些控件把这些选项提前固定下来，而不是让用户输入文本的方式。

我相信 Zeppelin Client API 还有很多可以发挥和想象的空间，大家脑洞起来吧。

▼ 视频演示 ▼

视频演示链接
https://v.qq.com/x/page/m3146grr5e1.html

更多 Flink 技术干货及使用交流可加入 Flink 社区钉钉大群。

闲鱼直播三周内实现点击率翻倍，我们是这么做到的...-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

作者：闲鱼技术-莫癫

1. 业务背景

闲鱼直播业务上线后面临的最大问题是增长问题。闲鱼BI同学分析发现，对比短时观看和长时观看人群，发现两部分人群有较明显的兴趣阶段性差异。
业务希望在理解直播、主播和用户的基础根据兴趣对头部优质直播精准投放, 放大头部主播马太效应实现直播转化和观看时间的增长。

2. 目标

简单概括需要达成两个结果：

在三周内实现精准投放平台，沉淀基础运营平台的基础设施；
业务上保证头部直播间场均转化uv达成一定目标，转换率得到明显提升；

那么单纯借助算法模型实现优质直播推荐，是否也可以达成业务上的目标？然后现实却是，巧妇难为无米之炊。直播上线时间短, 播放和观看场次有限, 使得模型的训练没有足够的样本直接去理解用户对直播的兴趣, 平台也未对主播直播内容做强控实现内容的结构化。那么就需要将运营对直播领域经验与BI分析、算法结合，在理解用户、直播和直播间的基础上，实现对直播间到兴趣人群的投放，并沉淀平台化能力。

3. 实现方案

给兴趣人群投放实时直播间的第一步是要实现对人的理解，包括C端用户以及主播的理解，其次是直播的理解。理解的结果最终会以兴趣人群、主播人群的方式与页面资源位关联，形成人（用户）货（直播）场（资源位）的初步匹配。

用户的理解依赖于用户的特征数据，包括闲鱼用户基础特征，搜索、浏览、发布、交易等商品相关行为记录，互动行为特征和用户兴趣标签特征等。这些特征对实时性要求不高，大部分特征通过离线计算产出，后续通过离线计算方式对不同数据来源的特征归一化。

用户所有特征会同步到人群圈选平台，通过交并差的方式实现人群圈选，进行人群预览和导出。

平台整体设计

圈选的人群数据是以userId和人群Id的映射表方式保存离线，与投放的配置进行联合后得到<用户, 资源位, 主播>的关联关系，而后关系数据会同步到图数据库Igraph，提供给算法在线推荐时查询关联直播实现按兴趣推荐和曝光。受限的是整体的曝光流量有额度的，算法会基于模型，在有限PV额度内对在线直播间实现较优的选择。

下面详细阐述是怎么实现用户理解和直播间投放的。

用户理解

对用户理解的常规特征生产不是个难事, 而用户的兴趣标签需要针对闲鱼用户从零开始, 弥补这方面能力的缺失。兴趣标签主要是通过分析用户历史行为产生的行为文本，找出其与领域标签涉及到词组的关联性。包含如图商品和帖子的各类行为文本，目前数据在逐渐补充中。

运营会整理不同领域的关键词词组作为输入, 匹配到关联度高的用户关联上领域标签特征。要实现兴趣标签的产出, 要解决三个问题: 存储、检索和相关度计算。

兴趣标签产出（方案一）

如图方案一是最初设想方案, 整体流程如下:

关键词结构化: BI同学完成行为文本明细的处理, 包括数据源归一、去重和UDF处理分词, 并根据关键词频次和预设权重算分。输出结构化后的用户行为文本明细, 包括用户ID、实体ID、关键词列表和关键词对应的分值列表；
打标规则DSL化：对运营输入的行业兴趣关键词组进行分词后转成数据库可执行的DSL；
兴趣用户DUMP: 执行DSL检索出与输入关键词匹配的结构化行为文本, 进行用户去重, 完成用户兴趣标签关联；
人群圈选: 基于用户兴趣标签和其它特征数据做交并差后导出最终人群, 该步骤是在二方人群圈选平台进行；

整个方案是可行的, 而且具备很好的灵活性, 离线部分可不断完善和丰富结构化行为文本, 工程测专注于DSL可视化优化和整个数据流的流转提效, 整个平台可以良性迭代进化。但是该方案确难以实行, 主要存在以下问题:

能给的工期短, 要求2到3周完成所有链路功能上线并支撑业务验证, 实现该方案是几乎不可能的；
存储成本巨大, 测算大概需要30PB的在线存储资源, 这对于一个未验证价值的业务来数也是不可能申请到的；

有同学也许很快发现, 从文本结构化到检索特定兴趣用户的过程不就是一个可以用搜索引擎实现的业务场景吗？最大的问题仍然是预算问题, 搭建搜索引擎也是个不小的成本，而且从搜索引擎dump大量数据存在着严重的性能问题，同时也无法支持BI同学在整个流程中进行优化。

搜索引擎基本流程

在线方案是比较理想的, 可以实现运营利用自己的行业经验自助完成兴趣标签关联和人群圈选。由于上述客观条件限制, 最终我们选择了离线关联用户和兴趣标签的方式, 快速接入部分兴趣标签, 而后逐步推进在线方案的方式。这里得益于BI同学全面的能力, 完成了“离线搜索引擎”, 以及未雨绸缪沉淀了部分用户兴趣标签。这样整体方案就是这样的：

离线处理非结构化文本，通过去重、分词和算法得到结构化文本（该步骤与方案一相同）；
整理领域标签关联的关键词词组
离线计算方式检索匹配关键词词组的用户

方案二的最大弊端就是通用性没方案一高，每个兴趣标签的产出需要BI开发，只能满足T+1的实时性。但也一些优点，离线存储成本低，离线计算可支持自定义复杂UDF。离线部分更详细的介绍可以参考数据团队的兴趣标签体系实现介绍。

兴趣标签产出（方案二）

投放实现

投放分为离线和在线两部分, 运营维护的投放配置存储在RDB (关系型数据库), 需要同步到数据仓库, 离线计算完成用户与兴趣主播关系关联, 形成<用户,兴趣主播列表>关系。关联的数据同步到在线图关系数据库, 提供算法在兴趣主播中推荐。整个数据链路需要自动流转, 尽可能及时:

在线配置无法做到实时同步到离线, 目前每一个小时调度一次, 达到准时时要求；
离线任务之间通过依赖任务驱动, 基本能满足准实时行要求，并每次全量更新“用户主播兴趣关系”新增新分区，同时增加与新分区时间一致的done分区；
离线数据同步到在线图数据库是基于数据交换组件, 会定时检查离线表done分区, 有新done分区则会通过同步消息机制进行对应相同时间分区的全量数据更新；

4. 首页效果

在三周不到的时间，完整链路的平台实现并上线，运营人群圈选、投放配置可在分钟级内完成上线。
对部分领域的头部直播在首页进行试投放后，效果明显：

所有头部直播间，UV点击数远超目标；
对比大盘，试投放大部分领域PV和UV的点击转化率得到显著提升，最高达到倍数提升；

5. 展望

整个项目由于时间比较短, 实现的是兴趣直播投放功能的最小集合, 以支持快速验证并得到较好反馈和结果。在此雏形上，未来会逐渐完善和丰富其能力：

在对接BI兴趣标签的基础上, 需要不断丰富对接兴趣标签等各维度的特征数据能力，同时支持运营同学自助产出通用兴趣标签以及其它特征；
丰富对资源位的投放能力支持，并具备多维度AB方案和多指标通用报表分析能力。能支持更多业务的快速尝试、快速反馈和快速调整；
沉淀和抽象出核心链路, 不局限于支持直播业务, 可以平台化支持更多的社区和非社区业务。同时在理解用户兴趣的基础, 更好的支持理解内容, 实现内容结构化, 实现用户和兴趣内容的低成本运营；

郑荣：世界的香格里拉——从“藏在深闺无人识”到“网红旅游目的地” | 阿里CIO学院名人堂-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

7月中旬，迪庆藏族自治州文化和旅游局宣传推广及对外交流与合作科科长郑荣作为阿里创新学院的学员走进阿里巴巴，参与了为期两天的数智化升级培训班。

带着打造“世界的香格里拉”的决心，郑荣在参会期间认真听取了阿里巴巴关于数字化营销、数字化管理、数字化转型等相关话题的分享，并对此有了更为系统的认识。会后，郑荣接受阿里CIO学院新媒体访谈，分享了他对文旅行业数字化转型的未来构想。

郑荣先生认为文旅行业的数字化转型主要有三方面的切入点，分别是政府管理、文旅企业以及游客需求。以这三个切入点为引，他为我们分享了迪庆文旅产业以往发展的一些经验，指出了未来在数字化转型这条道路上文旅行业可能会面临的挑战。

在郑荣先生的构想里，文旅行业未来发展离不开文旅产品和业务的创新，只有创新才能带来发展，让“世界的香格里拉”这一天生具备网红基因的旅游胜地更好地走向全国、走向世界。

用数字化技术要让传统文旅资源活起来

阿里CIO学院：郑先生您好，请问这次走进阿里巴巴参与两天的学习交流给您带来的真实感受是什么？

郑荣：本次学习交流首先让我了解了阿里巴巴的企业文化和业务生态。通过聆听与会专家大咖们的演讲，我对数字化营销、数字化管理、数字化转型和创新等有了系统性的认识，了解到互联网科技发展的最新动态。这次学习对于我今后工作的开展大有裨益，我们将会更深入地探索迪庆文旅产业发展的数字化转型和创新，进一步擦亮“世界的香格里拉”这一品牌。

阿里CIO学院：您认为文旅行业在数字化转型过程中的切入点是什么？在数字化转型的过程中可能会面临哪些挑战？

郑荣：我认为文旅行业数字化转型的切入点主要在三个方面。

一是政府管理，通过数字技术赋能行政部门的公共服务和行业监督，通过智能化管理来构建新服务和新监管的格局。

二是文旅企业，通过数字技术变革传统文旅商业模式和业态，让传统的文化和旅游资源“活起来”。

让传统文旅资源活起来，关键是在于融合，包括文化和旅游的融合、资源和数字化技术的融合，从而打造文旅行业新业态。以迪庆州来说，全州现有县级以上非遗项目200余项，但是更多的是“藏在深闺无人识”。随着旅游业的发展，我们提出了开发“非遗之旅”的策略，让游客在欣赏自然风光之外，可以选择体验尼西黑陶制作、唐卡绘画、藏香制作等延续千年的藏族传统文化。同时，以具有民族代表性的非遗项目为载体，创意设计研发文创旅游产品，也是文化和旅游融合最佳途径之一。

而借助最前沿的数字化技术，以文化和旅游资源打造线上虚拟景区、线上虚拟博物馆，将使得文旅资源没有障碍地触达更广泛的人群。

三是游客需求。数字化技术正在不断地影响着游客的行为和体验认知，游客的个性化需求越来越明显。随着移动互联网技术发展，我们已经进入了个性化定制时代，旅游业也正从传统大众观光游时代走向个性化消费时代转变。

个性化需求的表现有很多市场细分，比如追求新鲜和新奇、寻求新潮和心跳、偏爱自驾和小团体出游，讲究游玩的主题和深度游，还有追求豪华和野趣等。

应对旅游的个性化需求，首先我们要加强大数据收集、分析和运用，通过大数据分析形成旅游消费者画像，从而形成人群细分，挖掘不同人群的个性化需求，在此基础上进行旅游线路产品的设计和开发。数字化技术的应用可以提供更受游客青睐的交互式、沉浸式的旅行体验。

关于旅游业的数字化转型的挑战，我觉得首要是人才的瓶颈，尤其是在我们云南迪庆州，数字化技术人才是相当稀缺的，这也是制约我们实施数字化转型和创新的最大难题。其次，文旅数字化转型不能狭隘地停留在单一的政府部门或企业行动上，而应该从整个文旅行业发展角度出发，要有整体性的数字化转型规划和推进策略。

举例而言，在数字化转型过程中，迪庆州文旅局不断强化在旅游管理和服务上的数字化运用，同时不断地引导文旅企业搭上数字化转型的列车，推动主要景区加强数字信息化技术的应用。

从目前我们的经验来说，就是要避免政府一手包办，文旅部门更多扮演的是牵头引导的角色，更主要的是发挥文旅企业的积极能动性，让他们在项目运作中感受到切实的利益和收获，不断提升文旅企业对数字化转型的认知。比如：2019年迪庆州文旅局与抖音合作开展的“世界的香格里拉”抖音全国互动挑战赛，由文旅局牵头落实，旅游企业和主要景区共同承担费用，同时也是活动的主角取得了不错的成效。

文旅产业数字化转型营销要先行

阿里CIO学院：您认为在数字化转型的路上，文旅行业产品与业务创新应该如何变化？数据智能将会对文旅行业的行业格局带来怎样的变化？

郑荣：文旅产品和业务创新表现在以下几个方面：

首先是要加强数字化技术的应用。从VR、AR到人工智能、大数据、云计算、物联网、5G等，文旅企业应该通过这些技术手段的应用，不断推动传统文化和旅游资源深度融合，进行文旅产品的革新，推出更具有交互性和沉浸式的文旅新产品。

其次，数字化转型目前对于迪庆文旅企业的改变主要体现在营销宣传和景区服务上。目前越来越多的景区已经装载了智慧讲解、智慧门禁、智慧停车场等服务设施，使得景区的服务水平和游客体验有了一定的提升。其次，文旅企业通过互联网新媒体开展品牌、产品营销宣传的意识不断增强，可以让游客消费者多渠道多维度的了解认识迪庆的多民族传统文化和壮丽的自然景观。对于旅游景区而言，应该通过数字化技术的运用，打造“智慧景区”，提升景区的整体服务水平，给广大游客创造更好的旅行体验。

再次，文旅产品的营销上，要注重挖掘游客的新体验和新需求，并借用数字技术手段进行人群细分、目标精准的营销推广。近年来，迪庆不断推进非物质文化遗产的数字化记录工作，利用图文、音视频等手段进行非遗资源采集，构建非遗数据库。

数字化采集记录将非遗项目立体留存下来，可以让更多人熟悉、了解、喜欢迪庆的民族文化瑰宝，通过互联网等传播途径，也让非遗文化传播到更广阔的时空。

数字化转型和数字化营销取得明显提升

阿里CIO学院：在数字化转型这条道路上，有什么成功或失败的经验能和我们分享的吗？

郑荣：近年来，迪庆州文旅局一直在探索文旅行业的数字化转型，逐步积累了一些经验。自2018年开始，迪庆州全面推进智慧景区建设，包括智慧门禁系统、智慧停车场、智慧厕所、电子导游等，景区的数字化水平得到明显提升。

数字化营销宣传也是迪庆州文旅局近年重点发力的方向，迪庆文旅与人民网、新华网、中国网、携程、抖音、微信、微博、新浪、网易以及海外的Google（谷歌）、Facebook（脸书）、YouTube（优兔）等众多平台开展合作，以互联网新媒体营销将香格里拉打造成为全国“网红旅游目的地”。在目前的互联网新媒体合作中，最成功的案例当属2019年与抖音合作开展的“世界的香格里拉”抖音全国互动挑战赛，本次挑战赛在云南省首开先河，以迪庆州文旅局牵头，联合迪庆州内主要景区共同参与。

本次挑战赛期间有30余人次的知名网红来到迪庆，为迪庆文旅拍摄创意短视频。挑战赛覆盖网民超过5000万+人次，优质短视频参与数量超过50000+，挑战赛话题播放量达7亿次，视频点赞超过1000万+。

虽然取得了一些成绩，但对于迪庆文旅行业长远发展来讲，无论是政府职能部门还是行业企业，实施数字化转型和创新依然任重道远。

迪庆藏族自治州文化和旅游局介绍

2019年3月11日，新组建的迪庆藏族自治州文化和旅游局正式挂牌，香格里拉市、德钦县、维西县等县市级文化和旅游局相继挂牌，标志着迪庆州文化和旅游迈出了深度融合的步伐。

十三五”期间，州委、州政府高度重视文化和旅游融合发展，主要领导亲自部署，分管领导全力以赴，狠抓落实，在全州上下形成了重视文化和旅游融合、大抓文化和旅游发展的良好氛围。

通过不断优化文化旅游营造软环境，吸引了一批优秀的民营企业在迪庆的长期旅游投资建设，如巴拉格宗、松赞精品山居、独克宗花巷等一批重量级旅游项目均是由民间企业投资并成功运营。

近年来，迪庆州把 “世界的香格里拉”品牌宣传和旅游产品营销有机结合，创新方式，积极参加国际国内旅游宣传促销，组织开展昆明、上海、北京、成都等主要客源市场的旅游宣传营销活动，大力宣传推广迪庆冬季旅游产品和线路，冬季节庆活动和非遗产品，开通“世界的香格里拉”文化和旅游官方抖音号。

迪庆州邀请中央权威媒体以及旅游卫视、旅游报、文化报、经济网、中国日报、新华网、人民网等家媒体到迪庆开展以“旅游扶贫”为主题采风活动。通过线上线下、传统媒体与新媒体相结合，形成综合旅游品牌影响力、旅游产品吸引力、旅游价格竞争力的立体宣传营销体系，扩大了迪庆州在国内外的影响力，促进了客源市场的稳步增长。

据了解，随着旅游产业的不断发展，旅游产业链不断扩大，截至目前我州旅游从业人员达12.6万人，占全州总人口的30.7%，其中旅游直接从业人员达2.6万人，间接从业人员达10万人，切实解决了就业难问题。二是景区反哺带动旅游扶贫。到2018年，全州景区直接及间接带动村民共涉及5600余户，28000多人，每年总收入7000多万，平均每户年增收12600多元，人均达2520元左右。

文章来源：阿里飞天CIO学堂微信公众号

名人堂

中华保险荣获IDC大奖，阿里云、蚂蚁金融科技成“助推器”-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

8月28日，知名调研机构IDC中国举办线上的“2020 IDC中国未来金融论坛暨颁奖典礼”，中华保险“理赔服务资源管理系统”凭借创新的金融业务场景和技术应用，荣获中国金融行业技术应用场景创新奖。本次获奖意味着中华保险的数字化创新能力受到权威机构的认可与肯定。

作为全球知名的IT市场研究机构，IDC一直密切关注着中国金融行业的发展与变革。今年是IDC主办的第六届中国未来金融论坛暨颁奖典礼，基于金融云、普惠金融、智慧网点等金融行业技术应用场景，共有近150个优秀项目参与评选。此次获奖的“理赔服务资源管理系统”借助金融云分布式架构和AI等技术，以数据为驱动，分析渠道和客户，灵活调配资源，集中资源响应优质客户的谈判，进而改善车商渠道业务的经营状况。

IDC评价，该项目通过重塑送修服务流程与管理模式，在提高理赔客服工作效率的同时，实际的送修成功率有效提升，进而促进车商渠道业务的增长，实现车商业务的精细化管理和高质量发展。同时，迎合线上化理赔发展趋势，解决客户等待时间过长、服务不连贯、体验不佳等问题，推动传统经营模型向数字化智能化转型。

中华保险始创于1986年7月15日，2002年，经国务院批复同意，冠名“中华”，成为全国唯一一家以“中华”冠名的国有控股保险公司，市场规模位居国内财险市场第五，农险业务规模稳居全国第二。当前，中华保险正在加速数字化转型进程，希望通过建设新一代核心业务系统，推进保险业务朝着线上化、数字化、智能化方向发展。

据了解，中华保险新一代核心业务系统采用阿里云全套专有云平台、数据中台、业务中台与金融科技产品，并创新性地引入金融云公共平台。整个方案包含“飞天”云计算操作系统、蚂蚁金融分布式架构 SOFAStack、分布式数据库OceanBase、金融数据智能平台、金融核心套件bPaaS、保险专家服务、mPaaS移动开发平台、金融钉钉等一系列产品技术与服务，助力中华保险加速“数字中华”建设。

“我们希望未来能变成一家真正以客户为中心，科技和创新驱动的保险公司”，中华财险相关负责人表示，对保险行业来讲，这次与阿里云合作可能是业内第一次有保险公司完完整整地去重构业务模式、业务理念以及IT配套。

目前，包括蚂蚁移动开发平台mPaaS、金融级分布式架构SOFAStack、企业级分布式关系数据库OceanBase等在内的产品和解决方案正通过阿里云新金融统一对外输出，服务各种类型的金融机构。未来，还会有越来越多的蚂蚁技术产品通过阿里云新金融对外输出，全力助推金融客户完成金融数字化转型。

蚂蚁SOFAStack白皮书已于近期发布，点击此处即可获取。

开源直播系统源码，为什么一定要使用PHP语言开发-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

进行开源直播系统源码的开发工作时，开发者们遇到的最多问题就是使用什么语言开发的，回答大多是PHP语言。对于没有开发经验的人来说，很难理解PHP语言到底代表着什么，又有哪些作用。

其实，PHP是一种开源脚本语言。语法吸收了C语言、java和Perl的特点，利于学习，使用广泛，主要适用于Web开发领域。
PHP由内核Zend引擎和扩展层组成，PHP内核负责处理请求、完成文件流错误处理等操作，Zend引擎可以将PHP程序文件转换成刻在虚拟机上运行的机器语言，扩展层提供一些应用层操作需要的函数类库等，比如数组和MySQL数据库的操作等。
开源直播系统源码Zend引擎是用C语言实现的，将PHP代码通过词法语法解析成可执行的opcode并实现相应的处理方法和基本的数据结构进行内存分配和管理等，对外提供相应的可供调用的API方法。Zend引擎是PHP的核心，所有的外围功能都是围绕它实现的。扩展层通过组件的方式提供各种基础服务、内置函数，标准库都是通过它实现的。用户也可以编写自己开源直播系统源码的扩展来实现特定的需求。服务端应用编程接口，通过一系列钩子函数使得PHP可以和外围交互数据。我们平时开源直播系统源码编写的PHP程序就是通过不同的SAPI方式得到不同的应用模式，如通过web实现的web应用和命令下运行的脚本等。

作为开源直播系统的开发语言，PHP语言的优势在于：
1.PHP的开发成本低，入门学习快，语法也相对简单，并且提供丰富的类库
2.PHP与Linux、Nginx、Apache、MySQL可以方便快捷的搭建出一套系统，支持直接调用系统命令，用代码完成许多操作Linux的工作

3.PHP支持使用多种数据库，其中与MySQL的结合是最为流行的，PHP提供三种链接MySQL的扩展。PDO扩展是PHP退出的连接MySQL和其他类型的数据库的一种统一解决方案。可移植性很高，使用它可以灵活方便的切换不同类型的数据库，而且不需要变动更多的代码
4.PHP是解释执行的脚本语言，写完程序后，可以立即执行，所以它的开发效率很高
声明：以上内容为云豹科技作者本人原创，未经作者本人同意，禁止转载，否则将追究相关法律责任

想提升专业技能？阿里云9月ECS和AI千人训练营为你助力！！-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

阿里云高校计划首次 ECS千人训练营即将来袭，9月高校计划ECS和AI训练营等你来参加！获取云计算和AI项目经验和提升技术技能！UP! UP!

阿里云高校计划团队精心设计的ECS课程，从0开始学习云计算，7天3个项目带你快速积累云计算项目经验；AI训练营五天三个云上AI项目，手把手带你入门视觉AI。

ECS高校训练营：入门班和进阶班
每班只招500人，入门+进阶共招1000人
AI训练营仅招100人

ECS训练营参与进阶班的同学完成打卡+任务+作业就发ACA资格！阿里奖品多多！同时，这次的AI训练营仅招100人，高校的同学们一定不要错过这次机会！

记好这些时间呦
ECS训练营
报名参营
• 报名开始时间：9月17日 10:00（可能提前开始）
• 报名结束时间：9月20日 24:00
上课打卡
• 打卡开始时间：9月23日
• 打卡结束时间：9月28日

AI训练营
报名参营
报名开始时间：9月17日 10:00
报名结束时间：9月20日 24:00
上课打卡
打卡开始时间：9月24日
打卡结束时间：9月28日

敲重点！
ECS训练营是什么？

ECS 7天实践训练营由阿里云高校计划发起，旨在帮助对云计算感兴趣的同学更好地开展云上实践、积累项目经验，为云计算人才成长助力。训练营由阿里云大学资深讲师和技术大咖联手策划，陪你动手上云实践。

ECS训练营有什么？

ECS训练营有阿里云高校计划精心准备的课程，建网站做项目，能让你快速积累项目经验，完成作业和打卡就可以获得699元阿里云ACA官方认证考试资格。7天，每天30分钟，云计算技能全方位提升，为你的升学就业加分！

训练营路线怎么选？

根据你的技术学习水平进行选择。入门班/新手路线适合0基础云计算小白，进阶班适合学过“新手路线” or 有一定云计算基础以及想要考ACA的同学，如果你想为你的简历增加闪光点一定要来报名参加ECS训练营。

AI训练营是什么？

视觉AI训练营四位导师带你入门视觉AI，体验AI技术。五天时间完成身份证识别、人脸+表情识别、车辆保险等云上项目，快速入门视觉AI，为求学升职加分。你的AI第一课，阿里云陪你完成！

阿里云高校计划训练营为什么值得来？
团队学习，进步更快

同学们根据自己的技术水平报名了ECS训练营入门班和进阶班和AI训练营报名参营后，将与来自全国高校的同学们一起组团进行7天的ECS训练营和5天的AI训练营学习。同学们会竞选班长和组长，成班成组进行学习，每天要按时交作业——学习笔记，会有严格的学习监督机制，督促你学习成长。

开营结营直播助力学习

为了帮助同学们了解训练营和认识同学们，我们会在9.22日召开ECS训练营开营直播和9.23进行AI训练营开营直播，并在9月28日进行结营直播。直播中我们会邀请往期参营和考过ACA的同学为大家分享经验，解答问题。开营直播更有两轮抽奖送出阿里周边。

精美丰厚奖品等你拿

开营直播两轮抽奖送阿里周边好礼
精选笔记送好礼：好的学习笔记可以帮助你学习和成长，我们会挑选好的学习笔记，大家共同-学习成长，被精选笔记的同学会收到阿里周边奖品。

头条抽奖 3个阿里云棒球帽

微博抽奖：3个阿里云棒球帽

预热直播抽奖 7个阿里云公仔有奖问答送三本《弹性计算》书籍
开营直播抽奖 7个阿里云公仔有奖问答送三本《弹性计算》书籍

阿里云公仔

《弹性计算》

参营：打卡+完成作业送ACA考试资格（进阶班）
优秀笔记获奖者送阿里云笔记本
ECS 入门班送12本阿里云笔记本
ECS 进阶班送12本阿里云笔记本
AI训练营送6本阿里云笔记本

阿里精美笔记本

结营直播：
优秀营员（群里表现积极活跃+每日打卡+按时完成作业）三营共评选20人送阿里棒球帽

优秀组长和班长评选3人送阿里云徽章

想看往期同学参营感想，点这里：
https://mp.weixin.qq.com/s/T399HWt86EgM5UvEAMM_eg

报名及收取最新开营消息见下图

AI训练营
· 打卡开始时间：9月24日
· 打卡结束时间：9月28日

课程路线
· 9月24日：达摩院视觉AI技术应用探索https://developer.aliyun.com/live/2761?spm=a2c6h.14795454.J_4770946980.3.3a065794QAk5ML
· 9月25日：身份证识别系统搭建 https://developer.aliyun.com/live/2762?spm=a2c6h.14795454.J_4770946980.4.3a065794HT7Kl7
· 9月26日：电子相册搭建（人脸、表情识别）https://developer.aliyun.com/live/2763?spm=a2c6h.14795454.J_4770946980.5.3a065794ramEfR
· 9月27日：作业日-车辆保险应用
· 9月28日：创意日-你的图像识别项目

Apache的代码居然也有"bug"?-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

引言

二狗：二胖快醒醒，赶紧看看刚才报警邮件，你上次写的保存用户接口耗时（《二胖的参数校验坎坷之路》）大大上升，赶紧排查下原因。
二胖：好的，马上看，内心戏可十足（心里却在抱怨，大中午的搅我发财美梦，刚刚梦见我买的股票又涨停了就被叫醒了）。牢骚归牢骚，自己的问题还是得看啊，毕竟是自己写的bug，含着泪也要把它修复掉。二胖对分析这种问题还是得心应手的，毕竟已经是久经职场的老油条了。

测试环境复现问题

二胖首先通过内部的监控工具看了下这段时间的网络是否正常，以及cpu的使用情况、数据库的耗时等，这些指标看起来都是正常的，唯一稍微有点区别的是这段时间流量上涨了一些，肯定又是公司花钱搞营销砸广告了。接着二胖又通过cat（大众点评开源监控工具）分析了几个请求，每个阶段的耗时看下来都ok。卧槽这可咋办列居然难倒二胖了，如果生产环境问题可以在测试环境复现就好了，这样解觉问题就简单多了。生产不是流量上涨了一些吗？那测试环境来压测一把吧，二胖果断的下载了一个jmeter（压测工具）在测试环境进行了一把疯狂的压测，果然出现了和生产一样的问题。能够复现问题就好，这样离解决问题就近了一大步。

arthas定位问题

问题是复现了，接下来就是找出接口比较耗时的地方了。一般我们找接口耗时较长的地方，都是通过记录日志打印每一步的耗时。这是比较常见做法，不过二胖记得上次部门技术大拿“二狗”分享过一个神器arthas可以输出方法路径上的每个节点上耗时。苦于一直没有机会拿它来用于实际操作，今天终于可以拿它来好好练手了。安装什么的就不介绍了，这个官网都写的比较详细，并且文档也是中文的，非常容易上手。下面我们就来使用下arthas吧。
启动成功的界面

下面我们根据arthas提供的trace命令来看看接口的耗时都是在哪里。
我们从上面可以看出主要耗时是集中在 org.apache.commons.beanutils.BeanUtils#copyProperties这个方法上面的，不就一个实体之间的属性赋值转换吗，需要这么耗时这么久吗？不科学啊，apache提供的方法还能这么low吗？带着这些问题我们看看其他提供的属性拷贝的工具类效率如何。

使用JMH对常见属性赋值操作性能比较

使用get、set方法复制。
cglib的BeanCopier。
Spring的BeanUtils
apache的BeanUtils
MapStruct
下面我们就来对上面这些操作来进行一波性能比较。

编写下面的测试类。

/**
 * @author:
 * @Date: 2020/7/11
 * @Description:
 */
@BenchmarkMode(Mode.AverageTime)
@Warmup(iterations = 3, time = 1)
@Measurement(iterations = 5, time = 5)
@Threads(6)
@Fork(1)
@State(value = Scope.Benchmark)
@OutputTimeUnit(TimeUnit.NANOSECONDS)
public class BeanCopyTest {
    @Param(value = {"1","10","100"})
    private int count;

    public UserBO bo;

    public  BeanCopier copier;

    @Setup(Level.Trial) // 初始化方法，在全部Benchmark运行之前进行
    public void init() {
        copier = BeanCopier.create(UserBO.class, UserVO.class, false);
        bo = new UserBO();
        bo.setUserName("java金融");
        bo.setAge(1);
        bo.setIdCard("88888888");
        bo.setEmail("java金融@qq.com");
    }


    public static void main(String[] args) throws RunnerException, IllegalAccessException, NoSuchMethodException, InvocationTargetException {
       Options opt = new OptionsBuilder().include(BeanCopyTest.class.getSimpleName()).result("result.json").resultFormat(ResultFormatType.JSON).build();
        new Runner(opt).run();

    }

    /**
     * 使用mapStruct来操作
     */
    @Benchmark
    public void mapStruct() {
        for (int i = 1; i <= count; i++) {
            UserVO vo = UserMapping.INSTANCE.converter(bo);
        }
    }

    /**
     * 手动set和Get
     */
    @Benchmark
    public void setAndGet() {
        for (int i = 1; i <= count; i++) {
            UserVO userVO = new UserVO();
            userVO.setUserName(bo.getUserName());
            userVO.setEmail(bo.getEmail());
            userVO.setSex(bo.getSex());
            userVO.setIdCard(bo.getIdCard());
            userVO.setAge(bo.getAge());
        }
    }

    /**
     * 使用cglib的copy方法
     */
    @Benchmark
    public void cglibBeanCopier() {
        for (int i = 1; i <= count; i++) {
            UserVO vo = new UserVO();
            copier.copy(bo, vo, null);
        }
    }

    /**
     * 使用spring提供的copyProperties方法
     */
    @Benchmark
    public void springBeanUtils() {
        for (int i = 1; i <= count; i++) {
            UserVO vo = new UserVO();
            BeanUtils.copyProperties(bo, vo);
        }
    }

    /**
     * 使用apache的copyProperties方法
     * @throws InvocationTargetException
     * @throws IllegalAccessException
     */
    @Benchmark
    public void apacheBeanUtils() throws InvocationTargetException, IllegalAccessException {
        for (int i = 1; i <= count; i++) {
            UserVO vo = new UserVO();
            org.apache.commons.beanutils.BeanUtils.copyProperties(vo, bo);
        }
    }

最后的测试结果如下所示：

Benchmark                     (count)  Mode  Cnt          Score          Error  Units
BeanCopyTest.apacheBeanUtils        1  avgt    5    2462103.419 ±  2292830.495  ns/op
BeanCopyTest.apacheBeanUtils       10  avgt    5   21025926.689 ± 11254755.603  ns/op
BeanCopyTest.apacheBeanUtils      100  avgt    5  193235312.113 ± 37929707.246  ns/op
BeanCopyTest.cglibBeanCopier        1  avgt    5          4.936 ±        1.187  ns/op
BeanCopyTest.cglibBeanCopier       10  avgt    5          4.820 ±        1.963  ns/op
BeanCopyTest.cglibBeanCopier      100  avgt    5          4.269 ±        0.890  ns/op
BeanCopyTest.mapStruct              1  avgt    5          4.809 ±        1.720  ns/op
BeanCopyTest.mapStruct             10  avgt    5          4.947 ±        1.320  ns/op
BeanCopyTest.mapStruct            100  avgt    5          4.440 ±        1.191  ns/op
BeanCopyTest.setAndGet              1  avgt    5          3.780 ±        1.785  ns/op
BeanCopyTest.setAndGet             10  avgt    5          3.930 ±        1.788  ns/op
BeanCopyTest.setAndGet            100  avgt    5          4.069 ±        2.181  ns/op
BeanCopyTest.springBeanUtils        1  avgt    5       1190.563 ±      165.574  ns/op
BeanCopyTest.springBeanUtils       10  avgt    5      10887.244 ±     1228.026  ns/op
BeanCopyTest.springBeanUtils      100  avgt    5     109686.562 ±     7485.261  ns/op

从上述结论中我们可以发现性能最好的是排名用get、set方法复制,其次是mapStruct和cglib的BeanCopier，再接着是Spring的beanUtils，最后的是apache的BeanUtils。
如果对上述测试性能感兴趣的话，代码都已上传到github上可自行下载运行对比下结果。代码地址
关于对JMH的使用就不介绍了，感兴趣的可自行谷歌。不过如果要进行性能比较的话，真心推荐使用下，结果可以通过导出json文件然后生成图表。

为什么apacheBeanUtils性能最差

apacheBeanUtils和spring的beanUtils都是底层都是使用反射来进行赋值的，为什么apacheBeanUtils的性能要差一大截列。源码之下无秘密，下面我们来看看这个方法的源码。

Apache BeanUtils 打印了大量的日志、以及各种转换、类型的判断等等导致性能变差。

而spring的beanUtil直接使用反射省，干净利索，核心代码见下图。
其实在《阿里巴巴开发手册》（可在公众号【java金融】回复“泰山”获取）里面也有说明属性的copy避免使用apcheBeanUtils
如果生产环境已经大量使用Apache BeanUtils的话需要替换spring BeanUtils的话需要注意下他们两个虽然提供的方法都是copyProperties但是他们的参数是反的，这点需要注意下，不要直接换个引入的包名完事。

总结

实际使用中的话一般是不会使用get和set方法复制，容易漏掉属性并且也是一个体力活。推荐使用mapStruct，在编译过程中，MapStruct将生成该接口的实现，并且它还可以实现不同名字的映射，比如可以把name映射到username，灵活性比较高。
二胖感觉今天收获满满啊，一下学到了jmeter、arthas、JMH三个软件的使用。

结束

由于自己才疏学浅，难免会有纰漏，假如你发现了错误的地方，还望留言给我指出来,我会对其加以修正。
如果你觉得文章还不错，你的转发、分享、赞赏、点赞、留言就是对我最大的鼓励。
感谢您的阅读,十分欢迎并感谢您的关注。

开源 Flink + 实时计算 Flink 版训练营学习资料汇总-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

Apache Flink：全球领先的开源大数据计算引擎

Apache Flink 是一个开源的分布式大数据处理引擎, 可对有限数据流和无限数据流进行有状态计算。作为 Apache 软件基金会 (ASF) 顶级项目之一，Flink 在流处理方面具有绝对的优势，提供高吞吐、低延时的计算能力， Exactly-once 语义保证数据的准确性，亚秒级别的处理延迟确保业务的快速响应。

作为快速发展的新一代大数据引擎，Flink 本身的架构优势也吸引着越来越多的开源爱好者投入到社区的建设来。截止到 2020 年 7 月，社区的 star 数达到 13600+ ，contributor 数达到 718，有 22989 次 commits。伴随着社区的快速发展，Flink 也成为类似阿里巴巴、腾讯、字节跳动、滴滴、美团点评等知名公司建设流处理平台的首选。

【推荐阅读】

【企业案例】

• OPPO 实时数仓揭秘：从顶层设计实现离线与实时的平滑迁移：
单日总数据处理量超 10 万亿，峰值超每秒 3 亿
• bilibili 实时平台的架构与实践：
基于 Flink 的 bilibili Saber 实时计算平台
• 美团点评基于 Flink 的实时数仓平台实践：
深度解析美团点评实时数仓案例

【电子书】

• 《零基础入门：从 0 到 1 学会 Apache Flink》：
30 天成长为 Flink 大神
• 《Apache Flink 年度最佳实践》：
国内外一线大厂超大规模最佳实践案例合集

阿里云实时计算 Flink 版

实时计算 Flink版(Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica))是阿里云提供的基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由Apache Flink创始团队官方出品。在 PB 级别的数据集上可以支持亚秒级别的处理延时，赋能用户标准实时数据处理流程和行业解决方案;在支持 Datastream API 作业开发的同时，提供了完整的SQL语义，使得 BI 场景下的开发变得更加简单;丰富的上下游 connector 保证了与用户已使用的大数据组件无缝对接;智能作业调优和诊断功能进一步简化了用户的开发和使用。

实时计算 Flink版在 Apache Flink 核心功能的基础上还增强了企业用户所关注的集群稳定、性能优化、安全控制、系统监控和作业管理等。阿里云实时计算团队目前是全球最大、拥有 Committer 数量最多、专业性最强的 Flink 团队，为实时计算用户提供企业级的管理和咨询服务。2019 年 6 月，由数据中心联盟发起的大数据产品能力评测结果权威发布，阿里云实时计算 Flink版通过最新制定的分布式流处理平台基础能力评测，成为国内首批通过流计算产品能力评测的产品，并被数据中心联盟圈定为国内大数据流计算基础平台第一梯队。2020 年在国际知名咨询调研公司Forrester 的测评中，实时计算 Flink版成为中国唯一进入Forrester象限的实时流计算产品。

【独享月度特惠】开通实时计算产品：

master型号4核16GB+master数量1+slave型号4核16GB+slave数量2，计费周期1个月，详情：

https://common-buy.aliyun.com/?spm=a2c0j.14094430.1053885.bnt1.307976feKRl1Au&commodityCode=blinkonecs#/buy
Tips：开通成功算打卡成功

解决方案

[实时计算 Flink:基于 Apache Flink 构建的大数据计算平台（附白皮书）
](https://developer.aliyun.com/article/770133?groupCode=sc)

Tips：完成PDF阅读，算打卡成功）

最佳实践

实时计算 Flink 版最佳实践

Tips：完成文章阅读，算打卡成功

进击的Kubernetes调度系统（三）：支持批任务的Binpack Scheduling

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

作者：王庆璨张凯

进击的Kubernetes调度系统（一）：Scheduling Framework
进击的Kubernetes调度系统（二）：支持批任务的Coscheduling/Gang scheduling
进击的Kubernetes调度系统（三）：支持批任务的Binpack Scheduling

前言

本系列的前两篇《进击的Kubernetes调度系统（一）：Scheduling Framework》和进击的 Kubernetes 调度系统（二）：支持批任务的 Coscheduling/Gang scheduling 分别介绍了Kubernetes Scheduling Framework和如何通过扩展Scheduling Framework实现Coscheduling/Gang scheduling调度策略。当我们的批任务作业在集群里边运行起来之后，随后要关注的就是资源的利用率。特别是对于GPU卡的价格昂贵，不希望有资源的浪费。本文将介绍在批任务的调度过程中如何通过Binpack的方式，减少资源碎片，提升GPU的利用率。

为什么需要Binpack功能？

Kubernetes默认开启的资源调度策略是LeastRequestedPriority，消耗的资源最少的节点会优先被调度，使得整体集群的资源使用在所有节点之间分配地相对均匀。但是这种调度策略往往也会在单个节点上产生较多资源碎片。

下面拿一个简单的例子来说明这种问题。如下图所示，资源在节点之间平均使用，所以每个节点使用3个GPU卡，则两个节点各剩余1GPU的资源。这是有申请2GPU的新作业，提交到调度器，则因为无法提供足够的资源，导致调度失败。

解读Knative 0.17.0版本特性

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

前言

Knative 0.17.0 版本已于近期发布，对于 Knative v0.17.0 版本新特性，我们进行解读，让大家对 Knative 新版本快速了解。
Knative 0.17.0 支持 k8s 最小支持版本为：1.16。

Serving

Autoscaling-自动扩缩容

1）支持Revision初始POD数设置
在0.17.0之前的版本中，创建新的Revision（即使新Revision流量比例为0）默认会先创建出 1 个POD实例，新的POD创建完成之后，如果没有流量，缩容为 0。其实大多数场景下，新的Revision创建完成之后不需要立刻创建出POD。从0.17.0开始引入 inital scale 参数，可以指定新的 Revision 为 0。

inital scale 参数可以通过注释设置：

autoscaling.internal.knative.dev/initialScale

核心 API

组件HA高可用支持

从0.17.0版本开始，默认开启组件HA，可以通过配置参数‘--disable-ha’ 关闭HA。

Knative Service 特性支持

1) 对 affinity, nodeSelector, tolerations 和 securitycontext 进行了支持。对于该特性的支持比较意外，因为该特性很早就被提出过，但开始的社区的反馈是 serverless（no server）场景下不应该关心节点的调度。目前来看结合实际的使用需求场景，最终社区做出了妥协。
2) 新增全局最大扩容Pod配置参数max-value，当没有设置autoscaling.knative.dev/maxScale值时，使用该全局配置作为最大扩容Pod。
3) 优化 Revision 版本回收机制。新增Revision版本最大数maximum限制，同时支持禁用基于时间的Revision回收策略。

Networking-网络

KIngress

1）最大超时设置。对于gRPC stream处理超时的问题，默认超时时间调整为了48小时。
2）支持域名重写（RewriteHost）。通过该特性可以实现自定义域名。以Istio实现为例，自定义域名‘vanity.com’通过‘rewrite’实现重定向。

apiVersion: networking.istio.io/v1alpha3
kind: VirtualService
metadata:
  name: vanity-ingress
spec:
  gateways:
  - knative-serving/knative-ingress-gateway
  hosts:
  - vanity.com
  http:
  - match:
    - authority:
        prefix: vanity.com
      gateways:
      - knative-serving/knative-ingress-gateway
    rewrite:
      authority: helloworld-go.default.example.com
    route:
    - destination:
        host: cluster-local-gateway.istio-system.svc.cluster.local
        port:
          number: 80

Eventing

PingSource优化

0.17.0版本 PingSource 支持时区(time zone)设置

事件处理优化

在 In Memory Channel 和 Multi-Tenant Channel 中发送事件失败时，支持重试机制。

总结

Knative 0.17.0 版本中引入了版本初始化实例数设置以及对节点调度参数的支持（nodeSelector etc.), 表明Knative社区会更多的关注实际应用场景，相信后续有更多实用特性会提供出来。欢迎有兴趣的同学一起交流。

欢迎加入 Knative 交流群

【漏洞预警】jackson-databind 反序列化远程代码执行漏洞（CVE-2020-24616等）

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

2020年8月27日，阿里云应急响应中心监测到jackson-databind官方发布安全通告披露jackson-databind < 2.9.10.6存在反序列化远程代码执行漏洞（CVE-2020-24616等）。利用漏洞可导致远程执行服务器命令，官方git已发布公告说明，请使用到jackson-databind jar组件的用户尽快升级至安全版本。

漏洞描述

jackson-databind是一套开源java高性能JSON处理器，受影响版本的jackson-databind中由于缺少黑名单类，如br.com.anteros:Anteros-DBCP，可导致攻击者实现远程代码执行，其相关CVE号为CVE-2020-24616，漏洞需要相关jar组件才能成功利用，影响面适中。此次版本升级官方还修复了多处利用链，包含org.arrahtec:profiler-core、com.nqadmin.rowset:jdbcrowsetimpl、com.pastdev.httpcomponents:configuration等。阿里云应急响应中心提醒jackson-databind用户尽快采取安全措施阻止漏洞攻击。

风险评级

CVE-2020-8840 中危

影响版本

jackson-databind < 2.9.10.6

安全版本

jackson-databind >= 2.9.10.6

安全建议

以下任意一种方法均可实现漏洞修复

1、针对使用到jackson-databind组件的web服务升级jackson-databind组件至安全版本：https://repo1.maven.org/maven2/com/fasterxml/jackson/core/jackson-databind/2.9.10.6/

https://github.com/FasterXML/jackson-databind/releases

2、针对无法升级jackson-databind的，排查并将相关jar组件从应用依赖中移除可阻止漏洞攻击（可能会导致应用不可用风险）

我们会关注后续进展，请随时关注官方公告。

如有任何问题，可随时通过工单或服务电话95187联系反馈。

阿里云应急响应中心

2020.08.27

【升级】8月20日Neustar注册局维护通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【域名】【Neustar注册局维护通知】

维护时间：北京时间 2020年8月20日 16:00 - 8月21日 01:00

维护内容：接到注册局的通知，注册局将于上述时间对后台系统进行维护升级。

维护影响：届时 .biz 域名的注册、信息修改和查询域名注册信息等操作，将会无法使用，在此期间会对您造成的影响如下：

1、您提交的注册（购买）、转入、一口价域名业务在支付费用后状态为“处理中”，待维护结束后将变为正常的“成功”状态；

2、维护过程中您无法对域名注册信息进行修改，将提示修改失败。

如果您需要注册或管理以上业务操作，建议您避开该时间段，以免给您的业务造成影响。

由此给您带来的不便，我们表示歉意，敬请谅解。

【升级】8月26日DDoS高防（国际）升级通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【DDoS高防（国际）】【升级通知】

升级窗口：北京时间2020年8月26日 10:00 - 22:00

升级内容：清洗网络增加英国节点
升级影响：升级后国际高防线路将新增回源网段，具体网段信息如下所示。如果您当前正在使用国际高防线路并且在服务器侧有相关针对源IP的访问控制策略，请及时更新白名单放行下述回源网段，避免误拦截造成业务影响。

国际高防线路新增回源网段信息如下：

170.33.88.0/24

170.33.92.0/24

170.33.93.0/24

170.33.90.0/24

8.208.75.0/26

给您带来的不便敬请谅解，有任何问题，可点击联系我们进行咨询反馈。

【漏洞预警】通达OA 多个高危漏洞

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

2020年8月20日，阿里云应急响应中心监测到通达OA官方发布安全更新，其中修复了多个高危漏洞。

漏洞描述

通达OA（Office Anywhere网络智能办公系统）是由北京通达信科科技有限公司自主研发的协同办公自动化软件。近日通达OA官方发布安全更新，其中修复了多个高危漏洞。攻击者通过文件删除漏洞，以及配合早期版本的后台文件上传漏洞，可以获取服务器系统权限。阿里云应急响应中心提醒通达OA用户尽快采取安全措施阻止漏洞攻击。

影响版本

文件删除漏洞：通达OA V11.6

任意文件上传：通达OA < V11.7

结合任意用户登录利用链：通达OA < V11.5

安全建议

通达OA官方已经发布相应安全加固程序，请根据当前OA版本选择所对应的程序文件，运行前请先做好备份。

安全更新下载地址：https://www.tongda2000.com/download/sp2019.php

相关链接

https://www.tongda2000.com/

我们会关注后续进展，请随时关注官方公告。

如有任何问题，可随时通过工单或服务电话95187联系反馈。

阿里云应急响应中心

2020.8.20

【漏洞预警】宝塔面板数据库管理未授权访问漏洞

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

2020年8月23日，阿里云应急响应中心监测到宝塔官方发布安全更新，修复了一处未授权访问漏洞。

漏洞描述

宝塔面板是一款使用方便、功能强大且终身免费的服务器管理软件,支持Linux与Windows系统。近日宝塔面板官方发布安全更新，修复了一处高危漏洞。攻击者通过访问特定路径，可以直接访问到phpmyadmin数据库管理界面，并可借此获取服务器系统权限。阿里云应急响应中心提醒宝塔面板用户尽快采取安全措施阻止漏洞攻击。

影响版本

Linux版本 7.4.2版本

Linux测试版本 7.5.14版本

Windows版 6.8版本

安全建议

宝塔面板官方已经发布相应安全加固程序，请根据当前版本选择所对应的程序文件，运行前请先做好备份。

安全更新下载地址：https://www.bt.cn/bbs/thread-54644-1-1.html

阿里云云安全中心应急漏洞模块已支持对该漏洞一键检测

我们会关注后续进展，请随时关注官方公告。

如有任何问题，可随时通过工单联系反馈。

阿里云应急响应中心

2020.8.23

【漏洞预警】Qemu 虚拟机逃逸漏洞（CVE-2020-14364）

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

ISC2020第八届互联网安全大会上，QEMU-KVM虚拟机的0day漏洞（虚拟机逃逸）被公开。该漏洞可越界读写某一个堆之后0xffffffff（4 GB内存）的内容，可实现完整的虚拟机逃逸。阿里云已于2019年12月完成该漏洞的修复，云上主机已不受该漏洞影响。

2020年8月24日，qemu 官方更新了安全补丁修复该漏洞，漏洞编号：CVE-2020-14364，https://xenbits.xen.org/xsa/advisory-335.html

漏洞详情

2019年11月17日天府杯国际网络安全大赛，第一次暴露出QEMU-KVM虚拟机的0day安全漏洞。2020年08月13日，ISC2020第八届互联网安全大会上，该漏洞被公开。该漏洞可越界读写某一个堆之后0xffffffff（4 GB内存）的内容，可实现完整的虚拟机逃逸，最终在宿主机中执行任意代码，造成较为严重的信息泄露。经阿里云工程师分析后判定，该漏洞是 Qemu 历史上最严重的虚拟机逃逸漏洞，影响到绝大部分使用 OpenStack 的云厂商。

解决方法

阿里云已于2019年12月完成该漏洞的修复，云上主机无需做修复操作。

如果您有相关需求或反馈，请提交工单联系阿里云。

Agile Development敏捷开发——培养敏捷精神-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

Manifesto敏捷开发宣言

Offical 官方:

Manifesto for Agile Software Development

We are uncovering better ways of developing
software by doing it and helping others do it.
Through this work we have come to value:

Individuals and interactions over processes and tools

Working software over comprehensive documentation

Customer collaboration over contract negotiation

Responding to change over following a plan

That is, while there is value in the items on
the right, we value the items on the left more.

Translation 翻译：

敏捷开发宣言

我们正在探索更好的发展方式通过做它和帮助别人做它。
通过这项工作，我们认识到：

个人和交互胜过过程和工具

工作软件优于综合文档

客户合作胜过合同谈判

响应变化而不是遵循计划

虽然右边有价值，但是左项具有更大的价值。

Wrong Name Comprehend 错误的命名理解

agile 翻译出自牛津英汉汉英词典

① (lithe) 敏捷的 ‹person, animal, movement›; (fit) 灵活的

② attributive(mentally acute) 机敏的 ‹mind, intellect›*

敏捷，拼音是mǐn jié，解释出自百度百科

意思指反应（多指动作或言行）迅速快捷。如：敏捷地跳上敞篷车，敏捷地翻身上马，敏捷地躲过攻击。出自《汉书·酷吏传·严延年》：“延年为人短小精悍，敏捷於事。”

通过上述两个翻译的对比我们不难看出关于敏捷一词，中英的理解其实是完全不同的，在汉语中敏捷一词表达的更重要的意为迅速

然而在英语的语境中，当aglie形容人时，意也指，然而当aglie用来形容思维时，更注重的是机敏灵活。

所以这里更加取决于无论boss也好，leader也好，亦或是程序员也好，大家的共识里面认为软件开发究竟是一个体力活，还是一个头脑风暴，思维实现的过程。在进入公司的第一天，leader便告诉了我一个团队信条，“听懂做到讲明白”，"Jump to white board from keyboard"，只有从根本上认可自己做的工作是思维工作而非重复劳动，才能深刻的理解到"敏捷"一词的意思。

可是如果我们将《敏捷开发》翻译为《机敏开发》/《灵活开发》，可能敏捷开发对于当今的业界影响力，应该会大打折扣。毕竟敏捷开发这4个字就会得到boss或者leader的认可，因为快速高效正是中小型公司或是大型公司需要贯穿整个企业的工作方式。

回归到敏捷开发真正的含义：一种一人为本，团队合作，快速响应变化和可工作的软件作为宗旨的开发方法。

敏捷开发的高效并不在于一味的快速，敏捷开发推崇的是一个正向的循环，通过产品的不断迭代，每一次的code review （代码评审），product review（生产发布评审），Requirements review（需求评审），Standing meeting Daily（每日站会）来实现快速高效，协作同步。团队经历了不断的磨合，自然而然的最后可以回归到boss和leader的需求：快速高效。

所以敏捷开发对于一个研发团队而言，可以拉平大家的信息理解，让大家可以随时确认大家的设计思想是一致的，而不是在中间的理解中出现了理解偏差，使得最后的整个产品根本不满足于市场。相信各位经历过程序返工的同僚，都可以想象真正的低效缓慢正是做的事不被boss/leader认可，不被市场认可，疲于返工，从而团队共识分崩离析，进入一个无限的恶性循环。

Waterfall Development VS Agile Development

在网络上提到瀑布式开发，总会给人一种二极管的感觉，更有一种踩一捧一的感觉，通过踩瀑布式开发来捧敏捷开发。这对于瀑布式开发个人认为是完全不公平的，难道瀑布式开发就真的被敏捷开发给完爆了吗？其实不然

Waterfall Development 瀑布式开发

(图片出自百度图片)

Requirements/analysis（需求分析/调研）

Design（设计）

Coding（编码）

Testing（测试）

Maintenance（项目运维）

Agile Development 敏捷开发

图片出自敏捷开发入门教程-阮一峰

项目启动（Initial planing）

需求分析（requirements analysis）

设计（design）

编码（coding）

测试（testing）

部署和评估（deployment / evaluation）

contrast对比

	瀑布开发	敏捷开发
工作模式	以文为本： 1. 文档将贯穿整个项目生命周期，从（需求分析，软件设计，编码设计，测试用例，运维部署）每个阶段都将输出相应的文档 2. 每一个阶段的文档输出后都将作为下一个阶段的输入 3. 以文档为基准，交流的作用不一定有文档可靠 4. 产品上线后即可满足用户90%的需求，之后只需要投入少量的运维成本	以人文本 1. 强调了团队的合作，需要团队的共同协作与配合，实时拉平大家的理解，当然并不是说文档不重要，而是团队协作以人为本更加重要 2. 迭代是产品的核心思维，产品的第一次上线可能结果并不乐观，但是需要根据市场的反馈来进行迭代，与各个团队的员工拉平市场的需求，进行产品的迭代 3. 不断的迭代迭代，最终将产品进入一个正向循环的模式
项目周期	第一次发布通常会花上半年及以上的时间，产品上线后投入少量人手运维即可	通常第一次发布会在两个月内，之后不断的迭代，实现符合市场的产品
优点	1. 目标明确，各个阶段大家只需要完成自己的工作，最后输出相应的文档即可 2. 产品上线后，即可撤出大量人手投入新的项目开发中，只需要少量人员运维即可 3. 在团队中调配相应资源时非常的明确，因为各个阶段的目标是明确的	1. 在经过了不断的迭代之后，输出的产品一定是符合市场需求的 2. 灵活性高，如果出现了巨大的市场变革，亦或是紧急的需求，只需要加入新一轮迭代即可 3. 以人为本，调动整个项目各方（包括市场）的参与，理想形态下，开发模式将不再是分配制，而是各个成员主动承担工作
缺点	1.风险高，各个阶段如果有一个地方出错，那么将作为输入传入下一阶段，最终做出的产品或许完全无法满足市场的需求，需要回炉重做 2.如果出现市场变革基本等于项目死亡，紧急的需求的插入也将影响整个软件的开发，甚至可能需要从头设计 3.会出现人员空滞的情况，因为各个阶段都需要等待上一阶段的输出结果后才会展开工作	以人为本，就是敏捷开发最大的风险。你是否可以相信团队中的每一个人，大家是否拥有着敏捷开发的五个价值观（出自敏捷开发Scrum）： - 承诺 – 愿意对目标做出承诺 - 专注– 把你的心思和能力都用到你承诺的工作上去 - 开放– 项目中的一切开放给每个成员看，大家共同分享 - 尊重– 尊重团队中的每个人，就事论事而不是有色眼镜看人 - 勇气– 有勇气做出承诺，履行承诺，接受别人的尊重是否可以对每一个团队成员说出 “你永远可以相信我”
适用项目	需求明确，在开发周期中（一年内）定不会出现巨大市场变革	互联网项目，敏捷开发可以响应互联网快速的发展变更需要急速上线，抢占市场的项目

通过上述的对比我们可以看出，并不是任何产品都适合敏捷开发，敏捷开发并不是一个万灵药，如果在不适当的项目跟中强行使用敏捷开发，反而会让它变成愚笨开发，因为我们会将明确的需求反复沟通，反而降低了研发效率。更重要的是，你团队中的成员是否适合敏捷开发，以人文本即为敏捷开发的核心思想。

培养敏捷精神

敏捷开发的核心是以人为本，关于敏捷开发的流程，具体实现，在网络上已经有很多了，大家随时都可以看到网络上给出的示例，以及请专业的敏捷团队来公司进行培训。本篇文章的主要主题是如何培养敏捷的精神 ，接下来将会根据我从书籍文档中，工作经验中学到的敏捷精神，希望阅读了的你，不会感觉文章是一篇口水话鸡汤，而是能让你感同身受的文章。

1. Blame can't help 指责没有帮助任何事

指责并不会修复bug更不会帮助任何事。遇到问题我们的反应如果都是去思考解决问题的方案，而不是解决导致问题的人，才是一个正向的循环。

勇敢的承认自己不知道的答案，与团队的各个成员讨论。如果出现了一个重大的错误，应该被当做是一个学习的机会而不是落井下石的机会，团队中应该互相帮助，而不是落井下石。特别是如果有一个东西，大部分人都知道是坑，此时去诱导一个并不清楚的人跳下去，就算自己逃过了一劫，那么在这样的团队中，怎能知道下一个坑自己是否能够躲过呢？如果次次都躲过，你并不会成为受人尊敬的人，而是行业老油条，是受人背地里唾弃的人，别人又将如何尊重你？

你可能会说，如果真的有团队成员一而再，再而三的对团队造成了负面的影响，那么此时他应该离开团队，但我们并不该周而复始的指责他。

2. Don't blindly seek of speed 不要盲目追求速度

在各个公司，亦或是各个团队中，都会有一套编码规范，如果盲目的追求速度，我们就会在我们的代码中增加许多的魔法值，漏掉注释。最后这段代码将会晦涩难懂，甚至作者本身都不一定能看懂如何实现。

追寻代码规范，不盲目追求速度，对自己新增的变量/对象命名负责，对自己的代码块注释负责，才是一个研发最基本的素养，而不是将代码工作想象为一场赛马比赛。如果遇到自己不确定的问题，特别是性能/设计上的问题，一定要向同事请教。

我上周便向我的leader请教了

假如同一个业务涉及到三张关联表。
做某个接口服务时，是三表联查，直接得出结果，还是三个表分别查做隔离，组合成最后结果。

leader和研发同事们都给出了自己的理解与解决方案，令我受益匪浅，或许在这类性能问题发生之前，我都不会再去因为这个问题而痛苦，当问题发生时，我相信我的团队会和我一起著力于解问题，得到更加适合的解决方案

以下是我综合同事和leader给出的解决方案得到的答案：

根据阿里巴巴规范：首先超过三张表关联强制禁止join

如果单表查询能够使用缓存或者复用，建议使用单表

虽然多表关联能够省去很多业务代码，但是绝大多数情况并不能带来性能上的很大提升，数据库关联查询也会增加SQL的复杂度

单表查询还便于以后扩展分库分表，SQL层优化空间大，业务层对于大数据量可使用一定算法解决性能问题

在C端项目中，我们要完全避免联合查询，在B端项目中，我们可以尽可能避免联合查询，在G端项目中，我们完全无法避免联合查询

3. Focus on issue，not person对事不对人

人人都懂的道理，人人都喝过的鸡汤，却很难做到的事。做不到对事不对人，只会给整个团队带来一种消极，人人自危，人人想落井下石的氛围。

Negativity kills Innovation （消极扼杀创新）：

我们每个人都可以想到一些极好的创新想法，同样也有可能萌生一些特别憨憨的想法。如果提出自己的观点前，担心自己被嘲笑，甚至被批评，你将会扼杀掉自己的创意。任何一个出色的产品都需要大量的创新力和市场洞察力，分享各自的观点，融合彼此的优良创新设计，才可以做出一款好的产品。

“你不需要很出色才能起步，但你必须起步才能变得出色”——莱斯布朗

“能欣赏自己并不接受的想法，表明你的头脑足够有学识”——亚里士多德

以下的话说给作者自己听：

如果你连起步的勇气都没有，请问出色和你这辈子能有什么关系呢？

在抒发每个人的idea的过程中，我们一定会遇到无休止的讨论，甚至最后从头脑风暴变成了扯淡大会也不是没有可能，如何避免这类情况的发生呢？

设定最终期限：在最终期限时，如果没能确定到最好的方案，我们需要的是寻找最适合的方案，而不是无休止的讨论，需要落地思维碰撞
逆向思维：寻找方案/idea的缺点，如果最终有一个方案的缺点都是大家可以接受的，那么这个方案是不是就是最好的方案呢？
仲裁人：仲裁人需要做到绝对公正，如果有人从头脑风暴变成了扯淡大会，那么需要仲裁人出来制止，维持会议正常进行
支持决定：落地的方案需要执行下去，除非能够证明方案是错的，否则请尊重大家制定的方案

4. Brave 勇气

人类的赞歌就是勇气的赞歌出自《JOJO的奇妙冒险》

勇气，勇敢这是一个大家都从小听到大的概念，但是想要拥有勇气，拥有勇敢，真的是相当困难的事，做一个有勇气的人，这句话真的是能让人耳朵都听出茧来，又更何况在一家企业中这么做呢？

勇气会让人感觉有点不自在，鼓足勇气需要魄力。有些时候，它是扫除障碍的唯一途径，否则问题将进一步恶化下去，最终会变成，明明知道了错误，却不断的将错就错。鼓起你的勇气，这能让你从恐惧中解脱出来。当然这是在你已经知道了正确答案的情况下，如果你此时的工作正是一个前无古人后无来者的工作，你作为这艘船上的船员，自己都不知道下一个领域会是哪里的时候，此时你的勇气究竟是破釜沉舟的航行下去，还是下船，这是一个哲学问题？如果你正在做一件没人知道答案的事，很羡慕你，我也想如同你一样。

5.Tracking changes 跟踪变化

互联网的进步实在是太快了，个人感触最深的例子就是jQuery与三大前端框架，这里甚至给了我一种断层式进步的感觉。再说到java，如果关注java的新特性，我们会发现从java8的Lambda到jdk14中间出现的各类语法糖，都会发现java正在不断的向函数式编程靠拢，js中也引入了很多面向对象的概念，每一门语言都在不断的去完善自身的特性，如果我们闭门造车，无法追随行业的变化，和在监狱中的囚犯又有什么区别呢？在电影《肖申克的救赎》中，当囚犯回归到城市时因为完全无法适应现代的变化，而在旅店选择了自杀，而主角因为不断的写信，阅读，始终与时代接轨，最终完成了自己的救赎。

监狱的可怕并不在于关押了人很多年，更可怕的事情是，也许你自己成为了自己心灵的囚徒，是自己内心的监狱禁锢了你自己。

想起来前段时间在网络中看到的一段很有意思的话

任何在我出生时已经有的科技都是稀松平常的世界本来秩序的一部分。

任何在我15-35岁之间诞生的科技都是将会改变世界的革命性产物。

任何在我35岁之后诞生的科技都是违反自然规律要遭天谴的。

——英国科幻作家道格拉斯·亚当斯

任何比我早出生10年及以上的人都是裹步不前的老顽固。

任何出生时间和我相差10年以内的人都是这个社会的精英，中流砥柱。

任何比我晚出生10年及以上的人都是无可救药垮掉的一代。

——纳什·沃夏尔·硕德

囚徒究竟是被监狱囚禁了？还是自己囚禁了自己？

如何做到跟踪变化呢？

迭代和增量式学习：

知识投资也是一样。你需要定期投资最低限度的时间量。养成一种习惯，如果需要的话。躲到你的家庭办公室里去或者走进有无线网络的咖啡厅。并非每期学习都同样富有成效，但是只要定期安排学习，长期来看一定会成功。如果你一直在等待空闲时间或者等待灵感的突现，那么它永远都不会发生。

安排自己定期的学习时间，听到不熟悉的术语/新鲜事物时，记录下它，计划时间深入研究它

逛逛论坛，知乎，掘金社区，简书，github：社区永远是最潮流的地方，书籍的潮流程度将会低于社区，但是书籍的严谨程度高于社区
如饥似渴的阅读：reading，reading，reading！

我扑在书本上，就像饥饿的人扑在面包上！——高尔基

跟踪技术变化：不需要精通每一门技术，但是我们需要了解行业动态，规划自己的职业生涯

个人脑洞：如果有一天出现了一门完全取代了java的语言，我会怎么做？我能否提前发现技术更迭的征兆，成为技术革命的受益者呢？

6. Investment your team 对你的团队投资

总是要成为你所在的那个乐队中最差的乐手。如果你是乐队中最好的乐手，就需要重新选择乐队了 ——爵士吉他手Pat Methany

追赶团队，和团队中的各个成员形成正向的互补，有勇气抱有开放的心态与团队中的成员分享，尊重团队中的成员给出的意见，承担团队的任务。构建属于团队的学习平台。如果你认为分享知识你就亏大了，除非你是一个国家级的科研工作者，需要签订严格的保密协议，否则我们需要思考自己是不是井底之蛙呢？当你视若瑰宝的东西有一天被人发现所有人都知道了，甚至有更好的方案时，你那是的脸会不会像被人用皮鞋踢过一样，开始无能狂怒呢？最后愤然感慨“任何在我35岁之后诞生的科技都是违反自然规律要遭天谴的。”任何比我晚出生10年及以上的人都是无可救药垮掉的一代。

7.Reduce 减法

参考文档

《高效程序员的45个习惯——敏捷开发修炼之道》

敏捷开发入门教程-阮一峰

github地址

Why Oauth2.0?-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

Guide

本文仅作为Oauth2使用参考，如果本身已经接触过Oauth2.0,希望本篇文档能帮你打开一些思路，能够让你清晰的选择是否要使用Oauth2.0

如果没有了解过Oauth2.0，请跳转阮一峰Oauth2.0讲解

Base Q&A

Question

如果你最近正在参与关于是否要使用Oauth2.0的会议，你是否会在会议中不断的回到三个很基础的问题:

什么是Oauth2.0？

Oauth2.0存在的意义是什么？

为什么要使用Oauth2.0?

Answer

首先我们需要明确一点Oauth2.0是协议,它包括了如下特征：
- 授权协议:
授权是Oauth2.0思想的核心，其目的就在于拥有了授权，就能够通过授权取得权限范围内的受保护资源
- 委托协议:
当用户授权第三方软件获取部分用户数据时，其本质就是资源所有者委托了第三方进行资源的使用
- 安全协议:
安全问题永远是互联网最为核心的问题，Oauth2.0协议本身就推荐了相当多的安全处理方案，因此说Oauth2.0也是安全协议

更需要永远记住的一个观点是，Oauth2.0不是一种身份认证协议，如果思维不能明确Oauth2.0的协议边界线，那么接下来的讨论我们将会不断的回到上述提到的3个问题。

OAuth 2.0 就是保证第三方（软件）只有在获得授权之后，才可以进一步访问授权者的数据
OAuth 2.0 一词中的 “Auth” 表示 “授权”，字母 “O” 是 Open 的简称，表示 “开放”。简而言之Oauth的核心思想在于开放授权，因此在使用Oauth协议时，我们也不禁需要确认自己的远大目标，是否要做一个开放授权的系统？

谈到Oauth2.0就不得不提到Oauth1.0:

在 OAuth 1.0 的时候，它有个 “很大的愿望” 就是想用一套授权机制来应对现实中的所有场景，比如 Web 应用场景、移动 App 应用场景、官方应用场景等等，但是这些场景并不是完全相同的。比如官方应用场景，你说还需要让用户来授权吗？如果需要，始终使用一套授权机制给用户带来的体验，是好还是坏呢？到了 OAuth 2.0 的时候，就解决了 OAuth 1.0 面临的这种“尴尬”。OAuth 2.0 不再局限于一种授权机制，它扩充了授权许可机制类型，有了授权码许可机制、客户端凭据机制、资源拥有者凭据机制和隐式许可机制。这样的 OAuth 机制就能够很灵活地适应现实中的各种场景，比如移动应用的场景、官方应用的场景，等等。

具体的Oauth1.0 vs Oauth2.0比较可以参考下方参考文档，这里暂不赘述

总结下来使用Oauth2.0的原因就是其改善了自身的授权机制，优化了安全处理，采用了多种授权的形式，以此来适应如今互联网在授权中会遇到的各类问题

4 characters

Oauth2.0中最重要的四个角色

资源拥有者
受保护资源服务器
授权服务
第三方应用

不管我们在开放授权中的各类形式讨论，我们所有的讨论应该基于这4个角色，而不是在于使用Oauth2.0的哪种模式，因为模式的选择，其本质需要考虑所谓第三方应用是否可信，大家所处的是内部局域网，还是纯正的互联网第三方

Todo Question

希望上述的讲解可以让大家同步的是Oauth2.0的基本问题，如同做一个SaaS平台一样，我们需要的是先讨论什么是SaaS，什么是租户隔离，而不是刚开始就讨论如何去实现SaaS设计

Q1：Oauth2为什么不是身份认证协议？

在很多次的讨论中，我们会发现我们总是会认为Oauth2需要去实现用户的身份认证，因为获取授权的第一步，也是最重要的一步就是获取身份认证，这样我们才能判断是否要颁发access_token给请求方。既然说到了Oauth2不是一个身份认证协议，那么身份认证协议是什么呢？

Answer1:OIDC

OIDC是OpenID Connect的简称，OIDC=(Identity, Authentication) + OAuth 2.0(身份认证+授权协议)

身份认证协议OIDC，他是Oauth2.0的加工版，如同我们将面粉加工成了面包

在OIDC中会出现3个最为重要的角色：

EU（End User）：代表最终用户
RP（Relying Party）：第三方软件，即为认证服务的依赖方
OP（OpenID Provider）：代表提供身份认证服务方。

上图即为OIDC中的三角色与Oauth2.0中的四个角色的关系

实现OIDC与实现Oauth2.0的区别是什么？

根据目前的Oauth2实现方案，我们在用户登录授权后会返回4个值：

access_token
refresh_token
exp_time
refreshExp_time

而基于OIDC的实现则会在返回第5个非常重要的信息:id_token

可能谈到这里大家会比较恼火，为何又多了一个从来没有听说过的东西？微信开放平台不也没有id_token这种东西吗？

基于我个人的认知，我个人认为微信开放平台是目前最为标准的Oauth2.0协议开放平台了，其实微信一直都返回了id_token

相信大家可以看到在微信的获取access_token返回接口中返回了一个参数：openId

其实openId的本质就是id_token,只是id_token的本质就是一个携带用户信息的jwtToken，微信在这里不过是返回形式直接返回了用户id，而非一个token的形式，毕竟如果是jwtToken我们又不得不去考虑它的自验证性的问题了，既然都是要暴露给第三方应用供其解析的，那openId自然可以明文返回

聊到这里，大家应该明白了，我们目前的access_token中，携带了类似于openId的用户唯一标识，也就是说我们将access_token的功能放大了，他变成了一个身份认证授权通过token,而不是一个单纯的授权token了

说的最为简单直白：

id_token的作用代表了它是哪个用户

access_token的作用在于可不可以访问

那么我们需要回到话题了，我们做错了吗？是否access_token就一定不能携带用户信息呢？

其实不然，在健身领域，关于健身补剂一直有一句俚语，抛开剂量谈毒性就是耍流氓

在我们的身份认证服务中，我个人认为也有相应的一句俚语，抛开环境谈实现也是耍流氓，必须要考量的环境问题一定是

大家之间是否可信？大家是否同属局域网还是互联网中？

接下来将要来今天要讨论的第二个话题了

Q2：如何选择适合我们家的实现

首先一定会选择微服务架构，在此基础上我们将会考量如何实现OIDC，接下来的问题，参考文档皆为微服务架构设计-Oauth2&JWT

这个架构的一个比较友好的地方在于，架构思路是基于k8s实现

名词解析：

End-User: 最终用户

Internet:互联网

FW:防火墙

Nginx:Nginx反向代理

Web:部署服务器

Gateway:网关

IDP:Identity Provider 认证服务提供者,实现框架：Spring-security可以考量

BFF: Backend for Frontend 后端For前端微服务层

DomainSvc:整个微服务架构的底层。这些服务包含业务逻辑，通常有自己独立的数据库存储，还可以根据需要调用外部的服务

DB:数据库

根据微服务分层原则，领域服务禁止调用其它的领域服务，更不允许反向调用 BFF 服务。这样做是为了保持微服务职责单一（Single Responsibility）和有界上下文（Bounded Context），避免复杂的领域依赖。领域服务是独立的开发、测试和发布单位。在电商领域，常见的领域服务有用户服务、商品服务、订单服务和支付服务等。

由此我们可知晓，无论是BFF还是DomainSvc都不会去存储用户的信息，因为他们都是通过JWT token中包含的用户信息来获取，而JWT token中的用户信息来源是在于IDP服务所对应的LoginSvc Customer DB中

接下来我们将会根据各个实际情况作为考量点

Answer2-1：第一方应用 + 资源拥有者凭据模式

第一方应用，即为完全由我们开发的且处于同一局域网下的完全可信的应用

因为完全可信，我们可以选择OAuth 2.0 的资源拥有者凭据许可（Resource Owner Password Credentials Grant）

相信大家看到这里一定会有了争论，这就是我们之前讨论的核心问题了，到底要不要将用户表集成进IDP中，但是我们当时都会产生一个额外的争论，就是Oauth只是一个授权服务。是的如果只看Oauth，我们永远只能得到这个结论，Oauth只是一个授权服务，可我认为我们的问题是否应该考虑，我们要做的是Oauth2.0还是OIDC呢？如果是OIDC，这一切是否就是即符合微服务架构思想，又符合OIDC协议，包含了Oauth2.0协议呢？

Answer2-2：第三方应用+授权码模式

关于第三方应用的定义，我们如何来界定一个第三方应用，我认为这一点是相当有必要确认好的

需要判断第三方应用是否由我们开发，如果不为我们开发，则肯定是第三方应用

如果由我们开发，处于同一局域网，是否是第三方应用？不处于局域网只能通过互联网交互，是否是第三方应用？

从上述图示，我们可以得知，用户必须要在守望有用户信息才可以通过授权码模式得到对应的授权码，从而获取access_token

以上就是关于Oauth2.0的第三方应用+授权码模式的获取Token流程

综上所述，个人认为关于access_token中是否可以携带用户信息，应该取决于是否第一方应用，如果是第一方应用，对于受保护的资源而言是相当可信的，那么我们可以将用户信息密文存入token中，如果是第三方应用，认为应该将access_token与用户openId分开返回

之后关于Oauth2.0的安全问题与防止攻击，将会在之后的文档中更新

参考文档:

PKCE代码交换证明密钥协议

OIDC解析

微服务架构设计-Oauth2&JWT

极客时间-Oauth2.0实战课

Oauth2.0 vs Oauth1.0
github地址

OAM 创始团队：揭秘 OAM Kubernetes 实现核心原理-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

今年 5 月，阿里云和微软云共同宣布，Open Application Model （OAM）社区携手知名混合云管理项目 Crossplane 社区，联合发布了 OAM 在 Kubernetes 平台上的标准实现与核心依赖库。本次合作达成后，OAM 社区成功的将标准应用定义和标准化的云服务管理能力统一起来，迈出了实现真正意义上的无差别云端应用交付的关键一步。

去年 10 月，阿里云和微软共同推出了 OAM 项目，旨在构建围绕 Kubernetes 的云原生应用规范。OAM 描述了一个模型 —— 开发人员可以在其中定义应用程序组件；应用程序操作员负责创建这些组件的实例并为它们分配应用程序配置；基础架构运营商负责定义、安装和维护平台上可用的基础服务。

本次合作是阿里云、微软与 Crossplane 社区的三方技术合作，主要围绕 OAM 在 Kubernetes 上的标准实现以及 Crossplane 项目的 OAM 化展开。因为 Kubernetes 社区在落地 OAM 模型的过程中，提出了关于 OAM 标准实现的诉求。所以这次合作的一个重点，就是三方工程师使用 Go 语言开发了一个 OAM Kubernetes 核心依赖库。这个项目的名字叫做 oam-kubernetes-runtime。OAM Kubernetes Runtime 将会成为 OAM 社区官方维护的基础组件，目标是在 Kubernetes 上提供稳定且统一的 OAM 核心插件。

为进一步了解本次合作的细节以及 OAM 项目的现状，阿里云高级技术专家 Andy Shi 以及阿里云技术专家孙健波（花名：天元）接受开源中国的专访，共同探讨了 OAM 项目存在的意义。

详情戳：https://www.oschina.net/question/4487475_2317219

OAM 因何而生

我们知道，应用容器技术自诞生开始，就以 “彻底改变了软件打包与分发方式” 的魅力迅速征服了几乎所有的云厂商与数据中心。不过，软件打包与分发方式的革新，并没有能够让软件本身的定义与描述发生本质的变化，基于 K8s 的应用管理体验，也没有让业务研发与运维的工作变得更简单。

实际上，Kubernetes 带来的云原生技术革命，在于实现了基础设施层的标准化和抽象，但这一层抽象距离业务研发与运维还是太过遥远了。一个最典型的例子，直到今天，Kubernetes 里面始终都没有 “应用” 这个概念，它提供的是更细粒度的 “工作负载” 原语，比如 Deployment 或者 DaemonSet。

而在实际环境中，一个应用往往是由一系列独立组件的组合，比如一个 “PHP 应用容器” 和一个 “数据库实例” 组成的电商网站；一个 “参数服务节点” 和一个 “工作节点” 组成的机器学习训练任务；一个由 “Deployment + StatefulSet + HPA + Service + Ingress” 组成的微服务应用。

“应用” 这个概念在 Kubernetes 项目中的缺失，既是一个有意而为之的设计，却也造成了今天云原生应用管理生态的极度碎片化和极高的学习门槛。如何通过标准化的方式去解决这个 “Kubernetes 里到底什么是应用” 的问题，正是 OAM 项目发布的最初始动机。

有什么意义？

在 OAM 发布之前，云原生生态里其实并没有一个叫做 “应用” 的概念。哪怕在今天，全世界几乎每一个在落地云原生的团队，都有一个自己定义的 “应用” 的概念，它们的抽象程度层次不齐，定义方式也丰富多样，这就导致了所有围绕着这些 “应用” 构建出来的系统，就成为了一个又一个的大烟囱。

对于整个云原生生态来说，这种应用层的碎片化和烟囱化，其实对于整个生态演进是非常不利的。而今天的现状也已经证明了这一点，在 Kubernetes 逐渐标准化了基础设施能力的接入方式之后，原本更加接近用户、更加重要的应用管理层，却几乎停滞了演进，在最近几年里没有提出任何一个创新性的思想出来。

应用管理层停滞不前的结果，就是全世界的业务研发和运维一夜之间都被迫变成了 “容器专家”，一边学习着根本不应该是他们关心的各种 “基础设施即数据（Infrastructure as Data）” 领域的概念（比如：声明式 API，控制器等），一边吐槽 Kubernetes 实在是太复杂了、设计太奇葩了。

简而言之，Kubernetes 作为一个面向基础设施工程师的系统级项目，主要负责提供松耦合的基础设施语义，这就使得用户学习和操作 Kubernetes YAML 文件的时候，往往会感觉这些文件里的关注点非常底层，学习门槛很高。

实际上，对于Kubernetes 真正的最终用户比如业务研发人员和运维人员来说，他们并不想配置这些如此底层的资源信息，而是希望有更高维度的抽象。这就要求一个真正面向最终用户侧的应用定义，需要能够为业务研发和应用运维人员提供各自视角的应用定义原语。所以说，OAM 带来的第一个改变，就是提供了一种大家都可以遵循的、标准化的方式来定义更高层级的应用层抽象，并且把“关注点分离”作为这个定义模型的核心思想。

而 OAM 带来的第二个变化，则是为 Kubernetes 项目带来了应用定义，更确切地说，是对应用本身和它所需运维能力进行定义与描述的标准开源规范。站在 Kubernetes 项目的角度来讲，OAM 是一个 Kubernetes 原生的标准的“应用定义”项目，同时也是一个专注于封装、组织和管理 Kubernetes 中各种“运维能力”、以及连接“运维能力”与“应用”的平台层框架。

详细的说，OAM 基于 Kubernetes API 资源模型（Kubernetes Resource Model）来标准化应用定义的规范，它强调一个现代应用是多个组件的集合，而非一个简单的工作负载或者 K8s Operator。所以在 OAM 的语境中，一个 PHP 容器和它所依赖的数据库，以及它所需要使用的各种云服务，都是一个“电商网站”应用的组成部分。更进一步的，OAM 把这个应用所需的“运维策略”也认为是一个应用的一部分，比如这个 PHP 容器所需的 HPA（水平自动扩展策略）：

以 Crossplane 项目为例，它在本次合作中通过 OAM 升级之后得到了怎样的变化呢？

“ 作为混合云管理领域中的佼佼者，Crossplane 的 OAM 化保证了今天任何一个符合 OAM 规范的待运行程序、运维能力和它所依赖的云服务，可以组成一个整体在混合云环境中无缝漂移。”

这种平台无关的应用定义范式，使得应用研发人员只需要通过 OAM 规范来描述他们的应用程序，那么该应用程序就可以在任何 Kubernetes 群集或者 Serverless 应用平台甚至边缘环境上运行，而无需对应用描述做任何修改。本次合作中 Crossplane OAM 版的发布，则意味着 OAM 社区正在将标准应用定义和标准化的云服务管理能力统一起来，从而实现真正的 “云端应用交付” 。

OAM 如何发挥作用？

那么 OAM 在一个项目中是如何运作的呢？

据介绍，OAM 以原生插件的方式运行在 Kubernetes 当中。OAM 强调整个模型是关注点分离的。即业务研发人员负责定义和维护组件 (Component) 来描述服务单元，而运维人员定义运维特征 (Trait)，并将其附加到前面的组件上，最后构成 OAM 可交付物 ——ApplicationConfiguration。

这种设计是 OAM 在能够无限接入 Kubernetes 各种能力的同时，保证给业务研发与运维人员提供最佳的使用体验和最低的心智负担的重要基础。与此同时，基础设施工程师可以随时在 Kubernetes 中添加更多工作负载（例如 FaaS）以运行无服务器功能，或者添加运维特性（例如 CronHPA）来定义 CronJob 类型的 HPA 策略。OAM 以标准的声明方式在整个平台中管理应用交付能力和流程，并且提供面向各个角色的 API 原语来表达各自的诉求，最后通过 Kubernetes 把这些诉求落实。

什么样的项目需要 OAM？

实际上，几乎所有基于 Kubernetes 的应用管理平台都对通过 OAM 来以标准化的方式去构建自己的应用模型有明确的诉求。另一方面，由于 OAM 是原生的 Kubernetes API 资源模型，这里的迁移过程难度很低，可以通过 API 对象灰度纳管的方式逐步完成迁移操作（通过 OAM 对象逐步接管现有 Kubernetes 对象）。

而相比于传统 PaaS 封闭的、不能同 “以 Operator 为基础的云原生生态” 衔接的现状，基于 OAM 和 Kubernetes 构建的现代云原生应用管理平台，本质上是一个 “以应用为中心” 的 Kubernetes ，保证了这个应用平台在能够无缝接入整个云原生生态。同时，OAM 可以进一步屏蔽掉容器基础设施的复杂性和差异性，为平台的使用者带来低心智负担的、标准化的、一致的应用管理与交付体验。这就使得一个基于OAM 构建的 Kubernetes 应用平台，首先能够隐藏底层基础设施的细节（例如，是云还是物联网），专注于应用层抽象，提供以应用为中心的资源模型。

其次，OAM 划分了应用交付路径上的开发、运维、基础架构三种角色，分离了关注点，让流程更加清晰和易于管理。

第三，OAM 站在 K8s API 资源模型的肩膀之上，提供了可移植的应用与基础设施抽象，让一个应用描述可以完全不加修改的云、边、端等任何环境下直接交付运行起来。

除此之外，OAM 还定义了一组核心工作负载/运维特征/应用范畴，作为应用程序交付平台的基石。而平台开发者也可以添加更多工作负载（例如 FaaS 或者任意云服务），或者添加运维特性（例如 CronHPA）来定义 CronJob 类型的 HPA 策略。OAM 以标准的声明方式在整个平台中管理应用交付能力和流程。当模块化的 Workload 和 Trait 越来越多，就会形成组件市场。而 OAM 就像是这个组件市场的管理者，处理组件之间的关系，把许多组件集成起来变成一个产品交付给用户。OAM 加持下的 Kubernetes 应用管理平台，可以像乐高积木一样灵活组装底层能力、运维特征、以及开发组件。使得应用管理变得统一，功能却更加强大。

OAM 社区现状

谈到 OAM 项目社区的现状。“ 作为一个没有同商业诉求绑定的中立开源社区，OAM 生态自成立以来保持着较高的活跃度和参与度，大量的社区 Issue/PR贡献都来自阿里和微软之外的团队比如 AWS、腾讯、字节跳动、谐云、青云、好雨云、第四范式等生态参与者。除了阿里和微软本身以及基于 OAM 实现了内部应用管理架构的统一和标准化之外，不少基于 OAM 的云服务比如阿里云 EDAS 也已经上线。”

与此同时，OAM 技术体系也开始在很多大型社区用户（比如 MasterCard 万事达卡）中落地，同时也出现了产品和商业化的实践（比如：谐云的可视化OAM实现），甚至来自其它云厂商比如 AWS 的开源项目整合与对接。可以看到，OAM 社区正在迅速成长和壮大中。

开源社区的运作模式一直是我们比较好奇的地方。据介绍，OAM 项目目前完全由社区驱动，由各子项目的 Maintainer 小组进行维护和管理。社区有每两周一次的社区会议（美国和北京时间各一个）来进行重大事项的讨论与决策和同步项目进度。整个社区的的工作流程按照 Maintainer 席位的投票机制来运转，同时兼顾最终用户的投票权。目前 OAM 社区的核心 Maintainer 来自阿里云，微软和 Crossplane 项目原有的成员。在推广策略上，由多个国际化大厂团队维护的 OAM 项目从诞生起就是完全面向国际化开源社区的运作方式，凭借阿里与微软自身场景，以及整个云原生社区和贡献者的高质量输入来驱动整个项目向正确的方向持续演进，在沟通、分享、协作的氛围中鼓励贡献和发展社区。这种模式下，一旦突破早期破冰阶段，在随后社区传播和推广方面会带来病毒式的效果。

目前 OAM 的版本是 v1alpha2 ，OAM 的版本之后会不停迭代，根据实际的场景持续演进；当然，同时 spec 本身也会保证规范的稳定和兼容。这个标准的更新速度主要是取决于用户的接受程度和反馈的情况，并且会在今年发布 Beta 版。本次合作中，OAM 已经发布了 Kubernetes 的标准实现与核心依赖库，这也就意味着未来整个开源生态都可以直接通过对接 Crossplane 或者 oam-kubernetes-runtime 来支持 OAM 标准，所以这样的项目很快会越来越多。

本文转自<阿里巴巴云原生技术圈>——阿里巴巴云原生小助手

案例速览 | 如何为3~12岁孩子提供全方面监控能力？-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

叫叫阅读系列是成都书声科技有限公司（铁皮人）旗下的教育 Apps 。主要针对 3-12 岁孩子，以儿童身心发展规律为依据，秉承叶圣陶先生的语文教育论，多读书，读好书，勤思考。由小学语文老师、幼小衔接专家、诵读老师、儿童节目主持人组成的优秀师资团队带领孩子解读名篇，领略汉语文字之美，建立其知识格局，完善其独立人格，提升其语文素养。通过“在线互动课堂+在线班主任辅导+线下配纸质书”的三位一体的教学模式，丰富孩子的知识，培孩子的能力，提升孩子的素养。

2007 到 2011 年，叫叫阅读创作的绘本 500 余册，部分绘本被大中华，北美等地区选为课外指定阅读绘本；2011 到 2017 年，原创的教育类 App 以及叫叫系列产品诞生，斩获用户 7000 万；近年来，通过提供更为丰富的在线语文，数学课程，特别是疫情下，学员人数累创新高。

新的需求

随着在线教育的风口来临，叫叫阅读的业务呈现指数般增长，依托于以微服务化为基础的互联网架构下，系统中拆分的应用越来越多，应用间以及应用内的问题监控/定位/分析越发困难，急切需要一个如下功能的 APM 工具来解锁提升技术团队的相关能力：

全方位的应用监控能力：不但可以监控 CPU /内存、网络、IO、磁盘等基础设施；还可以监控 JVM 、线程、异常、慢 SQL 等情况；最重要还可提供基于应用/接口的各种 metrics ，业务调用链的能力，最好能方便地获取 SQL 的绑定参数。

无侵入的应用接入方式：不需要开发人员主动埋点，无需要业务方引入 jar 依赖，可在容器/ECS 等多种环境上部署便拥用全方位的应用监控能力。

低损耗的资源占用比例：接入的 APM 工具对业务应用本身的资源占用比例绝大部分时间不超过 5% ， APM 本身对宿主应用的资源占用的有保护措施。

白屏化的配置使用能力：可以通过白屏化进行采样率 / SQL 绑定参数的提取等等的调整，也可以通过批量标签化管理应用的监控接入启停，提供丰富的告警配置能力。

解决方案：

通过阿里自研的 ARMS 应用实时监控工具，既满足无侵入的接入方式和低损耗的资源占用比例，还提供了全方位的应用监控能力和白屏化的配置使用能力，而且 ARMS 结合众多客户场景和专家经验，提供智能诊断功能。

效果：

1、平稳支撑在线教育的增长风口：近来在线教育行业正在风口上高速增长，叫叫阅读在ARMS的帮助下，及早发现与修复问题，帮助业务系统渡过了一浪赛过一浪的学员使用峰值，为业务的增长提供了有力的保障。

2、解锁技术团队的定位技能包：有了ARMS的支持，不但资深工程师掌握了快速定位分析问题的能力，刚上手的同学也能在短期内就拥有相同的技能包。在ARMS的长期使用熏陶中，整个技术团队的编码能力潜移默化地得到了升华，获得了生产力的提升。

客户证言：

“阿里云 ARMS 监控定位分析告警的能力超出了我们的预期，在接入与管理上非常灵活简洁！借助 ARMS 的能力，完全解锁了我们技术团队的系统定位分析技能包，对系统的稳定与高效运行有了质的飞跃，我们的业务部门对系统的提升也称赞不绝。”

加入阿里云在线教育客户交流钉钉群

欢迎扫码加入在线教育行业客户交流钉钉群，阿里巴巴众多专家将在群内定期分享行业最佳实践和前沿技术干货，扫码入群，与更多行业精英互动交流。钉钉扫码或搜索钉钉群号均可加入：35712134。

【填问卷抽淘公仔-阿里云中间件用户调研】

点击链接，一分钟填问卷抽淘公仔：
https://survey.aliyun.com/apps/zhiliao/YmW95Gk8bU

云端IDE：阿里云机器学习与PAI-DSW | 《阿里云机器学习PAI-DSW入门指南》-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

经过20年的快速发展，阿里经济体已经组建了一个庞大的商业生态圈，并在支付、云计算、本地生活服务等行业保持互联网巨头地位。2020财年交易额突破1万亿美元，全球第一家；阿里云支撑了2019年双11 期间峰值 54.4 万笔/秒、单日数据处理量达到 970PB 的世界级的流量洪峰，成为业界第一个实现此壮举的云计算公司。

阿里云机器学习平台正是伴随着这样庞大而复杂的阿里经济体业务成长起来的。下面我们将带着大家掀开阿里云机器学习技术大图的一角，看看阿里云机器学习，特别是机器学习工程上的发展、沉淀和创新。

阿里云机器学习技术大图

我们从用户和技术的两个角度来梳理阿里云机器学习的技术体系大图。从用户的角度来说，根据使用机器学习的深度不同，在云栖大会上，我们展示了飞天AI平台的技术分层关系：

（注：不是一个完整的产品列表，而是一些核心的样例）

从技术的角度说，机器学习从算法到底层的硬件，都涉及到不同的技术方向。下面是我们对于核心技术能力上的一个总体描述：

每个技术方向上都形成各自的布局和沉淀，接下来我们会重点讲述作为机器学习重要组成部分的工程能力体系建设。

阿里云机器学习工程能力体系

阿里云在机器学习工程体系建设上，也经历了各领域业务需求驱动和技术驱动分阶段螺旋式递进上升的过程。由最初的通过传统机器学习算法进行数据价值的粗加工，到今天以深度学习为主、支撑各类“行业大脑”解决方案的人工智能工程体系。

阿里云的机器学习工程能力体系建设始终围绕着更高效的融合人工智能三要素（算法、数据、算力）进行展开，即追求不断提升整个工程体系中的计算效率、数据效率以及工程效率，从而能够更好的支撑阿里经济体各方面业务快速发展的需求，并通过阿里云对外进行技术输出，推动人工智能领域的技术变革，产生更大的社会效益，实现普惠人工智能。

经过多年的发展创新，阿里云在AI托管平台技术层进行了系统性的建设，极大提升了算法研发、共享、部署、输出的效率，在此基础上沉淀出多个具有用户粘性和场景差异化的开发平台，这里我们选取阿里云机器学习PAI(Platform of Artificial Intelligence)作为代表来着重来介绍。

PAI是一款覆盖机器学习全流程的一站式机器学习平台产品，集数据预处理、特征工程、自动调参、模型训练、在线预测为一体，为用户提供低门槛、高性能的云端机器学习服务。

PAI相关技术脱胎于阿里集团内数十个BU的上千个业务体系，沉淀了大量的覆盖各个领域的优质分布式算法、框架、平台等，同时也在不断完善和扩充机器学习生态。

阿里云机器学习PAI-DSW

作为在AI战线上辛勤耕耘的算法工作者，你是否也常常遇到下面的情形：

算法需要运行在GPU上，可是长时间申请不到GPU机器，只能干着急。

终于GPU机器申请到了，却不能马上开始使用，需要先安装GPU驱动和各种依赖等等，感觉有些浪费时间。

好不容易机器环境弄好了，可当某天更新算法代码后变得很慢，排查半天才发现是GPU驱动需要升级补丁，很是无奈。

生产环境机器网络隔离，在线上要debug代码，只能使用GDB在命令行进行，开发效率大大降低。

在本地采用PyCharm这样的IDE开发好代码，而数据在生产环境，不允许下载，只能把代码拷贝到线上机器运行，发现问题后，又得回到本地修改调试后再来一遍，非常不便。

PAI Studio采用图形化拖拽式，像搭积木一样分分钟就构建一个完整的工作流，很炫酷。但想要定制发布自己的组件时，却不知从何下手。

在长期与算法工程师同学沟通合作的过程中，我们发现了算法工程师面临的这些问题。提升机器学习工程效率，降低人工智能使用门槛，急需一个简单、轻量、好用的工具平台，从而让算法工程师更加专注于模型设计本身。PAI DSW（Data Science Workshop）就是PAI团队为解决算法工程师的以上痛点，新推出的一款云端机器学习开发IDE。

PAI-DSW集成了Jupyterlab、WebIDE等多种开源项目，在阿里巴巴集团内上百个BU和上千名工程师的打磨之下性能和功能上都进行了一定的调优。数据上打通了ODPS等多个数据源，方便用户在构建模型的时候免去重新构建数据管道的工作。同时，在深度学习上，PAI-DSW内置了Tensorboard，可以通过简单的拖拽的方式来帮助深度学习的开发者更好的完成深度学习场景下神经网络的建模。下图展示了DSW在机器学习平台PAI产品架构中的位置：

（DSW在机器学习平台PAI产品架构中的位置）

简单来说，PAI-DSW可以实现多实例、多环境，GPU/CPU资源、JupyterLab、WebIDE以及全屏使用Terminal无干扰工作。目前PAI-DSW已经向所有阿里云的用户免费开放了探索者版，只需要登陆阿里云然后打开 https://dsw-dev.data.aliyun.com/#/ 即可即刻开始云上数据科学之旅。本书后面两个章节将详细介绍如何使用PAI-DSW这一简单好用的工具。

阿里云云原生数据湖分析DLA Serverless Spark重磅发布，助力企业低成本挖掘OSS数据价值-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

一、背景概述

1.1 什么样的客户需要数据湖

在数据处理领域，数据湖相对来说是一个比较新的概念，它的提出可以很好地帮助企业应对当前数据场景越来越多、数据结构越来越复杂、数据处理的需求越来越多样化的问题。传统的单机数据库技术倾向于大一统，一个数据库可以解决数据存储、在线交易、在线分析、离线报表等功能，好处是简单，数据只有一份，缺点是各个功能都做了取舍，很难解决规模的问题。为了突破数据规模的瓶颈，大数据技术更倾向于针对单独领域做深度定制，比如海量文件存储使用HDFS、海量对象存储使用OSS/S3、宽表存储使用BigTable/HBase、嵌套数据使用MongoDB、大规模TP数据使用PolarDB、大规模AP数据使用ADB/Clickhouse、日志数据使用LogService等等。

在很多企业里面，不同的部门业务不同，采用的数据方案也不同。在企业发展的前期，更多是靠业务模式驱动、流量驱动，数据复杂度的问题还不明显，后期则需要精细化运营、向数据要红利，数据管理的难度就成为企业的痛点。数据湖的出现可以很好地解决这个痛点，这也是为什么各个云厂商都推出了数据湖产品，数据湖产品和解决方案越来越得到客户的认可。Gartner 2020年发布的报告显示目前已经有39%的用户在使用数据湖，34%的用户考虑在1年内使用数据湖。

1.2 Aliyun DLA数据湖整体方案

Aliyun数据湖分析（DLA）产品提供了数据湖的一站式解决方案。OSS对象存储采用KV的技术架构，可以实现无限扩展，是公认的数据湖存储底座。用户可以通过离线ETL和在线增量ETL将在线数据和实时增量数据，同步到OSS中，然后对数据做深度的计算和分析。用户也可以直接访问这些在线库，做在线的联邦分析。为了方便用户管理数据湖中的数据，我们提供了统一的数据湖管理方案。数据湖管理可以统一存储数据湖中数据的元信息给计算引擎使用，另外还提供元数据动态爬取功能，可以动态解析OSS数据目录结构和数据格式，省去了用户手动创建表和分区的工作。DLA同时提供了SQL和Spark两个引擎，SQL基于Presto实现，可以实现在线分析，Spark可以实现用户自定义代码和复杂计算逻辑。同时，DLA跟DMS和QuickBI进行了深度集成，方便用户实现更丰富的开发和管理逻辑。

二、DLA Serverless Spark架构解析

2.1 DLA Spark为什么是云原生 + Serverless

2.1.1 数据湖天然存储计算分离

数据湖技术处理的对象是用户已存在的所有的数据。这里提到两个关键定语“已存在的”和“所有的”。要处理好“已存在的”原始数据，最好的方式显然不是先将其导入到数据仓库中，最好是能够原地分析，使用单独的计算资源来计算分析各种类型存储系统中的数据，这就是存储计算分离的架构。存储计算分离的架构能够做到存储和计算的分层弹性，存储可以无限扩展，计算能够按需弹性调度。这里提到了弹性计算，计算的弹性可以分很多层次：

集群级弹性：用户可以按需购买ECS并部署集群，然后后再执行计算任务，任务执行完之后再释放掉集群；
作业级弹性：用户每个作业都是单独的计算资源，作业执行完之后立即释放；
作业内弹性：一个任务在执行过程中，不同的阶段所需要消耗的资源不同，典型地，分布式作业出现长尾时，大部分资源都是空闲的，此时可以将空闲资源释放掉；
容器内弹性：计算任务的进程在执行过程中不同时段所需要的资源不同，是否可以做到动态调节；

弹性的粒度越细，资源的利用率越高，成本也就越低。相对于传统IDC，云的最大的优势之一就是弹性，数据湖天然是存储计算分离的，跟云弹性的能力十分匹配，数据湖场景下，云原生 + 弹性是必然趋势。

2.1.2 Serverless是云的趋势

Serverless是业内公认的云发展的一个趋势。其实不难理解，从IDC自建到搬站上云再到Serverless化符合技术和客户需求发展的规律。

在云最初产生的时候，大家把云计算基本等同于虚拟化技术，客户最普遍的需求是将线下的站点搬上云，用户把云当做对线下硬件的替换，企业的IT研发、运维大体跟上云前一致。用户对大数据系统，比如Hadoop集群，也类似，把线下集群换成虚拟集群，再由专门团队运维大数据集群。在云市场发展的第一阶段，这种模式有用户习惯的因素，也有性能、成本等的因素，自建跟云产品在性能上差距不太大，在成本上甚至更便宜，客户也拥有一定的掌控感。然而，云的技术会继续往精细化深入发展，从资源共享的角度来看，每套Hadoop集群都有一套自己的管控，这些管控包括Master节点，Core节点上面的守护进程，以及配套的监控、运维管理等系统。这些资源和人力投入实际上对企业来说都只是成本，并不产生真正的计算价值。

随着云技术的发展，Serverless形态可以很好的解决企业在第一阶段遇到的问题，企业只需要关心自己的业务开发，只为真正参与计算的资源付费，云产品把管控的部分统一管理起来，边际成本可以做到很低。另外，云产品会深度扎根于云基础设施，对性能、弹性、使用体验等做持续深入优化，相对于第一阶段的用户自建模式可以实现数倍的性价比提升。最后，随着云产业的发展，云产品会越来越标准化，客户也不必担心被云绑定的问题。在云市场进入第二阶段，Serverless形态的产品让企业更专注于自身业务，进一步降低运维和资源成本，让开发者拥有更好的使用体验以及更低的入门门槛。

2.1.3 Spark一站式解决数据湖计算需求

“所有的”意味着数据的来源途径多种多样，存储位置多种多样，数据格式多种多样。这就要求计算引擎可以支持所有数据类型，并且可以很方便的做分析、计算，因为数据是“已存在的”，Schema只能在读取的时候才能确定，而不能依赖用户把表都提前建好。Spark非常适合数据湖场景：

Spark本身内置了十分丰富的数据源连接器，接口也很方便扩展；
Spark既支持使用SQL，又支持编写多种语言的DataFrame代码，兼具易用性和灵活性；
Spark一站式引擎能力，同一个引擎同时提供SQL、流、机器学习、图计算的能力；

DLA团队将Serverless、云原生、Spark技术优势深度整合到一起，提供Serverless Spark产品，兼具三者优势。下面我们将对Serverless Spark产品架构进一步解析。

2.2 自建Spark集群 VS Serverless Spark

上图中左半部分是传统最常见的集群版Spark，右边是Serverless Spark。集群版Spark大家都比较熟悉，每个用户一个集群，集群内部拥有一套完整的Spark管控，用户使用方式上跟传统IDC模式一致。

Serverless Spark将管控完全多租户化，相对于传统的集群模式，Serverless Spark抽象出一个虚拟集群的概念。虚拟集群只是承载用户对作业进行控制的一些配置，包括网络的配置、安全隔离的配置、计算资源Quota的配置、作业通用参数的配置等。由于是虚拟集群，所以集群创建基本都可以做到秒级完成。用户创建完虚拟集群之后，就可以往虚拟集群提交作业，去访问用户在各个存储引擎中的数据。

Serverless Spark在弹性能力上基于Aliyun Kubernetes云原生技术深度定制，调度层可以实现秒级拉起，一分钟可以并行拉起300个计算节点，后续还会持续优化。Serverless Spark控制服务实现了对云资源、作业、库表列元数据、租户、安全等管理，对上提供阿里云OpenAPI，用户可以通过OpenAPI实现作业的提交和管理。另外Serverless Spark会跟其他云产品深度集成，进一步丰富用户的使用场景，目前Serverless Spark已经跟DMS进行集成，可以实现工作流，定时调度等管理。

对比维度	自建Hadoop集群	Serverless版
内置存储	HDFS	数据湖存储OSS
集群形态	ECS集群，需配置Master、Core规格	虚拟集群，只需配置资源quota
集群管理	扩缩容、升降配	quota调整，参数配置
售卖形态	实例型，集群粒度，按ECS规格售卖	服务型，按作业实际使用CU*时收费
资源弹性	集群级别	作业级弹性
性价比	低：管控开销+资源空闲开销	高：按需付费
维护成本	高：运维团队维护集群	低：管理员分配资源
作业管理	Livy、脚本、控制台、定时调度、作业编排	OpenAPI、脚本、控制台、定时调度、作业编排
租户支持	依赖开源，配置复杂	Aliyun RAM
学习成本	高：需要先学习集群管理与配置	低：只需要学习Spark开发

在上表中，我们在集群运维、性价比、作业开发等方面对比了两种形态的差异。从使用体验上，Serverless Spark可以做到开箱即用，一分钟就可以跑通一个Spark作业；从成本上，由于将管控完全多租户化，用户不需要承担这部分额外开销，只需要实际使用付费；从运维方面，一个企业中一个管理员就可以实现整体管理工作，大大降低运维成本。

三、DLA Serverless Spark性价比

3.1 1TB Terasort DLA Spark vs 自建Hadoop 性价比对比

我们先对比下1TB数据情况下，数据湖方案跟传统Spark集群方式的性价比。相关配置说明如下：

TeraSort输入1TB + shuffle大约1TB + 输出1TB，作业每天跑一次。
Hadoop集群配置：单Master（4c8g） + 5个Core（8c32g），Core节点配置4块500GB的高效云盘。一般高效云盘采用2备份的HDFS配置。这里存储空间是4 500GB 5 / 2 = 5TB。
Serverless Spark采用40CU + 2TB OSS。

对比结果如右图所示，作业性能上Serverless Spark跟Hadoop基本持平，但是性价比差异非常大，DLA Serverless Spark会节约80%。也就是会有4-5倍的性价比提升。

需要说明的是：

Hadoop集群配置是一个总容量5TB集群的典型配置，一般情况下集群不能把磁盘都用满，要留一定buffer，否则系统可能会出现各种空间不足问题。
Serverless Spark完全按需使用存储和计算资源。
Serverless Spark对OSS访问实现了深度定制优化，性能相比于社区提升1倍左右。

3.2 10TB Terasort DLA Spark vs 自建Hadoop 性价比对比

对于更大规模数据，比如10TB，对比结果如上图所示。相关配置说明：

TeraSort输入10TB + shuffle大约10TB + 输出10TB。作业每天跑一次。
Hadoop集群配置：单Master（4c8g） + 5个Core（16c64g），Core节点配置8 5.5TB的本地盘。一般本地盘采用3备份的HDFS配置。这里存储空间是5 8 * 5.5TB / 3 = 73TB。
Serverless Spark采用80CU + 50TB OSS。

我们发现性能上DLA Spark提升了1倍，成本反而降低了一半，性价比提升4倍。

需要说明的是：

Hadoop集群采用的是大数据量场景下的典型配置，采用本地盘D1机型，成本相对于云盘要便宜。由于本地盘机型要求空间比较大，16c64g的只能配置44TB的本地盘，考虑到Hadoop集群的本地盘通常不能打太满，为了公平起见，我们采用OSS的空间是50TB。
在分析性能时发现，在10TB场景下，本地盘的存储和shuffle之间会有IO带宽上明显的争用，而Serverless Spark计算节点自带essd云盘，将shuffle盘完全独立，对性能提升有较大的贡献。

3.3 Serverless Spark访问用户自建Hadoop

用户可以将自建Hadoop和Serverless Spark混合使用，用户Hadoop集群在高峰期需要更多的计算资源，用户可以直接提交Serverless Spark来实现对计算弹性的需求。由于Serverless Spark可以做到直接跟用户VPC打通，可以直接使用内网带宽，经过对比两者的性能基本持平。

四、使用场景

面向数据湖中的各种各样的数据，Spark可以用于如下场景：

生态打通：Spark的多数据源能力，提供外部数据源批量入库、联邦分析能力；DLA Spark会跟云上数据源做深度集成优化，解决稳定性问题并提升性能；
算法及用户可编程：支持python、java、scala、R、SQL多语言，支持复杂的数据过程处理(类似PL/SQL)、机器学习等；
离线数仓(复杂分析)：支持复杂离线分析，提供天/月级别的报表等；
半结构化/非结构化处理：搭配HDFS/OSS存储为数据库添加非结构化数据存储处理能管理(CSV、XML、Parquet多种存储)；
离线ETL：可以用于各存储引擎之间的数据转换、清洗、归档等操作；
实时计算：Spark Streaming + Hudi可以实现数据实时转存，实现在不影响在线库稳定性情况下，对实时数据的复杂分析；Spark Streaming实时ETL将多个MySQL大表，合并为一个ADB宽表，避免大表在线join，提高在线分析性能。

上图是某游戏公司使用DLA解决数据湖场景问题的方案。用户要对在线库RDS做分析，但又怕影响RDS的稳定性，于是选择采用DLA一键建仓功能将其同步到OSS里面转为列存；用户游戏APP的日志数据会接入到Kafka里面，然后通过Spark Streaming实时写入到OSS，数据采用Hudi增量数据湖格式。数据流入到OSS后，用户会对数据使用DLA SQL（Presto）做在线分析，也会对历史数据做复杂分析和机器学习，挖掘游戏玩家的使用规律。

五、总结与展望

针对用户面临的越来越多的数据湖场景典型问题，阿里云DLA产品提供了一体化解决方案，从数据湖管理到数据湖分析和计算。相对于在线引擎，Spark更适合弹性计算架构，可以跟云原生的弹性能力深度整合起来。从传统IDC到搬站上云到完全Serverless化，这条路径已经被越来越被认可为云技术的发展路径。DLA Spark采用完全云原生 + Serverless形式，相对于传统的自建Hadoop在性价比上拥有数倍的优势。

未来，DLA Serverless Spark会面向数据湖场景做进一步深度优化：

更便宜：实现更细粒度的弹性继续降低成本；
更快：优化Spark内核本身，特别是跟云存储之间做深入定制优化，提升引擎性能；
更好用：降低Spark开发难度，更进一步提升用户使用体验。

注：DLA Serverless Spark控制台使用链接，DLA Serverless Spark帮助文档。

关于阿里云DRDS 5.3升级详细介绍性能提升300%-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

MySQL主从复制读写分离，看这篇就够了！-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

思维导图

微信公众号已开启：【java技术爱好者】，还没关注的记得关注哦~

文章已收录到我的Github精选，欢迎Star：https://github.com/yehongzhi/learningSummary

前言

在很多项目，特别是互联网项目，在使用MySQL时都会采用主从复制、读写分离的架构。

为什么要采用主从复制读写分离的架构？如何实现？有什么缺点？让我们带着这些问题开始这段学习之旅吧！

为什么使用主从复制、读写分离

主从复制、读写分离一般是一起使用的。目的很简单，就是为了提高数据库的并发性能。你想，假设是单机，读写都在一台MySQL上面完成，性能肯定不高。如果有三台MySQL，一台mater只负责写操作，两台salve只负责读操作，性能不就能大大提高了吗？

所以主从复制、读写分离就是为了数据库能支持更大的并发。

随着业务量的扩展、如果是单机部署的MySQL，会导致I/O频率过高。采用主从复制、读写分离可以提高数据库的可用性。

主从复制的原理

①当Master节点进行insert、update、delete操作时，会按顺序写入到binlog中。

②salve从库连接master主库，Master有多少个slave就会创建多少个binlog dump线程。

③当Master节点的binlog发生变化时，binlog dump 线程会通知所有的salve节点，并将相应的binlog内容推送给slave节点。

④I/O线程接收到 binlog 内容后，将内容写入到本地的 relay-log。

⑤SQL线程读取I/O线程写入的relay-log，并且根据 relay-log 的内容对从数据库做对应的操作。

如何实现主从复制

我这里用三台虚拟机(Linux)演示，IP分别是104(Master)，106(Slave)，107(Slave)。

预期的效果是一主二从，如下图所示：

Master配置

使用命令行进入mysql：

mysql -u root -p

接着输入root用户的密码(密码忘记的话就网上查一下重置密码吧~)，然后创建用户：

//192.168.0.106是slave从机的IP
GRANT REPLICATION SLAVE ON *.* to 'root'@'192.168.0.106' identified by 'Java@1234';
//192.168.0.107是slave从机的IP
GRANT REPLICATION SLAVE ON *.* to 'root'@'192.168.0.107' identified by 'Java@1234';
//刷新系统权限表的配置
FLUSH PRIVILEGES;

创建的这两个用户在配置slave从机时要用到。

接下来在找到mysql的配置文件/etc/my.cnf，增加以下配置：

# 开启binlog
log-bin=mysql-bin
server-id=104
# 需要同步的数据库，如果不配置则同步全部数据库
binlog-do-db=test_db
# binlog日志保留的天数，清除超过10天的日志
# 防止日志文件过大，导致磁盘空间不足
expire-logs-days=10

配置完成后，重启mysql：

service mysql restart

可以通过命令行show master statusG;查看当前binlog日志的信息(后面有用)：

Slave配置

Slave配置相对简单一点。从机肯定也是一台MySQL服务器，所以和Master一样，找到/etc/my.cnf配置文件，增加以下配置：

# 不要和其他mysql服务id重复即可
server-id=106

接着使用命令行登录到mysql服务器：

mysql -u root -p

然后输入密码登录进去。

进入到mysql后，再输入以下命令：

CHANGE MASTER TO 
MASTER_HOST='192.168.0.104',//主机IP
MASTER_USER='root',//之前创建的用户账号
MASTER_PASSWORD='Java@1234',//之前创建的用户密码
MASTER_LOG_FILE='mysql-bin.000001',//master主机的binlog日志名称
MASTER_LOG_POS=862,//binlog日志偏移量
master_port=3306;//端口

还没完，设置完之后需要启动：

# 启动slave服务
start slave;

启动完之后怎么校验是否启动成功呢？使用以下命令：

show slave statusG;

可以看到如下信息（摘取部分关键信息）：

*************************** 1. row ***************************
               Slave_IO_State: Waiting for master to send event
                  Master_Host: 192.168.0.104
                  Master_User: root
                  Master_Port: 3306
                Connect_Retry: 60
              Master_Log_File: mysql-bin.000001
          Read_Master_Log_Pos: 619
               Relay_Log_File: mysqld-relay-bin.000001
                Relay_Log_Pos: 782
        Relay_Master_Log_File: mysql-bin.000001 //binlog日志文件名称
             Slave_IO_Running: Yes //Slave_IO线程、SQL线程都在运行
            Slave_SQL_Running: Yes
             Master_Server_Id: 104 //master主机的服务id
                  Master_UUID: 0ab6b3a6-e21d-11ea-aaa3-080027f8d623
             Master_Info_File: /var/lib/mysql/master.info
                    SQL_Delay: 0
          SQL_Remaining_Delay: NULL
      Slave_SQL_Running_State: Slave has read all relay log; waiting for the slave I/O thread to update it
           Master_Retry_Count: 86400
                Auto_Position: 0

另一台slave从机配置一样，不再赘述。

测试主从复制

在master主机执行sql：

CREATE TABLE `tb_commodity_info` (
  `id` varchar(32) NOT NULL,
  `commodity_name` varchar(512) DEFAULT NULL COMMENT '商品名称',
  `commodity_price` varchar(36) DEFAULT '0' COMMENT '商品价格',
  `number` int(10) DEFAULT '0' COMMENT '商品数量',
  `description` varchar(2048) DEFAULT '' COMMENT '商品描述',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='商品信息表';

接着我们可以看到两台slave从机同步也创建了商品信息表：

主从复制就完成了！java技术爱好者有点东西哦~

读写分离

主从复制完成后，我们还需要实现读写分离，master负责写入数据，两台slave负责读取数据。怎么实现呢？

实现的方式有很多，以前我公司是采用AOP的方式，通过方法名判断，方法名中有get、select、query开头的则连接slave，其他的则连接master数据库。

但是通过AOP的方式实现起来代码有点繁琐，有没有什么现成的框架呢，答案是有的。

Apache ShardingSphere 是一套开源的分布式数据库中间件解决方案组成的生态圈，它由 JDBC、Proxy两部分组成。

ShardingSphere-JDBC定位为轻量级 Java 框架，在 Java 的 JDBC 层提供的额外服务。它使用客户端直连数据库，以 jar 包形式提供服务，无需额外部署和依赖，可理解为增强版的 JDBC 驱动，完全兼容 JDBC 和各种 ORM 框架。

读写分离就可以使用ShardingSphere-JDBC实现。

下面演示一下SpringBoot+Mybatis+Mybatis-plus+druid+ShardingSphere-JDBC代码实现。

项目配置

版本说明：

SpringBoot：2.0.1.RELEASE
druid：1.1.22
mybatis-spring-boot-starter:1.3.2
mybatis-plus-boot-starter：3.0.7
sharding-jdbc-spring-boot-starter:4.1.1

添加sharding-jdbc的maven配置：


    org.apache.shardingsphere
    sharding-jdbc-spring-boot-starter
    4.1.1

然后在application.yml添加配置：

# 这是使用druid连接池的配置，其他的连接池配置可能有所不同
spring:
  shardingsphere:
    datasource:
      names: master,slave0,slave1
      master:
        type: com.alibaba.druid.pool.DruidDataSource
        driver-class-name: com.mysql.jdbc.Driver
        url: jdbc:mysql://192.168.0.108:3306/test_db?useUnicode=true&characterEncoding=utf8&tinyInt1isBit=false&useSSL=false&serverTimezone=GMT
        username: yehongzhi
        password: YHZ@1234
      slave0:
        type: com.alibaba.druid.pool.DruidDataSource
        driver-class-name: com.mysql.jdbc.Driver
        url: jdbc:mysql://192.168.0.109:3306/test_db?useUnicode=true&characterEncoding=utf8&tinyInt1isBit=false&useSSL=false&serverTimezone=GMT
        username: yehongzhi
        password: YHZ@1234
      slave1:
        type: com.alibaba.druid.pool.DruidDataSource
        driver-class-name: com.mysql.jdbc.Driver
        url: jdbc:mysql://192.168.0.110:3306/test_db?useUnicode=true&characterEncoding=utf8&tinyInt1isBit=false&useSSL=false&serverTimezone=GMT
        username: yehongzhi
        password: YHZ@1234
    props:
      sql.show: true
    masterslave:
      load-balance-algorithm-type: round_robin
    sharding:
      master-slave-rules:
        master:
          master-data-source-name: master
          slave-data-source-names: slave0,slave1

sharding.master-slave-rules是标明主库和从库，一定不要写错，否则写入数据到从库，就会导致无法同步。

load-balance-algorithm-type是路由策略，round_robin表示轮询策略。

启动项目，可以看到以下信息，代表配置成功：

编写Controller接口：

    /**
     * 添加商品
     *
     * @param commodityName  商品名称
     * @param commodityPrice 商品价格
     * @param description    商品价格
     * @param number         商品数量
     * @return boolean 是否添加成功
     * @author java技术爱好者
     */
    @PostMapping("/insert")
    public boolean insertCommodityInfo(@RequestParam(name = "commodityName") String commodityName,
                                       @RequestParam(name = "commodityPrice") String commodityPrice,
                                       @RequestParam(name = "description") String description,
                                       @RequestParam(name = "number") Integer number) throws Exception {
        return commodityInfoService.insertCommodityInfo(commodityName, commodityPrice, description, number);
    }

准备就绪，开始测试！

测试

打开POSTMAN，添加商品：

控制台可以看到如下信息：

查询数据的话则通过slave进行：

就是这么简单！

缺点

尽管主从复制、读写分离能很大程度保证MySQL服务的高可用和提高整体性能，但是问题也不少：

从机是通过binlog日志从master同步数据的，如果在网络延迟的情况，从机就会出现数据延迟。那么就有可能出现master写入数据后，slave读取数据不一定能马上读出来。

可能有人会问，有没有事务问题呢？

实际上这个框架已经想到了，我们看回之前的那个截图，有一句话是这样的：

微信公众号已开启：【java技术爱好者】，没关注的同学记得关注哦~

我是java技术爱好者，罗定的java精英，人称【罗ja英】

坚持原创，持续输出兼具广度和深度的技术文章。

上面所有例子的代码都上传Github了：

https://github.com/yehongzhi/mall

你的点赞是我创作的最大动力~

拒绝做一条咸鱼，我是一个努力让大家记住的程序员。我们下期再见！！！

2020阿里云服务器如何购买（图文教程）-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

阿里架构师8问Redis,全对算你赢-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

1、Redis 官方为什么不提供 Windows 版本？

因为目前 Linux 版本已经相当稳定，且Linux操作系统自带的epoll相关函数, 在高并发情况下性能一般比windows的select函数性能较好，为了高性能起见, Redis官网不提供windows 版本。

2、使用Redis有什么缺点？

缓存和数据库双写一致性问题
缓存雪崩问题
缓存击穿问题
缓存的并发竞争问题

3、Redis是单线程还是多线程?

回答: 主线程是单线程, 但6.0版本前后线程机制有做调整, 只要看懂下面这张图即可(看不懂没关系, 后面会讲到)

4、MySQL 里有 2000w 数据，redis 中只存 20w 的数据，如何保证 redis 中的数据都是热点数据？

非常简单, 当Redis 内存数据集大小上升到一定大小的时候，就会施行数据淘汰策略。

5、Redis过期策略和内存淘汰机制？

正解：Redis采用的是定期删除+惰性删除策略。

6、Redis 的持久化底层如何实现的？有什么优点缺点？

RDB: 在不同的时间点将 redis 的数据生成的快照同步到磁盘等介质上):内存到硬盘的快照，定期更新。缺点：耗时，耗性能(fork+io 操作)，易丢失数据。
AOF：将 redis 所执行过的所有指令都记录下来，在下次 redis 重启时，只需要执行指令就可以了):写日志。缺点：体积大，恢复速度慢。
Redis4.0 之后有了混合持久化的功能，将 bgsave 的全量和 aof 的增量做了融合处理，这样既保证了恢复的效率又兼顾了数据的安全性。

7、什么是缓存穿透?如何解决缓存穿透问题?

指查询一个一定不存在的数据，如果从存储层查不到数据则不写入缓存，这将导致这个不存在的数据每次请求都要到 DB 去查询，可能导致 DB 挂掉。
穿透解决方案如下：
1.查询返回的数据为空，仍把这个空结果进行缓存，但过期时间会比较短；
2.布隆过滤器：将所有可能存在的数据哈希到一个足够大的 bitmap 中，一个一定不存在的数据会被这个 bitmap 拦截掉，从而避免了对 DB 的查询。

8、Redis 常见的性能问题和解决方案

这个你能答上来吗？

Redis也是大厂面试最爱问的，除了上面这些问题，还包括Redis客户端、Redis高级功能、Redis持久化和开发运维常用问题探讨、Redis复制的原理和优化策略、Redis分布式解决方案等。

oracle故障脚本收集-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

1、.万能重启方法
如应急情况，需要重启数据库：
tail -100f <对应路径>alert_fgedu.log
alter system switch logfile;
alter system checkpoint;
shutdown immediate;
如果不能正常关机，可以使用shutdown abort强制关机;
startup

2.操作系统性能（通常故障出现时最先检查的内容）
top、topas、vmstat、iostat、free、nmon

3.批量杀进程（数据库挂起时应急恢复）
3.1.kill所有LOCAL=NO进程
ps -ef|grep LOCAL=NO|grep $ORACLE_SID|grep -v grep|awk '{print $2}' |xargs kill -9
3.2.按用户批量杀进程
select 'alter system kill session ''' || s.sid || ',' || s.serial# ||

   '''; -- kill -9  ' || p.spid

from v$session s, v$process p
where s.PADDR = p.addr and s.username='&username'

4.数据库杀会话（应急方法）
4.1.杀某个SID会话
SELECT /+ rule / sid, s.serial#, 'kill -9 '||spid, event, blocking_session b_sess
FROM v$session s, v$process p WHERE sid='&sid' AND s.paddr = p.addr order by 1;
4.2.根据SQL_ID杀会话
SELECT /+ rule / sid, s.serial#, 'kill -9 '||spid, event, blocking_session b_sess
FROM v$session s, v$process p WHERE sql_id='&sql_id' AND s.paddr = p.addr order by 1;
4.3.根据等待事件杀会话
SELECT /+ rule / sid, s.serial#, 'kill -9 '||spid, event, blocking_session b_sess
FROM v$session s, v$process p WHERE event='&event' AND s.paddr = p.addr order by 1;
4.4.根据用户杀会话
SELECT /+ rule / sid, s.serial#, 'kill -9 '||spid, event, blocking_session b_sess
FROM v$session s, v$process p WHERE username='&username' AND s.paddr = p.addr order by 1;

**5.性能报告收集与自动诊断报告（性能分析必备）
5.1.statspack (提示：适合于9i以下版本)**
spcreate.sql, execute statspack.snap
spreport.sql spdrop.sql
5.2.awr性能监控工具的使用方法(提示：10g/11g/12c/18c/19c使用)
性能报告产生方法(支持txt和html格式):
@$ORACLE_HOME/rdbms/admin/awrrpt.sql
或者
--RAC可以指定实例id
@$ORACLE_HOME/rdbms/admin/awrrpti.sql
5.3. addm自动故障诊断报告(提示：10g/11g/12c/18c/19c使用)
@$ORACLE_HOME/rdbms/admin/addmrpt.sql
或者
--RAC可以指定实例id
@$ORACLE_HOME/rdbms/admin/addmrpti.sql

6.定期检查表空间使用情况（表空间100%导致业务异常）
--from:www.fgedu.net.cn/oracle.html
col f.tablespace_name format a15
col d.tot_grootte_mb format a10
col ts-per format a8
select upper(f.tablespace_name) "TS-name",

   d.tot_grootte_mb "TS-bytes(m)",
   d.tot_grootte_mb - f.total_bytes "TS-used (m)",
   f.total_bytes "TS-free(m)",
   to_char(round((d.tot_grootte_mb - f.total_bytes) / d.tot_grootte_mb * 100,
                 2),
           '990.99') "TS-per"
     from (select tablespace_name,
           round(sum(bytes) / (1024 * 1024), 2) total_bytes,
           round(max(bytes) / (1024 * 1024), 2) max_bytes
      from sys.dba_free_space
     group by tablespace_name) f,
   (select dd.tablespace_name,
           round(sum(dd.bytes) / (1024 * 1024), 2) tot_grootte_mb
      from sys.dba_data_files dd
     group by dd.tablespace_name) d

where d.tablespace_name = f.tablespace_name
order by 5 desc;

7.捕获占用CPU利用率过高的SQL语句
set lin 1000
set pagesize 1000
col USERNAME format a16
col MACHINE format a16
col SQL_TEXT format a200
SELECT a.username,a.machine,a.program,a.sid,a.serial#,a.status,c.piece,c.sql_text FROM v$session a,v$process b,v$sqltext c WHERE b.spid='&spid' AND b.addr=a.paddr AND a.sql_address=c.address(+) ORDER BY c.piece;

8.查看等待事件（在数据库中首先要检查的操作）
col event for a45
SELECT inst_id,EVENT, SUM(DECODE(WAIT_TIME, 0, 0, 1)) "Prev", SUM(DECODE(WAIT_TIME, 0, 1, 0)) "Curr", COUNT(*) "Tot" , sum(SECONDS_IN_WAIT) SECONDS_IN_WAIT
FROM GV$SESSION_WAIT
WHERE event NOT
IN ('smon timer','pmon timer','rdbms ipc message','SQL*Net message from client','gcs remote message')

AND event NOT LIKE '%idle%'
AND event NOT LIKE '%Idle%'
AND event NOT LIKE '%Streams AQ%'

GROUP BY inst_id,EVENT
ORDER BY 1,5 desc
提示：数据库中有一些常见异常等待事件，要重点分析，如：row cache lock、buffer busy waits、library cache lock、read by other session、latch:shared pool、gc buffer busy、cursor: pin S on X、direct path read、log file sync、enq: TX - index contention、latch free、enq: TX - row lock contention等等。

9.根据等待事件查会话
得到异常等待事件之后，我们就根据等待事件去查会话详情，也就是查看哪些会话执行哪些SQL在等待，另外还查出来用户名和机器名称，以及是否被阻塞。
SELECT /+rule / sid, s.serial#, spid, event, sql_id, seconds_in_wait ws, row_wait_obj# obj,
s.username, s.machine, BLOCKING_INSTANCE||'.'||blocking_session b_sess
FROM v$session s, v$process p
WHERE event='&event_name' AND s.paddr = p.addr order by 6;
10.查询某个会话详情
得到会话列表之后，可以根据如下SQL查询某个会话的详细信息，如上次个执行的SQL_ID，登录时间等。
SELECT s.sid, s.serial#, spid, event, sql_id, PREV_SQL_ID, seconds_in_wait ws, row_wait_obj# obj,
s.username, s.machine, module,blocking_session b_sess,logon_time
FROM v$session s, v$process p
WHERE sid = '&sid' AND s.paddr = p.addr
11.查询对象信息
从前面两个SQL都可以看到会话等待的对象ID，可以通过如下SQL查询对象的详细信息。
col OBJECT_NAME for a30
select owner,object_name,subobject_name,object_type
from dba_objects
where object_id=&oid
12.根据SQL_ID、HASH_VALUE查询SQL语句
select sql_id,SQL_fullTEXT
from v$sqlarea
where (sql_id='&sqlid' or hash_value=to_number('&hashvale') )
and rownum<2
13..查询会话阻塞情况，某个会话阻塞了多少个会话。
select count(*),blocking_session
from v$session
where blocking_session is not null
group by blocking_session;
**14.查询数据库的锁
通过如下SQL查询某个会话的锁，有哪些TM、TX锁，以及会话和锁关联查询的SQL。**
set linesize 180
col username for a15
col owner for a15
col OBJECT_NAME for a30
col SPID for a10
14.1.查询某个会话的锁
select /+rule/SESSION_ID,OBJECT_ID,ORACLE_USERNAME,OS_USER_NAME,PROCESS,LOCKED_MODE
from gv$locked_object where session_id=&sid;
14.2.查询TM、TX锁
select /+rule/* from v$lock
where ctime >100 and type in ('TX','TM') order by 3,9;
14.3.查询数据库中的锁
select /+rule/s.sid,p.spid,l.type,round(max(l.ctime)/60,0) lock_min,s.sql_id,s.USERNAME,b.owner,b.object_type,b.object_name
from v$session s, v$process p,v$lock l,v$locked_object o,dba_objects b
where o.SESSION_ID=s.sid and s.sid=l.sid and o.OBJECT_ID=b.OBJECT_ID
and s.paddr = p.addr and l.ctime >100 and l.type in ('TX','TM','FB')
group by s.sid,p.spid,l.type,s.sql_id,s.USERNAME,b.owner,b.object_type,b.object_name
order by 9,1,3
15.故障信息收集
提示：数据库hang住了之后，需要详细分析原因，或者提供给二线支持的信息，可使用下面脚本，收集systemstate dump和hanganalyze信息，如果有sqlplus无法登陆的情况，可以加-prelim参数。
--systemstate dump
sqlplus -prelim / as sysdba
oradebug setmypid
oradebug unlimit;
oradebug dump systemstate 266;
--wait for 1 min
oradebug dump systemstate 266;
--wait for 1 min
oradebug dump systemstate 266;
oradebug tracefile_name;
--hanganalyze
oradebug setmypid
oradebug unlimit;
oradebug dump hanganalyze 3
--wait for 1 min
oradebug dump hanganalyze 3
--wait for 1 min
oradebug dump hanganalyze 3
oradebug tracefile_name

Sentinel 1.8.0 年度版本发布，熔断降级重构升级-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

在经过数月的打磨后，Sentinel 1.8.0 版本正式发布！该版本是本年度最重要的版本之一，包含大量特性改进与 bug 修复，尤其是针对熔断降级特性的完善升级（支持任意统计时长、慢调用比例降级策略、熔断器事件监听）；同时该版本进一步扩充了开源生态，提供对 Java EE (JAX-RS, CDI), Quarkus, HTTP client 等体系的原生支持。详细特性列表请参考 Release Notes，欢迎大家使用并提出建议。

下面我们来一起探索一下 Sentinel 1.8.0 的重要特性。

熔断降级改进

现代微服务架构都是分布式的，由非常多的服务组成。不同服务之间相互调用，组成复杂的调用链路。以上的问题在链路调用中会产生放大的效果。复杂链路上的某一环不稳定，就可能会层层级联，最终导致整个链路都不可用。因此我们需要对不稳定的弱依赖服务进行自动熔断，暂时切断不稳定调用，避免局部不稳定因素导致整体的雪崩。

Sentinel 1.8.0 版本对原有的熔断降级模块进行了重构和升级，重新以熔断器（cicuit breaker）的形式进行抽象，并进一步完善了熔断器的能力。新版熔断降级支持任意统计时长，用户可以根据接口的场景灵活配置统计维度为秒级或者分钟级；同时我们也引入了用户需要的半开启探测恢复支持。新版熔断降级还对原有的秒级平均 RT 策略进行了升级，原有 RT 策略对稀疏请求不友好，并且采用平均 RT 可能会被某个特别慢的调用影响。1.8.0 版本将基于响应时长的策略升级为慢调用比例策略，用户指定响应时长超出多少记为慢调用（即稳态 RT 的上界），同时配置慢调用比例阈值，结合场景配置统计时长维度，即可更好地针对慢调用进行熔断。用户可以结合 Sentinel 控制台的实时监控来决定稳态 RT 的阈值。

同时考虑到用户可能需要感知熔断器的状态变化以进行一些日志记录或其它的操作，Sentinel 提供了熔断器的事件监听器扩展，用户可以注册自定义的事件监听器以感知熔断器状态变化。示例：

EventObserverRegistry.getInstance().addStateChangeObserver("logging",

(prevState, newState, rule, snapshotValue) -> {
    if (newState == State.OPEN) {
        // 变换至 OPEN state 时会携带触发时的值
        System.err.println(String.format("%s -> OPEN at %d, snapshotValue=%.2f", prevState.name(),
            TimeUtil.currentTimeMillis(), snapshotValue));
    } else {
        System.err.println(String.format("%s -> %s at %d", prevState.name(), newState.name(),
            TimeUtil.currentTimeMillis()));
    }
});

至此，Sentinel 已提供三种熔断策略：慢调用比例、异常比例和异常数。有关熔断降级特性的更多信息请参考熔断降级文档。

开源生态与云原生

Sentinel 1.8.0 进一步扩充了开源生态。Sentinel 1.8.0 引入了 Java EE 原生支持，提供对 JAX-RS Web 应用的原生支持（sentinel-jax-rs-adapter），以及基于 CDI 的注解埋点支持（sentinel-annotation-cdi-interceptor），对于采用原生 Java EE 架构的服务可以更方便地接入。

Quarkus 作为广受关注的云原生微服务框架，在微服务框架中活跃度排名前列。Sentinel 1.8.0 提供了针对 Quarkus 的适配模块，支持 Quarkus Web 服务无缝集成（基于 JAX-RS 适配），并且通过 CDI 注解埋点支持和 Reactor 适配，可以针对 Quarkus 服务中的任意逻辑进行流控。Quarkus 适配模块支持构建 native image，感兴趣的开发者欢迎参考 demo 进行尝试。

至此，Sentinel 的开源生态得到进一步扩充：

其它重要特性/改进

@SentinelResource 注解支持配置类级别统一的 defaultFallback
修复 Dubbo 2.7.x 适配模块 Entry 泄漏可能导致 FGC 的 bug

修复 Spring Web 适配模块在内部转发请求时可能导致 ErrorEntryFreeException 的 bug
支持通过 properties 配置文件配置 project.name（至此所有启动配置项均可通过文件配置）
新增 Eureka 数据源支持
更多信息请参考 Release Notes。

Start hacking

Sentinel 1.8.0 是社区一起定义的年度版本，近 80% 的特性都是社区开发者贡献的。感谢各位贡献者的付出！同时我们非常欢迎大家持续参与社区贡献，一起来参与未来版本的演进。若您有意愿参与社区贡献，欢迎联系我们加入 Sentinel 贡献小组一起成长（Sentinel 开源讨论钉钉群：30150716）。我们会定期给活跃贡献者寄送小礼品，核心贡献者会提名为 committer，一起主导社区的演进。同时，也欢迎大家通过 AHAS Sentinel 控制台来快速体验 Sentinel 的能力。Now let's start hacking!

8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

主题：

OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能

直播时间：

8月27日 19:00

观看方式：

届时进入直播间（回看链接也是这个）：https://developer.aliyun.com/live/43848?spm=5176.8068049.0.0.27366d19Q1XzyT

或扫描下方钉钉群二维码进群观看

讲师介绍：

陈海锋，英特尔亚太研发有限公司大数据部门的高级软件架构师，开发经理，主要研究和关注基于Hadoop和Spark的大数据框架的分析和优化，Apache社区的长期贡献者。

沈祥翔，英特尔亚太研发有限公司大数据部门的高级软件工程师，主要担任OAP项目的开发。

直播介绍：

简单介绍OAP的总体蓝图。同时详细介绍其中的一个具体优化，使用索引和缓存来解决交互式查询性能挑战。英特尔和社区合作，为Spark SQL实现了索引和数据源缓存，通过为关键查询列创建并存储完整的B +树索引，并使用智能的细粒度数据缓存策略，我们可以极大的提升基于Spark SQL的交互式查询的性能。

消息链路优化之弱感知链路优化-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

作者：闲鱼技术-逸昂

一、消息系统面临的问题

闲鱼的消息系统作为沟通买家与卖家的工具，增进理解、促进信任，对闲鱼的商品成交有重要的价值，是提升用户体验最关键的环节。
闲鱼消息系统面临的问题包括：在线消息的体验提升、离线推送的到达率、消息玩法与消息底层系统的耦合过强。
现阶段离线推送的问题最为关键，对用户体验影响较大，本文优先解决离线推送的到达问题。

二、消息系统现状

2.1 消息系统链路区分

根据闲鱼客户端是否在线，闲鱼的整体消息链路大致可以分为强感知链路和弱感知链路。
强感知链路由发送方客户端、idleapi-message（闲鱼的消息网关）、heracles（闲鱼的消息底层服务）、accs（阿里自研的长连接通道）、接收方客户端组成。整条链路的核心指标在于端到端延迟和消息到达率。强感知链路的双方都是在线的，消息到达客户端就可以保证接收方感知到。强感知链路的主要痛点在消息的端到端延迟。
弱感知链路与强感知链路的主要不同在于：弱感知链路的接收方是离线的，需要依赖离线推送这样的方式送达。因此弱感知链路的用户感知度不强。其核心指标在于消息的到达率，而非延迟。当前弱感知链路的重点是到达率仍有提升空间。

2.3 闲鱼的消息架构

这里放一张闲鱼消息系统的架构图，大家感受下整体链路：

HSF是一个远程服务框架，是dubbo的内部版本。
tair是阿里自研的分布式缓存框架，支持 memcached、Redis、LevelDB 等不同存储引擎。
agoo是阿里的离线推送中台，负责整合不同厂商的离线推送通道，向集团用户提供一个统一的离线推送服务。
accs是阿里自研的长连接通道，为客户端、服务端的实时双向交互提供便利。
lindorm是阿里自研的NoSQL产品，与HBase有异曲同工之妙。
域环是闲鱼消息优化性能的核心结构，用来存储用户最新的若干条消息。

强感知链路和弱感知链路在通道选择上是不同的。强感知链路使用accs这个在线通道。弱感知链路使用agoo这个离线通道。

三、弱感知链路问题分析

链路这件事情，比较抽象。首先需要分析链路的核心指标、链路的环节、链路的瓶颈，然后才能着手优化。问题分析清楚，也就成功了一半。

3.1 何为弱感知

本期先带大家看看闲鱼的弱感知链路优化。弱感知链路是指闲鱼的离线推送系统。
相比较于在线消息和端内推送，离线推送难以确保被用户感知到。典型的情况包括：

未发送到用户设备。因为离线通道的token失效、参数错误、用户关闭应用通知、用户已卸载等原因，推送未送达用户设备。这种情况可以从通道的返回分析。
发送到用户设备但没有展示到系统通知栏。闲鱼曾遇到通道返回成功，但是用户未看到推送的案例。
展示到通知栏，并被系统折叠。不同安卓厂商对推送的折叠策略不同，折叠的原因包括：点击率、应用在厂商处的权重、推送的数量等。推送被折叠后，需要用户主动展开才能看到推送内容，触达效果会明显变差。
展示到通知栏，并被用户忽略。离线推送的点击率相比于在线推送更低，原因包括：用户不愿意查看推送；用户看到了推送，但是对内容不感兴趣；用户在忙别的事，无暇处理。

离线推送用户感知度不高，闲鱼称之为弱感知链路。

3.2 弱感知链路的构成

闲鱼的弱感知链路分为系统、通道、用户三个部分，包含Hermes、agoo、厂商、设备、用户、承接页这几个环节。

从推送的产生到用户最终进入闲鱼，共分为如下几个步骤：
Step 1. Hermes是闲鱼的用户触达系统，负责人群管理、内容管理、时机把控，是整个弱感知链路的起点。
Step 2. agoo是阿里内部承接离线推送的中台，是闲鱼离线推送能力的基础。
Step 3. agoo实现离线推送依靠的是厂商的推送通道，例如：苹果的apns通道、Google的fcm通道、以及国内各大厂商的自建通道。
Step 4. 通过厂商的通道，推送最终出现在用户的设备上，这是用户能感知到推送的前提条件。
Step 5. 如果用户刚巧看到这条推送，推送的内容也很有趣，在用户的主动点击下。会唤起闲鱼，打开承接页，进而给用户展示个性化的商品。到此，弱感知链路就完成了使命。

3.3 弱感知链路面临的问题

弱感知链路的核心问题在于：

推送的消息是否投递给了用户。
用户是否有感知

这对应推送的两个阶段：

推送到达设备
用户查看推送并点击

其中，到达设备这个阶段是最基础的，也是本次优化的核心。
我们可以将每一步的消息处理量依次平铺，展开为一张漏斗图，从而直观的查看链路的瓶颈。漏斗图斜率最大的地方是优化的重点，差异小的地方不需要优化。

通过分析闲鱼的漏斗图，弱感知链路的优化重点在三个方面：

agoo受理率。agoo受理率是闲鱼发送推送的数量到可以通过agoo（阿里承接离线推送的中台）转发到厂商通道的数量之间的漏斗。
厂商受理率。厂商受理率是agoo中台受理的量到厂商返回成功的量之间的漏斗。
Push点击。

有了优化方向，我们来看看优化手段吧。

四、弱感知链路优化

我们跟随推送的视角，顺着链路看下闲鱼的优化。

4.1 agoo受理率优化

用户的推送，从 Hermes 站点搭乘“班车”，驶向下一站： agoo。这是推送经历的第一站，到站一看，傻眼了，只有不到一半的推送到站下车了。这是咋回事嘞？
这就要先说说 agoo 了，调用 agoo 有两种方式：

指定设备和客户端，agoo直接将推送投递到相应的设备
指定用户和客户端，agoo根据内部的转换表，找到用户对应的设备，再进行投递。

闲鱼不保存用户的设备信息。因此，闲鱼是按照用户来调用agoo的。同时，因为由于没有用户的设备信息，并不知道用户是 iOS 客户端还是 Android 客户端。工程侧不得不向 iOS 和 Android 都发送一遍推送。虽然保证了到达，但是，一半的调用都是无效的。
为了解这个问题，我们使用了agoo的设备信息。将用户转换设备这一阶段提前到了调用 agoo 之前，先明确用户对应的设备，再指定设备调用 agoo，从而避免无效调用。

agoo调用方式优化后，立刻剔除了无效调用，agoo受理率有了明显提升。至此，我们总算能对 agoo 受理失败的真正原因做一个高大上的分析了。根据统计，推送被 agoo 拒绝的主要原因是：用户关闭了通知权限
同时，对 agoo 调用数据的进一步分析发现。有部分用户找不到对应的设备。
优化到此，我们猛然发现多了两个问题。那就优化呗：

通知体验优化，引导打开通知权限
与agoo共建设备库，解决设备转换失败的问题

这两个优化方向又是一片新天地，我们择日再聊。

4.2 厂商受理率优化

推送到达 agoo ，分机型搭乘厂商“专列”，驶向下一站：用户设备。这是推送经历的第二站。出站查票，发现竟然超员了。于是乎，闲鱼每天有大量推送因为超过厂商设定的限额被拦截。
提供推送通道的厂商，为了保证用户体验，会对每个应用能够推送的消息总量进行限制。这个限制会根据推送的类型和应用的用户规模设定。
推送主要分为产品类的推送和营销类的推送。对于产品类推送，厂商会保证到达；对于营销类推送，厂商会进行额度限制。未标记的推送默认作为营销类推送对待。
闲鱼刚好没有对推送进行标记，因此触发了厂商的推送限制。这对闲鱼的用户来说，会带来困扰。闲鱼的交易，很依赖买卖家之间的消息互动。这部分消息是需要确保到达的。同样，订单类的消息、用户的关注，也需要保证推送给用户。
根据主流厂商的接口协议，闲鱼将Push分为即时通讯消息、订单状态变化、用户关注内容、营销消息这几类，并进行相应标记。
同时，在业务上，我们也进行了推送的治理。将用户关注度不高的消息，取消推送，避免打扰。
经过这些优化，闲鱼因为超过厂商限额而被拦截的推送实现了清零。

4.3 Push点击优化

在日常的开发测试过程中，闲鱼的工程师们发现了推送的两个体验问题：

用户点击Push有开屏广告
营销Push 也有权限校验，更换用户登陆后无法点击

对于开屏广告功能，闲鱼增加了Push点击跳广告的能力。针对Push的权限校验功能，闲鱼根据场景做了细分。涉及个人隐私的推送，保持权限校验不变。营销类的推送，放开权限校验。
以上是点击体验的优化，我们还需要考虑用户的点击意愿。
用户点击量与推送的曝光量、推送素材的有趣程度相关。推送的曝光量又和推送的到达量、推送的到达时机有关。通过优化agoo受理率、厂商受理率，我们解决了推送到达量的瓶颈。在推送内容上，我们需要优化的是推送的时机和相应的素材。
在推送时机上，算法会根据用户的偏好和个性化行为数据，计算每个用户的个性化推送时间，在用户空闲的时间推送。避免在不合适的时间打扰用户，同时也能提升用户看到推送的可能性。
在推送素材上，算法会根据素材的实时点击反馈，对素材做实时赛马。只发用户感兴趣的素材，提高用户点击意愿。

五、链路优化效果

通过分析链路的瓶颈并进行相对应的优化，整体链路有了不错的提升，到达率相对提升了两位数。

六、聊后续

今天主要和大家聊一下消息链路中的一环：弱感知链路的优化。
消息系统整体，还是一个比较复杂的领域。闲鱼在消息的发展过程中，面临着如下问题：

如何进行消息的链路追踪
如何保证IM消息的快速到达
如何将消息的玩法和底层能力分离
离线推送中如何通过用户找到对应的设备

在后续的文章中，我们会和大家一一讨论这些主题。预知后事如何，且听下回分解。

Cassandra4.0版本新功能揭秘-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

8月份的社区线上开发者活动，邀请到的演讲嘉宾蔡一凡老师是Cassandra贡献者之一，其所在公司部署了全球最大的Cassandra集群节点数量。
本次演讲介绍了Cassandra 4.0版本中的新功能：审计日志、零拷贝串流、Netty节点间通信、虚拟表、增量式修复、临时副本等。
1、审计日志：
将数据库所有操作记录到一个本地文件，包括authentication，所有的CQL请求，不论成功与否都会被记录下来。用途广泛，如利用记录来debug线上问题，也可以辅助测试。4.0版本中同步推出的full query logger就是用审核日志来实现的，这些由full query logger生成的记录可用来做回放测试。另外，也可以帮助企业做合规管理，可作为企业的审核依据。
2、零拷贝串流：
零拷贝串流是指在串流时无需将数据读到内存后再写入到网络，发送方和接收方可以直接通过网络发送和接收数据。从而显著提升性能（3-5倍的速度），远小于普通串流所需的时间，并大大减少内存和CPU的占用。在Cassandra中，串流会被应用于很多场景。基本所有数据在集群中被复制时都可用到。 零拷贝串流可帮助缩短节点的恢复时间，降低多个节点同时处于不可用状态的概率。可以帮助降低运维成本。如加速节点数据迁移速率。
3、Netty节点间通信
在4.0版本中，节点间通信改成了Netty。I/O是非阻塞的，不再按节点分配线程。
Netflix通过测试192个节点的Cassandra集群，对比4.0和3.0版本，发现4.0版本的延迟平均值减少40%，99分位的延迟减少了60%，吞吐量提升约2倍。
另外，节点间加密通信扩展性更高，主要是得益于Netty的tcnative。它跟JDK自带的加密性能相比，大概提升了有4倍。
4、虚拟表
虚拟表是基于Cassandra内部的一些API实现的，可以把虚拟表当作Cassandra的一个接口。目前虚拟表是只读的。每一个虚拟表都是每个节点所特有的，也就是说虚拟表是local的。有了虚拟表，我们可以不用JMX，通过CQL来进行查询虚拟表，从而获取Cassandra的系统状态和当前配置。
5、增量式修复
增量式修复在2.1版本中就已推出。但这个功能存在一些问题，不适用于生产环境。Cassandra 4.0把之前的很多问题修复了。增量式修复将数据分为“已修复”和“未修复”两个部分，每次修复时只修复“未修复”的部分，不再修复已修复过的数据。从而减少每次修复的时间，只需要几分钟即可完成。
6、临时副本
临时副本是4.0版本的试验性功能，并不推荐用在生产环境中。临时副本节点只保存没有修复的数据，在修复之后，这些数据就会被临时副本节点删除。这个功能最好是和增量式修复一起使用，这样可以很快地从临时副本节点中将未修复的数据修复，之后再删除。这样一来，可以认为临时节点并不占用存储空间。
临时副本节点带来的好处是减少存储空间，临时节点只保留临时数据，数据量比较小，修复完就删除，所以这个节点会使用更少的CPU和I/O。

MongoDB Certified DBA 经验分享-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

Introduction

MongoDB 官方认证包括两个类型，

• Certified DBA
• Certified Developer

DBA 强调系统的管理，Developer 强调对 MongoDB 的使用，比如要对 Aggregation 的各种 Operator 的使用很熟悉，但是也有很多共性的知识点，比如 CRUD，Index 等，我们选择 Certified DBA 即可。

完成任何一个认证，需要进行线上的考试，考试时长 90 分钟，需要准备一个单独房间和干净的桌面，不能用任何参考资料（网页，手抄等），监考老师会通过视频会议软件和你沟通，全程需要录屏，并要求你的正面头像要一直处于摄像头范围内，还是比较严格的。

每个月会有一个考试时间段，称为一个 Session，每个 Session 大约是 10 天，报名交 150 美金，可以约接下来 Session 的任何一天来参加考试，详细的注册步骤根据邮件流程走即可，需要注意的是预约的时间要选好时区，在中国的话选择 Taipei 即可。另外，考试如果没通过是不退费的。

注册地址：https://university.mongodb.com/certification/dba/about

Learning Path

Certified DBA 主要有两个学习资料，一个是 MongoDB University 的 DBA 课程，如下，

• M001: MongoDB Basics
• M103: Basic Cluster Administration
• M201: MongoDB Performance
• M310: MongoDB Security
• M312: Diagnostics & Debugging

另外一个是，官方给的 MongoDB Certification Exam Study Guide ，这个 study guide 的优点是全面，涵盖考试涉及的所有知识点，但是内容非常多，而且全部看文档也比较无聊，对知识理解也不深刻，所以我的建议是先学习上面的视频课程，跟着课程走一遍，抓住重点，每门课程中间会穿插一些小考试，结束的时候会有一个最终考试，6 个选择题，考试通过会给你发一个电子证书，也建议大家都通过一下。

课程学习时间参考：前两个比较基础，每门差不多2-3 个小时应该就可以全过一遍，后面三门课程细节比较多一些，预计每门课程需要 5-6 个小时。

课程学完之后， MongoDB Certification Exam Study Guide 就可以发挥作用了，可以根据学习的课程，把这个 study guide 快速整体过一遍，看看还有没有不熟悉的知识点，适当做些笔记，后面再回顾几次，知识部分的学习我觉得就足以通过这个考试了。

这里共享一下，我自己记录的笔记，这个笔记只记录了我在看 study guide 对应的 documentation 的时候不熟悉的知识点，从最后的实际考试来看，有些知识点可能超出了考试的范围，仅供参考，

MongoDB DBA 认证知识 Review.pdf

Exam

考试全部是选择题，总共 60 个，大部分为多选，得分要求是 490 分以上才能通过，但是考试的总分以及每个题的评分标准并没有公布，所以目前是不清楚的，题目按 study guide 分类，最后如果通过的话，给出的考试结果，也是各个分类题目正确的百分比，没有具体的分数，下面是我的一个参考结果，

在知识部分学习完成之后，大家可以先去试一下 Practice Exam （https://university.mongodb.com/certification/exam-prep ），熟悉一下考试操作和题目分类，另外真正的考试也遇到几个题和 Practice Exam 高度相似，这个 Practice Exam 还是值得去多试几次的。

说下正式考试的流程，按预约的时间提前 15 分钟找个会议室，然后点 Start Exam，会有 Proctor 跟你视频，确认你的 ID 和设置的安全提问，所以身份证要记得带着，然后监考会确认考试环境没有干扰，就可以开始考试了，上述流程都是在一个第三方的网站，但是当真正考试的时候，就还是在 MongoDB 自己的网站，和你 Practice Exam 的环境一致。

最后，Good Luck。

mysql读写分离1 -- mysql安装-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

安装前先删除残留：

[root@izwz9hy3mj62nle7573jv5z ~]# rpm -qa | grep -i mysql
[root@izwz9hy3mj62nle7573jv5z ~]# 
[root@izwz9hy3mj62nle7573jv5z ~]# find / -name mysql
/root/.jenkins/local_lib/mysql
/etc/selinux/targeted/active/modules/100/mysql
/usr/lib64/mysql
/usr/share/mysql
/usr/bin/mysql
[root@izwz9hy3mj62nle7573jv5z ~]#

安装：

下载地址：https://downloads.mysql.com/archives/community/

# 下载
wget  https://downloads.mysql.com/archives/get/p/23/file/mysql-community-server-5.7.23-1.el7.x86_64.rpm
# 会通过rpm自动下载并且覆盖强制安装
rpm -ivh mysql-community-server-5.7.23-1.el7.x86_64.rpm --force --nodeps

卸载--rpm安装方式的卸载：

# 卸载
rpm -e xxxxxXXX.rpm

卸载--yum安装方式的卸载：

yum remove mariadb*
yum remove mysql*

访问数据库：

mysql -uroot -p

创建用户和授权：

-- 使用命令登录：mysql -u root -p
-- 创建用户 用户名：long 密码：Long@123456
create user 'long'@'%' identified by 'Long@123456';
-- 授权 *.*表示所有库
grant SELECT, REPLICATION SLAVE, REPLICATION CLIENT on *.* to 'long'@'%' identified by 'Long@123456';
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION;

忘记密码：

# 配置跳过授权
[root@izwz9hy3mj62nle7573jv5z ~]# vim /etc/my.cnf
# 如果忘记密码，配置skip-grant-tables，实现访问后跳过授权
[mysqld]
 skip-grant-tables

# 重启mysql，再次登陆无需

重设密码：

flush privileges;
set password for root@localhost = password('123456');
flush privileges;

重设密码后注释掉skip-grant-talbes

创建用户和授权：

-- 使用命令登录：mysql -u root -p
-- 创建用户 用户名：canal 密码：Canal@123456
create user 'canal'@'%' identified by 'Canal@123456';
-- 授权 *.*表示所有库
grant SELECT, REPLICATION SLAVE, REPLICATION CLIENT on *.* to 'canal'@'%' identified by 'Canal@123456';

重启：

service mysqld restart

Elasticsearch 既是搜索引擎又是数据库？真的有那么全能吗？-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

作者介绍：李猛(ynuosoft)，Elastic-stack 产品深度用户，ES 认证工程师，2012 年接触 Elasticsearch，对 Elastic-Stack 开发、架构、运维等方面有深入体验，实践过多种 Elasticsearch 项目，最暴力的大数据分析应用，最复杂的业务系统应用；业余为企业提供 Elastic-stack 咨询培训以及调优实施。

Elasticsearch 认知

Elasticsearch 是什么

Elasticsearch 是什么，不同的人有不同的理解定位，之前写过 Elasticsearch 对比其它数据产品的文章《 Elasticsearch 对垒8大竞品技术，孰优孰劣？》，看了文章下面的评论，很多人定位它是搜索引擎，我觉得也很片面，下面就谈谈我的认知：

1）Elasticsearch 是搜索引擎

Elasticsearch 在搜索引擎数据库领域排名绝对第一，内核基于 Lucene 构建，支持全文搜索是职责所在，提供了丰富友好的 API。个人早期基于 Lucene 构建搜索应用，需要考虑的因素太多，自接触到 Elasticsearch 就再无自主开发搜索应用。普通工程师要想掌控 Lucene 需要一些代价，且很多机制并不完善，需要做大量的周边辅助程序，而 Elasticsearch 几乎都已经帮你做完了。

2）Elasticsearch 不是搜索引擎

说它不是搜索引擎，估计很多从业者不认可，在个人涉及到的项目中，传统意义上用 Elasticsearch 来做全文检索的项目占比越来越少，多数时候是用来做精确查询加速，查询条件很多，可以任意组合，查询速度很快，替代其它很多数据库复杂条件查询的场景需求；甚至有的数据库产品直接使用 Elasticsearch 做二级索引，如 HBase、Redis 等。Elasticsearch 由于自身的一些特性，更像一个多模数据库。

图示：Elasticsearch 综合数据库排名热度已经到第 7

3）Elasticsearch 是数据库

Elasticsearch 使用 Json 格式来承载数据模型，已经成为事实上的文档型数据库，虽然底层存储不是 Json 格式，同类型产品有大名鼎鼎的 MongoDB，不过二者在产品定位上有差别，Elasticsearch 更加擅长的基于查询搜索的分析型数据库，倾向 OLAP；MongoDB 定位于事务型应用层面 OLTP，虽然也支持数据分析，笔者简单应用过之后再无使用，谁用谁知道。

4）Elasticsearch 不是数据库

Elasticsearch 不是关系型数据库，内部数据更新采用乐观锁，无严格的 ACID 事务特性，任何企图将它用在关系型数据库场景的应用都会有很多问题，很多其它领域的从业者喜欢拿这个来作为它的缺陷，重申这不是 Elasticsearch 的本质缺陷，是产品设计定位如此。

Elasticsearch 做什么

Elasticsearch 虽然是基于 Lucene 构建，但应用领域确实非常宽泛。

1）全文检索

Elasticsearch 靠全文检索起步，将 Lucene 开发包做成一个数据产品，屏蔽了 Lucene 各种复杂的设置，为开发人员提供了很友好的便利。很多传统的关系型数据库也提供全文检索，有的是基于 Lucene 内嵌，有的是基于自研，与 Elasticsearch 比较起来，功能单一，性能也表现不是很好，扩展性几乎没有。
如果，你的应用有全文检索需求，建议你优先迁移到 Elasticsearch 平台上来，其提供丰富的 Full text queries 会让你惊讶，一次用爽，一直用爽。

2）应用查询

Elasticsearch 最擅长的就是查询，基于倒排索引核心算法，查询性能强于 B-Tree 类型所有数据产品，尤其是关系型数据库方面。当数据量超过千万或者上亿时，数据检索的效率非常明显。

个人更看中的是 Elasticsearch 在通用查询应用场景，关系型数据库由于索引的左侧原则限制，索引执行必须有严格的顺序，如果查询字段很少，可以通过创建少量索引提高查询性能，如果查询字段很多且字段无序，那索引就失去了意义；相反 Elasticsearch 是默认全部字段都会创建索引，且全部字段查询无需保证顺序，所以我们在业务应用系统中，大量用 Elasticsearch 替代关系型数据库做通用查询，自此之后对于关系型数据库的查询就很排斥，除了最简单的查询，其余的复杂条件查询全部走 Elasticsearch。

3）大数据领域

Elasticserach 已经成为大数据平台对外提供查询的重要组成部分之一。大数据平台将原始数据经过迭代计算，之后结果输出到一个数据库提供查询，特别是大批量的明细数据。

这里会面临几个问题，一个问题是大批量明细数据的输出，如何能在极短的时间内写到数据库，传统上很多数据平台选择关系型数据库提供查询，比如 MySQL，之前在这方面吃过不少亏，瞬间写入性能极差，根本无法满足要求。另一个问题是对外查询，如何能像应用系统一样提供性能极好的查询，不限制查询条件，不限制字段顺序，支持较高的并发，支持海量数据快速检索，也只有 Elasticsearch 能够做到比较均衡的检索。

从官方的发布版本新特性来看，Elasticseacrch 志在大数据分析领域，提供了基于列示存储的数据聚合，支持的聚合功能非常多，性能表现也不错，笔者有幸之前大规模深度使用过，颇有感受。

Elasticsearch 为了深入数据分析领域，产品又提供了数据 Rollup 与数据 Transform 功能，让检索分析更上一层楼。在数据 Rollup 领域，Apache Druid 的竞争能力很强，笔者之前做过一些对比，单纯的比较确实不如 Druid，但自 Elasticsearch 增加了 Transfrom 功能，且单独创建了一个 Transfrom 的节点角色，个人更加看好 Elasticseach，跳出了 Rollup 基于时间序列的限制。

4）日志检索

著名的 ELK 三件套，讲的就是 Elasticsearch，Logstash，Kibana，专门针对日志采集、存储、查询设计的产品组合。很多第一次接触到 Elasticsearch 的朋友，都会以为 Elasticsearch 是专门做日志的，其实这些都是误解，只是说它很擅长这个领域，在此领域大有作为，名气很大。

日志自身特点没有什么通用的规范性，人为的随意性很大，日志内容也是任意的，更加需求全文检索能力，传统技术手段本身做全文检索很是吃力。而 Elasticsearch 本身起步就是靠全文检索，再加上其分布式架构的特性，非常符合海量日志快速检索的场景。今天如果还发现有IT从业人员用传统的技术手段做日志检索，应该要打屁股了。

如今已经从 ELK 三件套发展到 Elastic Stack 了，新增加了很多非常有用的产品，大大增强了日志检索领域。

5）监控领域
指标监控，Elasticsearch 进入此领域比较晚，却赶上了好时代，Elasticsearch 由于其倒排索引核心算法，也是支持时序数据场景的，性能也是相当不错的，在功能性上完全压住时序数据库。

Elasticsearch 搞监控得益于其提供的 Elastic Stack 产品生态，丰富完善，很多时候监控需要立体化，除了指标之外，还需要有各种日志的采集分析，如果用其它纯指标监控产品，如 Promethues，遇到有日志分析的需求，还必须使用 Elasticsearch，这对于技术栈来说，又扩增了，相应的掌控能力会下降，个人精力有限，无法同时掌握很多种数据产品，如此选择一个更加通用的产品才符合现实。

6）机器学习

机器学习最近几年风吹的很大，很多数据产品都集成了，Elasticsearch 也必须有，而且做的更好，真正将机器学习落地成为一个产品，简化使用，所见所得；而不像其它数据产品，仅仅集成算法包，使用者还必须开发很多应用支持。

Elasticsearch 机器学习提供了两种方式，一种是异常检测类型，属于无监督学习，采用聚类模型，通常应用在安全分析领域，检测异常访问等；一种是数据帧分析，属于分类与回归，属于监督学习，可用于在业务模型领域，如电商行业，价格模型分析。

Elasticsearch 本身是数据平台，集成了部分机器学习算法，同时又集成了 Kibana 可视化操作，使得从数据采集、到模型训练、到模型预测应用都可以一键式完成。

Elasticserach 提供的机器学习套件，个人认为最应该应用在数据质量这个领域，帮助大数据平台自动检测数据质量，从而降低人力提供效率。

需求等级

Elasticsearch 整个的技术栈非常复杂，涉及到的理论与技术点非常多，完全掌握并不现实，作为一个 IT 从业者，首先是定位好自己的角色，依据角色需求去学习掌握必备的知识点。以下是笔者对于一个技术产品的划分模型：

1、概念

Elasticsearch 涉及到的概念很多，核心概念其实就那么几个，对于一个新手来说，掌握概念目的是为了建立起自己的知识思维模型，将之后学习到的知识点做一个很好的归纳划分；对于一个其它数据产品的老手来说，掌握概念的目的是为了与其它数据产品划分比较，深入的了解各自的优劣，在之后工作中若有遇到新的业务场景，可以迅速做出抉择。

IT 从业者普遍都有个感受，IT 技术发展太快了，各种技术框架产品层出不穷，学习掌握太难了，跟不上节奏。其实个人反倒觉得变化不大，基础理论核心概念并没有什么本质的发展变化，无非是工程技术实操变了很多，但这些是需要深入实践才需要的，对于概念上无需要。

作为一个技术总监，前端工程师工作 1～2 年的问题都可以问倒他，这是大家对于概念认知需求不一样。

2、开发

开发工程师的职责是将需求变成可以落地运行的代码。Elasticsearch 的应用开发工作总结起来就是增删改查，掌握必备的 Elasticsearch REST API，熟练运用足以。笔者之前任职某物流速运公司，负责 Elasticsearch 相关的工作，公司 Elasticsearch 的需求很多，尤其是查询方面，Elasticsearch 最厉害的查询是 DSL，这个查询语法需要经常练习使用，否则很容易忘记，当每次有人询问时，都安排一个工程师专门负责各种解答，他在编写 DSL 方面非常熟练，帮助了很多的工程师新手使用 Elasticsearch，屏蔽了很多细节，若有一些难搞定的问题，会由我来解决，另外一方面作为负责人的我偶然还要请他帮忙编写DSL。

Elasticsearch 后面提供了 SQL 查询的功能，但比较局限，复杂的查询聚合必须回到 DSL。

3、架构

Elasticsearch 集群架构总体比较复杂，首先得深入了解 Elasticseach 背后实现的原理，包括集群原理、索引原理、数据写入过程、数据查询过程等；其次要有很多案例实战的机会，遇到很多挑战问题，逐一排除解决，增加自己的经验。

对于开发工程师来说，满足日常需求开发无需掌握这些，但对于 Elasticsearch 技术负责人，就非常有必要了，面对各种应用需求，要能从架构思维去平衡，比如日志场景集群需求、大数据分析场景需求、应用系统复杂查询场景需求等，从实际情况设计集群架构以及资源分配等。

4、运维

Elasticsearch 本质是一个数据库，也需要有专门的 DBA 运维，只是更偏重应用层面，所以运维职责相对传统 DBA 没有那么严苛。对于集群层面必须掌握集群搭建，集群扩容、集群升级、集群安全、集群监控告警等；另外对于数据层面运维，必须掌握数据备份与还原、数据的生命周期管理，还有一些日常问题诊断等。

5、源码

Elasticsearch 本身是开源，阅读源码是个很好的学习手段，很多独特的特性官方操作文档并没有写出来，需要从源码中提炼，如集群节点之间的连接数是多少，但对于多数 Elasticsearch 从业者来说，却非必要。了解到国内主要是头部大厂需要深入源码定制化改造，更多的是集中在应用的便捷性改造，而非结构性的改造，Elastic 原厂公司有几百人的团队做产品研发，而国内多数公司就极少的人，所以从产量上来说，根本不是一个等级的。

如果把 Elasticsearch 比喻为一件军事武器，对于士兵来说，熟练运用才是最重要的，至于改造应该是武器制造商的职责，一个士兵可以使用很多武器装备，用最佳的组合才能打赢一场战争，而不是去深入原理然后造轮子，容易本末倒置。

6、算法

算法应该算是数据产品本质的区别，关系型数据库索引算法主要是基于 B-Tree， Elasticserach 索引算法主要是倒排索引，算法的本质决定了它们的应用边界，擅长的应用领域。

通常掌握一个新的数据产品时，个人的做法是看它的关键算法。早期做过一个地理位置搜索相关的项目，基于某个坐标搜索周边的坐标信息，开始的时候采用的是三角函数动态计算的方式，数据量大一点，扫描一张数据表要很久；后面接触到 Geohash 算法，按照算法将坐标编码，存储在数据库中，基于前缀匹配查询，性能高效几个数量级，感叹算法的伟大；再后面发现有专门的数据库产品集成了 Geohash 算法，使用起来就更简单了。

Elasticsearch 集成很多算法，每种算法实现都有它的应用场景。

拥抱 Elasticsearch 的方法

1、官方文档

Elasticsearch 早期出过一本参考手册《 Elastic 权威指南》，是一本很好的入门手册，从概念到实战都有涉及，缺点是版本针对的 2.0，过于陈旧，除去核心概念，其余的皆不适用，当前最新版本已经是 7.7 了，跨度太大，

Elasticsearch 在跨度大的版本之间升级稍微比较麻烦，索引数据几乎是不兼容的，升级之后需要重建数据才可。

Elasticsearch 当前最好的参考资料是官方文档，资料最全，同步发布版本，且同时可以参考多个版本。

Elasticsearch 官方参考文档也是最乱的，什么资料都有，系统的看完之后感觉仍在此山中，有点类似一本字典，看完了字典，依然写不好作文；而且资料还是英文的，至此就阻挡了国内大部分程序进入。

但想要学习 Elasticsearch，官方文档至少要看过几遍，便于迅速查询定位。

2、系统学习

Elasticsearch 成名很早，国内也有很多视频课程，多数比较碎片，或是纸上谈兵，缺乏实战经验。Elasticsearch 有一些专门的书籍，建议购买阅读，国内深度一些的推荐《 Elasticsearch 源码解析与优化实战》，国外推荐《 Elasticsearch 实战》，而且看书还有助于培养系统思维。

Elasticsearch 技术栈功能特性很多，系统学习要保持好的心态，持之以恒，需要很长时间，也需要参考很多资料。

3、背后原理

Elasticsearch 是站在巨人肩膀上产品，背后借鉴了很多设计思想，集成了很多算法，官方的参考文档在技术原理探讨这块并没有深入，仅仅点到为止。想要深入了解，必须得另辟蹊径。

Elastic 官方的博客有很多优质的文章，很多人因为英文的缘故会忽视掉，里面有很多关键的实现原理，图文并茂，写得非常不错；另外国内一些云厂商由于提供了 Elasticsearch 云产品，需要深度定制开发，也会有一些深入原理系列的文章，可以去阅读参考，加深理解。对于已经有比较好的编程思维的人，也可以直接去下载官方源码，设置断点调试阅读。

4、项目实战

项目实战是非常有效的学习途径，考过驾照的朋友都深有体会，教练一上来就直接让你操练车，通过很多次的练习就掌握了。Elasticsearch 擅长的领域很多，总结一句话就是“非强事务 ACID 场景皆可适用”，所以可以做的事情也很多。

日志领域的需求会让你对于数据写入量非常的关心，不断的调整优化策略，提高吞吐量，降低资源消耗；业务系统的需求会让你对数据一致性与时效性特别关心，从其它数据库同步到 Elasticsearch，关注数据同步的速度，关注数据的准确性，不断的调整你的技术方案与策略；大数据领域的需求会让你对于查询与聚合特别关注，海量的数据需要快速的检索，也需要快速的聚合结果。

项目实战的过程，就是一个挖坑填坑的过程，实战场景多了，解决的问题多了，自然就掌握得很好了。

之前笔者在前公司任职时，所有涉及到的 Elasticsearch 疑难杂症都会找我解决，有一些项目采用别的数据产品问题比较多，也来找我评估更换 Elasticsearch 是否合适，以及给出相关建议。笔者认为最好的学习方式是找到组织，找到经验丰富的大咖，持续交流学习，成长最快也最好。

声明：本文由原文作者“李猛”授权转载，对未经许可擅自使用者，保留追究其法律责任的权利。

【阿里云Elastic Stack】100%兼容开源ES，独有9大能力，提供免费 X-pack服务（单节点价值$6000）

高并发系统三大利器之缓存-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

引言

随着互联网的高速发展，市面上也出现了越来越多的网站和app。我们判断一个软件是否好用，用户体验就是一个重要的衡量标准。比如说我们经常用的微信，打开一个页面要十几秒，发个语音要几分钟对方才能收到。相信这样的软件大家肯定是都不愿意用的。软件要做到用户体验好，响应速度快，缓存就是必不可少的一个神器。缓存又分进程内缓存和分布式缓存两种：分布式缓存如redis、memcached等，还有本地（进程内）缓存如ehcache、GuavaCache、Caffeine等。

缓存特征

缓存作为一个数据数据模型对象，那么它有一些什么样的特征呢？下面我们分别来介绍下这些特征。

命中率

命中率=命中数/（命中数+没有命中数）当某个请求能够通过访问缓存而得到响应时，称为缓存命中。缓存命中率越高，缓存的利用率也就越高。

最大空间

缓存中可以容纳最大元素的数量。当缓存存放的数据超过最大空间时，就需要根据淘汰算法来淘汰部分数据存放新到达的数据。

淘汰算法

缓存的存储空间有限制，当缓存空间被用满时，如何保证在稳定服务的同时有效提升命中率？这就由缓存淘汰算法来处理，设计适合自身数据特征的淘汰算法能够有效提升缓存命中率。常见的淘汰算法有：

FIFO(first in first out)

先进先出。最先进入缓存的数据在缓存空间不够的情况下（超出最大元素限制）会被优先被清除掉，以腾出新的空间接受新的数据。策略算法主要比较缓存元素的创建时间。适用于保证高频数据有效性场景，优先保障最新数据可用。

LFU(less frequently used)

最少使用，无论是否过期，根据元素的被使用次数判断，清除使用次数较少的元素释放空间。策略算法主要比较元素的hitCount（命中次数）。适用于保证高频数据有效性场景。

LRU(least recently used)

最近最少使用，无论是否过期，根据元素最后一次被使用的时间戳，清除最远使用时间戳的元素释放空间。策略算法主要比较元素最近一次被get使用时间。比较适用于热点数据场景，优先保证热点数据的有效性。

进程缓存

为什么需要引入本地缓存，本地缓存的应用场景有哪些？

本地缓存的话是我们的应用和缓存都在同一个进程里面，获取缓存数据的时候纯内存操作，没有额外的网络开销，速度非常快。它适用于缓存一些应用中基本不会变化的数据，比如（国家、省份、城市等）。

项目中一般如何适用、怎么样加载、怎么样更新？

进程缓存的话，一般可以在应用启动的时候，把需要的数据加载到系统中。更新缓存的话可以采取定时更新（实时性不高）。具体实现的话就是在应用中起一个定时任务（ScheduledExecutorService、TimerTask等），让它每隔多久去加载变更（数据变更之后可以修改数据库最后修改的时间，每次查询变更数据的时候都可以根据这个最后变更时间加上半小时大于当前时间的数据）的数据重新到缓存里面来。如果觉得这个比较麻烦的话，还可以直接全部全量更新（就跟项目启动加载数据一样）。这种方式的话，对数据更新可能会有点延迟。可能这台机器看到的是更新后的数据，那台机器看到的数据还是老的（机器发布时间可能不一样）。所以这种方式比较适用于对数据实时性要求不高的数据。如果对实时性有要求的话可以通过广播订阅mq消息。如果有数据更新mq会把更新数据推送到每一台机器，这种方式的话实时性会比前一种定时更新的方法会好。但是实现起来会比较复杂。

本地缓存有哪些实现方式？

常见本地缓存有以下几种实现方式：

从上述表格我们看出性能最佳的是Caffeine。关于这个本地缓存的话我还是强烈推荐的，里面提供了丰富的api，以及各种各样的淘汰算法。如需了解更加详细的话可以看下以前写的这个篇文章《本地缓存性能之王Caffeine》。

本地缓存缺点

本地缓存与业务系统耦合再一起，应用之间无法直接共享缓存的内容。需要每个应用节点单独的维护自己的缓存。每个节点都需要一份一样的缓存，对服务器内存造成一种浪费。本地缓存机器重启、或者宕机都会丢失。

分布式缓存

分布式缓存是与应用分离的缓存组件或服务，其最大的优点是自身就是一个独立的应用，与本地应用隔离，多个应用可直接的共享缓存。常见的分布式缓存有redis、MemCache等。

分布式缓存的应用

在高并发的环境下，比如春节抢票大战，一到放票的时间节点，分分钟大量用户以及黄牛的各种抢票软件流量进入12306，这时候如果每个用户的访问都去数据库实时查询票的库存，大量读的请求涌入到数据库，瞬间Db就会被打爆，cpu直接上升100%，服务马上就要宕机或者假死。即使进行了分库分表也是无法避免的。为了减轻db的压力以及提高系统的响应速度。一般都会在数据库前面加上一层缓存，甚至可能还会有多级缓存。

缓存常见问题

缓存雪崩

指大量缓存同一时间段集体失效，或者缓存整体不能提供服务，导致大量的请求全部到达数据库
对数据CPU和内存造成巨大压力，严重的会造成数据库宕机。因此而形成的一系列连锁反应造成整个系统奔溃。
解决这个问题可以从以下方面入手：

保证缓存的高可用。使用redis的集群模式，即使个别redis节点下线，缓存还是可以用。一般稍微大点的公司还可能会在多个机房部署Redis。
这样即使某个机房突然停电，或者光纤又被挖断了，这时候缓存还是可以使用。
使用多级缓存。不同级别缓存时间过时时间不一样，即使某个级别缓存过期了，还有其他缓存级别
兜底。比如我们Redis缓存过期了，我们还有本地缓存。这样的话即使没有命中redis，有可能会命中本地缓存。
缓存永不过期。Redis中保存的key永久不失效，这样的话就不会出现大量缓存同时失效的问题，但是这种做法会浪费更多的存储空间，一般应该也不会推荐这种做法。
使用随机过期时间。为每一个key都合理的设计一个过期时间，这样可以避免大量的key再同一时刻集体失效。
异步重建缓存。这样的话需要维护每个key的过期时间，定时去轮询这些key的过期时间。例如一个key的value设置的过期时间是30min，那我们可以为这个key设置它自己的一个过期时间为20min。所以当这个key到了20min的时候我们就可以重新去构建这个key的缓存，同时也更新这个key的一个过期时间。

缓存穿透

指查询一个不存在的数据，每次通过接口或者去查询数据库都查不到这个数据，比如黑客的恶意攻击，比如知道一个订单号后，然后就伪造一些不存在的订单号，然后并发来请求你这个订单详情。这些订单号在缓存中都查询不到，然后会导致把这些查询请求全部打到数据库或者SOA接口。这样的话就会导致数据库宕机或者你的服务大量超时。
这种查询不存在的数据就是缓存击穿。
解决这个问题可以从以下方面入手：

缓存空值，对于这些不存在的请求，仍然给它缓存一个空的结果，这种方式简单粗暴，但是如果后续这个请求有新值了需要把原来缓存的空值删除掉（所以一般过期时间可以稍微设置的比较短）。
通过布隆过滤器。查询缓存之前先去布隆过滤器查询下这个数据是否存在。如果数据不存在，然后直接返回空。这样的话也会减少底层系统的查询压力。
缓存没有直接返回。这种方式的话要根据自己的实际业务来进行选择。比如固定的数据，一些省份信息或者城市信息，可以全部缓存起来。这样的话数据有变化的情况，缓存也需要跟着变化。实现起来可能比较复杂。

缓存击穿

是指缓存里面的一个热点key(拼多多的五菱宏光神车的秒杀)在某个时间点过期。针对于这一个key有大量并发请求过来然后都会同时去数据库请求数据，瞬间对数据库造成巨大的压力。
这个的话可以用缓存雪崩的几种解决方法来避免：

缓存永不过期。Redis中保存的key永久不失效，这样的话就不会出现大量缓存同时失效的问题，但是这种做法会浪费更多的存储空间，一般应该也不会推荐这种做法。
异步重建缓存。这样的话需要维护每个key的过期时间，定时去轮询这些key的过期时间。例如一个key的value设置的过期时间是30min，那我们可以为这个key设置它自己的一个过期时间为20min。所以当这个key到了20min的时候我们就可以重新去构建这个key的缓存，同时也更新这个key的一个过期时间。
互斥锁重建缓存。这种情况的话只能针对于同一个key的情况下，比如你有100个并发请求都要来取A的缓存，这时候我们可以借助redis分布式锁来构建缓存，让只有一个请求可以去查询DB其他99个（没有获取到锁）都在外面等着，等A查询到数据并且把缓存构建好之后其他99个请求都只需要从缓存取就好了。原理就跟我们java的DCL（double checked locking）思想有点类似。

缓存更新

我们一般的缓存更新主要有以下几种更新策略：

先更新缓存，再更新数据库
先更新数据库，再更新缓存
先删除缓存，再更新数据库
先更新数据源库，再删除缓存
至于选择哪种更新策略的话，没有绝对的选择，可以根据自己的业务情况来选择适合自己的不过一般推荐的话是选择 先更新数据源库，再删除缓存。关于这几种更新的介绍可以推荐大家看下博客园大佬孤独烟写的《分布式之数据库和缓存双写一致性方案解析》这一篇文章，看完文章评论也可以去看看，评论跟内容一样精彩。

总结

如果想要真正的设计好一个缓存，我们还是必须要掌握很多的知识，对于不同场景，缓存有各自不同的用法。比如实际工作中我们对于订单详情的一个缓存。我们可能会根据订单的状态来来构建缓存。我们就以机票订单为例，已出行、或者已经取消的订单我们基本上是不会去管的（订单状态已经终止了），这种的话数据基本也不会变了，所以对于这种订单我们设置的过期时间是不是就可以久一点，比如7天或者30天。对于未出行即将起飞的订单，这时候顾客是不是就会频繁的去刷新订单看看，看看有没有晚点什么的，或者登机口是在哪。对于这种实时性要求比较高的订单我们过期时间还是要设置的比较短的，如果是需要更改订单的状态查询的时候可以直接不走缓存，直接查询master库。毕竟这种更改订单状态的操作还是比较有限的。大多数情况都是用来展示的。展示的话是可以允许实时性要求没那么高。总的来说需要开具体的业务，没有通用的方案。看你的业务需求的容忍度，毕竟脱离了业务来谈技术都是耍流氓，是业务驱动技术。

结束

由于自己才疏学浅，难免会有纰漏，假如你发现了错误的地方，还望留言给我指出来,我会对其加以修正。
如果你觉得文章还不错，你的转发、分享、赞赏、点赞、留言就是对我最大的鼓励。
感谢您的阅读,十分欢迎并感谢您的关注。

站在巨人的肩膀上摘苹果:
https://juejin.im/post/6844903665845665805
https://tech.meituan.com/2017/03/17/cache-about.html
https://www.cnblogs.com/rjzheng/p/9041659.html#!comments

【其他】9月1日云监控CDN产品告警指标数据优化通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【云监控CDN产品告警指标数据优化通知】

为提升用户体验，云监控CDN产品监控据将全面替换为日志数据，数据最小颗粒度为1分钟颗粒，将在9月1日进行数据切换。

影响

1，用户概览、域名监控图表里，网络带宽数据，当最小时间颗粒度为1分钟时，可能出现周期内同一时间的带宽峰值比5分钟颗粒度的峰值更小；

2，报警规则里，若“带宽峰值”告警设置周期为1分钟，可能会比设置成5分钟周期产生更多的告警；

3，1分钟数据为阿里云CDN的实时日志数据，与客户的真实业务一致，5分钟的数据更接近带客户计费带宽数据，在1分钟颗粒度下的产生更多的带宽告警为正常现象；

【升级】8月13日Afilias注册局维护通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【域名】【Afilias注册局维护通知】

维护时间：北京时间 2020年8月13日 01:30 - 8月14日 04:35

维护内容：接到注册局的通知，注册局中国站将于上述时间对后台系统进行维护升级。

1、您提交的注册（购买）、续费、转入、赎回、一口价域名业务在支付费用后状态为“处理中”，待维护结束后将变为正常的“成功”状态；

2、维护过程中您无法对域名注册信息进行修改，将提示修改失败。

如果您需要注册或管理以上业务操作，建议您避开该时间段，以免给您的业务造成影响。

由此给您带来的不便，我们表示歉意，敬请谅解。

【升级】8月20日消息队列AMQP升级通知

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

【阿里云】【消息队列AMQP】【升级通知】

升级窗口：北京时间2020年8月20日（周四） 14:30 - 18:30

升级内容：华北1（青岛）、华北2（北京）、华北5（呼和浩特）、华东1（杭州）、华东2（上海）、华南1（深圳）、香港等地域的消息队列AMQP服务升级。

升级影响：升级期间消息队列AMQP相关服务及控制台访问可能会出现闪断或者拒绝连接现象，每次闪断或拒绝连接不会超过5分钟，请在客户端中做好重连重试机制。如需在控制台进行管理操作，请避开维护时间段。

给您带来的不便敬请谅解，有任何问题，可点击联系我们进行咨询反馈。

【漏洞预警】Windows NetLogon权限提升漏洞（CVE-2020-1472）

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

2020年8月12日，阿里云应急响应中心监测到微软发布补丁修复了NetLogon权限提升漏洞（CVE-2020-1472），CVSS评分10，官方评级严重。目前微软官方已提供相应的月度安全补丁以修复该漏洞。

漏洞描述

微软官方于8月12日发布安全更新，其中修复了一个修复了NetLogon权限提升漏洞（CVE-2020-1472），攻击者通过NetLogon（MS-NRPC），建立与域控间易受攻击的安全通道时，可利用此漏洞获取域管访问权限。成功利用此漏洞的攻击者可以在该网络中的设备上运行相应代码或者程序。同时，微软8月补丁中还涉及其他多个高危漏洞，阿里云应急响应中心提醒 Windows 用户尽快安装补丁阻止漏洞攻击。

漏洞评级

CVE-2020-1472 严重

影响版本

Windows Server 2008 R2 for x64-based Systems Service Pack 1

Windows Server 2008 R2 for x64-based Systems Service Pack 1 (Server Core installation)

Windows Server 2012

Windows Server 2012 (Server Core installation)

Windows Server 2012 R2

Windows Server 2012 R2 (Server Core installation)

Windows Server 2016

Windows Server 2016 (Server Core installation)

Windows Server 2019

Windows Server 2019 (Server Core installation)

Windows Server, version 1903 (Server Core installation)

Windows Server, version 1909 (Server Core installation)

Windows Server, version 2004 (Server Core installation)

安全建议

1、前往微软官方下载相应补丁进行更新 https://portal.msrc.microsoft.com/zh-CN/security-guidance/advisory/CVE-2020-1472

2、阿里云云安全中心Windows系统漏洞模块已支持对该漏洞补丁一键检测和修复，详情登陆云安全中心

Windows Server 2008 （官方已停止免费补丁维护，需购买微软ESU服务，建议放弃使用：https://www.microsoft.com/en-us/windows-server/extended-security-updates）

Windows Server 2012 补丁：KB4571736

Windows Server 2012 R2 补丁：KB4571703

Windows Server 2016 补丁：KB4571694

Windows Server 2019 补丁：KB4565349

我们会关注后续进展，请随时关注官方公告。

如有任何问题，可随时通过工单或服务电话95187联系反馈。

阿里云应急响应中心

2020.08.12

【漏洞预警】Apache Struts远程代码执行漏洞（S2-059、CVE-2019-0230）

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

2020年8月13日，阿里云应急响应中心监测到Apache Struts 官方发布安全公告，披露 S2-059 Struts 远程代码执行漏洞。

漏洞描述

Apache Struts2框架是一个用于开发Java EE网络应用程序的Web框架。Apache Struts于2020年8月13日披露 S2-059 Struts 远程代码执行漏洞（CVE-2019-0230），在使用某些tag等情况下可能存在OGNL表达式注入漏洞，从而造成远程代码执行，风险极大。阿里云应急响应中心提醒Apache Struts用户尽快采取安全措施阻止漏洞攻击。

影响版本

Apache Struts 2.0.0 - 2.5.20

安全版本

Apache Struts >= 2.5.22

安全建议

将Apache Struts框架升级至最新版本。

我们会关注后续进展，请随时关注官方公告。

如有任何问题，可随时通过工单或服务电话95187联系反馈。

阿里云应急响应中心

2020.08.13

【漏洞预警】Apache Shiro < 1.6.0 权限绕过漏洞（CVE-2020-13933）

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

2020年8月17日，阿里云应急响应中心监测到Apache Shiro官方发布安全更新，修复了一个最新权限绕过漏洞。攻击者利用该漏洞可以绕过验证访问到后台功能，风险较高。

漏洞描述

Apache Shiro是一个应用广泛的权限管理的用户认证与授权框架。近日，shiro被爆出Apache Shiro 身份验证绕过漏洞 (CVE-2020-11989)，攻击者可以使用包含payload的恶意请求绕过Shiro的身份认证，漏洞于1.5.3修复。实际上，这个修复并不完全，由于shiro在处理url时与spring仍然存在差异，shiro最新版仍然存在身份校验绕过漏洞。2020年8月17日，Apache Shiro发布1.6.0版本修复该漏洞绕过。阿里云应急响应中心提醒Apache Shiro用户尽快采取安全措施阻止漏洞攻击。

影响版本

Apache Shiro < 1.6.0

安全版本

Apache Shiro >= 1.6.0

https://shiro.apache.org/news.html

阿里云云安全中心应急漏洞模块已支持对该漏洞一键检测

我们会关注后续进展，请随时关注官方公告。

如有任何问题，可随时通过工单或服务电话95187联系反馈。

阿里云应急响应中心

2020.08.18

基于GAN的个性化短标题生成在1688平台的实践应用-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

一、背景介绍

我们团队从去年的工作中，积累了风格化文案生成算法的内容生成方案。之后，我们创新的提出使用Generative Adversarial Network的生成技术，结合用户特征进行个性化短标题的生成，同时提高稀疏数据集下模型的鲁棒性。目前成果已被DLP-KDD2020会议录用，论文题目是“Selling Products by Machine: a User-Sensitive Adversarial Training method for Short Title Generation in Mobile E-Commerce”。

过去的相关研究主要从商品的内容出发，而缺少对用户行为的挖掘，从而忽视了买家的需求。我们提出了“个性化指针生成对抗网络（PPGAN）”，生成用户感知的个性化短标题。此外，在数据集上，电商用户行为数据中用户的低点击率使得我们的数据集非常稀疏，本文模型引入一种无监督的信息理论策略，能够从用户未点击数据中识别出高质量的短标题训练模型。

二、模型结构

PPGAN模型网络整体包含三个模块，1.电商词嵌入，2.个性化短标题生成器G，3.两种不同的判别器D：真假判别器和CTR判别器。这三个模块共同组成我们的个性化短标题生成模型框架。

1.电商词嵌入

我们使用AliNLP的电商NER工具对商品标题和用户特征进行识别，提取“颜色”、“风格”、“品类”等实体类型特征。例如，在商品标题“包邮Nike品牌的红色运动裤”中，“包邮”标记为“市场服务”，“Nike”标记为“品牌”，“红色”标记为“颜色”，“运动裤”标记为“品类”。对于每个单词，我们将其单词向量和NER向量拼接，共同作为模型的词向量输入。

对于商品标题序列，每个单词被表示成：

对于用户特征序列，每个单词被表示成：

通过加入单词的NER信息，模型更能够学习到每个单词的重要性，将重要的单词保留在短标题中。

2. 个性化短标题生成器

对于短标题生成器来说，输入信息为商品标题和用户特征，通过one-step Pointer Networks模型从原标题中抽取式的生成短标题，与传统的多步指针网络相比，一步指针网络在解码阶段一步解码，避免了多步解码的重复性抽取问题。

用户特征的构建：我们基于用户在平台的点击记录运用统计方法计算用户特征，具体来说，对于用户点击过的商品item_t，收集点击itemt之前点击过的10个商品数据，通过词频统计取TOP10的单词作为用户特征U=(u_1, u_2, ... , u_10)。

如图所示，在用户特征构建后，将用户特征向量序列输入GRU网络中，计算得到用户表征。

为了融合用户和被点击的商品的特征，我们将用户表征与商品词向量进行拼接，再输入GRU编码器进行编码。

在解码部分，通过基于注意力机制的一步解码和softmax层，输出在原输入序列上的概率分布，取概率TopK的单词作为生成的短标题。

3. 判别器

判别器D是一个以生成器G的输出分布Pg和真实短标题分布Pr为输入的二元分类器，用来判别是商家手写真实短标题还是机器生成的伪短标题。我们将真实短标题的输入分布定义如下，其中T为原始长标题，S=(s_1, s_2, ... , s_m)为真实短标题，m是短标题的长度。

同时，为了让判别器不那么容易的判别出真伪短标题，我们给真伪短标题的分布加入服从高斯分布的噪音，使训练过程更加稳定。

将这两个标题分布与商品词向量点乘得到“短标题”的向量表示，在拼接用户特征后分别输入判别器D进行判别。
判别器D网络采用常用的卷积神经网络，包括真假判别器和CTR判别器两种。真假判别器用来使生成器生成的短标题更接近用户点击的真实短标题；此外，考虑到数据集的稀疏性，用户点击样本量相对于未点击样本量较少，因此我们希望引入CTR判别器，从大量的用户未点击样本中识别高质量的短标题训练模型。

4. 对抗训练损失与模型训练过程

生成器G尽力为目标用户生成接近真实的短标题分布，判别器D尽力最大化真伪短标题分布之间的距离，从而做出正确判别。算法流程如下图所示：

首先使用大量长短标题pair对预训练生成器G，快速更新我们的生成器。由于没有足够的用户点击数据覆盖所用商品，我们在预训练阶段仅使用商品标题特征，而不考虑用户特征。我们使用L2损失函数作为预训练生成器G时的损失：
正式训练阶段1，输入数据为用户点击的商品数据[T+, U+, S+]，生成器G和真假判别器D的损失函数如下：
正式训练阶段2，输入数据为用户未点击的商品数据[T-, U-]。事实上，用户未点击的短标题并不仅仅由于短标题质量不好，也可能是用户对商品本身不感兴趣。因此，我们考虑通过对抗的方式识别出用户未点击但质量好的短标题。我们借鉴了现有的工作，最大化正负例之间的信息边界，在判别器损失中加入正负两个类别之间的加性条件熵M_D(x)。CTR判别器的损失函数如下：

三、实验结果与线上效果

1. 样本数据和训练

我们的训练样本来自1688平台商家手写的短标题以及现有短标题场景中用户的行为数据，可以将数据集表示成，其中O为商品原始长标题，S表示手写短标题，U为用户特征序列，L为用户对商品的标签（1表示点击，0表示未点击），样例如下图所示。我们的用户点击样本量为64万，用户未点击样本量为695万，因此数据集较为稀疏。此外，数据样本上，经过了一定的数据清理工作，因为本身训练样本数据的质量会严重影响最终生成短标题的质量，我们的处理主要包括脏语料的剔除、异常字符的过滤、原始标题长度限制等，同时利用AliNLP进行用户和商品特征的命名实体识别工作。

数据样例如下：

2. 个性化短标题生成样例

与对比方法相比，我们的模型PPGAN能够根据不同的用户特征，从原始长标题中抽取特定用户感兴趣的信息生成个性化的短标题。表中短标题的生成长度设定为5，根据不同的产品和场景需求，我们能够生成不同长度的个性化短标题，从而让生成的短标题更贴合业务需求。

PPGAN实验生成样例如下图所示：

3. 1688落地效果

目前个性化短标题已落地到1688平台的多个场景中，包括伙拼、天天特卖、厂货集采等。我们在榜单的“发现好货”进行AB测试，结果上实时个性化短标题比截断长标题点击率绝对值高出2.3个点左右，比统计短标题高出1.7个点左右。并且在2019年的920大促中，全量上线到大促会场中，承接住1100+QPS的调用量，为1688导购场景全面赋能，目前已沉淀为场景侧技术工具，供运营使用。

线上效果如下：

四、参考文献

[1] Martin Arjovsky, Soumith Chintala, and Leon Bottou. 2017. Wasserstein Generative Adversarial Networks. In ICML. 214–223.
[2] Oriol Vinyals, Meire Fortunato, and Navdeep Jaitly. 2015. Pointer networks. In NIPS. 2692–2700.
[3] Tao Zhang, Jin Zhang, Chengfu Huo, and Weijun Ren. 2019. Automatic Generation of Pattern-controlled Product Description in E-commerce. In WWW. 2355–2365.
[4] Jiatao Gu, Zhengdong Lu, Hang Li, and Victor O K Li. 2016. Incorporating copying mechanism in sequence-to-sequence learning. In ACL. 1631–1640.
[5] Yue Deng, Yilin Shen, and Hongxia Jin. 2017. Disguise Adversarial Networks for Click-through Rate Prediction. In IJCAI. 1589–1595.

基于日志服务数据加工分析Java异常日志-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

1. 本文要点(regex_findall()、e_regex()、e_output()专题)：

正则解析复杂异常日志（一次性解析不出全部格式异常日志怎么办？）
根据不同产品的Exception做数据清洗以及多目标分发
对不同的产品的异常日志做数据分析

2. 背景

业务背景：
采集并脱敏了整个5月份的项目异常日志，准备使用日志服务数据加工做数据清洗以及分析。本案例是基于使用阿里云相关产品(OSS，RDS，SLS等)的SDK展开自身业务。
业务需求：
需要对异常日志做解析，将原始日志中时间、错误码、错误信息、状态码、产品信息、请求方法、出错行号提取出来。然后根据提取出来的不同产品信息做多目标分发处理。对清洗后的数据做异常日志数据分析。

3. 案例总体流程

本案例中的所有异常日志全部是通过使用日志服务SDK上传到cloud_product_error_log的logstore中，然后再经过数据加工清洗数据后投递到各自产品的logstore中，最后针对各个产品的异常日志做分析。具体流程如下：

4. 原始日志样例

原始日志中只有错误日志信息message，需要将其message中的一些重要信息解析出来。

5. 加工需求

(1) 将message错误信息中的时间、错误码、状态码、产品信息、错误码信息、请求方法、出错行号提取出来
(2) 根据提取出的产品信息对清洗后的数据进行多目标分发

具体需求流程如下图所示：

6. 对异常日志数据进行解析和投递

6.1 加工逻辑分析

下图展示的是如何从原始异常日志经过数据加工得到解析后的日志信息（原始日志形式，预期日志形式），然后投递到不同logstore中，最后对不同产品的异常日志做数据分析。本案例中只对SLS异常日志和OSS异常日志做加工分析。

6.2 加工操作

经过以上对异常日志的分析以及加工流程的剖析，此时我们可以对异常日志加工进行实操（对于不熟悉如何使用日志服务数据加工的同学可以参考基于日志服务(SLS)实现电商数据加工与分析）。以下是具体的加工语法:

e_switch(
    regex_match(v("message"), r"LogException"),e_compose(e_regex("message", "(?PS+sS+)s(?P[a-zA-Z]+)s(?P[0-9]+)scom.aliyun.openservices.log.exception.(?P[a-zA-Z]+):(?P[a-zA-Z0-9:,-s]+).(s+S+sS+){5}s+S+scom.aliyun.openservices.log.Client.(?P[a-zA-Z]+)S+s+S+stransformEvent.main(transformEvent.java:(?P[0-9]+))"),e_drop_fields("message"),e_output("sls-error")),
    regex_match(v("message"), r"OSSException"),e_compose(e_regex("message", "(?PS+sS+)scom.aliyun.oss.(?P[a-zA-Z]+):(?P[a-zA-Z0-9,s]+).n[ErrorCode]:s(?P[a-zA-Z]+)n[RequestId]:s(?P[a-zA-Z0-9]+)n[HostId]:s(?P[a-zA-Z-.]+)nS+nS+(sS+){3}ns+S+s+(.+)(s+S+){24}scom.aliyun.oss.OSSClient.(?P[a-zA-Z]+)S+s+S+stransformEvent.main(transformEvent.java:(?P[0-9]+))"),e_drop_fields("message"),e_output("oss-error"))
)

点击预览效果如下所示：

上图表面加工语法能够正常解析异常日志，接下来需要进行保存加工任务操作。具体加工配置如下图：

注意：
以上语法中的e_output中的name参数需要与加工配置规则中的目标名称一一对应。更多用法请参考e_output语法注意事项

6.3 语法详解

其中涉及到的正则语法分组相关知识请移步正则表达式-分组
(1) 首先使用regex_match函数匹配出此条日志中是否有LogException如果匹配上则走解析sls异常日志的规则分支，如果匹配上OSSException则走解析OSS异常日志的规则分支。
(2) 其次使用e_regex正则解析函数解析相应的异常日志。
(3) 最后删除原字段message信息，并投递到相应产品的logstore中。

其中本案例中正则解析日志详解是以解析SLS异常日志为例，具体如下

7. 数据加工诊断

当我们在解析日志的时候，时常会遇到一次性解析不出全部格式异常日志的情况。并且在加工预览页面只会预览一定量的数据，因此在加工预览页面不一定会提示出该正则解析不出的日志的情况。
综上，我们可以通过查看数据加工概览（具体如何查看请参考加工概览）的方式查到具体是那一条日志没有解析出来，然后再调整我们的正则表达式。解析失败样例，如下图所示：

具体异常详情的logging如下：

{
    "message": "transform_regex: field value "2020-05-04 08:45:07 ServerBusy 505 com.aliyun.openservices.log.exception.LogException:The server is busy, please try again later.n    at com.aliyun.openservices.log.Client.ErrorCheck(Client.java:2161)n    at com.aliyun.openservices.log.Client.SendData(Client.java:2312)n    at com.aliyun.openservices.log.Client.CreateConsumerGroup(Client.java:2190)n    at com.aliyun.openservices.log.Client.SendData(Client.java:2265)n    at com.aliyun.openservices.log.Client.GetCursor(Client.java:1123)n    at com.aliyun.openservices.log.Client.CreateConsumerGroup(Client.java:1100)n    at transformEvent.main(transformEvent.java:1950)" cannot extract value with config "(?P\S+\s\S+)\s(?P[a-zA-Z]+)\s(?P[0-9]+)\scom\.aliyun\.openservices\.log\.exception\.(?P<__topic__>[a-zA-Z]+)\:(?P[a-zA-Z0-9\s:-]+)\.(\s+\S+\s\S+){5}\s+\S+\scom\.aliyun\.openservices\.log\.Client\.(?P[a-zA-Z]+)\S+\s+\S+\stransformEvent\.main\(transformEvent\.java\:(?P[0-9]+)\)"",
    "processName": "MainProcess",
    "process": "1",
    "thread": "139873923098368",
    "levelname": "WARNING",
    "module": "regex_impl",
    "threadName": "ThreadPoolExecutor-0_1",
    "funcName": "__call__"
}

从以上图例和具体信息可以看到，如果正则解析失败会报WARNING级别日志。此时的加工处理规则是跳过加工失败的日志继续往下加工，此过程中并不会影响到整个加工任务的执行（只有ERROR级别的会影响到整个加工任务的消费）。
接下来主要关注message中的日志信息，看具体是那条日志或者那一类异常日志导致现有的正则规则加工失败。
其message中的解析失败的日志和正则（logging中的正则表达式需要自己去掉多加的转义反斜杠）。

"""解析失败日志"""
2020-05-04 08:45:07 ServerBusy 505 com.aliyun.openservices.log.exception.LogException:The server is busy, please try again later.n    at com.aliyun.openservices.log.Client.ErrorCheck(Client.java:2161)n    at com.aliyun.openservices.log.Client.SendData(Client.java:2312)n    at com.aliyun.openservices.log.Client.CreateConsumerGroup(Client.java:2190)n    at com.aliyun.openservices.log.Client.SendData(Client.java:2265)n    at com.aliyun.openservices.log.Client.GetCursor(Client.java:1123)n    at com.aliyun.openservices.log.Client.CreateConsumerGroup(Client.java:1100)n    at transformEvent.main(transformEvent.java:1950)
"""正则表达式"""
(?PS+sS+)s(?P[a-zA-Z]+)s(?P[0-9]+)scom.aliyun.openservices.log.exception.(?P[a-zA-Z]+):(?P[a-zA-Z0-9s:-]+).(s+S+sS+){5}s+S+scom.aliyun.openservices.log.Client.(?P[a-zA-Z]+)S+s+S+stransformEvent.main(transformEvent.java:(?P[0-9]+))

经过一步一步的查找验证，得出在解析error_message中缺少了对有逗号情景的解析，因此此地方正则需要改善，具体改善如下：

"""解析失败error_message正则"""
(?P[a-zA-Z0-9s:-]+)
"""完善后解析error_message正则"""
(?P[a-zA-Z0-9:,-s]+)

综上，经过我们不断的完善正则表达式，目前是能够成功解析各个不同类型的异常日志。接下来我们将进入数据分析阶段。

8. 异常日志数据分析

下图是通过sql查询所展示数据仪表大盘：

基于加工后的异常日志（以SLS错误日志为例分析），在这里我们的需求有以下几方面：
(1) 各个方法异常统计
(2) 各个方法异常占比统计图
(3) PutLogs错误信息
(4) 各个方法调用报错每日level气泡图
(5) 各个ErrorCode统计分析
(6) 各个方法报错时间轴

8.1 各个方法异常统计和各个方法异常占比统计图

为了方便查看那个方法出现错误次数最高和帮助我们定位业务调用的具体方法，因此我们先对各个方法出现的异常情况做一个统计。

* | SELECT COUNT(method) as m_ct, method GROUP BY method

这条语句表示的是统计每个调用方法出现异常的数量。
下图表示的是在查询框里输入以上sql分析语句之后进入统计图表，然后点击条形图进行配置，method为X轴，m_ct为Y轴。

通过上图分析可知总体情况，PutLogs调用出现异常的次数最多，其中GetCursor和DeleteConsumerGroup是出现异常的次数是最少的。
此外，为了方便我们查看各个方法异常占比情况，我们可以基于以上的SQL做一个占比统计图，点击漏斗图，然后以method为分组列，m_ct为数值列具体操作如下。

8.2 PutLogs错误信息

为了方便我们查看哪一类的错误信息是占比最大，帮助我们分析：
(1) 需要自身业务需要改进的
(2) 需要SLS帮忙调整的（如调整quota）
(3) 需要深入项目中具体排查错误的（具体的error line）

* | SELECT error_message,COUNT(error_message) as ct_msg, method WHERE method LIKE 'PutLogs' GROUP BY error_message,method

点击矩形树图，然后以error_message为分类和ct_msg为数值列。

从上图中我们可知:
(1) consumer group already exist、consumer group not exist、Logs must be less than or equal to 3 MB and 4096 entries等这些都是属于需要在项目中具体排查的错误
(2) Read/ Write quota is exceeded这些是需要SLS调整quota的
(3) 还有一些是需要调整自身业务的比如logstore/ project not exist看是否是因为一些业务原因而导致这些project被取消等等。

8.3 各个方法调用报错每日level气泡图

为了方面我们查看每一天的各个调用方法出错频次，我们需要有一个直观的图来查看每一天的调用出错程度，这样我们可以更加直观的去看某一天的具体调用出错细节。

* | select date_format(data_time, '%Y-%m-%d') as day,COUNT(method) as count_method, case 
when method = 'PullLogs' and COUNT(method) > 21800 then 3 when method = 'PullLogs' and COUNT(method)>21400 then 2 when method = 'PullLogs' and COUNT(method)>21100 then 1 
when method = 'CreateConsumerGroup' and COUNT(method) > 21900 then 3
when method = 'CreateConsumerGroup' and COUNT(method) > 21700 then 2 when method = 'CreateConsumerGroup' and COUNT(method) > 21550 then 1 
when method = 'PutLogs' and COUNT(method)>43900 then 3 when method = 'PutLogs' and COUNT(method)>43300 then 2 when method = 'PutLogs' and COUNT(method)>42900 then 1 
when method = 'DeleteConsumerGroup' and COUNT(method)>7440 then 3 when method = 'DeleteConsumerGroup' and COUNT(method)>7330 then 2 when method = 'DeleteConsumerGroup' and COUNT(method)>7320 then 1 
when method = 'GetCursor' and COUNT(method)>7350 then 3 when method = 'GetCursor' and COUNT(method)>7200 then 2 when method = 'GetCursor' and COUNT(method)>7150 then 1
else 0 end as level,  method group by day, method ORDER BY day asc

其中如果一天PullLogs出错次数大于21800则属于level3级别的，大于21400则属于level2级别，大于21100则属于level1，否则属于level0，然后再跟据每一天每个方法做聚合操作。
点击气泡图，其中以day为X轴，method为Y轴。

从上图中可以明显的知道每一天的每个方法的出现异常的level值，针对某一天level值高的可以对其做具体的错误查看到底是什么原因引起的。

8.4 各个ErrorCode统计分析

统计各个error_code出现的错误次数，能够更好的帮助我们查看哪些是因为ServerBusy，哪些是因为ParameterInvalid等不同的原因引起的异常，从而更好的定位异常原因。

* | SELECT error_code,COUNT(error_code) as count_code GROUP BY error_code

点击折线图，以error_code为X轴，以count_code为Y轴

基于上图可知WriteQuotaExceed出现异常次数最多，可以查查那个project下的logstore被限制，然后咨询相关的产品技术支持。

8.5 各个方法报错时间轴

设置报错时间轴，可以实时的查看调用接口异常信息。

* | SELECT date_format(data_time, '%Y-%m-%d %H:%m:%s') as date_time,status,product_exception,error_line, error_message,method ORDER BY date_time desc

基于上图所示，我们可以对重要的接口出现异常做标注高亮显示，以便我们能够快速识别出重要接口异常情况。

9. 总结

对于其他的产品的异常日志，我们也可以使用同样的方法加工清洗投递，然后SQL分析自己所关心的业务指标。

sharding-sphere中的xa事务-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

Apache ShardingSphere 默认的 XA 事务管理器为 Atomikos。

j2ee对分布式事务定义了标准的规范，分别是JTA和JTS，JTA（Java Transaction API）是根据XA规范制定的java版本的接口规范，Atomikos就是jta的一种实现。JTA中约定了几种主要的程序角色：客户端、应用服务器、事务管理器、资源管理器。
JTA和JTS有什么关系呢？事务管理器要和资源管理器要进行事务上下文传播的交互，其中应用服务器和事务管理器之间也有传播事务上下文的交互，JTS就是定义各个程序角色之间如何传递事务上下文的规范。

JTA从框架的角度来约定实现者需要实现的接口，JTS约定了具体程序角色应该怎样去进行交互。

XA是X/Open CAE Specification (Distributed Transaction Processing)模型中定义的TM（Transaction Manager）与RM（Resource Manager）之间进行通信的接口。

在XA规范中，数据库充当RM角色，应用需要充当TM的角色，即生成全局的txId，调用XAResource接口，把多个本地事务协调为全局统一的分布式事务。

二阶段提交是XA的标准实现，它将分布式事务的提交拆分为2个阶段：prepare和commit/rollback。

开启XA全局事务后，所有子事务会按照本地默认的隔离级别锁定资源，并记录undo和redo日志，然后由TM发起prepare投票，询问所有的子事务是否可以进行提交。

当所有子事务反馈的结果为“yes”时，TM再发起commit；若其中任何一个子事务反馈的结果为“no”，TM则发起rollback。

如果在prepare阶段的反馈结果为yes，而commit的过程中出现宕机等异常时，则在节点服务重启后，可根据XA recover再次进行commit补偿，以保证数据的一致性。

XA recover的作用是列出所有处于PREPARE阶段的XA事务。

2PC模型中，在prepare阶段需要等待所有参与子事务的反馈，因此可能造成数据库资源锁定时间过长，不适合并发高以及子事务生命周长较长的业务场景。

Sharding-Sphere支持基于XA的强一致性事务解决方案，可以通过SPI注入不同的第三方组件作为事务管理器实现XA协议，如Atomikos和Narayana。

在sharding-sphere中默认使用了atomikos，编程时可以直接使用，例如注解方式为：

    @ShardingTransactionType(TransactionType.XA)
    @Transactional(rollbackFor = Exception.class)
    public void testTransactional() {
        User user1 = new User(1, "faith", 12);
        this.userDao.addOne(user1);
        User user2 = new User(2, "belief", 12);
        this.userDao.addOne(user2);
        this.userDao.addOne(user2); // 这里会报错，因为在分布式事务中，因此user1、user2都会插入失败
    }

如果spring项目中单独使用atomikos，需要做数据源以及事务管理器等配置，例如：

    
    
        
        
        
        
        
        
        
        
        
        
        
        
        
        
        
        
        
            select 1
        
    

    
    
        UserTransactionManager
        
            true

用 NetworkX + Gephi + Nebula Graph 分析<权力的游戏>人物关系（上篇）-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

我们都知道《权利的游戏》在全世界都很多忠实的粉丝，除去你永远不知道剧情下一秒谁会挂这种意外“惊喜”，当中复杂交错的人物关系也是它火爆的原因之一，而本文介绍如何通过 NetworkX 访问开源的分布式图数据库 Nebula Graph，并借助可视化工具—— Gephi 来可视化分析《权力的游戏》中的复杂的人物图谱关系。

数据集

本文的数据集来源：冰与火之歌第一卷(至第五卷)[1]

人物集 (点集）：书中每个角色建模为一个点，点只有一个属性：姓名
关系集（边集）：如果两个角色在书中发生过直接或间接的交互，则有一条边；边只有一个属性：权重，权重的大小代表交互的强弱。

这样的点集和边集构成一个图网络，这个网络存储在图数据库 Nebula Graph [2]中。

社区划分——Girvan-Newman 算法

我们使用 NetworkX [3] 内置的社区发现算法 Girvan-Newman 来为我们的图网络划分社区。

以下为「社区发现算法 Girvan-Newman」解释：

网络图中，连接较为紧密的部分可以被看成一个社区。每个社区内部节点之间有较为紧密的连接，而在两个社区间连接则较为稀疏。社区发现就是找到给定网络图所包含的一个个社区的过程。

Girvan-Newman 算法即是一种基于介数的社区发现算法，其基本思想是根据边介数中心性（edge betweenness）从大到小的顺序不断地将边从网络中移除直到整个网络分解为各个社区。因此，Girvan-Newman 算法实际上是一种分裂方法。

Girvan-Newman 算法的基本流程如下：
（1）计算网络中所有边的边介数；
（2）找到边介数最高的边并将它从网络中移除；
（3）重复步骤 2，直到每个节点成为一个独立的社区为止，即网络中没有边存在。

概念解释完毕，下面来实操下。

使用 Girvan-Newman 算法划分社区。NetworkX 示例代码如下

comp = networkx.algorithms.community.girvan_newman(G)
k = 7
limited = itertools.takewhile(lambda c: len(c) <= k, comp)
communities = list(limited)[-1]

为图中每个点添加一个 community 属性，该属性值记录该点所在的社区编号

community_dict = {}
community_num = 0
for community in communities:
    for character in community:
        community_dict[character] = community_num
        community_num += 1
        nx.set_node_attributes(G, community_dict, 'community')

节点样式——Betweenness Centrality 算法

下面我们来调整下节点大小及节点上标注的角色姓名大小，我们使用 NetworkX 的 Betweenness Centrality 算法来决定节点大小及节点上标注的角色姓名的大小。

图中各个节点的重要性可以通过节点的中心性（Centrality）来衡量。在不同的网络中往往采用了不同的中心性定义来描述网络中节点的重要性。Betweenness Centrality 根据有多少最短路径经过该节点，来判断一个节点的重要性。

计算每个节点的介数中心性的值

betweenness_dict = nx.betweenness_centrality(G) # Run betweenness centrality

为图中每个点再添加一个 betweenness 属性

nx.set_node_attributes(G, betweenness_dict, 'betweenness')

边的粗细

边的粗细直接由边的权重属性来决定。

通过上面的处理，现在，我们的节点拥有 name、community、betweenness 三个属性，边只有一个权重 weight 属性。

下面显示一下：

import matplotlib.pyplot as plt
color = 0
color_map = ['red', 'blue', 'yellow', 'purple', 'black', 'green', 'pink']
for community in communities:
    nx.draw(G, pos = nx.spring_layout(G, iterations=200), nodelist = community, node_size = 100, node_color = color_map[color])
    color += 1
plt.savefig('./game.png')

emmm，有点丑…

虽然 NetworkX 本身有不少可视化功能，但 Gephi [4] 的交互和可视化效果更好。

接入可视化工具 Gephi

现在将上面的 NetworkX 数据导出为 game.gephi 文件，并导入 Gephi。

nx.write_gexf(G, 'game.gexf')

Gephi 可视化效果展示

在 Gephi 中打开刚才导出的 game.gephi 文件，然后微调 Gephi 中的各项参数，就以得到一张满意的可视化：

将布局设置为 Force Atlas, 斥力强度改为为 500.0，勾选上 由尺寸调整 选项可以尽量避免节点重叠：

Force Atlas 为力引导布局，力引导布局方法能够产生相当优美的网络布局，并充分展现网络的整体结构及其自同构特征。力引导布局即模仿物理世界的引力和斥力，自动布局直到力平衡。

给划分好的各个社区网络画上不同的颜色：

在外观-节点-颜色-Partition 中选择 community（这里的 community 就是我们刚才为每个点添加的社区编号属性）

决定节点及节点上标注的角色姓名的大小：

在外观-节点-大小-Ranking 中选择 betweenness（这里的 betweenness 就是我们刚才为每个点添加的 betweenness 属性)

边的粗细由边的权重属性来决定：

在外观-边-大小-Ranking 中选择边的权重

导出图片再加个头像效果

大功告成，一张权力游戏的关系谱图上线 :) 每个节点可以看到对应的人物信息。

本篇主要介绍如何使用 NetworkX，并通过 Gephi 做可视化展示。下一篇将介绍如何通过 NetworkX 访问图数据库 Nebula Graph 中的数据。

本文的代码可以访问[5]。

致谢：本文受工作 [6] 的启发

Reference

[1] https://www.kaggle.com/mmmarchetti/game-of-thrones-dataset
[2] https://github.com/vesoft-inc/nebula
[3] https://networkx.github.io/
[4] https://gephi.org/
[5] https://github.com/jievince/nx2gephi
[6] https://www.lyonwj.com/2016/06/26/graph-of-thrones-neo4j-social-network-analysis/

作者有话说：Hi，我是王杰，是图数据 Nebula Graph 研发工程师，希望本次的经验分享能给大家带来帮助，如有不当之处也希望能帮忙纠正，谢谢~

Apache Spark™ 3.0中全新的Structured Streaming UI-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

作者：Genmao Yu
原文链接：https://databricks.com/blog/2020/07/29/a-look-at-the-new-structured-streaming-ui-in-apache-spark-3-0.html

编译：邵嘉阳，计算机科学与技术大三在读，Apache Spark 中文社区志愿者

在Apache Spark 2.0中，我们迎来了Structured Streaming——构建分布式流处理应用的最佳平台。统一的API（SQL，Dataset和DataFrame）以及Spark内置的大量函数为开发者实现复杂的需求提供了便利，比如流的聚合，流-流连接和窗口支持。开发者们普遍喜欢通过Spark Streaming中的DStream的方式来管理他们的流，那么类似的功能什么时候能在Structured Streaming中得到实现呢？这不，在Apache Spark 3.0中，全新的Structured Streaming可视化UI和开发者们见面了。

新的Structured Streaming UI会提供一些有用的信息和统计数据，以此来监视所有流作业，便于在开发调试过程中排除故障。同时，开发者还能够获得实时的监测数据，这能使生产流程更直观。在这个新的UI中，我们会看到两组统计数据：1）流查询作业的聚合信息；2）流查询的具体统计信息，包括输入速率（Input Rate）、处理速率（Process Rate）、输入行数（Input Rows）、批处理持续时间（Batch Duration）和操作持续时间（Operation Duration）等。

流查询作业的聚合信息

开发者提交的流SQL查询会被列在Structured Streaming一栏中，包括正在运行的流查询（active）和已完成的流查询（completed）。结果表则会显示流查询的一些基本信息，包括查询名称、状态、ID、运行ID、提交时间、查询持续时间、最后一批的ID以及一些聚合信息，如平均输入速率和平均处理速率。流查询有三种状态：运行(RUNNING)、结束(FINISHED)、失败(FAILED)。所有结束(FINISHED)和失败(FAILED)的查询都在已完成的流式查询表中列出。Error列显示有关失败查询的详细信息。

我们可以通过单击Run ID链接查看流查询的详细信息。

详细的统计信息

Statistics页面显示了包括输入速率、处理速率、延迟和详细的操作持续时间在内的一系列指标。通过图表，开发者能全面了解已提交的流查询的状态，并且轻松地调试查询处理中的异常情况。

它包含以下指标：

Input Rate：数据到达的聚合速率(跨所有源)。
Process Rate： Spark处理数据的聚合速率(跨所有源)。
Batch Duration：每一批的处理时间。
Operation Duration：执行各种操作所花费的时间（以毫秒为单位）。
被追踪的操作罗列如下：
addBatch：从源读取微批的输入数据、对其进行处理并将批的输出写入接收器所花费的时间。这应该会占用微批处理的大部分时间。
getBatch：准备逻辑查询以从源读取当前微批的输入所花费的时间。
getOffset：查询源是否有新的输入数据所花费的时间。
walCommit：将偏移量写入元数据日志。
queryPlanning：生成执行计划。

需要注意的是，由于数据源的类型不同，一个查询可能不会包含以上列出的所有操作。

使用UI解决流的性能故障

在这一部分中，我们会看到新的UI是怎样实时、直观地显示查询执行过程中的异常情况的。我们会在每个例子中预先假设一些条件，样例查询看起来是这样的：

import java.util.UUID

val bootstrapServers = ...
val topics = ...
val checkpointLocation = "/tmp/temporary-" + UUID.randomUUID.toString

val lines = spark
    .readStream
    .format("kafka")
    .option("kafka.bootstrap.servers", bootstrapServers)
    .option("subscribe", topics)
    .load()
    .selectExpr("CAST(value AS STRING)")
    .as[String]

val wordCounts = lines.flatMap(_.split(" ")).groupBy("value").count()

val query = wordCounts.writeStream
    .outputMode("complete")
    .format("console")
    .option("checkpointLocation", checkpointLocation)
    .start()

由于处理能力不足而增加延迟

在第一种情况下，我们希望尽快处理Apache Kafka数据。在每一批中，流作业将处理Kafka中所有可用的数据。如果处理能力不足以处理批数据，那么延迟将迅速增加。最直观的现象是Input Rows和Batch Duration会呈线性上升。Process Rate提示流作业每秒最多只能处理大约8000条记录，但是当前的输入速率是每秒大约20000条记录。产生问题的原因一目了然，那么我们可以为流作业提供更多的执行资源，或者添加足够的分区来处理与生产者匹配所需的所有消费者。

稳定但高延迟

第二种情况下，延迟并没有持续增加，而是保持稳定，如下截图所示：

我们发现在相同的Input Rate下，Process Rate可以保持稳定。这意味着作业的处理能力足以处理输入数据。然而，每批的延迟仍然高达20秒。这里，高延迟的主要原因是每个批中有太多数据，那么我们可以通过增加这个作业的并行度来减少延迟。在为Spark任务添加了10个Kafka分区和10个内核之后，我们发现延迟大约为5秒——比20秒要好得多。

使用操作持续时间图进行故障排除

操作持续时间图（Operation Duration Chart）显示了执行各种操作所花费的时间（以毫秒为单位）。这对于了解每个批处理的时间分布和故障排除非常有用。让我们以Apache Spark社区中的性能改进“Spark-30915：在查找最新批处理ID时避免读取元数据日志文件“为例。
在某次查询中我们发现，当压缩后的元数据日志很大时，下一批要花费比其他批更多的时间来处理。

在进行代码审查之后，我们发现这是由对压缩日志文件的不必要读取造成的并进行了修复。新的操作持续时间图确认了我们想法:

未来的开发方向

如上所示，新的Structured Streaming UI将通过提供更有用的流查询信息帮助开发者更好地监视他们的流作业。作为早期发布版本，新的UI仍在开发中，并将在未来的发布中得到改进。有几个未来可以实现的功能，包括但不限于：

更多的流查询执行细节：延迟数据，水印，状态数据指标等等。
在Spark历史服务器中支持Structured Streaming UI。
对于不寻常的情况有更明显的提示：发生延迟等。

近期活动：

8月24日开始 Spark 实战训练营正式开课
免费报名链接：https://developer.aliyun.com/learning/trainingcamp/spark/2

如何设计秒杀系统？-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

秒杀系统是常见的一种系统设计类型，在电商业务中的应用非常普遍。同时也是面试中问得比较多的。

如果说程序 = 算法 +数据结构的话，那么系统 = 服务 + 数据存储。所以系统设计中，我们更多的是围绕服务和数据存储来讨论。

举个简单例子：某年双11，商家以¥4499的价格上架了某iphone，比官网价格便宜了¥1000，库存总数10台，运营设置11/11 00:00活动生效，一人只能购买1台，商品售完为止。

梳理下用户端的流程图：

根据系统设计的4S分析法：

第一步 - Scenario场景

需要确定设计哪些功能，承受多大的访问量？

这里有个常见概念QPS（Query Per Second），即一秒内可以处理的请求数量。假如一个服务的RT是20ms，则QPS为50，这里计算的是单机单线程QPS，如果计算集群的话，需要考虑集群数量和线程数量。

这时候需要确认秒杀商品的请求QPS是多少。如果面试官说峰值大概量级在100万，那么按照服务单线程QPS是50，单台最大线程数按3来计算的话，单台机器最大支撑150的QPS，那么至少需要100W/150=6667台机器。

常见的组件最大QPS，mysql单机1000QPS，Redis单机10万QPS。

第二步 - Service服务

秒杀系统服务设计大致如下：

第三步 - Storage存储

数据是如何存储和访问的。为每个服务选择合适的存储结构，然后细化数据表结构。这个例子中，秒杀系统数据库设计如下：

于是我们可以得到秒杀活动中，数据库之间的关系如图所示：

接下来就是mysql扣库存了。秒杀系统一定会遇到的就是并发问题，这里说下乐观锁和悲观锁。
悲观锁的流程：

乐观锁流程：

可以看到悲观锁的问题是会占用大量的线程资源，可能导致mysql的线程耗尽。在对于数据一致性要求非常高的场景中，一般用悲观锁；而乐观锁在version变动频繁的情况下则不适用，比如这里的秒杀系统就不太适合用乐观锁，因为库存变化太快了。

推荐免费体验九章的《系统架构设计》，在免费试听章节里，还讲到了Redis下的秒杀系统数据库设计。

几个关于Redis的常见问题：

什么时候把库存写入到Redis？
秒杀活动创建/维护时写入Redis。

如何保证活动数据库和库存数据一致？
可以使用分布式事务或消息队列。

分布式事务：保证多个数据库的操作同时成功或者同时失败。对强一致性有要求的业务场景可以考虑使用分布式事务，比如银行转账

消息队列：基于生产者/消费者模型的组件，一般实现异步任务（非实时处理）时会引入消息队列。消息队列的好处是任务可以慢慢处理，不必同步处理等着响应结果。目前主流的消息队列有RocketMQ、Kafka等。使用场景除了异步任务之外，一般还用于失败的情况下重试处理，重复消费直到消费成功。

下单减库存/支付减库存？
下单锁定库存，支付减库存。

如何防止商品被超卖？
把库存数据放入到缓存中，利用缓存的原子特性保证同时只有一个线程操作库存。

库存写回数据库的时机？
采用定时任务同步Redis的数据写回数据库。

4S分析法的第四步 - Scale扩展

对于秒杀系统来说，就是高并发场景下如何优化系统。推荐大家通过完整视频了解如何进行系统优化和升级。

前面说过，秒杀系统是电商业务中最常见的，在实际面试当中，系统架构设计的考察标准是：面试者独立设计一个大型的系统，它在现实中是可work的，同时在高并发的情况下仍具有高可用性。

对许多缺少工作经验的应届生，以及大量没机会参与大型系统设计、日常都在“拧螺丝”的初级程序员来说，明明不具备架构的能力但面试的时候又经常遇到，拿到设计类题目就懵了！

九章的《系统架构设计》覆盖了18大系统架构设计知识点和面试题。通过大量调研，囊括了最热门、高频的18大设计类题型包括了：

秒杀/订票系统
IM系统
协同文档编辑系统
谷歌搜索系统
用户登陆/注册系统
网站系统（API设计/短URL）
数据库
容器技术（K8S/Docker）
MLE机器学习系统
……

想要尝试自己设计一个秒杀系统，或者对国内热门的系统设计感兴趣的同学们，不妨来试听一下，好的学习方式永远是自己动手实现。

微服务技术栈：API网关中心，落地实现方案-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

一、服务网关简介

1、外观模式

客户端与各个业务子系统的通信必须通过一个统一的外观对象进行，外观模式提供一个高层次的接口，使得子系统更易于使用：

简单说一下外观模式，网关和这个模式很像，但是比外观模式复杂，模式，结构，原则这些都是通用的，在各种架构或组件中使用。

2、网关简介

微服务网关从感觉上，很像是：拦截器+路由+过滤器，拦截请求，系列基础处理，路由转发到指定服务。

服务网关在整个架构体系上也是一个服务器，作为请求的唯一入口，与外观模式十分类似，在网关层处理所有的非业务功能，为客户端提供定制的API，在网关层通常会执行如下操作：如权限校验、监控、负载均衡、缓存、日志、限流、等等。

二、网关模式

1、模式对比

这里对比常用的请求服务管理模式，和网关模式，如图：

常规模式

在没有网关的情况下，微服务架构会在业务层服务上提供一个API服务，用来接收参数，例如Client-API，通常会根据系统模块划分多个API，例如，运营系统，用户系统等。

请求统一进入Client-API服务；
Client-API经过鉴权，限流，路由等操作；
如果请求通过，会转发到相应业务服务上；
如果请求被拦截，会直接返回给客户端；
Client-API集成所有业务服务的开放接口；

该模式下的缺点非常明显，每个Client-API都需要实现一套非业务服务，代码冗余，当系统膨胀之后，维护成本极高，适用于轻量级系统架构。

网关模式

在业务服务层上，添加一层网关控制，在服务网关中可以完成一系列的横切非业务功能：

客户端请求在网关层做统一拦截；
网关上执行：路由/鉴权/限流/降级等操作；
网关判断是转发请求还是直接响应客户端；

网关服务层要执行很多非业务流程，作为系统的服务端唯一入口，承受所有服务的路由转发，安全，限流，缓存，日志，监控，熔断降级等功能，网关服务不仅要做到高可用，还要避免出现性能瓶颈。

2、多重网关

在大型复杂的系统中，通常会对网关做分层管理，把一类业务规划到一个网关下，避免网关过于臃肿，方便维护和管理：

总网关：通用常用来做路由转发功能；

模块网关：分类的业务服务聚合网关，对这类服务的做非业务性操作，最后请求转发到具体服务上，在数据类平台上，通常对数据通道(流入流出)做一层独立的服务网关；对数据分析类服务做一层独立网关；基本是根据服务的使用情况来划分，这样避免单层服务网关过于复杂的情况。

三、核心功能

1、配置层面

服务发现

网关应该有服务发现功能，通过统一注册中心，获取服务列表，这样才能执行统一代理服务和路由转发功能。

路由请求

植入网关层服务之后，客户端不知道自己请求的是哪个具体的服务，只需要把请求转发给网关，网关放行之后会把请求路由到指定业务服务上。

负载均衡

网关连接的服务实例可能是集群模式存在，所以网关还可以对各个服务实例上执行负载均衡策略，常见的策略就是服务轮询或者按权重路由。

2、定制开发

定制开发例如：权限校验，日志集成，接口限流，等相关功能，需要和数据库交互，可以做成独立服务，在服务中实现具体的处理逻辑，网关层直接调用即可。

四、网关组件

1、Netflix-Zuul

Zuul网关主要提供动态路由，监控，弹性，安全管控等功能。在分布式的微服务系统中，系统被拆为了多个微服务模块，通过zuul网关对用户的请求进行路由，转发到具体的后微服务模块中，Netflix开源的一个基于JVM路由和服务端的负载均衡器。

2、Tyk组件

Tyk是一个开源的、轻量级的、快速可伸缩的API网关，支持配额和速度限制，支持认证和数据分析，支持多用户多组织。基于go语言编写，在Java架构系统中使用很少。

3、Kong组件

Kong是一款基于Nginx+Lua编写的高可用，可扩展的开源网关项目，由Mashape公司开放。核心是实现数据库抽象，路由和插件管理，插件可以存在于单独的代码库中，并且可以在几行代码中注入到请求生命周期的任何位置。提供易于使用的RESTfulAPI来操作和配置API管理，并且可以水平扩展多个Kong服务器，通过前置的负载均衡配置把请求均匀地分发到各个Server，来应对高并发的网络请求。

基于 IoT+TSDB+Quick BI 云产品架构的楼宇环境监控实战-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

今天给大家带来基于阿里云 IoT 物联网平台 + TSDB 时序时空数据库 + Quick BI 报表三大云产品组合实现楼宇环境监控端到端开发实战。

少啰嗦，先看效果。

部署后效果

0.技术架构

本次 IoT 物联网开发实战我们在室内部署 4 个温湿度传感器，实时采集数据，每10秒发送到阿里云 IoT 物联网平台，通过规则引擎写入 TSDB时序数据库。在Quick BI 工作台，创建数据报表以分钟维度展示室内温湿度变化曲线。

技术架构如下：

1.物联网平台开发

1.1.免费开通阿里云 IoT物联网云服务:
https://www.aliyun.com/product/iot-deviceconnect
/>

1.2.创建产品室内温湿度计器，选择自定义品类，直连设备，定义物模型，包含2个属性温度，湿度:

1.3.注册设备，获取身份三元组。

1.4.配置规则引擎，实时流转数据到 TSDB中

1.5.完成设备端开发，实时上报温湿度数据。
我们以Node.js脚本来模拟设备上报，代码如下：

// 依赖mqtt库
const mqtt = require('aliyun-iot-mqtt');
// 设备身份
var options = {
    productKey: "device productKey",
    deviceName: "device deviceName",
    deviceSecret: "device deviceSecret",
    regionId: "cn-shanghai"
};

// 建立连接
const client = mqtt.getAliyunIotMqttClient(options);

//模拟 设备 上报数据（原始报文）
setInterval(function() {
    client.publish(
        `/sys/${options.productKey}/${options.deviceName}/thing/event/property/post`
        , getPostData()
        );

}, 10 * 1000);

// 模拟 温湿度
function getPostData() {

    const payload = {
        id: Date.now(),
        version:"1.0",
        params: {
            temperature: 10+Math.floor(Math.random() * Math.floor(50)),
            humidity: 10+Math.floor(Math.random() * Math.floor(50))
        },
        method: "thing.event.property.post"
    }

    console.log("payload=[ " + payload + " ]")
    return JSON.stringify(payload);
}

2.TSDB数据库

2.1.创建时序数据库，并开通公网 TSQL 连接串

2.2.IoT设备数据写入TSDB的记录

3.Quick BI

3.1.开通Quick BI服务，添加数据源，输入TSDB连接参数。

数据源添加成功

3.2.基于数据源的温度和湿度指标，创建数据集。

3.3.创建数据仪表板，并根据业务需求编辑图表。

3.4.发布仪表板。

3.5.在浏览器中查看楼宇环境监控报表。

【往期回顾】
1、39张IoT传感器工作原理GIF图汇总
 2、IoT 设备发送 MQTT 请求的曲折经历
 3、20元体 Arduino 环境监测仪开发
4、智能手持测温枪开发实践
 5、JMeter 压测 MQTT 服务性能实战

新手如何选择阿里云操作系统?-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

随着网站服务器技术的发展，越来越多的站长建站首先选择云服务器。时下阿里云云服务器ECS脱颖而出，成为多数站长网站服务器的首选。那么对于刚刚接触云服务器的站长来说，如何选择适合网站的阿里云云服务器ECS操作系统，阿里云云服务器ECS的操作系统有什么区别，阿里云linux服务器和windows服务器有何不同呢。

前提：若后期有需求购买阿里云任何产品的朋友，可以提前领取优惠劵。后期可为大家减少成本：点击领取阿里云优惠劵

阿里云个人购买+阿里云企业购买

首先，我们要清楚的便是每个系统之间的差别，以及在阿里云上的差别：

1.Windows

1.1)系统内含正版激活。

1.2)适合于运行Windows下开发的程序，如.net等。

1.3)支持SQLServer等数据库(需自行安装)。

1.4)可以使用远程桌面方式登录进行管理。

注：512内存不支持选择Windows系统，1G以上内存才能很好支持该系统。

2.Linux

2.1.1)最流行的服务器端操作系统，强大的安全性和稳定性。

2.1.2)免费且开源，轻松建立和编译源代码。

2.1.3)通过SSH方式远程访问您的云服务器。

2.1.4)一般用于高性能web等服务器应用，支持常见的PHP/Python等编程语言，支持MySQL等数据库(需自行安装)。

2.2CentOS(推荐)请使用yum方式在线安装软件。

2.3Ubuntu请使用aptitude方式在线安装软件。

2.4Debian请使用apt-get方式在线安装软件。

2.5AliyunLinux(兼容RedHat)请使用yum方式在线安装软件，yum源需要自行购买redhat的商业支持。

操作系统更换规则：

1.更换操作系统

更换系统之前请先停止云服务器，云服务器更换操作系统会直接重置系统盘【IP不变】，系统盘数据将会丢失!

请您注意：

1.1.更换操作系统会使云服务器的系统盘更换为新的镜像，原有系统盘的数据都会丢失。

1.2.云服务器数据盘的数据不会受到影响。

1.3.建议您将系统盘的个人数据备份到数据盘中，或采用其他方式进行备份。

1.4.因您没有备份系统盘相关个人数据而造成的数据丢失，阿里云不承担责任。

1.5.内存为512M云服务器不支持更换Windows操作系统。

2.CPU/内存与操作系统的选择

2.1)如需选择/变更4G以上内存请您选择64位操作系统(32位操作系统存在寻址限制)。

2.2)如您选择32位操作系统，4G以上内存页面暂不展示，只有云服务器更换为64位操作系统才可展示。

2.3)Windows32位操作系统支持最高CPU为4核。

2.4)配置：[CPU：1核;内存：512M]的云服务器不支持选择/更换Windows操作系统。

Windows篇

阿里云提供了6种window系统，涵盖了Server2003sp2以及Server2008R2这两大类操作系统。

其中又分为了32位和64位

(1)如何选择32位还是64位

32位系统相比64位系统，最主要的限制体现在内存的大小上。因为32位本身的限制，其最大只可支持到4GB内存，如果您的网站要使用高于4GB的内存或者以后有扩充内存寻到4GB以上的打算，请使用64位操作系统。

(2)选择2003还是选择2008

对于windows来说，我个人建议是选择版本越高的越好。相对来说新版本漏洞相对来说更少，而且IIS7.5相对于IIS6提供了更多的功能以及更方便的控制台。但是考虑到大家的机器配置不同，在此给出一下几种选择：

A：配置低于双核2GB内存：选择server2003不装数据库配置双核4GB：server2003mssql或者server2008R2不带数据库

B：配置高于双核8GB：serever2008R2mssql建议如果大家要在云服务器上跑数据库，尽量选择大内存配置，或者降低配置去选用RDS

(3)中英文、安全加固版如何选择

这个就依据大家各自的喜好来了，在此不多说了至于Windows服务器配置教程，因为网上教程很多而且相对于Linux来说Windows配置难度更低，所以Windows的配置教程会比较晚的放出。

Linux篇

(1)这些linux大类有什么区别

Debian：用的deb包，使用APT包管理系统。

同时Debian提供了大多数软件比较新的版本，并且提供了更多的软件包(相对于原版RedHat)。Debian的优点在于更新迅速，软件包完善(Ubuntu尤其)，操作便利。缺点是部分时候稳定性欠佳，跟进最新软件有可能存在Bug。

Centos：用rpm包，使用yum包管理系统。

相对于Debian来说，Centost的一大特点就是慢。大部分软件停留在稳定版本，而且相距最新版版本也差较多。而且某些新版软件的一些新特性支持也比较慢，比如php-fpm。

因为Centos是面向企业用户提供的操作系统，所以在稳定性上十分突出，一般在新功能或稳定性的选择上更倾向于后者。只有当某个功能完全确定稳定了，才会加入到系统里。优点是系统稳定，技术文档完善，如果付费的话能得到企业级别的技术支持。缺点是软件包比较老旧，而且一些较新功能会欠缺。

总结一下：如果你喜欢尝鲜，喜欢用最新的功能或喜欢折腾系统，那么Debian是个更好的选择。
上手难度Ubunt

(2)Debian与Ubuntu的选择

Ubuntu是基于Debian所开发，可以简单地认为Ubuntu是Debian的功能加强版。

与Debian相比，Ubuntu提供了更人性化系统配置，更强大的系统操作以及比Debian更激进的软件更新。

Ubuntu与Debian比较，可以认为Debian更趋向于保守一些，Ubuntu对新手友好度更高，上手更容易。

用过Ubuntu的都会体会到它的易用，反之如果用过Ubuntu再换到别的系统，都会觉得不适应，Ubuntu真的很方便。

个人建议，如果你打算选择Debian类的，建议选择Ubuntu。

Ubuntu提供了更好的操作，更激进的软件更新，更方便管理软件以及相差无几的稳定性。

如果你不想放弃稳定'那么请选择Debian。

关于Ubuntu版本选择：

在此解释下Ubuntu的版本支持时间。Ubuntu普通版本只提供18个月的技术支持，过期则不管。

服务器版本提供长达五年的技术支持。所以建议大家选择12.04版，提供长达5年的技术支持，可以确保在静候相当长的一段时间内你的服务器可以继续收到系统升级补丁以及可用的软件源。

(3)Centos的选择

对于阿里云Centos的选择，建议选择Centos6.5版本，带来了更多的新特性以及更多的新功能。

除非你的软件需要php5.1的环境，那么就选择Centos6.5。如果网站需要支持php5.1，只能选用Centos5.8。

至于具体版本选择，建议php5.1用户选择Centos5.8，其他的用户则为Centos6.5。
最后的最后提醒大家一定要领取价值2000优惠劵

2020年阿里云热门活动全攻略-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

口碑爆款，低至0.9折

千万用户的口碑之选，热门云产品鼎力推荐，跟着买就对了查看更多

精选爆款弹性计算云数据库网络存储CDN云安全企业应用更多产品

ECS计算型 c5企业新用户销量之王！适用Web服务器、广告、游戏等企业通用业务场景2核4G1年1~10M可选带宽40-100G可选云盘年中促限购3台低至2.6折￥699.84/年起￥1892.16/年加入购物车立即购买	ECS计算型c6CPU与内存配比1：2 最新代企业级产品，性能全面升级2核4G1M带宽40G高效云盘年中促限购5台河源1年7折￥1948.20/年起￥739.80/年加入购物车立即购买	ECS突发性能 t5新用户20%性能基线，性价比之王！个人开发者建站必备1核2G1年1~5M可选带宽40G高效云盘年中促限购3台低至0.9折￥91.80/年起￥928.20/年加入购物车立即购买	ECS通用型g6CPU与内存配比1：4 最新代企业级产品，性能全面提升2核8G1M带宽40G高效云盘年中促限购5台河源1年7折￥2393.40/年起￥930.60/年加入购物车立即购买
云数据库MySQL新用户全球最受欢迎的开源数据库之一高安全等级，高稳定，5倍性能提升基础版：1核2GAliSQL源码优化性能相比开源提升5倍多系列规格，满足多负载和可用性需求年中促半年6折限1次限1台￥583.20/6月起￥388.80/6月加入购物车立即购买	云数据库SQL Server新用户微软SQL Server 企业版授权许可主实例故障后自动切换至镜像实例Web版：4核8G自动监控巡警，定期性能巡检随时进行备份，秒级数据恢复功能年中促半年6折限1次限1台￥2484.00/6月起￥1656.00/6月加入购物车立即购买	轻量应用服务器一键上云，可视化面板适用于个人用户建站或企业网站搭建1核1G，SSD 40GB10Mbps最高峰值带宽2000GB最高免费流量年中促个人必选￥612.00/年起￥108.00/年加入购物车立即购买	弹性公网IP独立公网IP, 可随时绑定与解绑5Mbps带宽独立公网带宽随时绑定与解绑即开即用, 变更配置实时生效年中促年付低至8折￥1245.00/年起￥255.00/年加入购物车立即购买查看更多商品

弹性计算

云数据库

网络存储CDN

云安全

企业应用

更多产品

为你推荐-上云必备

基于您的业务场景，为您推荐解决方案及产品组合，帮助您一站式解决上云问题

电商专区企业初创服务数字新基建业务安全企业应用音视频专区

快速建站适合新手快速建站，价格实惠，快速上云价格实惠，ECS服务器最低0.9折快速建站，一键上云100元拥有网站，错过再等一年	ECS突发性能 t5新用户20%性能基线，性价比之王！个人开发者建站必备1核2G1年1~5M可选带宽40G高效云盘年中促限购3台低至0.9折￥91.80/年起￥928.20/年加入购物车立即购买	ECS共享型 s6新用户最新代产品，性能强劲，广泛适用于建站等应用2核4G1年1~5M可选带宽40G高效云盘年中促限购3台低至2.2折￥414.48/年起￥1469.52/年加入购物车立即购买	ECS共享型 s6新用户最新代产品，性能强劲，广泛适用于建站等应用2核4G3年1~5M可选带宽40G高效云盘年中促限购3台低至2折￥1243.44/3年起￥4408.56/3年加入购物车立即购买
全站提速适用企业应用，2核4G及以上配置+OSS+企业版DNS+PolarDB ，打开更快ECS服务器低至1.6折，速抢~云解析保障网站访问快速、安全、稳定OSS及PolarDB读写速度更快	ECS共享型 s6企业新用户最新代产品，性能强劲，广泛适用于建站等应用2核4G1年1~10M可选带宽40~100G高效云盘年中促限购3台低至1.6折￥301.44/年起￥1582.56/年加入购物车立即购买	ECS共享型 s6企业新用户最新代产品，性能强劲，广泛适用于建站等应用2核4G3年1~10M可选带宽40~100G高效云盘年中促限购3台低至1.6折￥904.32/3年起￥4747.68/3年加入购物车立即购买	对象存储OSS适合图片/音视频等多媒体数据存储，数据实时处理，海量存储无上限标准(LRS)包500GB1年深度集成数据处理服务生命周期管理降低成本年中促折上9折￥437.40/年起￥210.60/年加入购物车立即购买查看更多商品
畅快购物如何支撑业务快速发展？更强大性能更优的服务器，丰富的配套，保障用户畅快购物网站监控及日志分析必备工具快速识别身份证等卡证信息高精准低成本营销通路	ECS通用型g6CPU与内存配比1：4 最新代企业级产品，性能全面提升2核8G1M带宽40G高效云盘年中促限购5台河源1年7折￥2393.40/年起￥930.60/年加入购物车立即购买	ECS内存型r6CPU与内存配比1：8 最新代企业级产品，性能全面提升2核16G1M带宽40G高效云盘年中促限购5台河源1年7折￥3048.60/年起￥1211.40/年加入购物车立即购买	消息队列 Kafka 版100%兼容kafka（0.10.0.0及以上版本）标准版比自建更便宜进一步优化开源痛点开箱即用，无缝迁移年中促大数据必备￥9.90/月起￥1573.60/月加入购物车立即购买查看更多商品

企业初创服务

数字新基建

业务安全

企业应用

音视频专区

更多活动

SpringCloud--Eureka集群与原理-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

Eureka集群与原理

原理

Eureka Server注册中心的集群和Dubbo的ZooKeeper注册中心集群在结构上有很大的不同。

  Eureka Server注册中心集群中每个节点都是平等的，集群中的所有节点同时对外提供服务的发现和注册等功能。同时集群中每个Eureka Server节点又是一个微服务，也就是说，每个节点都可以在集群中的其他节点上注册当前服务。又因为每个节点都是注册中心，所以节点之间又可以相互注册当前节点中已注册的服务，并发现其他节点中已注册的服务。

CAP理论指出，一个分布式系统不可能同时满足C(一致性)、A(可用性)和P(分区容错性)。
由于分布式系统中必须保证分区容错性，因此我们只能在A和C之间进行权衡。

Zookeeper保证的是CP, 而Eureka则是保证AP。

组件调用关系

搭建Eureka注册中心集群，实现负载均衡+故障容错。

Eureka集群：==相互注册，相互守望。==

服务提供者

1、启动后，向注册中心发起register请求，注册服务

2、在运行过程中，定时向注册中心发送renew心跳，证明“我还活着”。

3、停止服务提供者，向注册中心发起cancel请求，清空当前服务注册信息。

服务消费者

1、启动后，从注册中心拉取服务注册信息

2、在运行过程中，定时更新服务注册信息。

3、服务消费者发起远程调用

数据存储结构

既然是服务注册中心，必然要存储服务的信息，我们知道ZK是将服务信息保存在树形节点上。而下面是Eureka的数据存储结构：

Eureka的数据存储分了两层：数据存储层和缓存层。Eureka Client在拉取服务信息时，先从缓存层获取（相当于Redis），如果获取不到，先把数据存储层的数据加载到缓存中（相当于Mysql），再从缓存中获取。值得注意的是，数据存储层的数据结构是服务信息，而缓存中保存的是经过处理加工过的、可以直接传输到Eureka Client的数据结构。

集群

我们使用笔记本配置 Eureka 集群

修改映射配置添加进hosts文件

mac系统的，接下来写的步骤是mac的。打开终端，输入sudo vim /etc/hosts来修改hosts文件。（权限不够需要加上sudo并输入密码）
在最后一行加入：

127.0.0.1       eureka7001.com
127.0.0.1       eureka7002.com
127.0.0.1        eureka7003.com

然后:wq!保存退出。

修改 Eureka 7001 的 yml 配置

eureka:
  instance:
    hostname: eureka7001.com  #eureka服务端的实例名称
  client:
    register-with-eureka: false
    fetch-registry: false
    service-url:
      #集群版  相互注册，相互守望
      defaultZone: http://eureka7002.com:7002/eureka/, http://eureka7003.com:7003/eureka/

修改 Eureka 7002 的 yml 配置

eureka:
  instance:
    hostname: eureka7002.com  #eureka服务端的实例名称
  client:
    register-with-eureka: false
    fetch-registry: false
    service-url:
      #集群版  相互注册，相互守望
      defaultZone: http://eureka7001.com:7001/eureka/, http://eureka7003.com:7003/eureka/ #相互注册，相互守望

修改 Eureka 7003 的 yml 配置

eureka:
  instance:
    hostname: eureka7003.com  #eureka服务端的实例名称
  client:
    register-with-eureka: false
    fetch-registry: false
    service-url:
      #集群版  相互注册，相互守望
      defaultZone: http://eureka7001.com:7001/eureka/, http://eureka7002.com:7002/eureka/ #相互注册，相互守望

将客户端注册到 eureka 集群

defaultZone: http://eureka7001.com:7001/eureka,http://eureka7002.com:7002/eureka,http://eureka7003.com:7003/eureka

actuator微服务信息完善

修改 eureka client 的yml文件：

# client:    
#     ...    instance要和client对齐
  instance:
    instance-id: payment8001
    prefer-ip-address: true   #访问路径可以显示ip地址

修改前：

修改后：

Eureka自我保护

保护模式主要用于一组客户端和Eureka Server 之间存在网络分区场景下的保护。一旦进入保护模式，Eureka Server将会尝试保护其注册表的信息，不再删除服务注册表的数据，也就是不会注销任何微服务

导致原因 ：某时刻某一个微服务不可用了，Eureka不会立刻清理，依旧会对该微服务对信息进行保存，属于CAP里面对AP分支

Eureka自我保护机制

  为了防止EurekaClient 可以正常运行，但是Server 在网络不通对情况下，Server不会立即剔除Client 

![在默认的情况下，如果EurekaServer 在一定时间内没有接收到某个微服务的实例心跳，EurekaServer将注销该实例  （默认90秒）。](https://img-blog.csdnimg.cn/20200819225642530.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQxOTc3ODM4,size_16,color_FFFFFF,t_70#pic_center)

只有在一定时间内丢失大量服务的心跳才开启自我保护模式。

禁止自我保护

  server:
    #关闭自我保护，默认为true
    enable-self-preservation: false
    #心跳的间隔时间，单位毫秒
    eviction-interval-timer-in-ms: 2000

   #Eureka客户端向服务端发送心跳的时间间隔，单位秒（默认30秒）
   lease-renewal-interval-in-seconds: 1
   #Eureka服务端在收到最后一次心跳后等待的时间上限，单位秒（默认90秒），超时剔除服务
   lease-expiration-duration-in-seconds: 2

Springcloud 仓库地址： github链接.
个人博客： http://blog.yanxiaolong.cn/.

一文读懂jar包的小秘密-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

简介

java程序员每天不是在创建jar包就是在创建jar包的路上，并且各种依赖引用都是以jar包的形式展示的。但是随着现代IDE的出现，我想很多程序员已经基本上很少直接和jar包打交道了。

换句话说，他们已经不认识jar包了。

那么jar包到底是什么呢？它有哪些小秘密呢？一起来看一下吧。

jar包到底是什么

jar包其实是一种zip格式的文件，所以说你实际上是可以使用zip相关的命令来对jar包进行创建或者解压缩操作。

不同的是jar包中多了一个META-INF文件夹。通过这个文件夹，jar包可以执行更多的操作。

JDK也自带了一个jar命令，通过jar命令我们可以实现创建，更新jar包的操作，下图是JDK8中jar命令的说明：

因为JDK9之后引入了模块化的概念，所以JDK9之后jar命令有了比较大的变化：

我们看一下JDK14中的jar命令的用法：

这里主要不是讲jar命令，所以我们不具体展开。

META-INF目录

jar包和zip包最大的区别就在于jar包中包含了META-INF目录（不是必须的），我们看一个比较常用的lombok.jar包的结构是怎么样的：

这个版本比较新，所以它使用的是最新的JPMS的写法，大家可以看到在jar包的根目录下面有一个module-info.class文件，表示这个jar包使用的是模块化。

然后再看一下META-INF目录，里面有一个MANIFEST.MF文件：

Manifest-Version: 1.0
Ant-Version: Apache Ant 1.7.1
Created-By: 14.3-b01-101 (Apple Inc.)
Premain-Class: lombok.launch.Agent
Agent-Class: lombok.launch.Agent
Can-Redefine-Classes: true
Main-Class: lombok.launch.Main
Lombok-Version: 1.18.10

MANIFEST.MF主要用来定义package相关的数据，这里我们可以看到lombok的MANIFEST.MF文件定义了manifest的版本号，创建时间，版本号和几个类型的class。

services文件夹里面存放的可以对外提供的服务。

这里列出的文件并不全，实际上还有下面几种文件：

INDEX.LIST

可以使用 -i在生成jar包的时候自动创建，是class的index文件，主要用来加速class加载。

x.SF

JAR包的签名文件。

x.DSA

与具有相同基本文件名的签名文件关联的签名块文件。该文件存储相应签名文件的数字签名。

versions/

主要为使用多版本的特性准备的，里面存储的是不同版本的class和资源。

比如下面命令创建了多个版本发行的jar包，并且将一些文件放在 META-INF/versions/9 目录中。

 jar --create --file mr.jar -C foo classes --release 9 -C foo9 classes

module-info.class

假如我们使用的是JDK9之后的JPMS模块化，那么就会生成这么一个module-info.class。这个文件主要是描述模块和外部模块直接的关系。

看一下lombok的例子：

module lombok {
    requires java.compiler;
    requires java.instrument;
    requires jdk.unsupported;
    requires static org.mapstruct.processor;

    exports lombok;
    exports lombok.experimental;
    exports lombok.extern.apachecommons;
    exports lombok.extern.java;
    exports lombok.extern.jbosslog;
    exports lombok.extern.log4j;
    exports lombok.extern.slf4j;
    exports lombok.extern.flogger;

    provides javax.annotation.processing.Processor with lombok.launch.AnnotationProcessorHider$AnnotationProcessor;
    provides org.mapstruct.ap.spi.AstModifyingAnnotationProcessor with lombok.launch.AnnotationProcessorHider$AstModificationNotifier;
}

这里面我们定义了依赖的类和service providers，同时也定义了对外提供的类。

在JDK9之后，存在两种path，一种是之前的class path，一种是module path。当 modular JAR被部署在module path中的时候，它就是一个modular JAR。当他被部署在class path中的时候，就是一个non-modular JAR。

同样的，如果是一个non-modular JAR被定义在module path中，那么这个non-modular JAR就自动被转换成了一个automatic module。

如果jar包在MANIFEST.MF中定义了Automatic-Module-Name，那么module名字就是这个值，否则会从JAR的名字来定义这个module。

automatic module主要是为了向下兼容而产生的。

关于JPMS的更多信息可以参考我之前写的文章：JDK9的新特性:JPMS模块化.

versions

versions主要和 multi-release JAR一起使用的：

Multi-Release: true

所谓multi-release JAR就是说一个jar包可以支持不同版本的JDK。我们可以根据需要指定不同版本的JDK所依赖的class文件或者属性文件。这个特性在我们进行JDK升级的时候还是很有帮助的。

一般来说，目录结构是这样的：META-INF/versions/N

其中N表示的是JDK的主要发行版本，比如9，10，11等。

类加载器会先去META-INF/versions/N目录中加载所需要的class，然后会去其他的低版本的META-INF/versions/N目录中加载所需要的class，最后才会在META-INF/的根目录加载其他的class文件。

MANIFEST.MF详解

MANIFEST.MF中存放的是key：value格式的配置信息，这些配置信息又可以分成两部分，第一部分是main-section信息，第二部分是individual-section。

我们举个简单的例子：

Manifest-Version: 1.0
Created-By: 1.8 (Oracle Inc.)
Sealed: true
Name: foo/bar/
Sealed: false

其中

Manifest-Version: 1.0
Created-By: 1.8 (Oracle Inc.)
Sealed: true

就是main-section信息，我们用一张图来看一下main-section的信息有哪些：

在main-section信息下发可以接一个Name: Value，表示开启独立的针对于具体entry的属性（Per-Entry Attributes）配置：

Name: foo/bar/
Sealed: false

比如上面的属性是专门针对于包foo/bar/的，并且设置其Sealed属性为false。

Per-Entry Attributes除了 package versioning 和 sealing信息外，还可以定义Content-Type，Java-Bean，x-Digest-y和Magic属性。

JAR包签名

JAR包可以通过使用jarsigner来对其进行签名。和签名相关的文件是：

META-INF/MANIFEST.MF
META-INF/*.SF
META-INF/*.DSA
META-INF/*.RSA
META-INF/SIG-*

签名过后的jar跟原来的jar其实并没有什么不同，只不过在META-INF/文件夹中多出了两个文件，一个是签名文件，一个是签名block文件。

签名文件

签名文件是以.SF结尾的，这个文件和MANIFEST.MF很类似，可以指定Signature-Version和Created-By。

除此之外，还可以指定和安全相关的属性：

x-Digest-Manifest-Main-Attributes：其中x是java.security.MessageDigest中指定的算法，表示的主要属性的摘要。
x-Digest-Manifest：表示的是整个manifest的摘要。

这两个属性主要用来做验证签名用的。

举个例子：

如果我们的manifest是下面这样的：

    Manifest-Version: 1.0
    Created-By: 1.8.0 (Oracle Inc.)

    Name: common/class1.class
    SHA-256-Digest: (base64 representation of SHA-256 digest)

    Name: common/class2.class
    SHA1-Digest: (base64 representation of SHA1 digest)
    SHA-256-Digest: (base64 representation of SHA-256 digest)

那么相应的签名文件应该是这样的：

    Signature-Version: 1.0
    SHA-256-Digest-Manifest: (base64 representation of SHA-256 digest)
    SHA-256-Digest-Manifest-Main-Attributes: (base64 representation of SHA-256 digest)

    Name: common/class1.class
    SHA-256-Digest: (base64 representation of SHA-256 digest)

    Name: common/class2.class
    SHA-256-Digest: (base64 representation of SHA-256 digest)

签名文件的摘要

如果再对.SF文件进行摘要，那么就会得到签名文件的摘要文件：

.RSA (PKCS7 signature, SHA-256 + RSA)
.DSA (PKCS7 signature, DSA)

Sealed

上面我们讲到了一个Sealed属性：

Name: javax/servlet/internal/
Sealed: true

这个属性的意思是，javax/servlet/internal/包中的所有类必须从这个jar包中加载。

这个属性主要是从jar包的安全性来考虑的。

本文已收录于 http://www.flydean.com/java-jar-in-detail/

最通俗的解读，最深刻的干货，最简洁的教程，众多你不知道的小技巧等你来发现！

欢迎关注我的公众号:「程序那些事」,懂技术，更懂你！

阿里云云原生数据湖分析DLA重磅发布-数据湖管理，助力企业一站式管理OSS数据湖存储数据 -阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

一、什么是数据湖方案

数据湖当前在国内外是比较热的方案，MarketsandMarkets市场调研显示预计数据湖市场规模在2024年会从2019年的79亿美金增长到201美金。一些企业已经构建了自己的云原生数据湖方案，有效解决了业务痛点；还有很多企业在构建或者计划构建自己的数据湖，Gartner 2020年发布的报告显示目前已经有39%的用户在使用数据湖，34%的用户考虑在1年内使用数据湖。在构建自己的数据湖之前还是需要充分评估什么是数据湖、数据湖方案能够带来什么价值、如何快速构建数据湖。

1.1 什么是数据湖

Wikipedia上说数据湖是一类存储数据自然/原始格式的系统或存储，通常是对象块或者文件，包括原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据，包括来自于关系型数据库中的结构化数据（行和列）、半结构化数据（如CSV、日志、XML、JSON）、非结构化数据（如email、文档、PDF等）和二进制数据（如图像、音频、视频）。
从上面可以总结出数据湖具有以下特性：

数据来源：原始数据、转换数据
数据类型：结构化数据、半结构化数据、非结构化数据、二进制
数据湖存储：可扩展的海量数据存储服务

1.2 数据湖方案价值

数据湖的定义可以看出相比较数据库、数据仓库等，数据湖要处理的数据类型更加开放、更加复杂。数据库主要是处理结构化数据的联机事务；数据仓库主要处理大数据量结构化数据的分析。而数据湖主要是对海量的结构化、半结构化、非结构化、二进制数据进行存储，同时还需要对这些数据进行管理和价值挖掘。接下来可以看下云上沉淀的典型数据湖方案：

方案一：一站式端到端数据湖存储、管理、分析&计算方案

场景：企业在构建数据湖方案时，期望构建完整、通用、可扩展的解决方案，涉及到数据摄入、数据存储、数据管理、数据价值挖掘全链路，同时需要有上下游工具的支持。
方案价值：数据摄入侧支持一键建湖、流式入湖归档数据到OSS存储；数据管理侧支持对Database、文本、流式数据统一到OSS上面构建元数据管理；数据分析及计算侧支持通过Serverless Spark进行ETL及复杂计算、Serverless SQL(兼容 Presto)进行交互式查询。工具对接侧支持对接DMS调度、业务APP、QuickBI来进行管理。

方案二：OSS 大规模数据（自由编程）清洗&机器学习方案

场景：企业对存储在OSS上面的大规模数据需要进行多种计算负载处理，比如ETL、机器学习、图计算等，同时利用python、java、scala、R等生态进行自由编程。
方案价值：DLA Serverless Spark能够友好的支持该场景。弹性方面Serverless Spark完全弹性，1分钟启动300个节点进行计算；生态方面Serverless Spark的多数据源能力，提供外部数据源批量入库、联邦分析能力；算法及Code方面支持 Python、用户Code、机器学习等原生KPI；离线数仓(复杂分析)方面支持复杂分析，提供天/月级别的报表等。

方案三：不同类型数据源联邦查询分析方案

场景：企业的业务系统数据一般存储在数据库比如MySQL、MongoDB等；日志数据因为数据量大的特性会存储在OSS上面。通过数据湖分析方案能够让这两种数据进行联邦查询，释放数据价值。
方案价值：DLA Serverless SQL(兼容Presto)支持15种以上的数据源，能够满足95%的联邦分析数据源对接。DLA Serverless SQL支持高效的交互式查询，在读写数据源端做了大量下推优化。DLA Serverless SQL通过JDBC可以对接包括DMS、QuickBI、tableau等系统满足业务开发需求。

二、构建数据湖方案面临的挑战

上面的两个数据湖方案是各大企业在阿里云上面通过实践沉淀下来的。还是有不少企业会问这两个数据湖方案确实很有价值，但是在落地的过程中总是会遇到一些问题，导致方案落地缓慢，比如：

如何构建数据的统一管理视图：OSS不像数据库及数据仓库具有元数据管理系统，导致海量数据存储后难以管理。另外各个数据库、数据仓库等系统有自己的元数据，形成了数据孤岛，难以进行统一管理，释放数据联邦分析价值；
如何构建多租户的权限管理：如果全域数据都使用数据湖方案管理，企业多部门研发人员共同使用数据湖挖掘价值，但是缺少有效的数据租户及权限隔离，产生数据风险；
如何自动化的构建元数据：OSS上面的文件量巨大、且这些数据是动态增长变化的；如果手动创建元数据一方面效率低，同时无法满足动态更新的需求；
如何简单的进行数据入湖：为了满足数据写入的实时性，比如日志场景数据的入口是在类似Kafka、Loghub等消息系统，这些数据怎么高效的归档到OSS进行后续的分析？存储在数据库中的数据以前为了节省成本，以及保证稳定性，通常会只保留最近一段时间的数据，在有数据湖方案后，想要把这些数据归档到数据湖做后续的分析，那么如何简单高效的归档到OSS数据湖呢？

结合用户的这些挑战和痛点，阿里云数据湖分析服务DLA的数据湖管理功能可以有效的提高构建数据湖的效率，接下来一起把这些功能玩转起来吧

三、DLA高效的数据湖管理功能

阿里云数据湖分析服务DLA的数据湖管理功能定位为帮助用户构建统一、安全、高效、开放的数据湖解决方案。从下面的数据湖方案整体架构图可以看出：

存储对接：数据湖管理向下管理好数据湖存储的数据，包括构建OSS目录的元数据系统以及方便的把流式数据及Database的数据归档到OSS管理起来；
分析与计算支持：数据湖管理向上为多种数据湖计算引擎提供统一的元数据系统，目前支持数据湖原生分析与计算引擎DLA Serverless SQL（兼容Presto）、DLA Serverless Spark；部分Hadoop&Spark生态，比如Apache Hudi；AnalyticDB、MaxCompute、EMR等系统也可以对接数据湖管理的元数据系统。

数据湖管理核心功能包括：元数据管理、元数据爬取、数据入湖、实时数据湖。下面一起来看下这些功能是如何高效的帮助构建数据湖的。

3.1 元数据管理

数据湖存储的数据量更加大、数据格式更加丰富，为了对这些数据进行安全的管理和挖掘价值，需要一套同时具备基本管理能力、多租户权限管理能力、扩展能力、开放能力的统一元数据系统。阿里云数据湖分析服务DLA的元数据系统具备这些能力。

3.1.1 DLA元数据管理介绍

下面是数据湖分析服务DLA的元数据管理系统的架构图：

存储层：DLA元数据管理系统是一套多租户的服务，管理所有用户元数据，目前是每个regoin部署一套。智能数据路由层，用来做租户元数据的存储管理，能够根据用户元数据量级动态扩展调整；
核心服务层：元数据管理系统提供database、table、partition的服务进行库、表、分区、列的管理能力，同时支持使用租户服务、权限服务、生命周期管理，权限粒度可以支持到库、表、列；
接入层：统一元数据管理服务为了支持更多计算引擎对接，同时支持通过JDBC、阿里云OpenAPI来使用元数据服务；目前以JDBC为主，阿里云OpenAPI对接进行中。身份认证支持对接阿里云RAM账号体系，以及DLA账号体系。同时会有元数据相关的请求QPS监控。
生态层：目前这套元数据管理支持对接云原生的数据湖分析引擎DLA Serverless SQL&Spark；开源Hadoop&Spark，其中Apache 顶级项目Hudi已经原生支持了阿里云数据湖分析元数据HUDI-841；阿里云数据库备份DMS也使用这套元数据作为其备份数据湖分析的元数据系统；AnalyticDB、EMR、MaxCompute等也可以进行对接。

3.1.2 DLA元数据管理上手

可视化全局管理视图
如下图可以在阿里云数据湖分析DLA的控制台“元数据管理”进行元数据的操作，比如“创建Schema”、查看库表信息、查询数据等。

创建元数据
- 自动化元数据创建：可以参考3.2元数据爬取、3.3数据入湖的详细介绍
- SQL手动创建：支持HIVE风格的DDL语法；
- SQL自动创建：支持create table like mapping语法自动识别数据源文件的列，减少手写很多列及类型的麻烦；支持MSCK REPAIR DATABASE语法自动把Database下面的表创建好；支持MSCK REPAIR TABLE自动把table下面的分区和数据目录创建映射好。
权限管理：目前支持通过JDBC进行权限的GRANT和REVOKE，通过阿里云OpenAPI也在研发中
- GRANT：权限类型可以取值为SELECT、 SHOW、 ALTER、DROP、CREATE、INSERT、UPDATE、DELETE、GRANT OPTION、 ALL、ALL PRIVILEGES、USAGE等，通过这些类型进行用户的权限授权
- REVOKE：和GRANT对称，可以进行用户权限的撤销授权。

3.2 元数据爬取

用户基于OSS进行数据湖存储时，数据具有规模大、格式丰富、动态变化、非结构化字段多的特点，这种情况下手动创建的可行性及成本会比较高。

3.2.1 DLA元数据爬取介绍

元数据爬取功能可以自动为OSS上面的数据文件创建及更新数据湖元数据，方便分析和计算。具有自动探索文件数据字段及类型、自动映射目录和分区、自动感知新增列及分区、自动对文件进行分组建表的能力。目前主要支持了自动爬取OSS上面的元数据，Database的自动元数据构建在开发中。核心功能包括：

自动探索格式：企业存储在OSS上面的数据格式多种多样，比如常见的有json、csv、parquet、orc等，同时不同文件里面的字段数目及类型也是多种多样的。DLA元数据爬取功能具备自动探索这些schema的能力。
增量发现：存储在OSS上面的数据是动态变化的，比如用户会向同一个目录下面持续的上传文件，且文件的字段数也会增加、Loghub投递到OSS上面的文件会增量的通过日期目录来写入等。元数据爬取功能能够覆盖这些场景；
规模扩展：随着要爬取的OSS上面文件规模的增大，元数据爬取任务可以自动弹性伸缩资源来保证元数据爬取任务端到端的延迟。

3.2.2 DLA元数据爬取10分钟上手

使用DLA的元数据爬取可以通过DLA的控制台，同时元数据爬取开放阿里云OpenAPI也在研发中，同时也会被集成到其他云产品中。下面一起玩转一下元数据爬取功能：

创建任务：左侧选择要爬取的具体OSS路径，右侧配置爬取的元数据要存储到DLA元数据系统的Schema名称即可，其他高级选项根据实际需求调整。

任务管理：爬取任务会自动周期运行，可以通过这个界面管理任务的运行情况。支持查看任务的运行状态、配置的修改、跳转到DLA的SQL窗口进行快速的数据查询。

3.3 数据入湖

企业并不是所有业务数据直接存储在数据湖OSS中，其他的业务数据存储主要有两类包括消息中间件、Database，而这些数据都有归档存储到数据湖OSS中进行统一计算分析的需求。因此简单易用的数据入湖功能成为普遍的需求。

3.3.1 DLA数据入湖介绍

阿里云数据湖分析DLA的数据入湖支持Database的全量&增量&多库合并建入湖、支持消息中间件数据的实时入湖等能力。

Database一键建湖：主要支持全量、增量、多库合并三种模式，其中增量模式正在开发中；核心价值如下：
- 丰富的数据源：包含OLTP的MySQL、SQLServer、POLARDB等，同时支持NoSQL的mongoDB等；
- 自动感知源库结构变化：能够自动识别源库的增表、增加字段等同步更新到OSS数据湖；
- 整库多表建湖：一键建湖能够自动同步数据库的整个Database下面所有表，而不需要每张表都去单独配置；
- 分表&分库合并建湖：有些业务场景为了提高OLTP的查询性能及数据隔离性，经常会进行分库及分表。目前某用户使用该功能支持了8200+ SqlServer库合并到一个DLA的库里面，这样可以对分库的数据进行中心化统一分析。
- 源库影响最小化：数据入湖通过动态调整源库连接数的方式、以及选择业务低峰期归档，最小化对源库的影响。

实时数据入湖：对于云kafka、Loghub等消息中间、数据库的CDC数据可以通过“实时数据入湖”方案构建数据湖。

该方案基于DLA Serverless的Spark Streaming以及数据湖增量存储格式Apache HUDI来构建，通过HUDI增量写入OSS的数据，同时自动在DLA的元数据系统构建元数据。详细介绍可以参考文章，核心优势如下：

全链路数据延迟可达分钟级别，打造T + 0 数据湖；
支持数据增量存储在OSS，支持Upsert/Delete，同时自动构建元数据管理；
丰富的数据源，支持阿里云上超过95%数据源；
一份数据存储在OSS，通过DLA Meta增量管理，降低存储成本低；

3.3.2 Database一键建湖

使用一键建湖可以通过DLA的控制台，同时可以通过数据管理DMS进行。下面主要介绍DLA控制台的使用，关于DMS使用一键建湖可以参考视频。

创建一键建湖：左侧选择数据源，可以包括RDS、PolarDB、MongoDB、ECS自建数据库；右侧配置源库的验证信息，以及在DLA生成的元数据名称即可。

任务管理：对于周期运行的建湖任务可以进行全局的管理，以及对建好的湖进行分析。

四、展望与总结

数据湖分析DLA 是 Serverless的架构，支持【按需与保留】资源使用，打造最具性价比的数据湖分析平台；
提供一站式的数据湖分析与计算服务，支持 ETL、机器学习、流、交互式分析，可以与OSS、数据库等多种数据源搭配使用；功能包括：数据入湖，元数据管理与自动发现，支持双引擎：【SQL（兼容Presto）分析、Spark计算服务】。其中数据湖管理这块会朝着更易用、更开放、更可靠方向迭代。
注：数据湖管理控制台使用链接，数据湖管理及DLA的帮助文档。

DataWorks百问百答54：设置了数据质量校验，但是未触发校验怎么办？-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

本周为大家解析设置了数据质量校验，但是未处触发校验的情况

触发校验前提：

DQC必须要在调度触发任务，并且对表数据有修改之后才可以触发，例如：
1、insert overwrite table xxxxxxx
2、create table as select xxxxxxx

设置了校验，也有对表数据修改的操作，但未触发校验的日志表现情况：

触发了DQC Hook，但实际并没有进行数据质量校验的情况，是未触发实际的校验，一般有以下几种情况：

1、如果是SQL级别的校验，在触发时，日志中打印的业务日期set SKYNET_BIZDATE=20190826；必须和insert的分区相符，才可以触发。类似如下截图所示，业务日期和触发分区不符，必须改成任务级别才可以。

2、用户在分区表达式中设置了对当前时间前一天的校验，但在运行日志中，校验的又是当前时间的分区，会出现匹配不上分区的情况，不会触发规则校验，这时候，需要把分区表达式中改为对当前时间的校验，即：ds=${yyyymmdd}/xxxxxxxx/xxxx/xxx……
下图中的另一个情况是：用户设置了多级分区，但日志中请求DQC的参数数据显示的分区顺序，没有和设置的分区表达式中的分区顺序匹配上，这也是一种不会触发校验的情况。

3、odps表有二级分区，但在规则配置的分区表达式中，只设置了一级分区表达式，同样也会因为没有匹配上分区，而不触发校验。

分区表达式

分区表达式一定要写到最小粒度，而DQC支持的最小粒度为天。例如：我odps表有二级分区，ds=yyyymmdd hh=hh24，那么在写分区表达式时，一定要指定到二级分区hh，否则无法触发校验。
其中弹内需要使用正则表达式来编写，弹内、公有云多级分区表达式如下所示：

弹内多级分区写法：ds=${yyyymmdd-1}/hh=<[a-zA-Z0-9_-]*>
公有云多级分区写法：ds=$[yyyymmdd]/hh=$[hh24]
注意：弹内分区表达式符号使用“{}”，公有云符号使用“[]”。

总结：

触发数据质量规则校验，必须要对odps表数据有修改（insert、create）之后、表的分区也和规则设置的分区表达式匹配上方可触发哦。

DataWorks百问百答历史记录 请点击这里查看>>

更多DataWorks技术和产品信息，欢迎加入【DataWorks钉钉交流群】

测试面试题集锦（六）| 软素质篇与反问面试官篇（附答案）-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

本文为霍格沃兹测试学院学员学习笔记。

本系列文章总结归纳了一些软件测试工程师常见的面试题，主要来源于个人面试遇到的、网络搜集（完善）、工作日常讨论等，分为以下几个部分，供大家参考。如有错误的地方，欢迎指正。有更多的面试题或面试中遇到的坑，也欢迎补充分享。希望大家都能找到满意的工作，共勉之！~

软件测试工程师面试题集锦

软素质篇（10 大灵魂拷问）

1. 说一下自己的优点和缺点？

避开岗位的核心技能
把缺点放在场景中描述
对缺点进行合理化解释
优点随便说，主要方向还是在岗位上

2. 是否能接受加班？（建议分情况作答）

第一种情况：假设公司有重要的项目要赶。示范回答：贵公司现在正处于发展上升期，也在官网上有看到公司的重要项目成果，我觉得有时候因为赶项目进度、工作需要等忙起来是非常正常的，面对这种情况，我是非常愿意配合公司和团队的工作，让工作能够更顺利地完成，此外，我也相信自己一定能在公司安排的工作中获得到锻炼，获得更快地成长。
第二种情况：假设自己作为新人，对业务不熟悉。示范回答：我作为公司刚进去的新人，可能刚开始进入公司接触业务时不太熟练，会出现需要加班的情况，但我更愿意提高工作效率，并积极向公司的前辈请教学习，在一定的时间内完成工作而不是拖到下班之后。当然，如果有紧急的事情，忙起来需要加班也是可以接受的。

3. 你对薪酬的要求？

我上家公司基本在A~B 之间（建议合理提高，避免部分HR压价）。
薪资并不是我求职的唯一标准，我来贵司求职的主要动机是兴趣，这份工作是我喜欢做的，也相信自己可以胜任，更相信公司会给出一个合理的薪酬。
相比薪酬，我更在意的是收入，所以，我很愿意了解贵司的薪酬架构，可以简单介绍下吗？
我希望薪资可以达到 XX，据我了解，贵司这个岗位薪资范围是A~B ，而结合岗位职责及任职要求，我对自己也进行了相应评估，也愿意接受贵司的下一步考核。

4. 未来 5 年的职业规划

自我认知。对自己是否了解，了解是不是靠谱。
动机和价值观。你是否能接受我们并不一定能给你公平的职业发展机会这个现实？
组织承诺。你到底能在我们这踏实的干几年？

5. 为什么你觉得这个岗位适合自己？（为什么要聘用你）

描述应聘岗位的胜任条件，强调自己的工作能力和工作经验跟岗位的匹配度，岗位要求的工作技能是否自己掌握了，掌握的程度是怎样的，最好在面试中说出来。因此，在面试前最好是要针对应聘岗位，把自己胜任的条件一一列出来，做到知己知彼。可以谈论一下自己之前的工作情况，用成绩、用数据来说明自己的成就。
描述自己能为公司做出什么贡献，公司是一个讲究利益的地方，聘用你肯定要你为公司做出贡献。那么你在回答这个问题时，就需要说出你的加入可以为公司带来什么，这非常重要。因此，一定要明确你的工作目标和职业规划，表明你的立场和专业程度，让HR信任你。
描述出自身的优势。公司为何要聘用你，而不聘用别人，肯定是你有比别人优秀的地方。那么在回答这个问题时，就一定要说出自己与众不同的地方，最好是要举一个例子，来支持你的观点。
建立个人和公司的联系，HR想要得到一个怎样的答案呢？无非就是想通过这个问题，来进一步了解你各方面的信息，以及看看你为这次面试做了多少功课。那么在面试前，你最好是要尽可能获取有关公司可行业的资料信息。在回答的时候，结合自己所做的功课，建立个人和公司的联系，说明自己在哪一方面能够匹配公司的要求。HR看到你对应聘岗位这么了解，肯定会对你有好感。
说出你对这份工作的兴趣以及热情。

6. 对我们公司有多少了解？

如果不了解，就按实际情况回答就好，知道多少就说多少，（很多时候去面试对这个公司的了解都是从网上查到的，不会太深入）；
但最好是提前做好一些调研和准备工作；

7. 为什么愿意到我们公司？

有所准备，了解公司基本情况
个人目标与公司目标一致
强调你能如何为公司创造价值

8.与领导／团队同事意见不一致时，该如何处理？

不要假设“我已经完全的掌握了对这件事的认知”。向领导询问确认自己有可能缺失的信息。要寻找对领导没有告知的信息，和领导不能透露的信息。
不要假设领导已经完全的掌握了我对这件事的认知。检查一下，是否已经将事情的前因后果，自己对事情的理解，明确清晰的传达给了领导，以及，他是否真的已经明确了解。
在进行有效的认知沟通后，重新思考整件事情。如果意见还是有不一致，那么：
- 按领导要求执行。不理解，也执行，在执行中理解。
- 执行过程中，收集反馈，不断调整，提升认知。
- 执行完成后，及时复盘，回顾决策和行动过程，沉淀知识。

9. 缺乏工作经验，如何胜任这份工作？

承认工作经验的重要性。这样能带给面试官的印象是：该位候选人认知能力较强，具有理性思维与客观公正的处事态度及判断能力，尤其是对于自己也能客观公正地看待，勇于承认自己的缺失。
突显个人优势。用自己的其他优势特长来补足经验上的不足，比如说记忆力好、动手能力强、语言能力强、学习能力强等。
强调自己会不断提高工作能力。切忌用假大空的话，要用具体的与工作相关的事例或是数据来说明自己的学习力。

10. 工作／会议中与同事发生争执，如何处理？

在沟通之前，做好充分的准备
学会认真倾听，让别人把话说完
发现有情绪化苗头时，及时停止会议
借用一些工具，来解决交流障碍
学会非暴力沟通的方式

反问面试官

1.职责

团队中初级和高级人员如何平衡
针对员工有哪些培训和提升计划

2.技术

公司内部的技术栈
产品的架构
版本控制及迭代速度
服务器管理权限，本地计算机管理权限

3.团队

团队内和团队之间如何沟通
遇到了分歧如何解决
团队正在经历的尚未解决的挑战是什么
绩效考核是如何算的

4. 公司

晋升机会
是否有自己的学习资源
假期，加班工资等
过去半年最糟糕的一天是怎么样的
是什么让你来到并留在这里
是否能够平衡工作与生活

以上，本文是测试面试题集锦系列的完结篇。后续我们还将分享更多大厂面试真题，欢迎大家关注

免费领取：接口测试+性能测试+自动化测试+测试开发+测试用例+简历模板+测试文档

超详细的canal入门，看这篇就够了-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

思维导图

本文章已收录到个人博客网站(我爱B站)：me.lovebilibili.com

前言

我们都知道一个系统最重要的是数据，数据是保存在数据库里。但是很多时候不单止要保存在数据库中，还要同步保存到Elastic Search、HBase、Redis等等。

这时我注意到阿里开源的框架Canal，他可以很方便地同步数据库的增量数据到其他的存储应用。所以在这里总结一下，分享给各位读者参考~

一、什么是canal

我们先看官网的介绍

canal，译意为水道/管道/沟渠，主要用途是基于 MySQL 数据库增量日志解析，提供增量数据订阅和消费。

这句介绍有几个关键字：增量日志，增量数据订阅和消费。

这里我们可以简单地把canal理解为一个用来同步增量数据的一个工具。

接下来我们看一张官网提供的示意图：

canal的工作原理就是把自己伪装成MySQL slave，模拟MySQL slave的交互协议向MySQL Mater发送 dump协议，MySQL mater收到canal发送过来的dump请求，开始推送binary log给canal，然后canal解析binary log，再发送到存储目的地，比如MySQL，Kafka，Elastic Search等等。

二、canal能做什么

以下参考canal官网。

与其问canal能做什么，不如说数据同步有什么作用。

但是canal的数据同步不是全量的，而是增量。基于binary log增量订阅和消费，canal可以做：

数据库镜像
数据库实时备份
索引构建和实时维护
业务cache(缓存)刷新
带业务逻辑的增量数据处理

三、如何搭建canal

3.1 首先有一个MySQL服务器

当前的 canal 支持源端 MySQL 版本包括 5.1.x , 5.5.x , 5.6.x , 5.7.x , 8.0.x

我的Linux服务器安装的MySQL服务器是5.7版本。

MySQL的安装这里就不演示了，比较简单，网上也有很多教程。

然后在MySQL中需要创建一个用户，并授权：

-- 使用命令登录：mysql -u root -p
-- 创建用户 用户名：canal 密码：Canal@123456
create user 'canal'@'%' identified by 'Canal@123456';
-- 授权 *.*表示所有库
grant SELECT, REPLICATION SLAVE, REPLICATION CLIENT on *.* to 'canal'@'%' identified by 'Canal@123456';

下一步在MySQL配置文件my.cnf设置如下信息：

[mysqld]
# 打开binlog
log-bin=mysql-bin
# 选择ROW(行)模式
binlog-format=ROW
# 配置MySQL replaction需要定义，不要和canal的slaveId重复
server_id=1

改了配置文件之后，重启MySQL，使用命令查看是否打开binlog模式：

查看binlog日志文件列表：

查看当前正在写入的binlog文件：

MySQL服务器这边就搞定了，很简单。

3.2 安装canal

去官网下载页面进行下载：https://github.com/alibaba/canal/releases

我这里下载的是1.1.4的版本：

解压canal.deployer-1.1.4.tar.gz，我们可以看到里面有四个文件夹：

接着打开配置文件conf/example/instance.properties，配置信息如下：

## mysql serverId , v1.0.26+ will autoGen
## v1.0.26版本后会自动生成slaveId，所以可以不用配置
# canal.instance.mysql.slaveId=0

# 数据库地址
canal.instance.master.address=127.0.0.1:3306
# binlog日志名称
canal.instance.master.journal.name=mysql-bin.000001
# mysql主库链接时起始的binlog偏移量
canal.instance.master.position=154
# mysql主库链接时起始的binlog的时间戳
canal.instance.master.timestamp=
canal.instance.master.gtid=

# username/password
# 在MySQL服务器授权的账号密码
canal.instance.dbUsername=canal
canal.instance.dbPassword=Canal@123456
# 字符集
canal.instance.connectionCharset = UTF-8
# enable druid Decrypt database password
canal.instance.enableDruid=false

# table regex .*\..*表示监听所有表 也可以写具体的表名，用，隔开
canal.instance.filter.regex=.*\..*
# mysql 数据解析表的黑名单，多个表用，隔开
canal.instance.filter.black.regex=

我这里用的是win10系统，所以在bin目录下找到startup.bat启动：

启动就报错，坑呀：

要修改一下启动的脚本startup.bat：

然后再启动脚本：

这就启动成功了。

Java客户端操作

首先引入maven依赖：


    com.alibaba.otter
    canal.client
    1.1.4

然后创建一个canal项目，使用SpringBoot构建，如图所示：

在CannalClient类使用Spring Bean的生命周期函数afterPropertiesSet()：

@Component
public class CannalClient implements InitializingBean {

    private final static int BATCH_SIZE = 1000;

    @Override
    public void afterPropertiesSet() throws Exception {
        // 创建链接
        CanalConnector connector = CanalConnectors.newSingleConnector(new InetSocketAddress("127.0.0.1", 11111), "example", "", "");
        try {
            //打开连接
            connector.connect();
            //订阅数据库表,全部表
            connector.subscribe(".*\..*");
            //回滚到未进行ack的地方，下次fetch的时候，可以从最后一个没有ack的地方开始拿
            connector.rollback();
            while (true) {
                // 获取指定数量的数据
                Message message = connector.getWithoutAck(BATCH_SIZE);
                //获取批量ID
                long batchId = message.getId();
                //获取批量的数量
                int size = message.getEntries().size();
                //如果没有数据
                if (batchId == -1 || size == 0) {
                    try {
                        //线程休眠2秒
                        Thread.sleep(2000);
                    } catch (InterruptedException e) {
                        e.printStackTrace();
                    }
                } else {
                    //如果有数据,处理数据
                    printEntry(message.getEntries());
                }
                //进行 batch id 的确认。确认之后，小于等于此 batchId 的 Message 都会被确认。
                connector.ack(batchId);
            }
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            connector.disconnect();
        }
    }

    /**
     * 打印canal server解析binlog获得的实体类信息
     */
    private static void printEntry(List entrys) {
        for (Entry entry : entrys) {
            if (entry.getEntryType() == EntryType.TRANSACTIONBEGIN || entry.getEntryType() == EntryType.TRANSACTIONEND) {
                //开启/关闭事务的实体类型，跳过
                continue;
            }
            //RowChange对象，包含了一行数据变化的所有特征
            //比如isDdl 是否是ddl变更操作 sql 具体的ddl sql beforeColumns afterColumns 变更前后的数据字段等等
            RowChange rowChage;
            try {
                rowChage = RowChange.parseFrom(entry.getStoreValue());
            } catch (Exception e) {
                throw new RuntimeException("ERROR ## parser of eromanga-event has an error , data:" + entry.toString(), e);
            }
            //获取操作类型：insert/update/delete类型
            EventType eventType = rowChage.getEventType();
            //打印Header信息
            System.out.println(String.format("================》; binlog[%s:%s] , name[%s,%s] , eventType : %s",
                    entry.getHeader().getLogfileName(), entry.getHeader().getLogfileOffset(),
                    entry.getHeader().getSchemaName(), entry.getHeader().getTableName(),
                    eventType));
            //判断是否是DDL语句
            if (rowChage.getIsDdl()) {
                System.out.println("================》;isDdl: true,sql:" + rowChage.getSql());
            }
            //获取RowChange对象里的每一行数据，打印出来
            for (RowData rowData : rowChage.getRowDatasList()) {
                //如果是删除语句
                if (eventType == EventType.DELETE) {
                    printColumn(rowData.getBeforeColumnsList());
                    //如果是新增语句
                } else if (eventType == EventType.INSERT) {
                    printColumn(rowData.getAfterColumnsList());
                    //如果是更新的语句
                } else {
                    //变更前的数据
                    System.out.println("------->; before");
                    printColumn(rowData.getBeforeColumnsList());
                    //变更后的数据
                    System.out.println("------->; after");
                    printColumn(rowData.getAfterColumnsList());
                }
            }
        }
    }

    private static void printColumn(List columns) {
        for (Column column : columns) {
            System.out.println(column.getName() + " : " + column.getValue() + "    update=" + column.getUpdated());
        }
    }
}

以上就完成了Java客户端的代码。这里不做具体的处理，仅仅是打印，先有个直观的感受。

最后我们开始测试，首先启动MySQL、Canal Server，还有刚刚写的Spring Boot项目。然后创建表：

CREATE TABLE `tb_commodity_info` (
  `id` varchar(32) NOT NULL,
  `commodity_name` varchar(512) DEFAULT NULL COMMENT '商品名称',
  `commodity_price` varchar(36) DEFAULT '0' COMMENT '商品价格',
  `number` int(10) DEFAULT '0' COMMENT '商品数量',
  `description` varchar(2048) DEFAULT '' COMMENT '商品描述',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='商品信息表';

然后我们在控制台就可以看到如下信息：

如果新增一条数据到表中：

INSERT INTO tb_commodity_info VALUES('3e71a81fd80711eaaed600163e046cc3','叉烧包','3.99',3,'又大又香的叉烧包，老人小孩都喜欢');

控制台可以看到如下信息：

总结

canal的好处在于对业务代码没有侵入，因为是基于监听binlog日志去进行同步数据的。实时性也能做到准实时，其实是很多企业一种比较常见的数据同步的方案。

通过上面的学习之后，我们应该都明白canal是什么，它的原理，还有用法。实际上这仅仅只是入门，因为实际项目中我们不是这样玩的...

实际项目我们是配置MQ模式，配合RocketMQ或者Kafka，canal会把数据发送到MQ的topic中，然后通过消息队列的消费者进行处理。

Canal的部署也是支持集群的，需要配合ZooKeeper进行集群管理。

Canal还有一个简单的Web管理界面。

下一篇就讲一下集群部署Canal，配合使用Kafka，同步数据到Redis。

参考资料：Canal官网

絮叨

上面所有例子的代码都上传Github了：

https://github.com/yehongzhi/mall

如果你觉得这篇文章对你有用，点个赞吧~

你的点赞是我创作的最大动力~

想第一时间看到我更新的文章，可以微信搜索公众号「java技术爱好者」，拒绝做一条咸鱼，我是一个努力让大家记住的程序员。我们下期再见！！！

能力有限，如果有什么错误或者不当之处，请大家批评指正，一起学习交流！

高并发系统三大利器之限流-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

什么是限流？

限流可以认为服务降级的一种，限流就是限制系统的输入和输出流量已达到保护系统的目的。一般来说系统的吞吐量是可以被测算的，为了保证系统的稳定运行，一旦达到的需要限制的阈值，就需要限制流量并采取一些措施以完成限制流量的目的。比如：延迟处理，拒绝处理，或者部分拒绝处理等等。

坐地铁上班的同学对于这张图片是不是都不会陌生。

基本上在上下班的早晚高峰我们就会发现进站的闸机会有一部分是关闭的。为什么地铁站会关闭一部分闸机呢？这就是为了限流。毕竟地铁站就那么大，可容纳的人数也就那么多。如果大家一股脑全部挤进地铁站是不是又会发生踩踏事件什么的。这是生活中的限流。还有我们去景区玩，景区的门票是不是也是固定的，每天就卖那么多张，卖完即止。限流是不是和我们的生活也息息相关。

为什么要限流？

开篇也有说到限流是为了保证系统的稳定运行。假设我们一个系统一小时之最多只能处理10000个请求，但是一小时流量突增10倍，这突增的流量我们如果不进行限制的话，任由它直接进入系统的话，是不是直接会把我们的系统弄瘫痪，就无法对外提供服务了。本人就曾经被这个所坑过，有一次把爬虫开关拦截的开关给关掉了，突然有一大波的爬虫流量进入系统中，我们也没有把这些爬虫请求进行拦截，然后一股脑的全部给转发到下游系统里面去了。下游系统直接就找上门来了，造成他们的服务发生大量的超时。比如地铁早高峰的时候我们如果不对地铁站进行限流的话，大家是不是都会往地铁站挤，然后再往地铁里面挤，挤不上都还要挤。会导致地铁门都关不上，然后地铁就开不走，会导致越来越多的人堵在地铁站。然后最后就会导致整条地铁线都阻塞了。上班就妥妥的迟到了（对于程序员说大多数应该是弹性制的所以也不存在迟到这一说法）。

限流操作有哪些？

拒绝服务

这个是最最简单粗暴的做法了，直接把请求直接拒绝掉。
比如早高峰坐地铁的时候，直接让进入1000个人，剩下多出来的人不让坐地铁了。直接把入站口给关闭了。

服务降级

将系统的所有功能服务进行一个分级，当系统出现问题，需要紧急限流时，可将不是那么重要的功能进行降级处理，停止服务，这样可以释放出更多的资源供给核心功能的去用。
假设有一个功能新用户注册完，要给用户发送多少优惠券。这时候服务降级的话就可以直接把送券服务关掉，让服务快速响应，提高系统处理能力。
应用到早高峰坐地铁的时候比如在人民广场这个大站点，处理不过来了那么多人换乘，我们是不是可以直接地铁一号线在人民广场不停，直接到下一站在停，这时候经过人民广场换乘的人就少了。

延迟处理

把请求全部放入到队列中，真正处理的话，就从队列里面依次去取，这样的话流量比较大的情况可能会导致处理不及时，会有一定的延时。双十一零点我们付款的时候，去查询订单的状态是不是也会有一定的延时，不像在平时付完款订单状态就变成了付款状态。

特权处理

这个模式需要将用户进行分类，通过预设的分类，让系统优先处理需要高保障的用户群体，其它用户群的请求就会延迟处理或者直接不处理。我们去银行办理业务的时候是不是也会经常需要排队，但是是不是经常会VIP用户、什么白金卡用户，直接不需要排队，直接一上来就可以办理业务，还优先处理这些人的业务。是不是特羡慕这些人,哎羡慕也没办法谁叫人家有钱咧。

限流的实现方式？

计数器方法

这是最简单的限流算法了，系统里面维护一个计数器，来一个请求就加1，请求处理完成就减1，当计数器大于指定的阈值，就拒绝新的请求。是通过全局的总求数于设置的阈值来达到限流的目的。通常应用在池化技术上面比如：数据库连接池、线程池等中应用。这种方式的话限流不是平均速率的。扛不住突增的流量。

漏桶算法

我们可以看到水是可以持续流入漏桶里面的，底部也是匀速的流出，如果流入的速率大于底部流出的速率，以及漏桶的水超过桶的大小就会发生益出。请求一经过漏桶的过滤，不管你请求有多少，速率有多快，我反正就这么个速度处理。我们平时坐地铁的时候是不是也是这样，不管你乘客有多少，反正就是隔5min发一趟车。那早高峰的时候你5min钟一趟车根本就不够用啊，上班的人太多啊，你需要加快速度处理啊，所以可能早高峰改为3min一趟，动态调整速率。

令牌桶

看图的话是不是令牌桶和漏桶都差不多，只不过令牌桶新增了一个匀速生产令牌的中间人以恒定的速度往桶里面放令牌，如果令牌的数量超过里桶的限制的话，令牌就会溢出，这时候就直接舍弃多余的令牌。每个请求过来必须拿到桶里面拿到了令牌才允许请求（拿令牌的速度是不限制的，这就意味着如果瞬间有大量的流量请求进来，可以短时间内拿到大量的令牌），拿不到令牌的话直接拒绝。这个令牌桶的思想是不是跟我们java里面的Semaphore 有点类似。Semaphore 是拿信号量，用完了就还回去。但是令牌桶的话，不需要还回去，因为令牌会定时的补充。令牌桶算法我们可以通过Google开源的guava包创建一个令牌桶算法的限流器。

总结

以上粗略的介绍了几种单机的限流思想，大家可以根据这个思想然后去实现各种各样的限流组件。
我们的限流算法每个里面是不是都一个阈值，这个阈值设置为多少是不是比较难。
阈值设置过大的话，服务可能扛不住，阈值设置小了会把用户请求给误杀，资源没有得到最大的一个利用。

分布式限流的话，以后有机会再讲。

结束

由于自己才疏学浅，难免会有纰漏，假如你发现了错误的地方，还望留言给我指出来,我会对其加以修正。
如果你觉得文章还不错，你的转发、分享、赞赏、点赞、留言就是对我最大的鼓励。
感谢您的阅读,十分欢迎并感谢您的关注。

如何导入本地镜像到阿里云ECS服务器-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

镜像导入的使用场景
在操作之前，我们来介绍一下镜像导入的使用场景。
一种情况是，我们需要把线下环境整体搬到云上，这种情况可能有以下特征。
1.线下预部署好的服务器
2.需要在线下进行测试和调试的服务
3.应用需要在线下激活且允许移动的服务
4.线下老旧的物理服务器需要上云
5.另一种情况是，阿里云当前没有可用的操作系统类型供选择。比如说，操作系统类型没有、操作系统版本已经下线、线下定制的操作系统。

阿里云镜像导入的限制
不同于本地服务器，阿里云服务器ECS的镜像导入还是有一些限制的。

对于Linux系统，我们在导入镜像之前可以使用阿里云提供的镜像规范检测工具，检测各项配置指标是否合规。
检测命令如下：
wget http://docs-aliyun.cn-hangzhou.OSS.aliyun-inc.com/assets/attach/73848/cn_zh/1557459863884/image_check

chmod +x image_check

sudo <检测工具所在路径>/image_check –p [目标路径]

sudo ./image_check
参考资料：阿里云帮助中心-镜像规范检测工具

导入镜像步骤
首先打开OSS的控制台选择一个bucket，选择上传文件，上传已经本地已经做好的镜像，支持RAW和VHD格式。

这里我们已经上传了一个镜像，点击获取地址。

在弹窗中点击获取并复制生成的地址。

注意镜像文件上传的OSS区域，要和ECS同区域。接下来，我们进入ECS服务器控制台，进入镜像栏目，然后点击导入镜像。

这里要注意，要先确认ecs官方服务账号可以访问对应的OSS权限。

如果没有授权，点击授权即可。

授权后重现回到导入镜像界面。
镜像所在地：选择和OSS同一地域
OSS Object地址：填写刚才生成的OSS文件访问地址
镜像名称：我们这里填demo5
操作系统：我们选择Linux
系统盘大小：注意这个大小不是指镜像文件的大小，而是我们创建这个镜像时所占用的磁盘空间大小，我们这里填40
系统架构：选择对应的架构，我们这里是X86_64
系统平台：centOS
镜像格式：可选RAW和VHD，我们这里选择VHD

填写完成后，点击确认。

这样我们就创建成功了，对应的镜像正在创建中，创建完成后，我们就可以用这个镜像部署服务器环境了。您掌握了吗？
原文地址

Midway Serverless 能力介绍与设计分析-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

作者 | 张挺

这次分享的内容分为两部分，一块是 Midway Serverless 的能力介绍，第二块是这些能力的设计、思考、沉淀。

Background

当前业界的 Serverless 化方向如火突入，有如阿里正在利用 Serverless 将原有业务迁移，降低成本的，也有正在向这些方向努力前进的，我首先会介绍一下当前 Serverless 的一些背景，前端使用 Serverless 的一些场景和方向。第二块会简单介绍一下 Midway Serverless 的一些基础上手和使用。第三块会介绍 Midway Serverless 在抹平平台差异，架构防腐层的一些设计与心得，最后是对未来的一些期望，方向的思考。

Midway 从 2014 年开始一直在集团承担 Node.js 应用的基础开发框架，最开始是 express，到后面的 koa，egg 体系等，将集团业务承载至今。最开始的前后端分离，到如今的函数化，都在不断的开拓前端职能，让业务更聚焦，开发更提效。

之前的 midway v1 版本，我们认为 midway 是一个 Web 全栈框架，提供 Web 服务，增加了依赖注入之后，也适合于大型应用的开发，灵活性和应用的可维护性也得到了验证。

而到了现在 Midway Serverless 时期，整个 Midway 框架的定位在逐步的变化。

首先，Midway Serverless 是一个 serverless framework，可以在让代码在多云平台部署，在用户选择时可以减少一些顾虑。

第二是能够方便的让传统的应用迁移上现有的弹性服务，毕竟在集团内，还有非常多的传统应用，不管是在什么场景，这些应用都还需要人维护，需要占用大量的资源，如果能上弹性，对节省成本有非常大的好处。

第三是让应用本身能够在传统应用和函数之间切换，传统的 midway 是基于装饰器加上依赖注入的特性构建出来的，在函数体系下上，也可以这样做，甚至于通过构建将不同的场景结合到一起，我们希望最后能达到代码不变的情况下，不同场景都可用的状态。

结构

这是我们经典的目录结构，最简单的，抛开 ts 的一些文件，只需要 f.yml 这个配置以及 index.ts 这个逻辑文件，而复杂一点，也只是增加了目录，增加了不同逻辑的分层，和传统的写法契合。

这里的 f.yml 就承载了之前的路由层的功能，在 Serverless（FaaS）体系中，路由交给了网关处理，那么我们只需要在项目代码中写对应的原 Controller 的内容即可。

如图所示，f.yml 中每一个服务都会对应一个接口，每个接口都由一个方法承载由 handler字段去映射绑定，而实际运行中，通过依赖注入的方式，框架只根据当前执行的逻辑动态初始化其中方法，所以也不需要担心执行的性能问题。

f.yml 通过标准化适配多云平台，最简单的来说，可以通过定义 http 触发器的 path 和 method 具体的指定接口地址，也可以简化到默认值，自动变为通配路由等等。

工具链和能力

除了 f.yml 这套标准定义文件，我们还提供了 faas-cli ，一个精简的本地开发工具，帮助函数体系开发的更好。在开发层面，我们只精简的提供了 create，invoke，test，deploy 四个命令，对应了整个研发流程的四个周期，而剩下的部分，则交给了对应平台自身的能力来完成，同时，我们后续也会提供一些后置管理，让 Node.js 开发本身更加的高效。

从 v1.0 之后，我们也提供了一系列示例，不管是和前端集成的 React/Vue，还是场景化示例，博客，Todo list 等等。

原理解析

虽然给大家展示了开发的工具链，开发的标准，解释了运行时机制，大家是不是还是很疑惑，依赖注入是如何把 f.yml 中的 handler 字段如何与代码中对应的装饰器连接的，而函数整个原来的参数是如何和云平台对接，做到一套代码跨多平台的?

为了方便理解，我们拿 Midway v1 里的依赖注入容器来解释。

整个 Midway v1 是基于 EggJS 往上扩展，增加 IoC（依赖注入）容器的初始化部分，并且将装饰器的能力注册到其中，和整个路由体系结合到一起。

右边是我们核心的伪代码，在初始化时，容器会做一次扫描，把当前用户的代码都加载到内存中，并分析其中的装饰器组成一个”依赖图“，在每次执行逻辑的时候，从其中拿到对应的实例（get），并将其依赖，子依赖统一初始化。

路由部分也是这种逻辑的其中一层，在调用路由时，获取到对应的 Controller key，找到对应的方法，整个 Midway v1 都是如此运行起来的。

在之后的迭代过程中，我们发现这样和单一框架依赖会比较深，很难去灵活的调整功能，并且在 Web 场景的能力，很难去适配到其他场景，这就给逻辑的复用和扩展造成了不少困难。

我们希望不同的场景的代码，能够在一定程度上能够复用，比如常见的 router/orm/graphql 等等，都是可以横跨不同的场景去复用的，甚至于用户的服务层代码本身也是可以去多处复用的。另外一块，我们希望传统全栈到 Serverless 的过程是有延续性的，不希望代码的写法有比较大的区别，既能在不同的平台通用，又能在不同的技术栈大部分通用。

这也迫使我们的去思考不同的代码设计，找到最佳的路径。

Design

我们从最原始的函数写法给大家讲起。

架构防腐

整个原始的入口函数，社区的写法都非常简单，是一个传统的方法，其参数在不同平台根据不同触发器略有不同。

在执行时，通过网关调度到其内部的运行时，然后拼装参数执行到用户的入口函数中。

为了和之前的框架结合，以及屏蔽不同平台之间的差异，我们在社区的运行时执行之后，用户入口函数之前，做了一层架构抽象，即我们所谓的”防腐层“。这层一共包括两个功能，一是运行时防腐的部分，屏蔽出入参数差异，屏蔽异步差异，错误处理等等。第二部分是 API 传承，将传统的 Midway v1 的容器初始化，根据 yml 里的信息实例化对应的函数方法。

这样说有一点抽象，我们找一段实际的代码来理解一下。

下面是实际生成的代码入口 index.js 的示例。

初始化的时候，我们会做两个事情，一个就是每个平台的适配器，会自动根据 f.yml 中配置的 provider.name 来生成，我们会自动提供支持的平台启动器（现在已经有阿里云，腾讯云，以及即将完成的 aws）。

另外一个就是 Midway Serverless 框架的入口（FaaSStarter），通过它，来调用到实际的用户代码(src/index.ts）。其余的 asyncWrapper 和 asyncEvent 则是用于对异步函数的包裹，让代码可以统一用上 async 关键字。

看到这里，大家是否好奇我们的运行时适配器（防腐层）内部是如何运作的？这就来稍微详细一点的讲讲。

整个运行时处在最中间的部分，往上承接事件带来的数据，接收，中转，往下调用到业务代码，把中转的参数传入，在整个容器中占了非常重要的部分。一般来说，整个运行时包括几个部分，一是语言的 VM，基建的 SDK 等等，比如 Node.js 10/12，日志采集模块等等，二是运维的脚本，用来控制启停，健康检查等等，第三块就是运行时实际代码，简单的实现的话，可以理解起了个 http 服务，并在其中加载业务函数的代码。

生命周期

传统的社区平台都会默认埋入自己的运行时，而我们的运行时则是在这些平台内置的运行时之上的封装，并且将运行时和业务代码通过自定义生命周期进行关联，将整个代码 run 起来。

整个生命周期分为几部分阶段，外围运行时包括 RuntimeStart、FunctionStart、Invoke、Close 等阶段，而在这些周期中，还提供了 before 和 after 的钩子，方便对这些阶段进行扩展。

我们来一下实际的运行时扩展的例子，看看我们是如何抹平不同的云平台的。

这是一个阿里云运行时适配器的例子，我们接着上面的业务代码调用的路径来观察，asyncEvent 用来包裹真实的入参，在接受到参数之后，我们做了一些不同触发器的类型判断，将其分为了 Web 和非 Web 两种类型。

在 Web 的处理方法中，进一步细化内容，比如判断是否是网关的类型，构造出一个类似 koa ctx 的结构，处理 body 参数等。

做完这些事情之后，就开始把规则化好的参数传递给用户的真正的逻辑了，这个时候，由于生命周期的存在，开始执行才看到的 invoke 过程，并在内部调用 before 和 after 过程。

除此之外，我们还提供了一个默认执行拦截的能力，这个能力在传统应用迁移的时候起了巨大的作用。

应用迁移

现在，所有的扩展（Layer）都可以复用在所有的运行时适配上，整个函数体系和应用迁移体系基于这套生命周期和扩展机制，将能力复用，结构分层表现的淋漓尽致。

而用户所需要做的，仅仅增加一个 f.yml，写入这 4 行即可。整个 midway 构建器会生成所有需要的入口和适配代码。

这套函数和应用统一的方案，如果在企业内部，私有化部署也是非常适合的，阿里集团内部的函数体系也是如此被加载起来，和社区保持了高度的一致，也减少了很多的维护成本。

小结

从 midway serverless 的基础到入口的生成，生命周期以及应用迁移的方案介绍，这里涵盖的是 midway serverless 的架构防腐的一小部分，后续也将会有其他文章介绍不同的部分，感谢大家阅读，也欢迎大家关注 Midway。

关注「Alibaba F2E」
把握阿里巴巴前端新动向

《Java开发手册》解读：大整数传输为何禁用Long类型?-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

8月3日，这个在我等码农心中具有一定纪念意义的日子里，《Java开发手册》发布了嵩山版。每次发布我都特别期待，因为总能找到一些程序员不得不重视的“血淋淋的巨坑”。比如这次，嵩山版中新增的模块——前后端规约，其中一条禁止服务端在超大整数下使用Long类型作为返回。

这个问题，我在实际开发中遇到过，所以印象也特别深。如果在业务初期没有评估到这一点，将订单ID这类关键信息，按照Long类型返回给前端，可能会在业务中后期高速发展阶段，突然暴雷，导致严重的业务故障。期望大家能够重视。

这条规约给出了直接明确的避坑指导，但要充分理解背后的原理，知其所以然，还有很多点要思考。首先，我们来看几个问题，如果能说出所有问题的细节，就可直接跳过了，否则下文还是值得一看的：

一问：JS的Number类型能安全表达的最大整型数值是多少？为什么（注意要求更严，是安全表达）？
二问：在Long取值范围内，2的指数次整数转换为JS的Number类型，不会有精度丢失，但能放心使用么？
三问：我们一般都知道十进制数转二进制浮点数有可能会出现精度丢失，但精度丢失具体怎么发生的？
四问：如果不幸中招，服务端正在使用Long类型作为大整数的返回，有哪些办法解决？

基础回顾

在解答上面这些问题前，先介绍本文涉及到的重要基础：IEEE754浮点数标准。如果大家对IEEE754的细节烂熟于心的话，可以跳过本段内容，直接看下一段，问题解答部分。

当前业界流行的浮点数标准是IEEE754，该标准规定了4种浮点数类型:单精度、双精度、延伸单精度、延伸双精度。前两种类型是最常用的。我们单介绍一下双精度，掌握双精度，自然就了解了单精度（而且上述问题场景也是涉及双精度）。

双精度分配了8个字节，总共64位，从左至右划分是1位符号、11位指数、52位有效数字。如下图所示，以0.7为例，展示了双精度浮点数的存储方式。

存储位分配

1）符号位：在最高二进制位上分配1位表示浮点数的符号，0表示正数，1表示负数。

2）指数：也叫阶码位。

在符号位右侧分配11位用来存储指数，IEEE754标准规定阶码位存储的是指数对应的移码，而不是指数的原码或补码。根据计算机组成原理中对移码的定义可知，移码是将一个真值在数轴上正向平移一个偏移量之后得到的，即[x]移=x+2^(n-1)（n为x的二进制位数，含符号位）。移码的几何意义是把真值映射到一个正数域，其特点是可以直观地反映两个真值的大小，即移码大的真值也大。基于这个特点，对计算机来说用移码比较两个真值的大小非常简单，只要高位对齐后逐个比较即可，不用考虑负号的问题，这也是阶码会采用移码表示的原因所在。

由于阶码实际存储的是指数的移码，所以指数与阶码之间的换算关系就是指数与它的移码之间的换算关系。假设指数的真值为e，阶码为E ，则有 E = e + (2 ^ (n-1) - 1)，其中 2 ^ (n-1) - 1 是IEEE754 标准规定的偏移量。则双精度下，偏移量为1023，11位二进制取值范围为[0，2047]，因为全0是机器零、全1是无穷大都被当做特殊值处理，所以E的取值范围为[1,2046]，减去偏移量，可得e的取值范围为[-1022,1023] 。

3）有效数字：也叫尾数位。最右侧分配连续的52位用来存储有效数字，IEEE754标准规定尾数以原码表示。

浮点数和十进制之间的转换

在实际实现中，浮点数和十进制之间的转换规则有3种情况：

1 规格化

指数位不是全零，且不是全1时，有效数字最高位前默认增加1，不占用任何比特位。那么，转十进制计算公式为：

(-1)^s*(1+m/2^52)*2^(E-1023)

其中s为符号，m为尾数，E为阶码。比如上图中的0.7 :

1）符号位：是0，代表正数。

2）指数位：01111111110，转换为十进制，得阶码E为1022，则真值e=1022-1023=-1。

3）有效数字：

0110011001100110011001100110011001100110011001100110

转换为十进制，尾数m为：1801439850948198。

4）计算结果：

(1+1801439850948198/2^52)*(2^-1) =0.6999999999999999555910790149937383830547332763671875

经过显示优化算法后(在后文中详述)，为0.7。

2 非规格化

指数位是全零时，有效数字最高位前默认为0。那么，转十进制计算公式：

(-1)^s*（0+m/2^52)*2^(-1022)

注意，指数位是-1022，而不是-1023，这是为了平滑有效数字最高位前没有1。比如非规格最小正值为：

0x0.00000000000012^-1022=2^-52 2^-1022 = 4.9*10^-324

3 特殊值

指数全为1，有效数字全为0时，代表无穷大；有效数字不为0时，代表NaN（不是数字）。

问题解答

1 JS的Number类型能安全表达的最大整型数值是多少？为什么？

规约中已经指出：

在Long类型能表示的最大值是2的63次方-1，在取值范围之内，超过2的53次方(9007199254740992)的数值转化为JS的Number时，有些数值会有精度损失。

“2的53次方”这个限制是怎么来的呢？如果看懂上文IEEE754基础回顾，不难得出：在浮点数规格化下，双精度浮点数的有效数字有52位，加上有效数字最高位前默认为1，共53位，所以JS的Number能保障无精度损失表达的最大整数是2的53次方。

而这里的题问是：“能安全表达的最大整型”，安全表达的要求，除了能准确表达，还有正确比较。2^53=9007199254740992，实际上，

9007199254740992+1 == 9007199254740992

的比较结果为true。如下图所示：

这个测试结果足以说明2^53不是一个安全整数，因为它不能唯一确定一个自然整数，实际上9007199254740992、9007199254740993，都对应这个值。因此这个问题的答案是：2^53-1。

2 在Long取值范围内，2的指数次整数转换为JS的Number类型，不会有精度丢失，但能放心使用么？

规约中指出：

在Long取值范围内，任何2的指数次整数都是绝对不会存在精度损失的，所以说精度损失是一个概率问题。若浮点数尾数位与指数位空间不限，则可以精确表示任何整数。

后半句，我们就不说了，因为绝对没毛病，空间不限，不仅是任何整数可以精确表示，无理数我们也可以挑战一下。我们重点看前半句，根据本文前面所述基础回顾，双精度浮点数的指数取值范围为[-1022,1023]，而指数是以2为底数。另外，双精度浮点数的取值范围，比Long大，所以，理论上Long型变量中2的指数次整数一定可以准确转换为JS的umber类型。但在JS中，实际情况，却是下面这样：

2的55次方的准确计算结果是：36028797018963968，而从上图可看到，JS的计算结果是：36028797018963970。而且直接输入36028797018963968，控制台显示结果是36028797018963970。

这个测试结果，已经对本问题给出答案。为了确保程序准确，本文建议，在整数场景下，对于JS的Number类型使用，严格限制在2^53-1以内，最好还是信规约的，直接使用String类型。

为什么会出现上面的测试现象呢？

实际上，我们在程序中输入一个浮点数a，在输出得到a'，会经历以下过程：

1）输入时：按照IEEE754规则，将a存储。这个过程很有可能会发生精度损失。

2）输出时：按照IEEE754规则，计算a对应的值。根据计算结果，寻找一个最短的十进制数a'，且要保障a'不会和a隔壁浮点数的范围冲突。a隔壁浮点数是什么意思呢？由于存储位数是限定的，浮点数其实是一个离散的集合，两个紧邻的浮点数之间，还存在着无数的自然数字，无法表达。假设有f1、f2、f3三个升序浮点数，且它们之间的距离，不可能在拉近。则在这三个浮点数之间，按照范围来划分自然数。而浮点数输出的过程，就是在自己范围中找一个最适合的自然数，作为输出。如何找到最合适的自然数，这是一个比较复杂的浮点数输出算法，大家感兴趣的，可参考相关论文[1]。

所以，36028797018963968和36028797018963970这两个自然数，对应到计算机浮点数来说，其实是同一个存储结果，双精度浮点数无法区分它们，最终呈现哪一个十进制数，就看浮点数的输出算法了。下图这个例子可以说明这两个数字在浮点数中是相等的。另外，大家可以想想输入0.7,输出是0.7的问题，浮点数是无法精确存储0.7，输出却能够精确，也是因为有浮点数输出算法控制（特别注意，这个输出算法无法保证所有情况下，输入等于输出，它只是尽力确保输出符合正常的认知）。

扩展

JS的Number类型既用来做整数计算、也用来做浮点数计算。其转换为String输出的规则也会影响我们使用，具体规则如下：

上面是一段典型的又臭又长但逻辑很严谨的描述，我总结了一个不是很严谨，但好理解的说法，大家可以参考一下：

除了小数点前的数字位数(不算开始的0)少于22位，且绝对值大于等于1e-6的情况，其余都用科学计数法格式化输出。举例：

3 我们一般都知道十进制数转二进制浮点数有可能会出现精度丢失，精度丢失怎么发生的？

通过前面IEEE754分析，我们知道十进制数存储到计算机，需要转换为二进制。有两种情况，会导致转换后精度损失：

1）转换结果是无限循环数或无理数

比如0.1转换成二进制为：

0.0001 10011001100110011001100110011...

其中0011在循环。将0.1转换为双精度浮点数二进制存储为：

0 01111111011 1001100110011001100110011001100110011001100110011001

按照本文前面所述基础回顾中的计算公式 (-1)^s(1+m/2^52)2^(E-1023)计算，可得转换回十进制为：0.09999999999999999。这里可以看出，浮点数有时是无法精确表达一个自然数，这个和十进制中1/3 =0.333333333333333...是一个道理。

2）转换结果长度，超过有效数字位数，超过部分会被舍弃

IEEE754默认是舍入到最近的值，如果“舍”和“入”一样接近，那么取结果为偶数的选择。

另外，在浮点数计算过程中，也可能引起精度丢失。比如，浮点数加减运算执行步骤分为：

零值检测 -> 对阶操作 -> 尾数求和 -> 结果规格化 -> 结果舍入

其中对阶和规格化都有可能造成精度损失：

对阶：是通过尾数右移（左移会导致高位被移出，误差更大，所以只能是右移），将小指数改成大指数，达到指数阶码对齐的效果，而右移出的位，会作为保护位暂存，在结果舍入中处理，这一步有可能导致精度丢失。
规格化：是为了保障计算结果的尾数最高位是1，视情况有可能会出现右规，即将尾数右移，从而导致精度丢失。

4 如果不幸中招，服务端正在使用Long类型作为大整数的返回，有哪些办法解决？

需要分情况。

1）通过Web的ajax异步接口，以Json串的形式返回给前端

方案一：如果，返回Long型所在的POJO对象在其他地方无使用，那么可以将后端的Long型直接修改成String型。

方案二：如果，返回给前端的Json串是将一个POJO对象Json序列化而来，并且这个POJO对象还在其他地方使用，而无法直接将其中的Long型属性直接改为String，那么可以采用以下方式：

String orderDetailString = JSON.toJSONString(orderVO, SerializerFeature.BrowserCompatible);

SerializerFeature.BrowserCompatible 可以自动将数值变成字符串返回，解决精度问题。

方案三：如果，上述两种方式都不适合，那么这种方式就需要后端返回一个新的String类型，前端使用新的，并后续上线后下掉老的Long型（推荐使用该方式，因为可以明确使用String型，防止后续误用Long型）。

2）使用node的方式，直接通过调用后端接口的方式获取

方案一：使用npm的js-2-java的 java.Long(orderId) 方法兼容一下。

方案二：后端接口返回一个新的String类型的订单ID，前端使用新的属性字段（推荐使用，防止后续踩坑）。

引用

[1]http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.52.2247&rank=2
[2]《码出高效》

语雀的技术架构演进之路-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

作者 | 不四

每个技术人心中或多或少都有一个「产品梦」，好的技术需要搭配好的产品，才能让用户爱不释手，尤其是做一款知识服务型产品。

作者何翊宇（花名：不四，微信：dead_horse）是蚂蚁金服体验技术部高级前端技术专家，语雀产品技术负责人。本文从技术架构的视角，回顾了语雀的原型、内部服务和对外商业化的全过程，并对函数计算在语雀架构演进过程中所扮演的角色做了详细的介绍。

语雀是一个专业的云端知识库，用于团队的文档协作。现在已是阿里员工进行文档编写和知识沉淀的标配，并于 2018 年开始对外提供服务。

原型阶段

回到故事的开始。

2016 年，语雀孵化自蚂蚁科技，当时，蚂蚁金融云需要一个工具来承载它的文档，负责的技术同学利用业余时间，搭建了这个文档工具。项目的初期，没有任何人员和资源支持，同时也是为了快速验证原型，技术选型上选择了最低成本的方案。

底层服务完全基于体验技术部内部提供的 BaaS 服务和容器托管平台：

Object 服务：一个类 MongoDB 的数据存储服务；
File 服务：阿里云 OSS 的基础上封装的一个文件存储服务；
DockerLab：一个容器托管平台；

这些服务和平台都是基于 Node.js 实现的，专门给内部创新型应用使用，也正是由于有这些降低创新成本的内部服务，才给工程师们提供了更好的创新环境。

语雀的应用层服务端，自然而然的选用了蚂蚁体验技术部开源的 Node.js Web 框架 Egg（蚂蚁内部的封装 Chair），通过一个单体 Web 应用实现服务端。应用层客户端也选用了 React 技术栈，结合内部的 antd，并采用 CodeMirror 实现了一个功能强大、体验优雅的 markdown 在线编辑器。

当时仅仅是一个工程师的业余项目，采用内部专为创新应用提供的 BaaS 服务和一系列的开源技术，验证了在线文档工具这个产品原型。

内部服务阶段

2017年，随着语雀得到团队内部的认可，他的目标已经不仅仅是金融云的文档工具，而是成为阿里所有员工的知识管理平台。不仅面向技术人员 Markdown 编辑器，还向非技术知识创作者，提供了富文本编辑器，并选择了更“Web”的路线，在富文本编辑器中加入了公式、文本绘图、思维导图等特色功能。而随着语雀在知识管理领域的不断探索，知识管理的三层结构（团队、知识库、文档）开始成型。

在此之上的协作、分享、搜索与消息动态等功能越来越复杂单纯的依靠 BaaS 服务已经无法满足语雀的业务需求了。

为了应对业务发展带来的挑战，我们主要从下面几个点进行改造：

BaaS 服务虽然使用简单成本低，但是它们提供的功能不足以满足语雀业务的发展，同时稳定性上也有不足。所以我们将底层服务由 BaaS 替换成了阿里云的 IaaS 服务（MySQL、OSS、缓存、搜索等服务）。
Web 层仍然采用了 Node.js 与 Egg 框架，但是业务层借鉴 rails 社区的实践开始变成了一个大型单体应用，通过引入 ORM 构建数据模型层，让代码的分层更清晰。
前端编辑器从 codeMirror 迁移到 Slate。为了更好的实现语雀编辑器的功能，我们内部 fork 了 Slate 进行深入开发，同时也自定义了一个独立的内容存储格式，以提供更高效的数据处理和更好的兼容性。

在内部服务阶段，语雀已经成为了一个正式的产品，通过在阿里内部的磨炼，语雀的产品形态基本定型。

对外商业化阶段

随着语雀在内部的影响力越来越大，一些离职出去创业的阿里校友们开始找到玉伯（蚂蚁体验技术部研究员）：“语雀挺好用的，有没有考虑商业化之后让外面的公司也能够用起来？”

经过小半年的酝酿和重构，2018 年初，语雀开始正式对外提供服务，进行商业化。

当一个应用走出公司内到商业化环境中，面临的技术挑战一下子就变大了。最核心的知识创作管理部分的功能越来越复杂，表格、思维导图等新格式的加入，多人实时协同的需求对编辑器技术提出了更高的挑战。而为了更好的服务企业用户与个人用户，语雀在企业服务、会员服务等方面也投入了很大精力。在业务快速发展的同时，服务商业化对质量、安全和稳定性也提出了更高的要求。

为了应对业务发展，语雀的架构也随之发生了演进：

我们将底层的依赖完全上云，全部迁移到了阿里云上，阿里云不仅仅提供了基础的存储、计算能力，同时也提供了更丰富的高级服务，同时在稳定性上也有保障。

丰富的云计算基础服务，保障语雀的服务端可以选用最适合语雀业务的的存储、队列、搜索引擎等基础服务；
更多人工智能服务给语雀的产品带来了更多的可能性，包括 OCR 识图、智能翻译等服务，最终都直接转化成为了语雀的特色服务；

而在应用层，语雀的服务端依然还是以一个基于 Egg 框架的大型的 Node.js Web 应用为主。但是随着功能越来越多，也开始将一些相对比较独立的服务从主服务中拆出去，可以把这些服务分成几类：

微服务类：例如多人实时协同服务，由于它相对独立，且长连接服务不适合频繁发布，所以我们将其拆成了一个独立的微服务，保持其稳定性。
任务服务类：像语雀提供的大量本地文件预览服务，会产生一些任务比较消耗资源、依赖复杂。我们将其从主服务中剥离，可以避免不可控的依赖和资源消耗对主服务造成影响。
函数计算类：类似 Plantuml 预览、Mermaid 预览等任务，对响应时间的敏感度不高，且依赖可以打包到阿里云函数计算中，我们会将其放到函数计算中运行，既省钱又安全。

随着编辑器越来越复杂，在 slate 的基础上进行开发遇到的问题越来越多。最终语雀还是走上了自研编辑器的道路，基于浏览器的 Contenteditable 实现了富文本编辑器，通过 Canvas 实现了表格编辑器，通过 SVG 实现了思维导图编辑器。

语雀的这个阶段（也是现在所处的阶段）是商业化阶段，但是我们仍然保持了一个很小的团队，通过 JavaScript 全栈进行研发。底层的服务全面上云，借力云服务打造语雀的特色功能。同时为企业级用户和个人知识工作者者提供知识创作和管理工具。

和函数计算的不解之缘

语雀是一个复杂的 Web 应用，也是一个典型的数据密集型应用（Data-Intensive Application），背后依赖了大量的数据库等云服务。语雀服务端是 Node.js 技术栈。当提到 node 的时候，可能立刻就会有几个词浮现在我们脑海之中：单线程（single-threaded）、非阻塞（non-blocking）、异步（asynchronously programming），这些特性一方面非常的适合于构建可扩展的网络应用，用来实现 Web 服务这类 I/O 密集型的应用，另一方面它也是大家一直对 node 诟病的地方，对 CPU 密集型的场景不够友好，一旦有任何阻塞进程的方法被执行，整个进程就被阻塞。

像语雀这样用 node 实现整个服务端逻辑的应用，很难保证不会出现一些场景可能会消耗大量 CPU 甚至是死循环阻塞进程的，例如以 markdown 转换举例，由于用户的输入无法穷举，总有各种可能让转换代码进入到一个低效甚至是死循环的场景之中。在 node 刚出世的年代，很难给这些问题找到完美的解决办法，而即便是 Java 等基于线程并发模型的语言，在遇到这样的场景也很头痛，毕竟 CPU 对于 web 应用来说都是非常重要的资源。而随着基础设置越来越完善，当函数计算出现时，node 最大的短板看起来有了一个比较完美的解决方案。

阿里云函数计算是事件驱动的全托管计算服务。通过函数计算，您无需管理服务器等基础设施，只需编写代码并上传，只需要为代码实际运行所消耗的资源付费，代码未运行则不产生费用。

把函数计算引入之后，我们可以将那些 CPU 密集型、存在不稳定因素的操作统统放到函数计算服务中去执行，而我们的主服务再次回归到了 I/O 密集型应用模型，又可以愉快的享受 node 给我们带来的高效研发福利了！

以语雀中遇到的一个实际场景来举例，用户传入了一些 HTML 或者 Markdown 格式的文档内容，我们需要将其转换成为语雀自己的文档格式。在绝大部分情况下，解析用户输入的内容都很快，然而依然存在某些无法预料到的场景会触发解析器的 bug 而导致死循环的出现，甚至我们不太敢升级 Markdown 解析库和相关插件以免引入更多的问题。但是随着函数计算的引入，我们将这个消耗 CPU 的转换逻辑放到函数计算上，语雀的主服务稳定性不会再被影响。

除了帮助 Web 系统分担一些 CPU 密集型操作以外，函数计算还能做什么呢？

在语雀上我们支持各种代码形式来绘图，包括 Plantuml、公式、Mermaid，还有一些将文档导出成 PDF、图片等功能。这些场景有两个特点：

他们依赖于一些复杂的应用软件，例如 Puppeteer、Graphviz 等；
可能需要执行用户输入的内容；

支持这类场景看似简单，通过 process.exec 子进程调用一下就搞定了。但是当我们想把它做成一个稳定的对外服务时，问题就出现了。这些复杂的应用软件可能从设计上并没有考虑要长期运行，长期运行时的内存占用、稳定性可能会有一些问题，同时在被大并发调用时，对 CPU 的压力非常大。再加上有些场景需要运行用户输入的代码，攻击者通过构建恶意输入，可以在服务器上运行攻击代码，非常危险。

在没有引入函数计算之前，语雀为了支持这些功能，尽管单独分配了一个任务集群，在上面运行这些三方服务，接受主服务的请求来避免影响主服务的稳定性。但是为了解决上面提到的一系列问题还需要付出很大的成本：

需要维持一个不小的任务集群，尽管可能大部分时间都用不上那么多资源。
需要定时对三方应用软件进行重启，避免长时间运行带来的内存泄露，即便如此有些特殊请求也会造成第三方软件的不稳定。
对用户的输入进行检测和过滤，防止黑客恶意攻击，而黑客的攻击代码很难完全防住，安全风险依旧很大。

最后语雀将所有的第三方服务都分别打包在函数中，将这个任务集群上的功能都拆分成了一系列的函数放到了函数计算上。通过函数计算的特点一下解决了上面的所有问题：

函数计算的计费模式是按照代码实际运行的 CPU 时间计费，不需要长期维护一个任务集群了。
函数计算上的函数运行时尽管会有一些常驻函数的优化，但是基本不用考虑长期运行带来的一系列问题，且每次调用之间都相互独立，不会互相影响。
用户的输入代码是运行在一个沙箱容器中，即便不对用户输入做任何过滤，恶意攻击者也拿不到任何敏感信息，同时也无法进入内部网络执行代码，更加安全。

除了上面提到的这些功能之外，语雀最近还使用 OSS + 函数计算替换了之前使用的阿里云视频点播服务来进行视频和音频的转码。

由于浏览器可以直接支持播放的音视频格式并不多，大量用户上传的视频想要能够直接在语雀上进行播放需要对它们进行转码，业界一般都是通过 FFmpeg 来对音视频进行转码的。转码服务也是一个典型的 CPU 密集型场景，如果要自己搭建视频转码集群会面临大量的资源浪费，而使用阿里云视频点播服务，成本也比较高，而且能够控制的东西也不够多。函数计算直接集成了 FFmpeg 提供音视频处理能力，并集成到应用中心，配合 SLS 完善了监控和数据分析。语雀将音视频处理从视频点播服务迁移到函数计算之后，通过优化压缩率、减少不必要的转码等优化，将费用降低至之前的 1/5。

从语雀的实践来看，语雀并没有像 SFF 一样将 Web 服务迁移到函数计算之上（SFF 模式并不是现在的函数计算架构所擅长的），但是函数计算在语雀整体的架构中对稳定性、安全性和成本控制起到了非常重要的作用。总结下来函数计算非常适合下面几种场景：

对于时效性要求不算非常高的 CPU 密集型操作，分担主服务 CPU 压力。
当做沙箱环境执行用户提交的代码。
运行不稳定的三方应用软件服务。
需要很强动态伸缩能力的服务。

在引入函数计算之后，语雀现阶段的架构变成了以一个 Monolith Application 为核心，并将一些独立的功能模块根据使用场景和对能力的要求分别拆分成了 Microservices 和 Serverless 架构。应用架构与团队成员组成、业务形态息息相关，但是随着各种云服务与基础设施的完善，我们可以更自如的选择更合适的架构。

为什么要特别把 Serverless 单独拿出来说呢？还记得之前说 Node.js 是单线程，不适合 CPU 密集型任务么？

由于 Serverless 的出现，我们可以将这些存在安全风险的，消耗大量 CPU 计算的任务都迁移到函数计算上。它运行在沙箱环境中，不用担心用户的恶意代码造成安全风险，同时将这些 CPU 密集型的任务从主服务中剥离，避免出现并发时阻塞主服务。按需付费的方式也可以大大节约成本，不需要为低频功能场景部署一个常驻服务。所以我们会尽量的把这类服务都迁移到 Serverless 上（如阿里云函数计算）。

结语 | 语雀的技术栈选择

语雀这几年一步步发展过来，背后的技术一直在演进，但是始终遵循了几条原则：

技术栈选型要匹配产品发展阶段。产品在不同的阶段对技术提出的要求是不一样的，越前期，对迭代效率的要求越高，商业化规模化之后，对稳定性、性能的要求就会变高。不需要一上来就用最先进的技术方案，而是需要和产品阶段一起考虑和权衡。
技术栈选型要结合团队成员的技术背景。语雀选择 JavaScript 全栈的原因是孵化语雀的团队，大部分都是 JavaScript 背景的程序员，同时 Node.js 在蚂蚁也算是一等公民，配套的设施相对完善。
最重要的一点是，不论选择什么技术栈，安全、稳定、可维护（扩展）都是要考虑清楚的。用什么语言、用什么服务会变化，但是这些基础的安全意识、稳定性意识，如何编写可维护的代码，都是决定项目能否长期发展下去的重要因素。

关注「Alibaba F2E」
把握阿里巴巴前端新动向

电商搜索“无结果率高，体验差”怎么办？-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

垂直电商与综合类电商相比，具有更精准的市场定位、更深化的产品与服务质量、更强的客户粘性和更独特的品牌附加度的优势，所以搜索性能的好坏直接影响着业务最终结果

案例背景:

某日活千万级的垂直类电商平台，业务以社区+商城形式开展，商城业务是商业收入的主要来源，大部分用户有明确的购买指向性，其中商品搜索天级PV3000万+，搜索引导的成交占比全部成交的60%以上，是站内最重要的功能，在用户满意度调研中发现对搜索体验吐槽连连，反馈的主要问题是站内商品搜不到，个人卖家发布的商品排序靠后

搜索问题反馈

（1）用户：搜索不到想要的商品，体验差；
（2）运营: 站内搜索的无结果率接近60%，说明每天有1800万的PV转换为0，流量白白浪费；

（3）个人卖家: 个人卖家发布的商品排序靠后；打击发布商品积极性，影响平台价值定位和圈层生态，从而直接影响平台收益；

搜索问题成因：

（1）垂直小众的圈子，对于商品的叫法非常多样，并形成主流，用户搜索中不一定按照实际商品名称进行查询（例如：用户会搜“喷泡”其实想找的商品是Air Jordan AirFoamposite系列的鞋）；
（2）用户搜索表述错误（例如：搜“连衣群”其实是想搜“连衣裙”）；
（3）站内的搜索结果分3个tab呈现，分别为“销量”、“价格”、“新品”，用户搜索后默认展现的是“销量”tab下的结果，因此个人卖家发布产品由于销量少或无销量自然导致排序靠后，曝光量小，销量难增长，恶性循环；

问题分析:

（1）针对召回结果不理想情况，经分析发现自建ES服务没有对搜索关键词做智能的语义理解，甚至有些实体名词分词还是错误的；
（2）针对排序问题，经分析需增加“综合”搜索结果呈现，根据核心索引优化排序算法；

开放搜索解决方案：

（1）核心索引上配置使用了电商行业的查询语义理解，包括同义词、停用词、电商拼写纠错、电商实体识别等，就是这些功能将搜索关键词进行了系统可识别的智能改写，扩大召回相关结果；
（2）针对商品别称问题，运营同学通过平时运营积累的专业词汇可视化同步到开放搜索做查询语义理解功能的补丁，通过灵活干预得以解决；
（3）创建核心索引“商品标题、颜色、类目名称、品牌名称、运营优化文案、系列名称等”，将它们引入到排序表达式中，通过多个维度构建出更精细化的排序模型；
（4）增加“综合”搜索tab，并默认展示“综合”搜索结果
；

实践后的搜索性能对比：

（1）搜索“詹姆斯球衣”输入成“詹慕斯球衣”
• Before: 服务无法召回相关结果；
• After：纠错改写为“詹姆斯”进行查询，并且前端会提示“以下的结果是查询：詹姆斯球衣，仍然搜索詹慕斯球衣”；
（2）搜索“喷泡”
• Before：无法召回相关结果；
• After：召回到Air Jordan AirFoamposite系列的鞋

（3）排序效果
• Before：以销量默认排名，个人卖家排序靠后
• After：提高搜索相关性增加更多商品曝光机会

DevUP 沙龙 | 八月北京、青岛、厦门燥起来-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

炎热的周末不知去哪里耍，不如来参加阿里云开发者 DevUP 沙龙吧。三大城市火热来袭，专家面对面交流，更有实操环节加深理解。放松学习的同时还有机会结交志同道合的小伙伴，约约约！

报名直通车：

8月22日【青岛】活动：阿里云开发者 DevUP 沙龙 -青岛站 -阿里巴巴微服务技术的应用与实践

8月22日【厦门】活动：阿里云人工智能+大数据的实践与应用-阿里云开发者DevUP 沙龙·厦门站

8月27日【北京】活动：阿里云开发者 DevUP 沙龙 -北京站 -阿里云企业AIOT技术与解决方案沙龙

大咖分享还有动手操作，更多精彩尽在【阿里云开发者 DevUP 沙龙】。活动时间均在周末，放松学习同时还有机会结交志同道合的小伙伴，还等什么快来参加吧<<<<<<<

活动一：阿里云开发者 DevUP 沙龙 -青岛站 -阿里巴巴微服务技术的应用与实践

微服务开发中，SpringCloud作为Spring生态中的针对微服务的技术框架，越来越受到各个企业技术人员的追捧。但是，SpringCloud中一些组件，在实践使用中，存在一定的局限。SpringCloudAlibaba，横空出世，替换了SpringCloud中的一些组件，使微服务在实践中，能够更便捷的、更优雅的实现落地。

8月15日，上海ACE同城会特邀阿里平头哥的2位语音产品专家，从操作系统融合、解决方案支撑、语音市场趋势规划等方面，跟大家一起畅聊语音圈！

时间：8月22日（周四）13：30-16：10
地点：山东省青岛市崂山区海尔路170号鑫裕和大厦8楼

活动亮点：
1、面基！在青岛举办的线下技术沙龙。
2、阵容！各类技术专家在线实践教学。
3、干货！快速了解微服务相关知识。

报名地址：https://survey.aliyun.com/apps/zhiliao/7irPO_3gv

活动二：阿里云人工智能+大数据的实践与应用-阿里云开发者DevUP 沙龙·厦门站

阿里云开发者社区携手云原生后端、阿里云基础产品事业部共同出品了本次沙龙。

现场邀请了4位阿里云专家为大家分享云计算行业人工智能+大数据的实践与应用，期待您的参与。

时间：8月22日（周六）13：30——17：20
地点：厦门市集美区杏林湾路营运中心1号楼2楼

报名地址：https://developer.aliyun.com/article/769954

活动三：阿里云开发者 DevUP 沙龙 -北京站 -阿里云企业AIOT技术与解决方案沙龙

在阿里云线上市场，近2万解决方案已经应用在几十万个城市，企业和工厂，无数家庭受天猫精灵带来的只能生活，物联网已经是基础设施，更是企业的核心竞争力。

时间：8月27日（周四）13：30-17：30
地点：北京市朝阳区望京东园4区4号楼——阿里中心·望京B座 2F-13文韵阁

活动亮点：
1、面基！在阿里园区举办的线下技术沙龙。
2、阵容！阿里云各类技术专家在线教学。
3、干货！快速打造企业级物联网平台和应用，实现数字化转型。

报名地址：https://developer.aliyun.com/article/769911

各位小伙伴是不是按耐不住内心的激动了呢？快快点击下方的阅读原文报名，来和阿里巴巴的技术专家们深度交流吧！

ACE同城会

阿里云 ACE全称 Alibaba Cloud Engineer。意为阿里云的工程师、代表着云计算的建设者。同时“ACE”又是扑克牌中的“A”，因此阿里云ACE也寓意着是云计算领域王牌的一群人。

ACE同城会是遍布在全国的开发者社群，作为国内优秀的开发者圈子，为所有开发者提供学习、交流的机会和平台。

在全国48个城市成立了同城会，覆盖13万开发者，举办超100场线下活动。

官网：https://mvp.aliyun.com/ace

现开发者社区招募会长和班委，有意者钉钉扫码联系运营同学，加好友时请备注【ACE同城会会长/班委】。

倒计时方案深入分析-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

倒计时方案深入分析

目录介绍

01.使用多种方式实现倒计时
02.各种倒计时器分析
03.CountDownTimer解读
04.Timer和TimerTask解读
05.自定义倒计时器案例

01.使用多种方式实现倒计时

首先看一下需求
- 要求可以创建多个倒计时器，可以暂停，以及恢复暂停。可以自由设置倒计时器总时间，倒计时间隔。下面会一步步实现一个多功能倒计时器。
01.使用Handler实现倒计时
- mHandler + runnable ，这种是最常见的一种方式。实质是不断调用mHandler.postDelayed(this, 1000)达到定时周期目的
02.使用CountDownTimer实现倒计时
- 也是利用mHandler + runnable，在此基础上简单封装一下。使用场景更强大，比如一个页面有多个倒计时器，用这个就很方便……
03.利用Timer实现定时器
- 使用Timer + TimerTask + handler方式实现倒计时
04.使用chronometer控件倒计时
- 新出的继承TextView组件，里头是使用了View.postDelayed + runnable实现倒计时
05.利用动画实现倒计时
- 这种方式用的比较少，但也是一种思路。主要是设置动画时间，在onAnimationUpdate监听设置倒计时处理
具体代码案例可以看
- 6种实现倒计时器的代码案例
具体代码案例
- 6种实现倒计时器方案

02.各种倒计时器分析

第一种利用Handler实现倒计时
- 这种用的很普遍，但存在一个问题。如果是一个页面需要开启多个倒计时【比如列表页面】，则比较难处理。
第二种使用CountDownTimer实现倒计时
- new CountDownTimer(5000, 1000).start()
  - 期待的效果是：“5-4-3-2-1-finish”或者“5-4-3-2-1-0”。这里，显示 0 和 finish 的时间应该是一致的，所以把 0 放在 onFinish() 里显示也可以。但实际有误差……
- 存在的几个问题
  - 问题1. 每次 onTick() 都会有几毫秒的误差，并不是期待的准确的 "5000, 4000, 3000, 2000, 1000, 0"。
  - 问题2. 多运行几次，就会发现这几毫秒的误差，导致了计算得出的剩余秒数并不准确，如果你的倒计时需要显示剩余秒数，就会发生秒数跳跃/缺失的情况（比如一开始从“4”开始显示——缺少“5”，或者直接从“5”跳到了“3”——缺少“4”）。
  - 问题3. 最后一次 onTick() 到 onFinish() 的间隔通常超过了 1 秒，差不多是 2 秒左右。如果你的倒计时在显示秒数，就能很明显的感觉到最后 1 秒停顿的时间很长。
  - 问题4. 如果onTick耗时超时，比如超过了1000毫秒，则会导致出现onTick出现跳动问题
- 解决方案
  - 具体看lib中的CountDownTimer类。下面也会分析到
  - 注意：onTick方法中如何执行耗时操作【大于1秒的执行代码】，建议使用handler消息机制进行处理，避免出现其他问题。
第三种利用Timer实现定时器
- 注意点
  - Timer和TimerTask都有cancel方法，而且最好同时调用；如果已经cancel，下次必须创建新的Timer才能schedule。
- 可能存在的问题
  - 如果你在当前的activity中schedule了一个task，但是没有等到task结束，就按Back键finish了当前的activity，Timer和TimerTask并不会自动cancel或者销毁，它还会在后台运行，此时如果你在task的某个阶段要调起一个控件（比如AlertDialog），而该控制依赖被销毁的activity，那么将会引发crash。
  - 所以建议在页面销毁的时候，将Timer和TimerTask都有cancel结束并且设置成null
  - Timer 的方式实现定时任务，用来做倒计时是没有问题的。但是如果用来执行周期任务，恰好又有多个任务，恰好两个任务之间的时间间隔又比前一个任务执行时间短就会发生定时不准确的现象了。Timer 在执行过程中如果任务跑出了异常，Timer 会停止所有的任务。Timer 执行周期任务时依赖系统时间，系统时间的变化会引起 Timer 任务执行的变化。

03.CountDownTimer解读

03.1 来看一个问题

先看案例代码，如下所示

期待的效果是：“5-4-3-2-1-finish”或者“5-4-3-2-1-0”。这里，显示 0 和 finish 的时间应该是一致的，所以把 0 放在 onFinish() 里显示也可以。

mCountDownTimer = new CountDownTimer(5000, 1000) {
    @Override
    public void onTick(long millisUntilFinished) {
        Log.i(TAG, "----倒计时----onTick--"+millisUntilFinished);
    }

    public void onFinish() {
        Log.i(TAG, "----倒计时----onFinish");
    }
};

然后看一下打印日志，如下所示

2020-08-05 10:04:28.742 17266-17266/com.yc.yctimer I/CountDownTimer: ----倒计时----onTick--5000
2020-08-05 10:04:29.744 17266-17266/com.yc.yctimer I/CountDownTimer: ----倒计时----onTick--3998
2020-08-05 10:04:30.746 17266-17266/com.yc.yctimer I/CountDownTimer: ----倒计时----onTick--2997
2020-08-05 10:04:31.746 17266-17266/com.yc.yctimer I/CountDownTimer: ----倒计时----onTick--1996
2020-08-05 10:04:32.747 17266-17266/com.yc.yctimer I/CountDownTimer: ----倒计时----onTick--995
2020-08-05 10:04:33.747 17266-17266/com.yc.yctimer I/CountDownTimer: ----倒计时----onFinish
2020-08-05 10:04:45.397 17266-17266/com.yc.yctimer I/CountDownTimer: ----倒计时----onTick--4999
2020-08-05 10:04:46.398 17266-17266/com.yc.yctimer I/CountDownTimer: ----倒计时----onTick--3998
2020-08-05 10:04:47.400 17266-17266/com.yc.yctimer I/CountDownTimer: ----倒计时----onTick--2996
2020-08-05 10:04:48.402 17266-17266/com.yc.yctimer I/CountDownTimer: ----倒计时----onTick--1994
2020-08-05 10:04:49.405 17266-17266/com.yc.yctimer I/CountDownTimer: ----倒计时----onTick--992
2020-08-05 10:04:50.401 17266-17266/com.yc.yctimer I/CountDownTimer: ----倒计时----onFinish

可以看到有几个问题：
- 问题1. 每次 onTick() 都会有几毫秒的误差，并不是期待的准确的 "5000, 4000, 3000, 2000, 1000, 0"。
- 问题2. 多运行几次，就会发现这几毫秒的误差，导致了计算得出的剩余秒数并不准确，如果你的倒计时需要显示剩余秒数，就会发生秒数跳跃/缺失的情况（比如一开始从“4”开始显示——缺少“5”，或者直接从“5”跳到了“3”——缺少“4”）。
- 问题3. 最后一次 onTick() 到 onFinish() 的间隔通常超过了 1 秒，差不多是 2 秒左右。如果你的倒计时在显示秒数，就能很明显的感觉到最后 1 秒停顿的时间很长。

03.3 分析时间误差

为什么会存在这个问题

先看start()方法，计算的 mStopTimeInFuture（未来停止倒计时的时刻，即倒计时结束时间）加了一个 SystemClock.elapsedRealtime() ，系统自开机以来（包括睡眠时间）的毫秒数，也可以叫“系统时间戳”。
即倒计时结束时间为“当前系统时间戳 + 你设置的倒计时时长 mMillisInFuture ”，也就是计算出的相对于手机系统开机以来的一个时间。在下面代码中打印日志看看

public synchronized final void start() {
    if (mMillisInFuture <= 0 && mCountdownInterval <= 0) {
        throw new RuntimeException("you must set the millisInFuture > 0 or countdownInterval >0");
    }
    mCancelled = false;
    long elapsedRealtime = SystemClock.elapsedRealtime();
    mStopTimeInFuture = elapsedRealtime + mMillisInFuture;
    CountTimeTools.i("start → mMillisInFuture = " + mMillisInFuture + ", seconds = " + mMillisInFuture / 1000 );
    CountTimeTools.i("start → elapsedRealtime = " + elapsedRealtime + ", → mStopTimeInFuture = " + mStopTimeInFuture);
    mPause = false;
    mHandler.sendMessage(mHandler.obtainMessage(MSG));
    if (mCountDownListener!=null){
        mCountDownListener.onStart();
    }
}

@SuppressLint("HandlerLeak")
private Handler mHandler = new Handler() {
    @Override
    public void handleMessage(@NonNull Message msg) {
        synchronized (CountDownTimer.this) {
            if (mCancelled) {
                return;
            }
            //剩余毫秒数
            final long millisLeft = mStopTimeInFuture - SystemClock.elapsedRealtime();
            if (millisLeft <= 0) {
                mCurrentMillisLeft = 0;
                if (mCountDownListener != null) {
                    mCountDownListener.onFinish();
                    CountTimeTools.i("onFinish → millisLeft = " + millisLeft);
                }
            } else if (millisLeft < mCountdownInterval) {
                mCurrentMillisLeft = 0;
                CountTimeTools.i("handleMessage → millisLeft < mCountdownInterval !");
                // 剩余时间小于一次时间间隔的时候，不再通知，只是延迟一下
                sendMessageDelayed(obtainMessage(MSG), millisLeft);
            } else {
                //有多余的时间
                long lastTickStart = SystemClock.elapsedRealtime();
                CountTimeTools.i("before onTick → lastTickStart = " + lastTickStart);
                CountTimeTools.i("before onTick → millisLeft = " + millisLeft + ", seconds = " + millisLeft / 1000 );
                if (mCountDownListener != null) {
                    mCountDownListener.onTick(millisLeft);
                    CountTimeTools.i("after onTick → elapsedRealtime = " + SystemClock.elapsedRealtime());
                }
                mCurrentMillisLeft = millisLeft;
                // 考虑用户的onTick需要花费时间,处理用户onTick执行的时间
                long delay = lastTickStart + mCountdownInterval - SystemClock.elapsedRealtime();
                CountTimeTools.i("after onTick → delay1 = " + delay);
                // 特殊情况：用户的onTick方法花费的时间比interval长，那么直接跳转到下一次interval
                // 注意，在onTick回调的方法中，不要做些耗时的操作
                boolean isWhile = false;
                while (delay < 0){
                    delay += mCountdownInterval;
                    isWhile = true;
                }
                if (isWhile){
                    CountTimeTools.i("after onTick执行超时 → delay2 = " + delay);
                }
                sendMessageDelayed(obtainMessage(MSG), delay);
            }
        }
    }
};

然后看一下日志

2020-08-05 13:36:02.475 8742-8742/com.yc.yctimer I/CountDownTimer: start → mMillisInFuture = 5000, seconds = 5
2020-08-05 13:36:02.475 8742-8742/com.yc.yctimer I/CountDownTimer: start → elapsedRealtime = 122669630, → mStopTimeInFuture = 122674630
2020-08-05 13:36:02.478 8742-8742/com.yc.yctimer I/CountDownTimer: before onTick → lastTickStart = 122669634
2020-08-05 13:36:02.478 8742-8742/com.yc.yctimer I/CountDownTimer: before onTick → millisLeft = 4996, seconds = 4
2020-08-05 13:36:02.479 8742-8742/com.yc.yctimer I/CountDownTimer: after onTick → elapsedRealtime = 122669635
2020-08-05 13:36:02.479 8742-8742/com.yc.yctimer I/CountDownTimer: after onTick → delay1 = 999
2020-08-05 13:36:03.480 8742-8742/com.yc.yctimer I/CountDownTimer: before onTick → lastTickStart = 122670636
2020-08-05 13:36:03.480 8742-8742/com.yc.yctimer I/CountDownTimer: before onTick → millisLeft = 3994, seconds = 3
2020-08-05 13:36:03.483 8742-8742/com.yc.yctimer I/CountDownTimer: after onTick → elapsedRealtime = 122670639
2020-08-05 13:36:03.484 8742-8742/com.yc.yctimer I/CountDownTimer: after onTick → delay1 = 996
2020-08-05 13:36:04.482 8742-8742/com.yc.yctimer I/CountDownTimer: before onTick → lastTickStart = 122671638
2020-08-05 13:36:04.483 8742-8742/com.yc.yctimer I/CountDownTimer: before onTick → millisLeft = 2992, seconds = 2
2020-08-05 13:36:04.486 8742-8742/com.yc.yctimer I/CountDownTimer: after onTick → elapsedRealtime = 122671642
2020-08-05 13:36:04.486 8742-8742/com.yc.yctimer I/CountDownTimer: after onTick → delay1 = 996
2020-08-05 13:36:05.485 8742-8742/com.yc.yctimer I/CountDownTimer: before onTick → lastTickStart = 122672641
2020-08-05 13:36:05.485 8742-8742/com.yc.yctimer I/CountDownTimer: before onTick → millisLeft = 1989, seconds = 1
2020-08-05 13:36:05.488 8742-8742/com.yc.yctimer I/CountDownTimer: after onTick → elapsedRealtime = 122672644
2020-08-05 13:36:05.488 8742-8742/com.yc.yctimer I/CountDownTimer: after onTick → delay1 = 997
2020-08-05 13:36:06.487 8742-8742/com.yc.yctimer I/CountDownTimer: handleMessage → millisLeft < mCountdownInterval !
2020-08-05 13:36:07.481 8742-8742/com.yc.yctimer I/CountDownTimer: onFinish → millisLeft = -3

分析一下日志
- 倒计时 5 秒，而 onTick() 一共只执行了 4 次。分别是出现4，3，2，1
- start() 启动计时时，mMillisInFuture = 5000。且根据当前系统时间戳（记为 elapsedRealtime0 = 122669630，开始 start() 倒计时时的系统时间戳）计算了倒计时结束时相对于系统开机时的时间点 mStopTimeInFuture。
- 此后到第一次进入 handleMessage() 时，中间经历了很短的时间 122669630 - 122669634 = 6 毫秒。
- handleMessage() 这里精确计算了程序执行时间，虽然是第一次进入 handleMessage，也没有直接使用 mStopTimeInFuture，而是根据程序执行到此处时的 elapsedRealtime() （记为 elapsedRealtime1）来计算此时剩余的倒计时时长。
- millisLeft = 4996，进入 else，执行 onTick()方法回调。所以第一次 onTick() 时，millisLeft = 4996，导致计算的剩余秒数是“4996/1000 = 4”，所以倒计时显示秒数是从“4”开始，而不是“5”开始。这便是前面提到的问题1 和问题2。
- 考虑用户的onTick需要花费时间，处理用户onTick执行的时间，于是便发出一个延迟delay时间的消息sendMessageDelayed(obtainMessage(MSG), delay);在日志里看到delay1 = 997

03.3 onTick耗时超时

上面分析到了用户的onTick需要花费时间，如果delay < 0则需要特殊处理，这个究竟是什么意思呢？下面来分析一下

分析一下下面这个while循环作用

// 考虑用户的onTick需要花费时间,处理用户onTick执行的时间
long delay = lastTickStart + mCountdownInterval - SystemClock.elapsedRealtime();
CountTimeTools.i("after onTick → delay1 = " + delay);
// 特殊情况：用户的onTick方法花费的时间比interval长，那么直接跳转到下一次interval
while (delay < 0){
    delay += mCountdownInterval;
}
CountTimeTools.i("after onTick → delay2 = " + delay);
sendMessageDelayed(obtainMessage(MSG), delay);

如果这次 onTick() 执行时间太长，超过了 mCountdownInterval ，那么执行完 onTick() 后计算得到的 delay 是一个负数，此时直接跳到下一次 mCountdownInterval 间隔，让 delay + mCountdownInterval。

举一个例子来说一下，不然这里不太好理解
- 假如设定每 1000 毫秒执行一次 onTick()。假设第一次 onTick() 开始前时的相对于手机系统开机时间的剩余倒计时时长是 5000 毫秒，执行完这次 onTick() 操作消耗了 1015 毫秒，超出了我们设定的 1000 毫秒的间隔，那么第一次计算的 delay = 1000 - 1015 = -15 < 0，那么负数意味着什么呢？
- 本来我们设定的 onTick() 调用间隔是 1000 毫秒，可是它执行完一次却用了 1015 毫秒，现在剩余倒计时还剩下 5000 - 1015 = 3985 毫秒，本来第二次 onTick() 按期望应该是在 4000 毫秒时开始执行的，可是此时第一次的 onTick() 却还未执行完。所以第二次 onTick() 就会被延迟 delay = -15 + 1000 = 985 毫秒，也就是到剩余 3000 毫秒时再执行了。
- 那么此时就会 3985 / 1000 = 3，就会从5过度到3；依次类推，后续的delay延迟985毫秒后执行sendMessageDelayed，会导致时间出现跳跃性变动。具体可以看一下下面的例子……

onTick()做耗时操作会出现什么情况

比如下面，看打印日志可知：4，2没有，这就意味着这个阶段没有执行到onTick()方法，而如果你在这个里有业务逻辑与时间节点有关，则可能会出现bug

2020-08-05 13:58:00.657 11912-11912/com.yc.yctimer I/CountDownTimer: start → mMillisInFuture = 5000, seconds = 5
2020-08-05 13:58:00.657 11912-11912/com.yc.yctimer I/CountDownTimer: start → elapsedRealtime = 123987813, → mStopTimeInFuture = 123992813
2020-08-05 13:58:01.781 11912-11912/com.yc.yctimer I/CountDownTimer: before onTick → lastTickStart = 123988937
2020-08-05 13:58:01.781 11912-11912/com.yc.yctimer I/CountDownTimer: before onTick → millisLeft = 3876, seconds = 3
2020-08-05 13:58:02.858 11912-11912/com.yc.yctimer I/CountDownTimer: after onTick → elapsedRealtime = 123990014
2020-08-05 13:58:02.858 11912-11912/com.yc.yctimer I/CountDownTimer: after onTick → delay1 = -77
2020-08-05 13:58:02.858 11912-11912/com.yc.yctimer I/CountDownTimer: after onTick执行超时 → delay2 = 923
2020-08-05 13:58:03.784 11912-11912/com.yc.yctimer I/CountDownTimer: before onTick → lastTickStart = 123990940
2020-08-05 13:58:03.784 11912-11912/com.yc.yctimer I/CountDownTimer: before onTick → millisLeft = 1873, seconds = 1
2020-08-05 13:58:04.896 11912-11912/com.yc.yctimer I/CountDownTimer: after onTick → elapsedRealtime = 123992052
2020-08-05 13:58:04.896 11912-11912/com.yc.yctimer I/CountDownTimer: after onTick → delay1 = -112
2020-08-05 13:58:04.896 11912-11912/com.yc.yctimer I/CountDownTimer: after onTick执行超时 → delay2 = 888
2020-08-05 13:58:05.788 11912-11912/com.yc.yctimer I/CountDownTimer: onFinish → millisLeft = -130

onTick方法中如何执行耗时操作【大于1秒的执行代码】
- 建议使用handler消息机制进行处理，避免出现其他问题。

03.4 代码改进完善

针对问题1 和问题 2：
- 问题描述
  - 问题1. 每次 onTick() 都会有几毫秒的误差，并不是期待的准确的 "5000, 4000, 3000, 2000, 1000, 0"。
  - 问题2. 多运行几次，就会发现这几毫秒的误差，导致了计算得出的剩余秒数并不准确，如果你的倒计时需要显示剩余秒数，就会发生秒数跳跃/缺失的情况（比如一开始从“4”开始显示——缺少“5”，或者直接从“5”跳到了“3”——缺少“4”）。
- 解决方案
  - 这2个问题可以放在一起处理，网上也有很多人对这里做了改进，那就是给我们的倒计时时长扩大一点点，通常是手动将 mMillisInFuture 扩大几十毫秒
- 效果
  - 这里多加了 20 毫秒，运行一下（举个栗子）。倒计时打印日志：“5，4，3，2，1，finish”，

04.Timer和TimerTask解读

04.1 Timer和TimerTask方法

Timer核心方法如下所示

//安排指定任务在指定时间执行。如果时间在过去，任务被安排立即执行。
void schedule(TimerTask task, long delay)
//将指定的任务调度为重复执行固定延迟执行，从指定的延迟开始。后续执行大约按按指定周期间隔的规则间隔进行。
void schedule(TimerTask task, long delay, long period)

第一个方法只执行一次；
第二个方式每隔period执行一次，delay表示每次执行的延时时间，其实主要表现在第一次的延时效果，比如delay设置为0，那么立马执行task内容，如果设置为1000，那么第一次执行task会有一秒的延时效果。

TimerTask核心方法

TimerTask用于继承（或者直接定义并初始化匿名类），并重写run方法，定义自己的业务逻辑。

//取消此计时器任务。如果任务被计划为一次性执行而尚未运行，或尚未被计划，则它将永远不会运行。
//如果任务被安排为重复执行，它将永远不会再运行。(如果在此调用发生时任务正在运行，则任务将运行到完成，但将不再运行。)
public boolean cancel() {
    synchronized(lock) {
        boolean result = (state == SCHEDULED);
        state = CANCELLED;
        return result;
    }
}

关于结束定时器

Timer和TimerTask都有cancel方法，而且最好同时调用；如果已经cancel，下次必须创建新的Timer才能schedule。

public void destroyTimer() {
    if (mTimer != null) {
        mTimer.cancel();
        mTimer = null;
    }
    if (mTimerTask != null) {
        mTimerTask.cancel();
        mTimerTask = null;
    }
}

可能存在的问题
- 如果你在当前的activity中schedule了一个task，但是没有等到task结束，就按Back键finish了当前的activity，Timer和TimerTask并不会自动cancel或者销毁，它还会在后台运行，此时如果你在task的某个阶段要调起一个控件（比如AlertDialog），而该控制依赖被销毁的activity，那么将会引发crash。
- 所以建议在页面销毁的时候，将Timer和TimerTask都有cancel结束并且设置成null
- Timer 的方式实现定时任务，用来做倒计时是没有问题的。但是如果用来执行周期任务，恰好又有多个任务，恰好两个任务之间的时间间隔又比前一个任务执行时间短就会发生定时不准确的现象了。Timer 在执行过程中如果任务跑出了异常，Timer 会停止所有的任务。Timer 执行周期任务时依赖系统时间，系统时间的变化会引起 Timer 任务执行的变化。

04.2 Timer原理分析

其基本处理模型是单线程调度的任务队列模型，Timer不停地接受调度任务，所有任务接受Timer调度后加入TaskQueue,TimerThread不停地去TaskQueue中取任务来执行。
- image
此种方式的不足之处为当某个任务执行时间较长，以致于超过了TaskQueue中下一个任务开始执行的时间，会影响整个任务执行的实时性。为了提高实时性，可以采用多个消费者一起消费来提高处理效率，避免此类问题的实现。

04.3 TimerTask分析

源代码如下所示

可以发现TimerTask是实现Runnable接口的一个抽象类。如果直接继承该类并且实现该类的run() 方法就可以了，里面包含这种对应的状态。

public abstract class TimerTask implements Runnable {
    final Object lock = new Object();
    int state = VIRGIN;
    //表示尚未计划此任务（也表示初始状态）
    static final int VIRGIN = 0;
    //表示正在执行任务状态
    static final int SCHEDULED   = 1;
    //表示执行完成状态
    static final int EXECUTED    = 2;
    //取消状态
    static final int CANCELLED   = 3;
    //下次执行任务的时间
    long nextExecutionTime;
    //执行时间间隔
    long period = 0;
    //子类需要实现该方法，执行的任务的代码在该方法中实现
    public abstract void run();
    //取消任务，从这里我们可以很清楚知道取消任务就是修改状态
    public boolean cancel() {
        synchronized(lock) {
            boolean result = (state == SCHEDULED);
            state = CANCELLED;
            return result;
        }
    }
}

04.4 Timer源码分析

Timer才是真正的核心，在创建Timer对象的同时也创建一个TimerThread对象，该类集成Thread，本质上就是开启了一个线程。

public class Timer {
    //创建一个任务队列
    private final TaskQueue queue = new TaskQueue();
    //创建一个Thread线程对象，并且将queue队列传进去
    private final TimerThread thread = new TimerThread(queue);
    public Timer() {
        this("Timer-" + serialNumber());
    }

    public Timer(boolean isDaemon) {
        this("Timer-" + serialNumber(), isDaemon);
    }

    public Timer(String name) {
        thread.setName(name);
        thread.start();
    }

    public Timer(String name, boolean isDaemon) {
        thread.setName(name);
        thread.setDaemon(isDaemon);
        thread.start();
    }
}

然后看一下TimerThread线程的源码，如下所示

首先看run方法中的mainLoop()，开启一个不断循环的线程如果队列中不存在任务则阻塞当前的线程，直到队列中添加任务以后唤醒线程。
然后获取队列中执行时间最小的任务，如果该任务的状态是取消的话则从队列中移除掉再从队列中重新获取。
最后判断当前的时间是否大于等于任务的执行的时间，如果任务的执行时间还未到则当前线程再阻塞一段时间，同时我们还要将该任务重新扔到任务队列中重新排序，我们必须保证队列中的第一个任务的执行时间是最小的。
执行完mainLoop()方法完后，接着就将newTasksMayBeScheduled设置为false，并且清空队列中所有的任务。
思考一下，这里的最小任务是什么意思？先把这个疑问记着……

class TimerThread extends Thread {
    boolean newTasksMayBeScheduled = true;
    private TaskQueue queue;

    TimerThread(TaskQueue queue) {
        this.queue = queue;
    }

    public void run() {
        try {
            mainLoop();
        } finally {
            synchronized(queue) {
            //同时将状态置为false
            newTasksMayBeScheduled = false;
            //清空队列中所有的任务
            queue.clear();
        }
    }

    private void mainLoop() {
        //while死循环
        while (true) {
            try {
                TimerTask task;
                boolean taskFired;
                synchronized(queue) {
                    //如果任务队列为空并且该标志位 true的话，则该线程一直进行等待中，直到队列中有任务进来的时候执行 queue.notify才会解除阻塞
                    while (queue.isEmpty() && newTasksMayBeScheduled)
                        queue.wait();
                    //如果队列中的内容为空的话直接跳出循环，外部调用者可能取消了Timer
                    if (queue.isEmpty())
                        break;
                    long currentTime, executionTime;
                    //获取队列中最近执行时间最小的任务（也就是最近需要执行的任务）
                    task = queue.getMin();
                    synchronized(task.lock) {
                        //如果该任务的状态是取消状态的话，那从队列中移除这个任务，然后继续执行循环队列操作
                        if (task.state == TimerTask.CANCELLED) {
                            queue.removeMin();
                            continue;
                        }
                        //获取当前系统时间
                        currentTime = System.currentTimeMillis();
                        //获取下一个目标要执行的时间
                        executionTime = task.nextExecutionTime;
                        //如果下一个目标要执行的时间大于等于等于时间了，表示要执行任务了
                        if (taskFired = (executionTime<=currentTime)) {
                            //如果task的时间间隔为0，表示只执行一次该任务
                            if (task.period == 0) {
                                //将任务状态改为已执行状态，同时从队列中删除该任务
                                queue.removeMin();
                                task.state = TimerTask.EXECUTED;
                            } else {
                                //将任务重新跟队列中的任务进行排列，要始终保证第一个task的时间是最小的
                                queue.rescheduleMin(task.period<0 ? currentTime   - task.period
                                                : executionTime + task.period);
                            }
                        }
                    }
                    //这里表示最近要执行的任务时间没有到，那么再让当前的线程阻塞一段时间
                    if (!taskFired)
                        queue.wait(executionTime - currentTime);
                }
                //表示要执行的任务时间已经到了，那么直接调用任务的run() 执行代码
                if (taskFired)
                    task.run();
            } catch(InterruptedException e) {
            }
        }
    }
}

接着再来看一下TaskQueue队列的源代码

可以发现这个队列使用数组实现的，如果超过了128的话则扩容为原来的两倍。这个代码不多，注释写的很详细了，没什么好讲的……

public class TaskQueue {
    //创建一个数组为128的数组存放需要执行的任务，如果超过了128的话则扩容为原来的两倍
    private TimerTask[] queue = new TimerTask[128];
    //用于统计队列中任务的个数
    private int size = 0;
    //返回队列中任务的个数
    int size() {
        return size;
    }

    //依次遍历数组中的任务，并且置为null，有利于内存回收，注意这里的下标是从1开始计算的，不是从0
    void clear() {
        for (int i=1; i<=size; i++)
            queue[i] = null;
        size = 0;
    }

    //这里添加一个新的元素使用的是最小堆的操作，这里不详细说明了。
    void add(TimerTask task) {
        //如果数组已经存满任务，那么扩容一个新的数组为之前的两倍
        if (size + 1 == queue.length)
            queue = Arrays.copyOf(queue, 2*queue.length);
        queue[++size] = task;
        fixUp(size);
    }

    private void fixUp(int k) {
        while (k > 1) {
            int j = k >> 1;
            if (queue[j].nextExecutionTime <= queue[k].nextExecutionTime)
                break;
            TimerTask tmp = queue[j];  queue[j] = queue[k]; queue[k] = tmp;
            k = j;
        }
    }
}

04.5 schedule发布任务

当我们创建好Timer并且启动了循环线程以后，这个时候我们就需要发布任务。发布任务主要有以下几个方法。
- schedule(TimerTask task, Date time)
  - 表示第一次执行任务的时间，时间间隔为0，也表示该任务只执行一次就结束了
- schedule(TimerTask task, Date firstTime, long period)
  - firstTime 表示第一次执行的时间，period表示执行任务的时间间隔也就是多久时间执行一次
- schedule(TimerTask task, long delay)
  - 延迟 delay时间执行任务，也就是在当前的时间+delay执行任务（该方法只执行一次任务）

上面这三个方法都会执行sched方法，然后看一下这个

sched(TimerTask task, long time, long period)
- 上面所有的执行任务的函数最后都是调用的该方法，task表示要执行的任务，time表示要执行任务的时间，period表示任务执行的间隔时间。

具体看一下源代码

private void sched(TimerTask task, long time, long period) {
    //如果时间间隔大于 long最大值的一般的话，需要对该数值 /2
    if (Math.abs(period) > (Long.MAX_VALUE >> 1))
        period >>= 1;

    synchronized(queue) {
        //首先判断轮训线程是否取消，如果取消状态直接抛出异常
        if (!thread.newTasksMayBeScheduled)
            throw new IllegalStateException("Timer already cancelled.");
        synchronized(task.lock) {
            //判断新执行的任务状态如果不是初始化状态话，直接抛出异常
            if (task.state != TimerTask.VIRGIN)
                throw new IllegalStateException("Task already scheduled or cancelled");
            //赋值下次执行任务的时间
            task.nextExecutionTime = time;
            task.period = period;
            //将任务状态修改为发布状态
            task.state = TimerTask.SCHEDULED;
        }
        //将任务添加到最小堆队列中，注意：这里在添加到队列里面要保证第一个元素始终是最小的
        queue.add(task);
        //如果task就是队列中最小的任务话，则直接唤醒轮训线程执行任务（也就是唤醒TimerThread线程）
        if (queue.getMin() == task)
            queue.notify();
    }
}

从上面的代码中可以清楚的明白发布任务非常简单的，就是往任务队列中添加任务然后判断条件是否需要唤醒轮训线程去执行任务。其核心代码是在 TimerThread 轮训中以及使用最小堆实现的队列保证每次取出来的第一个任务的执行时间是最小的。

04.6 存在的问题分析

Timer通过一个寻轮线程循环的从队列中获取需要执行的任务，如果任务的执行时间未到则进行等待（通过Object类的 wait 方法实现阻塞等待）一段时间再自动唤醒执行任务。
但是细心的我们发现这个是单线程执行的如果有多个任务需要执行的话会不会应付不过来呢？类似一个程序员，要开发多个需求，要是所有的事情所耗费的时间很短的话，那么就不会出现延迟问题，要是其中一件或者是某件事情非常耗时间的话那么则会影响到后面事情的时间。
其实这个现象一样跟Timer出现的问题也是一样的道理，如果某个任务非常耗时间，而且任务队列中的任务又比较多的话，那 TimerThread 是忙不过来的，这样子就会导致后面的任务出现延迟执行的问题，进而会影响所有的定时任务的准确执行时间。
那么有人就会想要可以一个TimerTask对应一个Timer不就行了吗？但是我们要清楚的明白计算机的系统资源是有限的，如果我们一个任务就去单独的开一个轮训线程执行的话，其实是有一点浪费系统的资源的，完全没有必要的，如果不需要定时任务了话，我们还需要去销毁线程释放资源的，如果是这样子的反复操作的话，不利于我们程序的流畅性。

05.自定义倒计时器案例

为了方便实现倒计时器自由灵活设置，且代码精简，能够适应一个页面创建多个定时器。或者用在列表中，同时倒计时器支持暂停，恢复倒计时等功能。这个就需要做特使处理呢。

public class CountDownTimer {

    /**
     * 时间，即开始的时间，通俗来说就是倒计时总时间
     */
    private long mMillisInFuture;
    /**
     * 布尔值，表示计时器是否被取消
     * 只有调用cancel时才被设置为true
     */
    private boolean mCancelled = false;
    /**
     * 用户接收回调的时间间隔，一般是1秒
     */
    private long mCountdownInterval;
    /**
     * 记录暂停时候的时间
     */
    private long mStopTimeInFuture;
    /**
     * mas.what值
     */
    private static final int MSG = 520;
    /**
     * 暂停时，当时剩余时间
     */
    private long mCurrentMillisLeft;
    /**
     * 是否暂停
     * 只有当调用pause时，才设置为true
     */
    private boolean mPause = false;
    /**
     * 监听listener
     */
    private TimerListener mCountDownListener;
    /**
     * 是否创建开始
     */
    private boolean isStart;

    public CountDownTimer(){
        isStart = true;
    }

    public CountDownTimer(long millisInFuture, long countdownInterval) {
        long total = millisInFuture + 20;
        this.mMillisInFuture = total;
        //this.mMillisInFuture = millisInFuture;
        this.mCountdownInterval = countdownInterval;
        isStart = true;
    }

    /**
     * 开始倒计时，每次点击，都会重新开始
     */
    public synchronized final void start() {
        if (mMillisInFuture <= 0 && mCountdownInterval <= 0) {
            throw new RuntimeException("you must set the millisInFuture > 0 or countdownInterval >0");
        }
        mCancelled = false;
        long elapsedRealtime = SystemClock.elapsedRealtime();
        mStopTimeInFuture = elapsedRealtime + mMillisInFuture;
        CountTimeTools.i("start → mMillisInFuture = " + mMillisInFuture + ", seconds = " + mMillisInFuture / 1000 );
        CountTimeTools.i("start → elapsedRealtime = " + elapsedRealtime + ", → mStopTimeInFuture = " + mStopTimeInFuture);
        mPause = false;
        mHandler.sendMessage(mHandler.obtainMessage(MSG));
        if (mCountDownListener!=null){
            mCountDownListener.onStart();
        }
    }

    /**
     * 取消计时器
     */
    public synchronized final void cancel() {
        if (mHandler != null) {
            //暂停
            mPause = false;
            mHandler.removeMessages(MSG);
            //取消
            mCancelled = true;
        }
    }

    /**
     * 按一下暂停，再按一下继续倒计时
     */
    public synchronized final void pause() {
        if (mHandler != null) {
            if (mCancelled) {
                return;
            }
            if (mCurrentMillisLeft < mCountdownInterval) {
                return;
            }
            if (!mPause) {
                mHandler.removeMessages(MSG);
                mPause = true;
            }
        }
    }

    /**
     * 恢复暂停，开始
     */
    public synchronized final  void resume() {
        if (mMillisInFuture <= 0 && mCountdownInterval <= 0) {
            throw new RuntimeException("you must set the millisInFuture > 0 or countdownInterval >0");
        }
        if (mCancelled) {
            return;
        }
        //剩余时长少于
        if (mCurrentMillisLeft < mCountdownInterval || !mPause) {
            return;
        }
        mStopTimeInFuture = SystemClock.elapsedRealtime() + mCurrentMillisLeft;
        mHandler.sendMessage(mHandler.obtainMessage(MSG));
        mPause = false;
    }


    @SuppressLint("HandlerLeak")
    private Handler mHandler = new Handler() {
        @Override
        public void handleMessage(@NonNull Message msg) {
            synchronized (CountDownTimer.this) {
                if (mCancelled) {
                    return;
                }
                //剩余毫秒数
                final long millisLeft = mStopTimeInFuture - SystemClock.elapsedRealtime();
                if (millisLeft <= 0) {
                    mCurrentMillisLeft = 0;
                    if (mCountDownListener != null) {
                        mCountDownListener.onFinish();
                        CountTimeTools.i("onFinish → millisLeft = " + millisLeft);
                    }
                } else if (millisLeft < mCountdownInterval) {
                    mCurrentMillisLeft = 0;
                    CountTimeTools.i("handleMessage → millisLeft < mCountdownInterval !");
                    // 剩余时间小于一次时间间隔的时候，不再通知，只是延迟一下
                    sendMessageDelayed(obtainMessage(MSG), millisLeft);
                } else {
                    //有多余的时间
                    long lastTickStart = SystemClock.elapsedRealtime();
                    CountTimeTools.i("before onTick → lastTickStart = " + lastTickStart);
                    CountTimeTools.i("before onTick → millisLeft = " + millisLeft + ", seconds = " + millisLeft / 1000 );
                    if (mCountDownListener != null) {
                        mCountDownListener.onTick(millisLeft);
                        CountTimeTools.i("after onTick → elapsedRealtime = " + SystemClock.elapsedRealtime());
                    }
                    mCurrentMillisLeft = millisLeft;
                    // 考虑用户的onTick需要花费时间,处理用户onTick执行的时间
                    // 打印这个delay时间，大概是997毫秒
                    long delay = lastTickStart + mCountdownInterval - SystemClock.elapsedRealtime();
                    CountTimeTools.i("after onTick → delay1 = " + delay);
                    // 特殊情况：用户的onTick方法花费的时间比interval长，那么直接跳转到下一次interval
                    // 注意，在onTick回调的方法中，不要做些耗时的操作
                    boolean isWhile = false;
                    while (delay < 0){
                        delay += mCountdownInterval;
                        isWhile = true;
                    }
                    if (isWhile){
                        CountTimeTools.i("after onTick执行超时 → delay2 = " + delay);
                    }
                    sendMessageDelayed(obtainMessage(MSG), delay);
                }
            }
        }
    };

    /**
     * 设置倒计时总时间
     * @param millisInFuture                    毫秒值
     */
    public void setMillisInFuture(long millisInFuture) {
        long total = millisInFuture + 20;
        this.mMillisInFuture = total;
    }

    /**
     * 设置倒计时间隔值
     * @param countdownInterval                 间隔，一般设置为1000毫秒
     */
    public void setCountdownInterval(long countdownInterval) {
        this.mCountdownInterval = countdownInterval;
    }

    /**
     * 设置倒计时监听
     * @param countDownListener                 listener
     */
    public void setCountDownListener(TimerListener countDownListener) {
        this.mCountDownListener = countDownListener;
    }

}

如何使用

//开始
mCountDownTimer.start();
//结束销毁
mCountDownTimer.cancel();
//暂停
mCountDownTimer.pause();
//恢复暂停
mCountDownTimer.resume();

代码案例：https://github.com/yangchong211/YCTimer

Dart语言基础Map、List、Set操作合辑-阿里云开发者社区

mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

题记
—— 执剑天涯，从你的点滴积累开始，所及之处，必精益求精，即是折腾每一天。

Header1	Header2
CSDN	网易云课堂教程
掘金	EDU学院教程
知乎	Flutter系列文章

Flutter完全采用了Dart语言，所以分析Dart语言基础相当于是学习了Flutter语言基础、
在Dart中，Map用来存储对像类型的数据，List与Set用来存储数组类型的数据。

本文是来描述 Map 、List 、Set中数据的添加、修改、循环遍历查询的。

1 Dart中的Map

Map用来保存key-value键值对的数据集合, 与Object-C中所说的字典一至，分为无序的HashMap、key的插入顺序的LinkedHashMap、按key的排序顺序的SplayTreeMap，Map的创建实例如下：

// 创建一个Map实例，默认实现是LinkedHashMap。
Map()

// 创建一个LinkedHashMap实例，包含other中的所有键值对。
Map.from(Map other)

// 创建一个Map实例，其中Key和Value由iterable的元素计算得到。
Map.fromIterable(Iterable iterable, {K key(element), V value(element)})

 // 将指定的keys和values关联，创建一个Map实例。
Map.fromIterables(Iterable keys, Iterable values)

 // 使用默认实现LinkedHashMap创建一个严格的Map。
Map.identity()

 // 创建一个不可修改、基于哈希值的Map，包含other所有的项
Map.unmodifiable(Map other)

然后在实际项目中结合数据创建Map实例，创建一个空的Map代码如下：

// 创建一个Map实例, 插入顺序进行排列 默认无数据
  var dic = new Map();
  print(dic);  // {}
  // 创建一个空的Map, Map允许null作为key
  var dic5 = new Map.identity();
  print(dic5);  //{}

创建有一个有初始值的Map，代码如下：

  // 根据一个Map创建一个新的Map, 插入顺序进行排列
  var dic1 = new Map.from({'name': '张三'});
  print(dic1);  // {name: 张三}
 
  // 根据List创建Map, 插入顺序进行排列
  List list = [1, 2, 3];
  // 使用默认方式, key和value都是数组对应的元素
  var dic2 = new Map.fromIterable(list);
  print(dic2);  // {1: 1, 2: 2, 3: 3}


  // 设置key和value的值
  var dic3 = new Map.fromIterable(list, key: (item) => item.toString(), value: (item) => item * item);
  print(dic3);  // {1: 1, 2: 4, 3: 9}

  // 创建一个不可修改、基于哈希值的Map
  var dic6 = new Map.unmodifiable({'name': 张三});
  print(dic6); // {name: 张三}

根据List数据来创建Map,代码如下：

  // 两个数组映射一个字典, 插入顺序进行排列
  List keys = ['name', 'age'];
  var values = [张三, 20];
  // 如果有相同的key值, 后面的值会覆盖前面的值
  var dic4 = new Map.fromIterables(keys, values);
  print(dic4);  // {name: 张三, age: 20}

对于Map来讲，初始化创建时可以赋值也可以是空的，当创建的可变的Map数据集合时，在实际开发中往往会根据不同的操作来修改不同的数据，如下：

  // 根据一个Map创建一个新的Map, 插入顺序进行排列
  // 在这里通过泛型指定 了 Map中的key的类型为 String类型 value是动态的
  Map dic1 = new Map.from({'name': '张三'});
  print(dic1);  // {name: 张三}

  //修改name的值 
  dic1['name'] = '李四';
  //向Map中添加新的键值对数据
  dic1['age'] = 23;

然后获取Map中的数据如下操作;

//根据key获取对应的值 
String name = dic1= dic1['name'];

///遍历获取Map中所有的数据
dic1.forEach((key, value) {
  print("${key} is ${value}");
});

2 Dart中的List

对于List与Set来讲，都是用来存储数组类型数据，区别是Set不可保存重复数据，也就是说Set中的数据具有唯一性，在这里只分析List，Set与List的使用方法一至，使用代码如下：

// 创建非固定长度的Lsit
var testList = List();
// 也可以 List testList = List();
print(testList.length); // 0
// 创建固定长度的List
var fixedList = List(4);
print(testList.length); // 4
 
 ///向Lsit中添加数据
testList.add("hello");
testList.add(123);
 
 
// 创建元素类型固定的List
var typeList = List(); // 只能添加字符串类型的元素
 
typeList.add("张三"); // 正确
typeList.add(1); // 错误。类型不正确
 
// 直接赋值 创建List
var numList = [1, 2, 3];

然后获取List中的数据需要通过索引来获取，List中保存的数据索引从0开始计数，代码如下：

///方式一 遍历获取List中的所有数据
testList.forEach((value) {
  //value 就是List中对应的值
});

///方式二 遍历获取List中的所有的数据
for(int i=0;i



完毕



Java 开发必备！ I/O与Netty原理精讲-阿里云开发者社区
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

一  Java I/O模型
1  BIO（Blocking IO）
BIO是同步阻塞模型，一个客户端连接对应一个处理线程。在BIO中，accept和read方法都是阻塞操作，如果没有连接请求，accept方法阻塞；如果无数据可读取，read方法阻塞。

2  NIO（Non Blocking IO）
NIO是同步非阻塞模型，服务端的一个线程可以处理多个请求，客户端发送的连接请求注册在多路复用器Selector上，服务端线程通过轮询多路复用器查看是否有IO请求，有则进行处理。

NIO的三大核心组件：
Buffer：用于存储数据，底层基于数组实现，针对8种基本类型提供了对应的缓冲区类。
Channel：用于进行数据传输，面向缓冲区进行操作，支持双向传输，数据可以从Channel读取到Buffer中，也可以从Buffer写到Channel中。
Selector：选择器，当向一个Selector中注册Channel后，Selector 内部的机制就可以自动不断地查询（Select）这些注册的Channel是否有已就绪的 I/O 事件（例如可读，可写，网络连接完成等），这样程序就可以很简单地使用一个线程高效地管理多个Channel，也可以说管理多个网络连接，因此，Selector也被称为多路复用器。当某个Channel上面发生了读或者写事件，这个Channel就处于就绪状态，会被Selector监听到，然后通过SelectionKeys可以获取就绪Channel的集合，进行后续的I/O操作。

Epoll是Linux下多路复用IO接口select/poll的增强版本，它能显著提高程序在大量并发连接中只有少量活跃的情况下的系统CPU利用率，获取事件的时候，它无须遍历整个被侦听的描述符集，只要遍历那些被内核IO事件异步唤醒而加入Ready队列的描述符集合就行了。
3  AIO（NIO 2.0）
AIO是异步非阻塞模型，一般用于连接数较多且连接时间较长的应用，在读写事件完成后由回调服务去通知程序启动线程进行处理。与NIO不同，当进行读写操作时，只需直接调用read或write方法即可。这两种方法均为异步的，对于读操作而言，当有流可读取时，操作系统会将可读的流传入read方法的缓冲区，并通知应用程序；对于写操作而言，当操作系统将write方法传递的流写入完毕时，操作系统主动通知应用程序。可以理解为，read/write方法都是异步的，完成后会主动调用回调函数。
二  I/O模型演化
1  传统I/O模型
对于传统的I/O通信方式来说，客户端连接到服务端，服务端接收客户端请求并响应的流程为：读取 -> 解码 -> 应用处理 -> 编码 -> 发送结果。服务端为每一个客户端连接新建一个线程，建立通道，从而处理后续的请求，也就是BIO的方式。

这种方式在客户端数量不断增加的情况下，对于连接和请求的响应会急剧下降，并且占用太多线程浪费资源，线程数量也不是没有上限的，会遇到各种瓶颈。虽然可以使用线程池进行优化，但是依然有诸多问题，比如在线程池中所有线程都在处理请求时，无法响应其他的客户端连接，每个客户端依旧需要专门的服务端线程来服务，即使此时客户端无请求，也处于阻塞状态无法释放。基于此，提出了基于事件驱动的Reactor模型。
2  Reactor模型
Reactor模式是基于事件驱动开发的，服务端程序处理传入多路请求，并将它们同步分派给请求对应的处理线程，Reactor模式也叫Dispatcher模式，即I/O多路复用统一监听事件，收到事件后分发（Dispatch给某进程），这是编写高性能网络服务器的必备技术之一。
Reactor模式以NIO为底层支持，核心组成部分包括Reactor和Handler：

Reactor：Reactor在一个单独的线程中运行，负责监听和分发事件，分发给适当的处理程序来对I/O事件做出反应。它就像公司的电话接线员，它接听来自客户的电话并将线路转移到适当的联系人。
Handlers：处理程序执行I/O事件要完成的实际事件，Reactor通过调度适当的处理程序来响应 I/O 事件，处理程序执行非阻塞操作。类似于客户想要与之交谈的公司中的实际员工。

根据Reactor的数量和Handler线程数量，可以将Reactor分为三种模型:

单线程模型 (单Reactor单线程)
多线程模型 (单Reactor多线程)
主从多线程模型 (多Reactor多线程)

单线程模型

Reactor内部通过Selector监控连接事件，收到事件后通过dispatch进行分发，如果是连接建立的事件，则由Acceptor处理，Acceptor通过accept接受连接，并创建一个Handler来处理连接后续的各种事件，如果是读写事件，直接调用连接对应的Handler来处理。
Handler完成read -> (decode -> compute -> encode) ->send的业务流程。
这种模型好处是简单，坏处却很明显，当某个Handler阻塞时，会导致其他客户端的handler和accpetor都得不到执行，无法做到高性能，只适用于业务处理非常快速的场景，如redis读写操作。
多线程模型

主线程中，Reactor对象通过Selector监控连接事件,收到事件后通过dispatch进行分发，如果是连接建立事件，则由Acceptor处理，Acceptor通过accept接收连接，并创建一个Handler来处理后续事件，而Handler只负责响应事件，不进行业务操作，也就是只进行read读取数据和write写出数据，业务处理交给一个线程池进行处理。
线程池分配一个线程完成真正的业务处理，然后将响应结果交给主进程的Handler处理，Handler将结果send给client。
单Reactor承担所有事件的监听和响应，而当我们的服务端遇到大量的客户端同时进行连接，或者在请求连接时执行一些耗时操作，比如身份认证，权限检查等，这种瞬时的高并发就容易成为性能瓶颈。
主从多线程模型

存在多个Reactor，每个Reactor都有自己的Selector选择器，线程和dispatch。
主线程中的mainReactor通过自己的Selector监控连接建立事件，收到事件后通过Accpetor接收，将新的连接分配给某个子线程。
子线程中的subReactor将mainReactor分配的连接加入连接队列中通过自己的Selector进行监听，并创建一个Handler用于处理后续事件。
Handler完成read -> 业务处理 -> send的完整业务流程。 
关于Reactor，最权威的资料应该是Doug Lea大神的Scalable IO in Java，有兴趣的同学可以看看。
三  Netty线程模型
Netty线程模型就是Reactor模式的一个实现，如下图所示：

1  线程组
Netty抽象了两组线程池BossGroup和WorkerGroup，其类型都是NioEventLoopGroup，BossGroup用来接受客户端发来的连接，WorkerGroup则负责对完成TCP三次握手的连接进行处理。
NioEventLoopGroup里面包含了多个NioEventLoop，管理NioEventLoop的生命周期。每个NioEventLoop中包含了一个NIO Selector、一个队列、一个线程；其中线程用来做轮询注册到Selector上的Channel的读写事件和对投递到队列里面的事件进行处理。
Boss NioEventLoop线程的执行步骤：

处理accept事件, 与client建立连接, 生成NioSocketChannel。
将NioSocketChannel注册到某个worker NIOEventLoop上的selector。
处理任务队列的任务， 即runAllTasks。

Worker NioEventLoop线程的执行步骤：

轮询注册到自己Selector上的所有NioSocketChannel的read和write事件。
处理read和write事件，在对应NioSocketChannel处理业务。
runAllTasks处理任务队列TaskQueue的任务，一些耗时的业务处理可以放入TaskQueue中慢慢处理，这样不影响数据在pipeline中的流动处理。

Worker NIOEventLoop处理NioSocketChannel业务时，使用了pipeline (管道)，管道中维护了handler处理器链表，用来处理channel中的数据。
2  ChannelPipeline
Netty将Channel的数据管道抽象为ChannelPipeline，消息在ChannelPipline中流动和传递。ChannelPipeline持有I/O事件拦截器ChannelHandler的双向链表，由ChannelHandler对I/O事件进行拦截和处理，可以方便的新增和删除ChannelHandler来实现不同的业务逻辑定制，不需要对已有的ChannelHandler进行修改，能够实现对修改封闭和对扩展的支持。
ChannelPipeline是一系列的ChannelHandler实例，流经一个Channel的入站和出站事件可以被ChannelPipeline 拦截。每当一个新的Channel被创建了，都会建立一个新的ChannelPipeline并绑定到该Channel上，这个关联是永久性的；Channel既不能附上另一个ChannelPipeline也不能分离当前这个。这些都由Netty负责完成，而无需开发人员的特别处理。
根据起源,一个事件将由ChannelInboundHandler或ChannelOutboundHandler处理，ChannelHandlerContext实现转发或传播到下一个ChannelHandler。一个ChannelHandler处理程序可以通知ChannelPipeline中的下一个ChannelHandler执行。Read事件（入站事件）和write事件（出站事件）使用相同的pipeline，入站事件会从链表head 往后传递到最后一个入站的handler，出站事件会从链表tail往前传递到最前一个出站的 handler，两种类型的 handler 互不干扰。

ChannelInboundHandler回调方法：

ChannelOutboundHandler回调方法：

3  异步非阻塞
写操作：通过NioSocketChannel的write方法向连接里面写入数据时候是非阻塞的，马上会返回，即使调用写入的线程是我们的业务线程。Netty通过在ChannelPipeline中判断调用NioSocketChannel的write的调用线程是不是其对应的NioEventLoop中的线程，如果发现不是则会把写入请求封装为WriteTask投递到其对应的NioEventLoop中的队列里面，然后等其对应的NioEventLoop中的线程轮询读写事件时候，将其从队列里面取出来执行。
读操作：当从NioSocketChannel中读取数据时候，并不是需要业务线程阻塞等待，而是等NioEventLoop中的IO轮询线程发现Selector上有数据就绪时，通过事件通知方式来通知业务数据已就绪，可以来读取并处理了。
每个NioSocketChannel对应的读写事件都是在其对应的NioEventLoop管理的单线程内执行，对同一个NioSocketChannel不存在并发读写，所以无需加锁处理。
使用Netty框架进行网络通信时，当我们发起I/O请求后会马上返回，而不会阻塞我们的业务调用线程；如果想要获取请求的响应结果，也不需要业务调用线程使用阻塞的方式来等待，而是当响应结果出来的时候，使用I/O线程异步通知业务的方式，所以在整个请求 -> 响应过程中业务线程不会由于阻塞等待而不能干其他事情。



物模型接入价值与实践-阿里云开发者社区
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
物模型价值
物联网元年
关键词：探索、快速
2016年阿里云物联网平台（前称：物联网套件）上线，为客户设备上云提供了通道能力，包括MQTT连接、消息流转等核心功能。
第一批客户大多基于该模式使用物联网平台能力，当时整个行业处于物联网云平台起步期，包括AWS，Azure起步阶段同样只是提供通道能力。
基于通道能力，客户使用物联网平台接入方式详见文档 https://developer.aliyun.com/article/746536。
这个阶段的客户大多是硬件厂商，软硬一体开发，尝试物联网转型提升设备价值，对物联网平台的诉求比较简单，希望自己更多参与，对新模式有更多把控力，所以都会采用自定义协议上云。


物联网繁荣
关键词：生态、扩展、数字化
近两年物联网设备、解决方案如雨后春笋般涌出，不少用户希望赶上物联网这波浪潮。这个阶段的客户不仅仅关注设备连云，也开始关注围绕设备产生的解决方案。因此客户角色从硬件厂商，快速扩展到集成商、软件提供商等。由于大量角色的进入，对软硬开发解耦、易扩展的能力提出了诉求。同时我们也发现第一批使用通道能力的平台客户随着自己业务发展、设备扩展，原来的架构已无法支撑，对物联网平台也提出了新的要求。
举两个典型场景：

老客户升级：某个共享设备提供商，原来仅提供大学校园共享洗衣机服务，利用物联网平台通道能力上云，随着公司业务发展，从共享洗衣机业务扩展到校园淋浴、饮水机、充电桩等多类设备，原来自定义协议和API无法支撑多品类设备，难扩展。需要有一套接入标准和规范，方便快速扩展设备类型。
新生态客户：某个充电桩平台客户，提供充电桩管理平台，作为甲方要求大量桩企（乙方）按照平台规范接入，典型的软硬件分离场景。需要有一套接入标准和规范，方便快速扩展桩企规模。

这一阶段平台在通道能力之上，提供了物模型能力，物模型可以屏蔽底层设备差异，让软件开发者基于平台提供的标准API开发；硬件开发者基于平台提供的标准协议开发；从而达到软硬开发解耦的目的。


物联网赋能
关键词：场景化、智能
物联网终极目标一定是基于设备采集数据赋能业务，实现数字业务化。例如金融、物流、家居、餐饮、商场、医疗、交通等不同领域通过物联网数字化后，结合数据分析智能化决策、互联互通、场景规则、数字孪生等能力实现纵深领域场景化、智能化。
这一阶段平台在通道能力、物模型能力之上，还进一步提供设备智能运维、数据分析、可视化、数字孪生等高价值服务，帮助客户数字化后产生真正的业务价值。


基于以上分析，物联网已经过了最初的“元年”阶段，也迈入了“繁荣”阶段，正逐步朝“问物联网要赋能”的阶段演进。物模型是物联网生态化、高扩展、数字化、智能化非常重要的基础，强烈建议客户使用。
物模型接入实践
自定义接入模式
以一个老客户为例，原来仅使用物联网平台通道能力，下图中1~8流程都需要自定义开发，当客户设备类型足够简单时，该模式复杂度通常不会成为客户痛点。


面临的挑战
随着客户接入设备种类越来越多，面临的扩展性问题也越来越严峻。


使用物模型后的模式
物模型模式下，设备与云交互协议、云平台设备API都基于物模型标准化了，即使设备不断扩展，客户业务服务器和设备端逻辑都不需要进行调整，保证了扩展性。


物模型接入流程详细介绍
流程图
以下是客户详细接入流程，主要分为：云端配置、设备开发、服务端开发、设备运行时管理四大部分。平台会提供一些工具，使各部分流程更高效。接下来进行详细介绍。

本文试图手把手介绍从0到1接入物模型，还会配套介绍一些接入过程中有帮助的平台能力，所以文章篇幅比较长，事实上客户接入流程还是非常简单的，真正开发只需要涉及到图中红色三个模块。
如果您希望快速接入，可以直接关注P0部分，其它部分都可以跳过。
1 云端配置
1.1 创建产品（P0）
1.登录物联网平台。
2.创建产品。

说明：
• 所属品类：标准品类库提供了一些供参考的模板，选择后可以修改，建议使用。
• 节点类型：根据实际选择即可。
• 数据格式：“ICA标准数据格式(Alink JSON)”表示设备使用标准Alink JSON格式上报数据；“透传/自定义”表示设备可以使用自定义格式，通过Alink特定Topic上报物联网平台，该模式客户需要写脚本进行转换，透传模式在此不做展开，后面单独起文章介绍。
1.2 物模型建模（P0）
1.模型查看。
已有的模型是继承自创建产品时选择的“充电桩”品类模板。

2.编辑模型。
通过“编辑草稿”，进行修改和添加，最后需要对物模型“发布上线”。

说明：
• 定义物模型非常重要，物模型通过属性、事件、服务三要素描述了设备所有能力，设备和云交互、客户服务器访问设备通过物模型都可以实现协议标准化。如果客户定义的物模型如果足够通用和专业，阿里可以帮助作为ICA行业标准进行推广。
• 服务的调用方式有：同步调用、异步调用两种模式。客户云端开发调用下行控制API，同步调用和异步调用获取返回结果方式不一样，在后文“3.3”章节详细介绍。
物模型概念介绍
物模型介绍文档请参见这里。
了解物模型概念，能够帮助您更好对设备建模。
1.3 物模型配置
当前默认是物模型强校验模式，即设备上报数据在IoT平台会进行物模型数据规范强校验，如果不符合规范会报错。
另外物模型弱校验、免校验、去重等规则也会在近期陆续开放，后期进行文档补充。
配置之后，会在设备运行时生效。
关联阅读：4.2 物模型扩展规则校验。
1.4 注册三元组（P0）
1.注册设备。

说明：
• 添加设备：测试阶段使用较多，单个添加。
• 批量添加：量产阶段使用，有两种模式，“自动生成”表示设备标识符(deviceName)由平台按照一定的规则随机颁发；“批量上传”支持客户自定义设备标识符(deviceName)。
2.查看设备列表。
可以通过“设备列表”、“批次管理”两种方式查看创建的设备列表。

通过“批次管理”查看这一批次设备详情，并且支持下载三元组列表。

注意：此处设备标识符(deviceName)非常重要，与productKey, deviceSecret一起称为设备的“三元组”，作为设备的唯一身份，大部分情况需要烧录到设备上。
2 设备开发
2.1 使用设备SDK开发（P0）
设备接入SDK文档请参见这里。

根据需要选择合适的语言版本。C SDK 建议使用“4.x”版本。
本文选择 Java SDK进行演示。
环境准备：https://help.aliyun.com/document_detail/97331.html
物模型开发：https://help.aliyun.com/document_detail/97333.html
1.开发之前需要先准备如下好两份数据：

设备证书信息（productKey、deviceName、deviceSecret）


设备物模型



为了方便查看物模型详细数据规范，通过导出“物模型TSL”查看详细物模型定义，其中包括物模型属性、事件、服务标识符、参数、数据规范。抽取部分内容，针对以下属性、事件、服务在DEMO中进行开发演示。
    "schema":"https://iotx-tsl.oss-ap-southeast-1.aliyuncs.com/schema.json",
    "profile":{
        "productKey":"a1nhbEV****"
    },
    "properties":[
        {
            "identifier":"acOutMeterIty",
            "name":"交流输出电表底值监测属性",
            "accessMode":"rw",
            "required":false,
            "dataType":{
                "type":"int",
                "specs":{
                    "min":"0",
                    "max":"200",
                    "step":"1"
                }
            }
        }
    ],
    "events":[
        {
            "identifier":"post",
            "name":"post",
            "type":"info",
            "required":true,
            "desc":"属性上报",
            "method":"thing.event.property.post",
            "outputData":[
                {
                    "identifier":"acOutMeterIty",
                    "name":"交流输出电表底值监测属性",
                    "dataType":{
                        "type":"int",
                        "specs":{
                            "min":"0",
                            "max":"200",
                            "step":"1"
                        }
                    }
                }
            ]
        },
        {
            "identifier":"startChaResEvt",
            "name":"启动充电结果事件",
            "type":"info",
            "required":false,
            "method":"thing.event.startChaResEvt.post",
            "outputData":[
                {
                    "identifier":"gunNum",
                    "name":"充电枪编号",
                    "dataType":{
                        "type":"int",
                        "specs":{
                            "min":"0",
                            "max":"100",
                            "step":"2"
                        }
                    }
                }
            ]
        }
    ],
    "services":[
        {
            "identifier":"set",
            "name":"set",
            "required":true,
            "callType":"async",
            "desc":"属性设置",
            "method":"thing.service.property.set",
            "inputData":[
                {
                    "identifier":"acOutMeterIty",
                    "name":"交流输出电表底值监测属性",
                    "dataType":{
                        "type":"int",
                        "specs":{
                            "min":"0",
                            "max":"200",
                            "step":"1"
                        }
                    }
                }
            ],
            "outputData":[

            ]
        },
        {
            "identifier":"get",
            "name":"get",
            "required":true,
            "callType":"async",
            "desc":"属性获取",
            "method":"thing.service.property.get",
            "inputData":[
                "acOutMeterIty"
            ],
            "outputData":[
                {
                    "identifier":"acOutMeterIty",
                    "name":"交流输出电表底值监测属性",
                    "dataType":{
                        "type":"int",
                        "specs":{
                            "min":"0",
                            "max":"200",
                            "step":"1"
                        }
                    }
                }
            ]
        },
        {
            "identifier":"startChaResService",
            "name":"开启充电",
            "required":false,
            "callType":"async",
            "method":"thing.service.startChaResService",
            "inputData":[
                {
                    "identifier":"charm",
                    "name":"电量",
                    "dataType":{
                        "type":"int",
                        "specs":{
                            "min":"1",
                            "max":"100",
                            "step":"2"
                        }
                    }
                }
            ],
            "outputData":[
                {
                    "identifier":"realcharm",
                    "name":"realcharm",
                    "dataType":{
                        "type":"int",
                        "specs":{
                            "min":"0",
                            "max":"100",
                            "step":"2"
                        }
                    }
                }
            ]
        }
    ]
}
2.开发代码。
如下示例中只需要将三元组，和属性、事件、服务参数替换成您的设备信息。其它代码可以直接运行。
关于免订阅能力介绍：
有些设备最资源比较敏感，为了避免初始化订阅大量Alink协议中系统Topic带来的性能开销，平台提供了免订阅能力，即平台帮设备进行Topic订阅。
SDK只有3.1.0及以后版本支持免订阅能力，并且默认打开该能力。
如果3.1.0及以后版本SDK您希望取消免订阅，依旧按需订阅Topic，可以设置SDK配置项关闭该能力，在make.settings中设置“FEATURE_MQTT_AUTO_SUBSCRIBE=n”。
public class Demo {

    public static void main(String[] args) throws Exception {

        String pk = "a1nhbEVCP**";
        String dn = "7mBP6Dd6IT27Rt***";
        String ds = "*****";

        /**
         * 连接 & 认证
         */
        LinkKitInitParams params = new LinkKitInitParams();

        // 设置 Mqtt 初始化参数
        IoTMqttClientConfig config = new IoTMqttClientConfig();
        config.productKey = pk;
        config.deviceName = dn;
        config.deviceSecret = ds;
        config.receiveOfflineMsg = false;
        params.mqttClientConfig = config;

        // 设置初始化三元组信息，用户传入
        DeviceInfo deviceInfo = new DeviceInfo();
        deviceInfo.productKey = pk;
        deviceInfo.deviceName = dn;
        deviceInfo.deviceSecret = ds;

        params.deviceInfo = deviceInfo;

        LinkKit.getInstance().init(params, new ILinkKitConnectListener() {
            public void onError(AError aError) {
                System.out.println("===============FAILURE===============");
                ALog.e(TAG, "Init Error error=" + aError);
                System.out.println("===============FAILURE===============");
            }

            public void onInitDone(InitResult initResult) {
                System.out.println("===============SUCCESS===============");
                ALog.i(TAG, "onInitDone result=" + initResult);
                System.out.println("===============SUCCESS===============");
            }

        });

        //此处sleep 5S，由于上面init是异步流程
        Thread.sleep(5000);

        /**
         * 物模型开发
         */

        /**
         * 上报属性
         */
        Map properties = new HashMap<>();

        // key为物模型中属性标识符"acOutMeterIty"，value需要遵循属性值规范：int类型，取值范围在0~200之间；
        properties.put("acOutMeterIty", new ValueWrapper(10));

        LinkKit.getInstance().getDeviceThing().thingPropertyPost(properties, new IPublishResourceListener() {

            @Override
            public void onSuccess(String s, Object o) {
                System.out.println("=====thingPropertyPost success=======");
                System.out.println(s);
                System.out.println(JSON.toJSONString(o));
            }

            @Override
            public void onError(String s, AError aError) {
                System.out.println("=====thingPropertyPost failure=======");
            }
        });

        // 上报属性之后，云端会返回响应结果，此处是监听云端返回的属性reply
        LinkKit.getInstance().registerOnNotifyListener(new IConnectNotifyListener() {

            @Override
            public void onNotify(String s, String s1, AMessage aMessage) {
                System.out.println("===PROPERTY REPLY===");
                System.out.println("TOPIC：" + s1);
                System.out.println("Payload：" + JSON.toJSONString(aMessage));
            }

            @Override
            public boolean shouldHandle(String s, String s1) {
                return false;
            }

            @Override
            public void onConnectStateChange(String s, ConnectState connectState) {
            }
        });

        /**
         * 上报事件
         */
        HashMap eventMap = new HashMap<>();

        // key为物模型中事件参数的标识符"gunNum", value为事件参数值需要遵循数值规范：int类型，取值范围0~100之间；
        eventMap.put("gunNum", new ValueWrapper.IntValueWrapper(50));

        OutputParams eventOutput = new OutputParams(eventMap);

        // 参数identity为"startChaResEvt"属于物模型事件标识符。
        LinkKit.getInstance().getDeviceThing().thingEventPost("startChaResEvt", eventOutput, new IPublishResourceListener() {
            public void onSuccess(String resId, Object o) {
                System.out.println("=====thingEventPost success=======");
                System.out.println(resId);
                System.out.println(JSON.toJSONString(o));
            }

            public void onError(String resId, AError aError) {
                System.out.println("=====thingEventPost failure=======");
            }
        });

        /**
         * 监听并执行下行服务
         */
        // 获取设备支持的所有服务
        LinkKit.getInstance().getDeviceThing().getServices();

        // 用户可以根据实际情况注册自己需要的服务的监听器
        List srviceList = LinkKit.getInstance().getDeviceThing().getServices();

        for (int i = 0; srviceList != null && i < srviceList.size(); i++) {
            Service service = srviceList.get(i);

            LinkKit.getInstance().getDeviceThing().setServiceHandler(service.getIdentifier(), new ITResRequestHandler() {

                public void onProcess(String identify, Object result, ITResResponseCallback itResResponseCallback) {

                    System.out.println("onProcess() called with: s = [" + identify + "], o = [" + result + "], itResResponseCallback = [" + itResResponseCallback + "]");
                    System.out.println("收到云端异步服务调用 " + identify);
                    try {
                        /**
                         * 设置属性(property)的模式
                         */
                        // "set"为设置属性默认的标识符
                        if ("set".equals(identify)) {
                            // TODO 用户需要设置真实设备的的属性
                            /**
                             * 向云端同步设置好的属性值
                             */
                            Map desiredProperty = (Map) ((InputParams) result).getData();

                            LinkKit.getInstance().getDeviceThing().thingPropertyPost(desiredProperty, new IPublishResourceListener() {

                                @Override
                                public void onSuccess(String s, Object o) {
                                    if (result instanceof InputParams) {
                                        Map data = (Map) ((InputParams) result).getData();
                                        //                        data.get()
                                        ALog.d(TAG, "收到异步下行数据 " + data);
                                        // 响应云端 接收数据成功
                                        itResResponseCallback.onComplete(identify, null, null);
                                    } else {
                                        itResResponseCallback.onComplete(identify, null, null);
                                    }
                                }

                                @Override
                                public void onError(String s, AError aError) {
                                    AError error = new AError();
                                    error.setCode(100);
                                    error.setMsg("setPropertyFailed.");
                                    itResResponseCallback.onComplete(identify, new ErrorInfo(error), null);
                                }
                            });

                            /**
                             * 服务(service)的模式
                             */
                            // "startChaResService"为服务的标识符
                        } else if ("startChaResService".equals(identify)) {

                            Map inputParams = (Map) ((InputParams) result).getData();
                            // TODO 根据服务入参inputParams执行设备逻辑，比如启动充电
                            // 充电完成后，向云端返回输出参数
                            OutputParams outputParams = new OutputParams();
                            // key为"charm"属于物模型中"startChaResService"服务出参标识符，value为出参值遵循数据规范：int类型，数据范围1~100之间；
                            outputParams.put("charm", new ValueWrapper.IntValueWrapper(20));

                            itResResponseCallback.onComplete(identify, null, outputParams);

                        } else {
                            // 根据不同的服务做不同的处理，跟具体的服务有关系
                            OutputParams outputParams = new OutputParams();
                            // 根据特定服务，按照服务规范返回服务的出参。
                            itResResponseCallback.onComplete(identify, null, outputParams);
                        }
                    } catch (Exception e) {
                        e.printStackTrace();
                        ALog.d(TAG, "云端返回数据格式异常");
                    }
                }
                public void onSuccess(Object o, OutputParams outputParams) {
                    ALog.d(TAG, "onSuccess() called with: o = [" + o + "], outputParams = [" + outputParams + "]");
                    ALog.d(TAG, "注册服务成功");
                }
                public void onFail(Object o, ErrorInfo errorInfo) {
                    ALog.d(TAG, "onFail() called with: o = [" + o + "], errorInfo = [" + errorInfo + "]");
                    ALog.d(TAG, "注册服务失败");
                }
            });
        }
    }
}
说明：
• 上报属性成功，云端会返回REPLY，有以下日志说明设备到云，云到设备的链路全部走通。

• 设备收到属性设置指令，在完成物理设备属性修改后，建议将最新属性同步上报云端。
2.2 不使用SDK开发
1.协议准备。
“2.1 使用设备SDK开发”介绍了使用阿里云提供的SDK进行设备开发，当然您也可以选择不使用SDK，完全基于Alink协议（设备和云交互协议）开发。
Alink协议文档：https://help.aliyun.com/document_detail/90459.html
重点关注物模型协议部分：https://help.aliyun.com/document_detail/89301.html 。里面包含了物模型相关所有Topic介绍（物模型Topic列表在控制台也可以查看，如下图）。


文档详细介绍了设备端如何向云端上报“属性”、“事件”，如何订阅云端向下发送的“服务”指令。
Topic和Payload都基于客户定义的物模型进行标准化和规范化，从而使得客户设备与云交互方式不会随着设备类型变化而改变，满足扩展性要求。

2.环境准备。
根据自己选型选择合适的MQTT客户端，本文选择eclipse paho。

    org.eclipse.paho
    org.eclipse.paho.client.mqttv3
    1.1.1//可以选择您需要的版本

3.开发。
物模型复用“2.1 使用设备SDK开发”中“开发前准备”给出的。
关于免订阅能力介绍：
有些设备最资源比较敏感，为了避免初始化订阅大量Alink协议中系统Topic带来的性能开销，平台提供了免订阅能力，即平台帮设备进行Topic订阅。
SDK只有3.1.0及以后版本支持免订阅能力，并且默认打开该能力。
如果不使用SDK开发，可以通过设备端在MQTT的连接报文中的clientId部分, 新增_ss=1表示开启自动订阅, 建连成功后服务端会自动订阅上以下表格中的topic, 若传递 _ss=0 或者不传递该字段, 则不会发生服务端自动订阅动作。
4.上报属性。
String productKey = "a1nhbEV****";
String deviceName = "7mBP6Dd6IT2*****";
String deviceSecret = "****";

// MQTT连接
MqttTestClient client;
client = new MqttTestClient(productKey, deviceName, deviceSecret);

client.connect();

String setTopic = "/thing/event/property/post";
String setTopicReply = "/thing/event/property/post_reply";

// 上报属性，云端会返回REPLY，进行订阅。（为了节省端侧订阅开销，可以开通免订阅）
// 此处client进行了封装，您根据自己的业务进行封装即可，也可以直接使用MQTT Client subscribe
client.sysTopic(setTopicReply).subscribe();

// 封装Alink协议系统参数
Map payload = new HashMap();
Map params = new HashMap();
payload.put("id", 11);//id需要保证设备端一段时间内唯一
payload.put("params", params);
payload.put("method", "thing.event.property.post");

// 组装属性payload
String propKey = "acOutMeterIty";
int statusValue = 30;
Map proValue = new HashMap<>();
proValue.put("value", statusValue);
proValue.put("time", System.currentTimeMillis());
params.put(propKey, proValue);

// 上报（client进行了封装，您根据自己的业务进行封装即可，也可以直接使用MQTT Client publish消息）
client.sysTopic(setTopic).publish(JSON.toJSONString(payload));

// 打印云端返回的Reply（client进行了封装，您根据自己的业务进行封装即可，也可以直接使用MQTT Client监听订阅消息）
client.sysTopic(setTopicReply).readTopic(10000);

client.disconnect();
日志打印的设备请求和响应。

5.上报事件。

String productKey = "a1nhbEV****";
String deviceName = "7mBP6Dd6IT27*****";
String deviceSecret = "***";

// MQTT连接
MqttTestClient client;
client = new MqttTestClient(productKey, deviceName, deviceSecret);

client.connect();

// topic中为"startChaResEvt"属于物模型事件标识符。
String setTopic = "/thing/event/startChaResEvt/post";
String setTopicReply = "/thing/event/startChaResEvt/post_reply";

// 报事件，云端会返回REPLY，进行订阅。（为了节省端侧订阅开销，可以开通免订阅）
client.sysTopic(setTopicReply).subscribe();

// 封装Alink协议系统参数
Map payload = new HashMap();
Map params = new HashMap();
payload.put("id", 11);//id需要保证设备端一段时间内唯一
payload.put("params", params);
payload.put("method", "thing.event.startChaResEvt.post");

// 组装属性payload
Map dataValue = new HashMap<>();
// key为物模型中事件参数的标识符"gunNum", value为事件参数值需要遵循数值规范：int类型，取值范围0~100之间；
dataValue.put("gunNum", 59);

params.put("value", dataValue);
params.put("time", System.currentTimeMillis());

// 上报（client进行了封装，您根据自己的业务进行封装即可，也可以直接使用MQTT Client publish消息）
client.sysTopic(setTopic).publish(JSON.toJSONString(payload));

// 打印云端返回的Reply（client进行了封装，您根据自己的业务进行封装即可，也可以直接使用MQTT Client监听订阅消息）
client.sysTopic(setTopicReply).readTopic(10000);

client.disconnect();
6.服务调用。
此处为一段伪代码。可以在MQTT建连的时候通过callback监听云端下发的控制指令或消息。
前提：已经对下行的TOPIC进行订阅过，免订阅能力参考上面介绍。
mqttClient = new MqttClient(url, clientId, persistence);
final MqttConnectOptions connOpts = new MqttConnectOptions();
connOpts.setMqttVersion(4);
connOpts.setAutomaticReconnect(true);
connOpts.setCleanSession(false);
connOpts.setUserName(mqttUsername);
connOpts.setPassword(mqttPassword.toCharArray());
connOpts.setKeepAliveInterval(65);
LogUtil.log(clientId + "进行连接, 目的地: " + url);

// 此处订阅云端下发的消息
mqttClient.setCallback(new MqttCallback() {
    @Override
    public void connectionLost(Throwable cause) {
        LogUtil.log("connection lost, cause:" + cause);
        cause.printStackTrace();
    }

    @Override
    public void messageArrived(String topic, MqttMessage message) throws Exception {
        TopicChannel topicChannel = getTopic(topic);
        LogUtil.log("receive message, channel:" + topicChannel
                    + ",topic:" + topic
                    + ", payload:" + new String(message.getPayload(), "UTF-8") + "");
        topicChannel.put(message);
    }

    @Override
    public void deliveryComplete(IMqttDeliveryToken token) {
        //如果是qos 0消息 token.resp是没有回复的
        LogUtil.log("sent, " + ((token == null || token.getResponse() == null) ? "null"
                                : token.getResponse().getKey()));
    }
});

mqttClient.connect(connOpts);
重点说明：
• 所有被订阅的下行Topic都会被监听到。物模型相关的主要包括：属性上报Reply、属性下行设置、服务下行控制。
• 设置设备属性（https://help.aliyun.com/document_detail/89301.html#title-wmh-y2e-18r），默认异步方式返回结果。
• 订阅的Topic为Alink协议标准Topic：“/sys/{productKey}/{deviceName}/thing/service/property/set”
• 服务控制（https://help.aliyun.com/document_detail/89301.html#title-3pt-nfy-jys），同异步方式取决于物模型中service配置的调用模式。
• 服务异步方式订阅的Topic为Alink协议标准Topic：“/sys/{productKey}/{deviceName}/thing/service/{tsl.service.identifier}”
• 服务同步方式订阅的Topic需要遵循RRPC Topic模式：详见文档https://help.aliyun.com/document_detail/90568.html
注意：仅设备侧需要感知RRPC特殊TOPIC，设备上云后，数据流转、开放API面向的还是Alink协议编程。
2.3 在线调试
设备开发后之后，如何快速模拟业务服务器给设备下发指令，调试设备能力？IoT平台提供了“在线调试”的功能，可以模拟设备或模拟应用端到端调试。


此处使用“在线调试”里面“调试真实设备”能力。通过控制台下发设备控制指令，分两类：1）属性设置；2）服务调用。
1.服务调用调试。


云端下发后，可以到设备端查看控制Log是否打印，以判断指令达到端侧。
从图中可见设备收到startChaResService服务，同时向云端返回了输出参数。
2.属性设置调试。

说明：
• “获取”：暂不支持到设备，只能从云端获取设备最新属性。
• “设置”：指令直接到设备端，设备修改本地属性之后，上报云端最新属性；到设备上的设置指令为"set"。
• “设置期望值”：如果设备在线，会直接下发设备，如果设备离线，指令在云端进行缓存，待上线后下发设备端，下发之后，设备修改本地属性之后，同样上报云端最新属性；到设备上的设置指令同样为"set"。如果您希望使用物模型期望值能力，可点击查看最佳实践。

云端下发后，可以到设备端查看控制Log是否打印，以判断指令达到端侧。
从图中可见设备收到set指令，返回了服务响应，同时向云端上报了最新属性。
说明：服务结果还可以通过“2.4 查看物模型数据”章节中获取。
2.4 查看物模型数据
DEMO运行之后，可以看到设备已经“在线”状态。
“运行状态”展示设备上报的属性值；
“事件管理”展示设备上报的事件；
“服务调用”展示云端下发设备的控制服务；

上报属性结构化展示。

上报事件，包括事件参数展示。

属性设置、服务调用两类服务的云端下发入参、设备响应出参都有展示，如上证明设备收到云端指令，并且正常返回响应。
2.5 查看日志服务
设备在运行过程，可能会出现一些异常，比如连接失败、认证失败、数据异常等等，为了便于排查，可以查看日志服务。举例设备上报数据可能会不符合物模型规范，比如事件参数"gunNum"对应值的数据范围为0~100之间，而真实上报了50000。日志服务会展示设备错误详情。


可以看到日志内容为“{"Reason":"tsl parse: int value is bigger than max 100 -> gunNum"}”，说明gunNum对应值超过物模型规范最大值100的限制。物模型规范详情到“物模型TSL”查看。

同时可以通过“日志转储”中“日志报表”进一步查看设备大盘，包括设备上下线次数、设备上线IP区域分布、设备消息量、设备消息量Top列表、物模型错误分布、云端API错误分布等多维度指标。
日志服务介绍文档请参见这里。
3 服务端开发
设备连接到阿里云IoT平台，设备数据会保存在IoT平台时序数据库。同时IoT平台提供两种方式供客户获取设备数据：方式1）通过服务端订阅或者规则引擎实时流转到客户服务器；2）通过开放API供客户调用获取。
3.1 服务端调用API开发（P0）
1.环境准备。
SDK下载文档：https://help.aliyun.com/document_detail/30581.html
API接口列表：https://help.aliyun.com/document_detail/69579.html
重点关注物模型使用相关API


2.以下示例为设置设备属性API，设备异步返回结果，客户需要通过“数据流转”方式获取。
String accessKey = "***";
String accessSecret = "***";
try {
    DefaultProfile.addEndpoint("cn-shanghai", "cn-shanghai", "Iot", "iot.cn-shanghai.aliyuncs.com");
} catch (Exception e) {
    System.out.println("DefaultProfile exception");
}

IClientProfile profile = DefaultProfile.getProfile("cn-shanghai", accessKey, accessSecret);
DefaultAcsClient defaultAcsClient = new DefaultAcsClient(profile);

SetDevicePropertyRequest setDevicePropertyRequest = new SetDevicePropertyRequest();
// 如果使用实例，此处传入真实实例id；如果公共实例，不需要设置。
//createProductRequest.setIotInstanceId("iothub-test-xxx");
setDevicePropertyRequest.setProductKey(pk);
setDevicePropertyRequest.setDeviceName(dn);

Map properties = new HashMap<>();
// key为物模型中属性标识符"acOutMeterIty"，value需要遵循属性值规范：int类型，取值范围在0~200之间；
properties.put("acOutMeterIty", 98);
setDevicePropertyRequest.setItems(JSON.toJSONString(properties));

SetDevicePropertyResponse response = null;
try {
    response = defaultAcsClient.getAcsResponse(setDevicePropertyRequest);
} catch (Exception e) {
    Log.error("执行失败：e:" + e.getMessage());
}

System.out.println("===============");
System.out.println("setDeviceProperty request : " + JSON.toJSONString(setDevicePropertyRequest));
System.out.println("setDeviceProperty response : " + JSON.toJSONString(response.getData()));
System.out.println("setDeviceProperty requestId : " + response.getRequestId());
System.out.println("===============");
重点说明：

下行控制如果为异步服务，需要通过订阅数据流转获取设备返回结果，订阅方式和数据结构详见“3.2 数据流转”章节介绍。
关联介绍：“3.2.1 服务端订阅”中“重点说明”。
3.2 数据流转
平台提供两种数据流转方式：方式1）服务端订阅；方式2）规则引擎；
3.2.1服务端订阅（P0）
服务端订阅配置

“推送消息类型”选择“设备上报消息”，包括物模型属性上报、事件上报、设备下行指令结果（包括属性设置响应、服务控制响应）等消息。
消息格式详见文档：https://help.aliyun.com/document_detail/73736.html


服务端订阅DEMO
接入说明：https://help.aliyun.com/document_detail/143601.html
/**
 * AMQP服务端订阅
*/
//参数说明，请参见AMQP客户端接入说明文档。
String accessKey = "***";
String accessSecret = "***";
String consumerGroupId = "***";
//iotInstanceId：购买的实例请填写实例ID，公共实例请填空字符串""。
String iotInstanceId = "";
long timeStamp = System.currentTimeMillis();
//签名方法：支持hmacmd5、hmacsha1和hmacsha256。
String signMethod = "hmacsha1";
//控制台服务端订阅中消费组状态页客户端ID一栏将显示clientId参数。
//建议使用机器UUID、MAC地址、IP等唯一标识等作为clientId。便于您区分识别不同的客户端。
String clientId = "TESTClientID";

//userName组装方法，请参见AMQP客户端接入说明文档。
String userName = clientId + "|authMode=aksign"
    + ",signMethod=" + signMethod
            + ",timestamp=" + timeStamp
            + ",authId=" + accessKey
            + ",iotInstanceId=" + iotInstanceId
            + ",consumerGroupId=" + consumerGroupId
            + "|";
//计算签名，password组装方法，请参见AMQP客户端接入说明文档。
String signContent = "authId=" + accessKey + "×tamp=" + timeStamp;
String password = doSign(signContent,accessSecret, signMethod);
//接入域名，请参见AMQP客户端接入说明文档。
String connectionUrl = "amqps://${uid}.iot-amqp.${regionId}.aliyuncs.com:5671?amqp.idleTimeout=80000";

Hashtable hashtable = new Hashtable<>();
hashtable.put("connectionfactory.SBCF",connectionUrl);
hashtable.put("queue.QUEUE", "default");
hashtable.put(Context.INITIAL_CONTEXT_FACTORY, "org.apache.qpid.jms.jndi.JmsInitialContextFactory");
Context context = new InitialContext(hashtable);
ConnectionFactory cf = (ConnectionFactory)context.lookup("SBCF");
Destination queue = (Destination)context.lookup("QUEUE");
// Create Connection
Connection connection = cf.createConnection(userName, password);
((JmsConnection) connection).addConnectionListener(myJmsConnectionListener);
// Create Session
// Session.CLIENT_ACKNOWLEDGE: 收到消息后，需要手动调用message.acknowledge()。
// Session.AUTO_ACKNOWLEDGE: SDK自动ACK（推荐）。
Session session = connection.createSession(false, Session.AUTO_ACKNOWLEDGE);
connection.start();
// Create Receiver Link
MessageConsumer consumer = session.createConsumer(queue);
consumer.setMessageListener(messageListener);
}

private static MessageListener messageListener = new MessageListener() {
    @Override
    public void onMessage(Message message) {
        try {
            //1.收到消息之后一定要ACK。
            // 推荐做法：创建Session选择Session.AUTO_ACKNOWLEDGE，这里会自动ACK。
            // 其他做法：创建Session选择Session.CLIENT_ACKNOWLEDGE，这里一定要调message.acknowledge()来ACK。
            // message.acknowledge();
            //2.建议异步处理收到的消息，确保onMessage函数里没有耗时逻辑。
            // 如果业务处理耗时过程过长阻塞住线程，可能会影响SDK收到消息后的正常回调。
            executorService.submit(() -> processMessage(message));
        } catch (Exception e) {
            logger.error("submit task occurs exception ", e);
        }
    }
};

/**
 * 在这里处理您收到消息后的具体业务逻辑。
*/
private static void processMessage(Message message) {
    try {
        byte[] body = message.getBody(byte[].class);
        String content = new String(body);
        String topic = message.getStringProperty("topic");
        String messageId = message.getStringProperty("messageId");
        System.out.println("AMQP receive message"
                           + ", topic = " + topic
                           + ", messageId = " + messageId
                           + ", content = " + content);
    } catch (Exception e) {
        logger.error("processMessage occurs error ", e);
    }
}

private static JmsConnectionListener myJmsConnectionListener = new JmsConnectionListener() {
    /**
     * 连接成功建立。
     */
    @Override
    public void onConnectionEstablished(URI remoteURI) {
        logger.info("onConnectionEstablished, remoteUri:{}", remoteURI);
    }

    /**
     * 尝试过最大重试次数之后，最终连接失败。
     */
    @Override
    public void onConnectionFailure(Throwable error) {
        logger.error("onConnectionFailure, {}", error.getMessage());
    }

    /**
      * 连接中断。
      */
    @Override
    public void onConnectionInterrupted(URI remoteURI) {
        logger.info("onConnectionInterrupted, remoteUri:{}", remoteURI);
    }

    /**
     * 连接中断后又自动重连上。
     */
    @Override
    public void onConnectionRestored(URI remoteURI) {
        logger.info("onConnectionRestored, remoteUri:{}", remoteURI);
    }

    @Override
    public void onInboundMessage(JmsInboundMessageDispatch envelope) {}

    @Override
    public void onSessionClosed(Session session, Throwable cause) {}

    @Override
    public void onConsumerClosed(MessageConsumer consumer, Throwable cause) {}

    @Override
    public void onProducerClosed(MessageProducer producer, Throwable cause) {}
};

/**
 * 计算签名，password组装方法，请参见AMQP客户端接入说明文档。
 */
private static String doSign(String toSignString, String secret, String signMethod) throws Exception {
    SecretKeySpec signingKey = new SecretKeySpec(secret.getBytes(), signMethod);
    Mac mac = Mac.getInstance(signMethod);
    mac.init(signingKey);
    byte[] rawHmac = mac.doFinal(toSignString.getBytes());
    return Base64.encodeBase64String(rawHmac);
}
日志打印出订阅到的流转消息如下，符合预期。

重点说明：
下行控制如果为异步服务，需要通过订阅数据流转获取设备返回结果。订阅Topic为"/sys/{productKey}/{deviceName}/thing/downlink/reply/message"，需要根据"requestId"关联请求和响应。
关联介绍：“3.1 服务端调用API开发”中“重点说明”。

3.2.2 规则引擎数据订阅。
配置SQL
SQL介绍文档这里。

调试SQL
Payload数据格式文档这里。

可以查看“调试结果”。


符合配置的SQL结果。
转发数据
可以转发到客户以下多种云产品中，本文选择AMQP作为示例验证。


创建完成后，需要到规则列表页“启动”改规则。
订阅数据
服务端订阅代码可以复用上面“3.1”服务端订阅代码。差别就是服务端订阅，订阅的是Topic对应的完整Payload；而规则引擎流转AMQP，在消息流转过程可以对Payload做一些规则过滤或简单计算。
以下日志精简报文是通过规则引擎过滤后获取的数据。

说明：同一组数据不要同时开通规则引擎和服务端订阅两种订阅模式，避免消息干扰。
4 设备运行时
设备量产之后，到达消费者手上，会开始激活上线进入到设备运行时。由于不属于开发态流程，本章节仅做简单介绍，目的是能让开发者知道开发态的配置在运行态如何产生作用，对设备接上阿里云IoT平台后的流程有个简单的认识。

本文通过物模型接入流程，介绍了平台设备连接、物模型规范校验、物模型数据、规则引擎、服务端订阅、开放API六大基础能力。
设备全生命周期过程中，还有不少设备管理能力供客户选择，其中包括设备标签、设备分组、设备检索、OTA、设备运维、设备分发、文件上传、远程配置等，欢迎使用。
4.1 连接
设备连接过程，云端会对设备进行身份认证。
4.2 物模型规范校验
由于目前物模型配置仅提供强校验模式，物模型规范校验主要对设备上报的报文进行Alink协议解析、物模型数据规范校验。平台后续会陆续开放弱校验、免校验、数据去重能力。
关联阅读：1.3 物模型配置
4.3 设备管理能力
4.3.1 设备标签
介绍文档：https://help.aliyun.com/document_detail/73733.html
4.3.2 设备分组
介绍文档：https://help.aliyun.com/document_detail/90386.html
4.3.3 OTA
介绍文档：https://help.aliyun.com/document_detail/85700.html
4.3.4 设备分发
介绍文档：https://help.aliyun.com/document_detail/143450.html



macOS 神器 Workflow ，让效率翻倍！-阿里云开发者社区
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

背景
一起回顾一个大家非常熟悉场景。
上周开发一个需求，开发过程中，我需要登录到服务器上看一下服务运行的日志，确认运行状态或者看一些debug的信息。所以我登录到跳板机，此时我发现我忘了某一台机器的具体名字（通常能记得的人都是天才），所以需要用跳板机提供的 autoget 命令来通过服务器组名来获得机器的列表。
此时我发现我连服务器组名都忘了，所以需要上 eagle eye 上查寻一下组名。这个查询可能得依靠我的记忆打出组名的前缀，通过 eagle eye 给出的补全提示列表来识别出其中那个我需要的组名。
终于我得到了我的组名，为了避免我下次再忘记而不得不再繁琐的查询一遍，我选择把这些结果记录到我的记事本中，方便我下次查找使用。终于我登录了机器，可是不巧我忘了日志记录的位置，我想起某个同事曾经告诉过我日志的路径，于是我查找了与那个同事的聊天记录，找到了这个日志路径。同样为了防止忘记，我又把它记录到了我的记事本中方便下次查找。然后我把日志路径复制粘贴到命令行，我终于可以开始工作了。
昨天我又开发了一个需求，我还需要登录到服务器上看一下服务运行的日志，确认运行状态或者看一些 debug 的信息。所以我登录到跳板机，需要用跳板机提供的 autoget 命令来通过服务器组名来获得机器的列表，我想起了我在记事本中记录了这个内容，于是我打开记事本，搜索了 keyword，在简单的翻找下，我找到了我想要的命令。
进入到机器后，我发现日志的路径我还是没有记住。于是，我再次打开记事本，搜索了另一个 keyword ，再次翻找了一下，找到路径后把它复制粘贴到命令行，我一边粘贴一边想，我要是像在本机的终端环境中，把这些命令写成 bashrc 中的 alias 就好了。我又可以开始工作了。
于是，我的记事本中的内容一般都是这样：

从上述两次流程的对比中，我们发现记事本已经给我们的工作带来很大的提效了。但是在昨天流程最后我的思考中，我们不难发现，这个提效，还有提升的空间。我认为任何用过 shell 的 alias 的同学都会认同我的观点：如果上述流程能用alias来记录这些冗长的命令，我们就不用麻烦记事本了不是吗？
可是跳板机是公共资源，有严格的使用规范。具体服务器又是容器化部署，每次部署都会是一个新的容器，所以在当前的bashrc上写下什么并没有用。或许我们能寻找一个新的途径来实现这个需求。
问题
让我们从背景中总结我们正在面临的是哪些问题：
1、工作中存在非常多冗长难记的信息，需要我们在各个场景反复输入。
2、这些冗长的信息来源分散，查找起来非常麻烦耗时。
每次需要输入时等要通过额外的操作，频繁切换聚焦的窗口来获取这些信息。
3、这些问题虽然各自都占用了我们为数不多的时间和精力，但因为场景小而频繁，当乘以次数后，这些消耗也变得非常可观，并且非常影响我们的工作体验。
思考
让我们思考一下当我们想要使用 alias 的时候我们实际想要的是什么？我以个人的经验来总结，大概是以下几点：
1、用一个很短的短词来替代一个需要高频输入的很长的句子。
2、用一个更好记的词替代一个难记易忘的句。
3、配置的成本可控，使用的成本很低。
我们品一品1、2两点，其本质就是一个字典，由短语为key，长句为value。这个是我们程序员的好朋友了，我们可以简单的通过一个文件就能实现这份配置。事实上，我们使用记事本记录，其实本质也是在使用字典的特性。而第三点，让我瞬间想到使用 Alfred 的 Workflow 这个Mac上的神器。关于 Alfred 此处不做介绍，不知道或者想要了解的同学可以移步官网。
设计
其实针对我们已经给出的需求，我们非常容易就可以得出一个设计思路。我们可以固定一个文件路径保存一个文件，这个文件以一种简单的格式或方式保存一个字典。编写一个 alfred 的 workflow 来解析这个文件形成一个 Map ，并通过搜索和匹配 key 来快速的获取 value ，而获取 value 最有效的方式就是把 value 输出到系统的剪切板中。
考虑到 Mac 和 Alfred 的使用用户并不全是工程师，我们选择记录字典的格式最好越简单越好。所以我计划以普通的文本格式，每一行为一个键值对，第一个空格前的短词为 key ，第一个空格后的内容为 value 。直接让用户新建指定路径的文件并通过编辑文件的方式来管理的形式确实可以被一部分用户所接受，但是为了能面对更多用户，我认为以 workflow 的方式在增删字典的内容也同时是需要支持的。这样不想关心具体实现、不愿接触文本文件的用户同样可以无感使用。
最后我给这个 workflow 取名为 EasyAlias。
实现
来看一下 workflow 的排版：

通过三个关键字的Alfred命令，分别实现设置alias(sal, set alias)，删除alias(dal, delete alias)，查找(gal, get alias)。
其中sal和dal使用简单的keyword输入，而gal为了使用Alfred通过的展示候选列表和搜索匹配的能力，而使用了Script Filter作为输入。三者都通过shell调用了一个实现主要功能的python脚本easy_alias.py，通过传入不同的action参数来区分行为。
sal：
python easy_alias.py set {query}
dal:
python easy_alias.py del {query}
gal:
python easy_alias.py show {query}
cat filter.output
easy_alias.py
# coding=utf8
import sys
import json
from os import listdir, makedirs
from os.path import isfile, join, exists, expanduser

base_path = expanduser("~/.easy_alias")
file_name = "alias_conf"
file_path = join(base_path, file_name)

alias_map = dict()

def init():
    if not exists(base_path):
        makedirs(base_path)
    if not exists(file_path):
        open(file_path, 'w').close()

def get_key_and_value(text):
    seqs = text.strip().split(' ')
    if len(seqs) < 2:
        return None, None
    key = seqs[0];
    value = reduce(lambda x, y: x.strip() + ' ' + y.strip(), seqs[1:])
    return key, value

def get_alias_map():
    with open(file_path, 'r') as f:
        for line in f.readlines():
            k, v = get_key_and_value(line)
            if k == None or v == None:
                continue
            alias_map[k] = v

def set_alias():
    if len(sys.argv) < 3:
        return 
    text = sys.argv[2].strip()
    k, v = get_key_and_value(text)
    if k == None or v == None:
        return
    alias_map[k] = v

def del_alias():
    if len(sys.argv) < 3:
        return 
    key = sys.argv[2].strip()
    new_content = ""
    if key in alias_map:
        alias_map.pop(key)

def show_alias():
    items = list()
    for k, v in alias_map.iteritems():
        d = {
            "uid": k,
            "type": "default",
            "title": k,
            "subtitle": v,
            "arg": v,
            "autocomplete": k,
            "icon": {
                "type": "fileticon",
                "path": "icon.png"
            }
        }
        items.append(d)
    show = {"items": items}
    with open('filter.output', 'w') as f:
        f.write(json.dumps(show))

def write_map_to_file():
    file_content = ''
    for k, v in alias_map.iteritems():
        file_content += k + ' ' + v + 'n'
    with open(file_path, 'w') as f:
        f.write(file_content)

if __name__ == '__main__':
    init()
    get_alias_map()
    action = sys.argv[1]

    with open(join(base_path, 'logs'), 'a') as f:
        f.write(str(sys.argv) + 'n')

    if (action == 'set'):
        set_alias()
    if (action == 'del'):
        del_alias()
    if (action == 'show'):
        show_alias()

    write_map_to_file()
效果
设置一个alias

查找一个alias

删除一个alias

如果觉得通过sal设置和dal删除的方式太麻烦，也可以直接编辑~/.easy_alias/alias_conf

保存文件再查询

作业
这个 workflow 本身很简单很好实现。本文也希望不仅仅只是一个简单分享，希望能与读者有所互动，所以打算留个回家作业。
可以发现现在 dal 命令现在需要使用者盲打key，而不是像gal这样可以搜索补全。这会给使用者带来一定烦恼。回家作业就是将 dal 命令也改造成像 gal 一样可以搜索补全的形式。
作业下载
EasyAliasPro
总结
让我们回过头看一下我们再开始时面对的问题是否得到了很好的解决。
我们无法改变工作中频繁需要冗长信息的状况，但是我们通过访问剪切板的方式让输入变得简单。
我们用一个文件将这些信息集中在一起，并且通过工具打打提升了我们检索这些信息的效率。
Alfred提供给我们一个在检索并获取这些信息上无需切换窗口，并且操作非常简单的方式。
很高兴，我们很大程度上解决了我们先前提出的这些问题！
最后
今天我又开发了一个需求，我还需要登录到服务器上看一下服务运行的日志，确认运行状态或者看一些debug的信息。所以我登录到跳板机，唤醒了Alfred，输入gal ahostp，并将结果粘贴在命令行获得了机器列表。登上机器后，我再次唤醒Alfred，输入gal alog，并粘贴在命令行中。现在我可以开始工作了。
关注「淘系技术」微信公众号，一个有温度有内容的技术社区~




测试面试题集锦（三）| 计算机网络和数据库篇（附答案）-阿里云开发者社区
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
软件测试工程师面试题系列篇 | 目录

测试常见问题与流程篇
测试工具篇
计算机网络知识与数据库篇
Linux 篇
Python 编程篇
自动化测试篇：包含 Selenium、Appium 和接口测试
性能测试篇
软素质篇：10 大灵魂拷问
反问面试官篇
计算机网络篇（基础知识）

1.擅长哪些开发语言？

学习过 Java，C 等
半精通 Python

2.输入 URL 到网页显示出来的全过程

输入网址
DNS解析
建立tcp连接
客户端发送HTTP请求
服务器处理请求
服务器响应请求
浏览器展示HTML
浏览器发送请求获取其他在HTML中的资源。

3.HTTP 和 HTTPS 的区别

HTTPS 里面是要有证书的，HTTP 并没有证书。证书的作用是证明你是这个网站的拥有者。谁去证明？最顶级的 CA 去帮你证明，这些顶级的 CA 都是浏览器、操作系统本身就自动帮你集成，而且自动添加到设置信任里面去；
HTTPS 要兼顾安全+性能的方面，由于对称式加密虽然速度很快，但是安全性特别的低，因为双方要规定对称式加密的秘钥，别人都无法知道，但你怎么能确保别人不知道你的秘钥呢，因此需要有非对称式加密去保证安全，但非对称式加密速度又很慢，如果客户端和服务器端都用非对称式加密，网络得卡死了。所以当双方建立好了非对称加密后，再约定一个随机数，等大家都非对称解密了之后呢，就拿到只有对方知道的唯一随机数（秘钥），就可以用秘钥来进行对称式加密和解密了；

4.HTTP 的报文结构

HTTP请求报文：一个HTTP请求报文由请求行、请求头部、空行和请求数据4个部分组成
HTTP响应报文：HTTP响应也由三个部分组成，分别是：状态行、消息报头、响应正文

5.HTTP 常见的响应状态码

200 请求已成功，请求所希望的响应头或数据体将随此响应返回。
201 请求已经被实现，而且有一个新的资源已经依据请求的需要而建立，且其 - - URI 已经随 Location 头信息返回
202 服务器已接受请求，但尚未处理
301 （永久移动） 请求的网页已永久移动到新位置。服务器返回此响应（对 GET 或 HEAD 请求的响应）时，会自动将请求者转到新位置。
302 （临时移动） 服务器目前从不同位置的网页响应请求，但请求者应继续使用原有位置来进行以后的请求。
303 （查看其他位置） 请求者应当对不同的位置使用单独的 GET 请求来检索响应时，服务器返回此代码。
304 （未修改） 自从上次请求后，请求的网页未修改过。服务器返回此响应时，不会返回网页内容。
305 （使用代理） 请求者只能使用代理访问请求的网页。如果服务器返回此响应，还表示请求者应使用代理。
307 （临时重定向） 服务器目前从不同位置的网页响应请求，但请求者应继续使用原有位置来进行以后的请求。
401 当前请求需要用户验证。如果当前请求已经包含了 Authorization 证书，那么
401 响应代表着服务器验证已经拒绝了那些证书
403 服务器已经理解请求，但是拒绝执行它。与 401 响应不同的是，身份验证并不能提供任何帮助，而且这个请求也不应该被重复提交
404 请求失败，请求所希望得到的资源未被在服务器上发现
500 服务器遇到了一个未曾预料的状况，导致了它无法完成对请求的处理。一般来说，这个问题都会在服务器的程序码出错时出现。
501 服务器不支持当前请求所需要的某个功能。当服务器无法识别请求的方法，并且无法支持其对任何资源的请求。
502 作为网关或者代理工作的服务器尝试执行请求时，从上游服务器接收到无效的响应。
503 由于临时的服务器维护或者过载，服务器当前无法处理请求。这个状况是临时的，并且将在一段时间以后恢复。

6.cookie 和 session 机制的区别

cookies 数据保存在客户端，session 数据保存在服务器端；
cookies 可以减轻服务器压力，但是不安全，容易进行 cookies 欺骗；
session 较安全，但占用服务器资源

7.TCP 和 UDP 的区别

TCP：面向连接，可靠的，速度慢，效率低
UDP：无连接、不可靠、速度快、效率高

8.TCP 为什么是三次握手和四次挥手

三次握手能保证数据可靠传输又能提高传输效率。若握手是两次：如果只是两次握手， 至多只有连接发起方的起始序列号能被确认，另一方选择的序列号则得不到确认；
要保证双方都关闭了连接。因为 TCP 是全双工的，就是要等到两边都发送 fin 包确认双方都没有数据传输后才关闭；

9.TCP为什么最后挥手后会有time_wait

为了保证可靠的断开TCP的双向连接，确保足够的时间让对方收到 ACK 包。若客户端回复的 ACK 丢失，server 会在超时时间到来时，重传最后一个 fin 包，处于 TIME_WAIT 状态的 client 可以继续回复 Fin 包，发送 ACK。
保证让迟来的 TCP 报文段有足够的时间被识别和丢弃，避免新旧连接混淆。有些路由器会缓存没有收到的数据包，如果新的连接开启，这些数据包可能就会和新的连接中的数据包混在一起。连接结束了，网络中的延迟报文也应该被丢弃掉，以免影响立刻建立的新连接。

10.简要说明 HTTP 请求中的 Post 和 Get 有哪些区别的地方

请求头多了 content-length 和 content-type 字段
Post 可以附加 body，可以支持 form、json、xml、binary 等各种数据格式
行业通用规范
无状态变化的建议使用 Get
数据的写入与状态的修改建议使用 Post
基于 HTTP 协议：都是请求返回数据，Get 将请求体放在头上，只发一次请求，Post 将请求体放在内部，需要发送两次请求
GET 在浏览器回退时是无害的，而 POST 会再次提交请求。
GET 请求会被浏览器主动 cache，而 POST 不会，除非手动设置。
GET 请求只能进行 URL 编码，而 POST 支持多种编码方式。
GET 请求在 URL 中传送的参数是有长度限制的，而 POST 么有。
对参数的数据类型，GET 只接受 ASCII 字符，而 POST 没有限制。
GET 比 POST 更不安全，因为参数直接暴露在 URL 上，所以不能用来传递敏感信息。

11.如果一个请求，返回的状态码是 200，但是没有内容，可能发生了什么？

请求头缺失或错误
参数 length 不符
以上为个人理解，有误请指正。

数据库篇
1. 工作中常使用的 SQL 语法有哪些？
create table、create view、 select from where、insert into、update set values、delete、alter、order by、having
2.数据库存储过程
一组数据库操作命令，当作是自己写的一个方法，一系列步骤自己去封装（个人理解）
3.SQL 常见查询语句编写（此处仅举例常见的查询语句，如有更多坑，希望补充）
a.查询所有学生的数学成绩，显示学生姓名 name, 分数， 由高到低。
SELECT a.name, b.score FROM student a, grade b WHERE a.id = b.id AND kemu = '数学' ORDER BY score DESC；
b.统计每个学生的总成绩（由于学生可能有重复名字）,显示字段：学生 id，姓名，总成绩。
SELECT a.id, a.name, c.sum_score from student a, (SELECT b.id, sum(b.score) as sum_score FROM grade b GROUP BY id) c WHERE a.id = c.id ORDER BY sum_score DESC；
c.列出各门课程成绩最好的学生， 要求显示字段: 学号，姓名,科目，成绩
SELECT c.id , a.name, c.kemu, c.score FROM grade c, student a,(SELECT b.kemu, MAX(b.score) as max_score FROM grade b GROUP BY kemu) t WHERE c.kemu = t.kemu AND c.score = t.max_score AND a.id = c.id
4.慢查询是什么意思？
开启慢查询日志，可以让 MySQL 记录下查询超过指定时间的语句，通过定位分析性能的瓶颈，才能更好的优化数据库系统的性能。
5.导致数据库性能差的可能原因有哪些？

硬件环境问题，如磁盘IO
查询语句问题，如join、子查询、没建索引
索引失效，建了索引，查询的时候没用上
查询关联了太多的join
服务器关联缓存，线程数等
表中存在冗余字段，在生成笛卡尔积时耗费多余的时间

6.Redis 缓存应用场景

需要将数据缓存在内存中，提升查询效率
这里希望大家补充

7.怎么定位 Redis 缓存失效问题（缓存坏了）

Redis 的知识，了解的不是很多
抛砖引玉，请大家指正和补充。

更多内容，我们在后续文章分享。
免费领取：接口测试+性能测试+自动化测试+测试开发+测试用例+简历模板+测试文档



详细讲解！RabbitMQ防止数据丢失-阿里云开发者社区
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
思维导图

一、分析数据丢失的原因
分析RabbitMQ消息丢失的情况，不妨先看看一条消息从生产者发送到消费者消费的过程：

可以看出，一条消息整个过程要经历两次的网络传输：从生产者发送到RabbitMQ服务器，从RabbitMQ服务器发送到消费者。
在消费者未消费前存储在队列(Queue)中。
所以可以知道，有三个场景下是会发生消息丢失的：

存储在队列中，如果队列没有对消息持久化，RabbitMQ服务器宕机重启会丢失数据。
生产者发送消息到RabbitMQ服务器过程中，RabbitMQ服务器如果宕机停止服务，消息会丢失。
消费者从RabbitMQ服务器获取队列中存储的数据消费，但是消费者程序出错或者宕机而没有正确消费，导致数据丢失。

针对以上三种场景，RabbitMQ提供了三种解决的方式，分别是消息持久化，confirm机制，ACK事务机制。

二、消息持久化
RabbitMQ是支持消息持久化的，消息持久化需要设置：Exchange为持久化和Queue持久化，这样当消息发送到RabbitMQ服务器时，消息就会持久化。
首先看Exchange交换机的类图：

看这个类图其实是要说明上一篇文章介绍的四种交换机都是AbstractExchange抽象类的子类，所以根据java的特性，创建子类的实例会先调用父类的构造器，父类也就是AbstractExchange的构造器是怎么样的呢？

从上面的注释可以看到durable参数表示是否持久化。默认是持久化(true)。创建持久化的Exchange可以这样写：
    @Bean
    public DirectExchange rabbitmqDemoDirectExchange() {
        //Direct交换机
        return new DirectExchange(RabbitMQConfig.RABBITMQ_DEMO_DIRECT_EXCHANGE, true, false);
    }
接着是Queue队列，我们先看看Queue的构造器是怎么样的：

也是通过durable参数设置是否持久化，默认是true。所以创建时可以不指定：
    @Bean
    public Queue fanoutExchangeQueueA() {
        //只需要指定名称，默认是持久化的
        return new Queue(RabbitMQConfig.FANOUT_EXCHANGE_QUEUE_TOPIC_A);
    }
这就完成了消息持久化的设置，接下来启动项目，发送几条消息，我们可以看到：

怎么证明是已经持久化了呢，实际上可以找到对应的文件：

找到对应磁盘中的目录：

消息持久化可以防止消息在RabbitMQ Server中不会因为宕机重启而丢失。
三、消息确认机制
3.1 confirm机制
在生产者发送到RabbitMQ Server时有可能因为网络问题导致投递失败，从而丢失数据。我们可以使用confirm模式防止数据丢失。工作流程是怎么样的呢，看以下图解：

从上图中可以看到是通过两个回调函数confirm()、returnedMessage()进行通知。
一条消息从生产者发送到RabbitMQ，首先会发送到Exchange，对应回调函数confirm()。第二步从Exchange路由分配到Queue中，对应回调函数则是returnedMessage()。
代码怎么实现呢，请看演示：
首先在application.yml配置文件中加上如下配置：
spring:
  rabbitmq:
    publisher-confirms: true
#    publisher-returns: true
    template:
      mandatory: true
# publisher-confirms：设置为true时。当消息投递到Exchange后，会回调confirm()方法进行通知生产者
# publisher-returns：设置为true时。当消息匹配到Queue并且失败时，会通过回调returnedMessage()方法返回消息
# spring.rabbitmq.template.mandatory: 设置为true时。指定消息在没有被队列接收时会通过回调returnedMessage()方法退回。
有个小细节，publisher-returns和mandatory如果都设置的话，优先级是以mandatory优先。可以看源码：

接着我们需要定义回调方法：
@Component
public class RabbitmqConfirmCallback implements RabbitTemplate.ConfirmCallback, RabbitTemplate.ReturnCallback {
    private Logger logger = LoggerFactory.getLogger(RabbitmqConfirmCallback.class);

    /**
     * 监听消息是否到达Exchange
     *
     * @param correlationData 包含消息的唯一标识的对象
     * @param ack             true 标识 ack，false 标识 nack
     * @param cause           nack 投递失败的原因
     */
    @Override
    public void confirm(CorrelationData correlationData, boolean ack, String cause) {
        if (ack) {
            logger.info("消息投递成功~消息Id：{}", correlationData.getId());
        } else {
            logger.error("消息投递失败，Id：{}，错误提示：{}", correlationData.getId(), cause);
        }
    }

    @Override
    public void returnedMessage(Message message, int replyCode, String replyText, String exchange, String routingKey) {
        logger.info("消息没有路由到队列，获得返回的消息");
        Map map = byteToObject(message.getBody(), Map.class);
        logger.info("message body: {}", map == null ? "" : map.toString());
        logger.info("replyCode: {}", replyCode);
        logger.info("replyText: {}", replyText);
        logger.info("exchange: {}", exchange);
        logger.info("routingKey: {}", exchange);
        logger.info("------------> end <------------");
    }

    @SuppressWarnings("unchecked")
    private  T byteToObject(byte[] bytes, Class clazz) {
        T t;
        try (ByteArrayInputStream bis = new ByteArrayInputStream(bytes);
             ObjectInputStream ois = new ObjectInputStream(bis)) {
            t = (T) ois.readObject();
        } catch (Exception e) {
            e.printStackTrace();
            return null;
        }
        return t;
    }
}
我这里就简单地打印回调方法返回的消息，在实际项目中，可以把返回的消息存储到日志表中，使用定时任务进行进一步的处理。
我这里是使用RabbitTemplate进行发送，所以在Service层的RabbitTemplate需要设置一下：
@Service
public class RabbitMQServiceImpl implements RabbitMQService {
    @Resource
    private RabbitmqConfirmCallback rabbitmqConfirmCallback;

    @Resource
    private RabbitTemplate rabbitTemplate;

    @PostConstruct
    public void init() {
        //指定 ConfirmCallback
        rabbitTemplate.setConfirmCallback(rabbitmqConfirmCallback);
        //指定 ReturnCallback
        rabbitTemplate.setReturnCallback(rabbitmqConfirmCallback);
    }
    
    @Override
    public String sendMsg(String msg) throws Exception {
        Map message = getMessage(msg);
        try {
            CorrelationData correlationData = (CorrelationData) message.remove("correlationData");
            rabbitTemplate.convertAndSend(RabbitMQConfig.RABBITMQ_DEMO_DIRECT_EXCHANGE, RabbitMQConfig.RABBITMQ_DEMO_DIRECT_ROUTING, message, correlationData);
            return "ok";
        } catch (Exception e) {
            e.printStackTrace();
            return "error";
        }
    }
    
    private Map getMessage(String msg) {
        String msgId = UUID.randomUUID().toString().replace("-", "").substring(0, 32);
        CorrelationData correlationData = new CorrelationData(msgId);
        String sendTime = sdf.format(new Date());
        Map map = new HashMap<>();
        map.put("msgId", msgId);
        map.put("sendTime", sendTime);
        map.put("msg", msg);
        map.put("correlationData", correlationData);
        return map;
    }
}
大功告成！接下来我们进行测试，发送一条消息，我们可以控制台：

假设发送一条信息没有路由匹配到队列，可以看到如下信息：

这就是confirm模式。它的作用是为了保障生产者投递消息到RabbitMQ不会出现消息丢失。
3.2 事务机制(ACK)
最开始的那张图已经讲过，消费者从队列中获取到消息后，会直接确认签收，假设消费者宕机或者程序出现异常，数据没有正常消费，这种情况就会出现数据丢失。
所以关键在于把自动签收改成手动签收，正常消费则返回确认签收，如果出现异常，则返回拒绝签收重回队列。

代码怎么实现呢，请看演示：
首先在消费者的application.yml文件中设置事务提交为manual手动模式：
spring:
  rabbitmq:
    listener:
      simple:
        acknowledge-mode: manual # 手动ack模式
        concurrency: 1 # 最少消费者数量
        max-concurrency: 10 # 最大消费者数量
然后编写消费者的监听器：
@Component
public class RabbitDemoConsumer {

    enum Action {
        //处理成功
        SUCCESS,
        //可以重试的错误，消息重回队列
        RETRY,
        //无需重试的错误，拒绝消息，并从队列中删除
        REJECT
    }

    @RabbitHandler
    @RabbitListener(queuesToDeclare = @Queue(RabbitMQConfig.RABBITMQ_DEMO_TOPIC))
    public void process(String msg, Message message, Channel channel) {
        long tag = message.getMessageProperties().getDeliveryTag();
        Action action = Action.SUCCESS;
        try {
            System.out.println("消费者RabbitDemoConsumer从RabbitMQ服务端消费消息：" + msg);
            if ("bad".equals(msg)) {
                throw new IllegalArgumentException("测试：抛出可重回队列的异常");
            }
            if ("error".equals(msg)) {
                throw new Exception("测试：抛出无需重回队列的异常");
            }
        } catch (IllegalArgumentException e1) {
            e1.printStackTrace();
            //根据异常的类型判断，设置action是可重试的，还是无需重试的
            action = Action.RETRY;
        } catch (Exception e2) {
            //打印异常
            e2.printStackTrace();
            //根据异常的类型判断，设置action是可重试的，还是无需重试的
            action = Action.REJECT;
        } finally {
            try {
                if (action == Action.SUCCESS) {
                    //multiple 表示是否批量处理。true表示批量ack处理小于tag的所有消息。false则处理当前消息
                    channel.basicAck(tag, false);
                } else if (action == Action.RETRY) {
                    //Nack，拒绝策略，消息重回队列
                    channel.basicNack(tag, false, true);
                } else {
                    //Nack，拒绝策略，并且从队列中删除
                    channel.basicNack(tag, false, false);
                }
                channel.close();
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }
}
解释一下上面的代码，如果没有异常，则手动确认回复RabbitMQ服务端basicAck(消费成功)。
如果抛出某些可以重回队列的异常，我们就回复basicNack并且设置重回队列。
如果是抛出不可重回队列的异常，就回复basicNack并且设置从RabbitMQ的队列中删除。
接下来进行测试，发送一条普通的消息"hello"：

解释一下ack返回的三个方法的意思。
①成功确认
void basicAck(long deliveryTag, boolean multiple) throws IOException;
消费者成功处理后调用此方法对消息进行确认。

deliveryTag：该消息的index
multiple：是否批量.。true：将一次性ack所有小于deliveryTag的消息。

②失败确认
void basicNack(long deliveryTag, boolean multiple, boolean requeue) throws IOException;

deliveryTag：该消息的index。
multiple：是否批量。true：将一次性拒绝所有小于deliveryTag的消息。
requeue：被拒绝的是否重新入队列。

③失败确认
void basicReject(long deliveryTag, boolean requeue) throws IOException;

deliveryTag:该消息的index。
requeue：被拒绝的是否重新入队列。

basicNack()和basicReject()的区别在于：basicNack()可以批量拒绝，basicReject()一次只能拒接一条消息。
四、遇到的坑
4.1 启用nack机制后，导致的死循环
上面的代码我故意写了一个bug。测试发送一条"bad"，然后会抛出重回队列的异常。这就有个问题：重回队列后消费者又消费，消费抛出异常又重回队列，就造成了死循环。

那怎么避免这种情况呢？
既然nack会造成死循环的话，我提供的一个思路是不使用basicNack()，把抛出异常的消息落库到一张表中，记录抛出的异常，消息体，消息Id。通过定时任务去处理。
如果你有什么好的解决方案，也可以留言讨论~
4.2 double ack
有的时候比较粗心，不小心开启了自动Ack模式，又手动回复了Ack。那就会报这个错误：
消费者RabbitDemoConsumer从RabbitMQ服务端消费消息：java技术爱好者
2020-08-02 22:52:42.148 ERROR 4880 --- [ 127.0.0.1:5672] o.s.a.r.c.CachingConnectionFactory       : Channel shutdown: channel error; protocol method: #method(reply-code=406, reply-text=PRECONDITION_FAILED - unknown delivery tag 1, class-id=60, method-id=80)
2020-08-02 22:52:43.102  INFO 4880 --- [cTaskExecutor-1] o.s.a.r.l.SimpleMessageListenerContainer : Restarting Consumer@f4a3a8d: tags=[{amq.ctag-8MJeQ7el_PNbVJxGOOw7Rw=rabbitmq.demo.topic}], channel=Cached Rabbit Channel: AMQChannel(amqp://guest@127.0.0.1:5672/,5), conn: Proxy@782a1679 Shared Rabbit Connection: SimpleConnection@67c5b175 [delegate=amqp://guest@127.0.0.1:5672/, localPort= 56938], acknowledgeMode=AUTO local queue size=0
出现这个错误，可以检查一下yml文件是否添加了以下配置：
spring:
  rabbitmq:
    listener:
      simple:
        acknowledge-mode: manual
        concurrency: 1
        max-concurrency: 10
如果上面这个配置已经添加了，还是报错，有可能你使用@Configuration配置了SimpleRabbitListenerContainerFactory，根据SpringBoot的特性，代码优于配置，代码的配置覆盖了yml的配置，并且忘记设置手动manual模式：
@Bean
    public SimpleRabbitListenerContainerFactory rabbitListenerContainerFactory(ConnectionFactory connectionFactory) {
        SimpleRabbitListenerContainerFactory factory = new SimpleRabbitListenerContainerFactory();
        factory.setConnectionFactory(connectionFactory);
        //设置手动ack模式
        factory.setAcknowledgeMode(AcknowledgeMode.MANUAL);
        return factory;
    }
如果你还是有报错，那可能是写错地方了，写在生产者的项目了。以上的配置应该配置在消费者的项目。因为ack模式是针对消费者而言的。我就是写错了，写在生产者，折腾了几个小时，泪目~
4.3 性能问题
其实手动ACK相对于自动ACK肯定是会慢很多，我在网上查了一些资料，性能相差大概有10倍。所以一般在实际应用中不太建议开手动ACK模式。不过也不是绝对不可以开，具体情况具体分析，看并发量，还有数据的重要性等等。
所以在实际项目中还需要权衡一下并发量和数据的重要性，再决定具体的方案。
4.4 启用手动ack模式，如果没有及时回复，会造成队列异常
如果开启了手动ACK模式，但是由于代码有bug的原因，没有回复RabbitMQ服务端，那么这条消息就会放到Unacked状态的消息堆里，只有等到消费者的连接断开才会转到Ready消息。如果消费者一直没有断开连接，那Unacked的消息就会越来越多，占用内存就越来越大，最后就会出现异常。
这个问题，我没法用我的电脑演示，我的电脑太卡了。
五、总结
通过上面的学习后，总结了RabbitMQ防止数据丢失有三种方式：

消息持久化
生产者消息确认机制(confirm模式)
消费者消息确认模式(ack模式)

上面所有例子的代码都上传github了：
https://github.com/yehongzhi/mall
如果你觉得这篇文章对你有用，点个赞吧~
你的点赞是我创作的最大动力~
想第一时间看到我更新的文章，可以微信搜索公众号「java技术爱好者」，拒绝做一条咸鱼，我是一个努力让大家记住的程序员。我们下期再见！！！

能力有限，如果有什么错误或者不当之处，请大家批评指正，一起学习交流！



kafka_架构模型-阿里云开发者社区
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
Kafka架构模型


Kafka消费速度快：

页缓存：找个磁盘当内存；
kafka采用顺序读写，比固态磁盘快


如果消费速度太慢，更改topic的分区个数，就会有很多线程来消费。
flume与kafka的整合
flume监控文件夹，有新文件就搜集起来到kafka队列中

source：spoolDir Source
channel：memory channel
sink：数据到kafka里面

副本默认2
注：仅作笔记。



智能工作：人工智能将如何重塑远程工作-阿里云开发者社区
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

--------点击屏幕右侧或者屏幕底部“+订阅”，关注我，随时分享机器智能最新行业动态及技术干货----------


尽管人工智能的出现受到了雇主和雇员的不同程度的怀疑和恐惧，但在远程工作中，它的潜力不可低估。
机器学习已经在积极地为世界各地的求职者增加就业机会，而 AI 可能很快会完全消除重复性工作——从而使企业有更多时间培训工人承担更多技能工作。
远程工作的吸引力在全球范围内呈指数级增长。尽管企业在接受远程工作方面有些迟缓，但 COVID-19 大流行无意中展示了技术如何让员工能够轻松地以类似的生产率水平工作——尽管他们不在工作场所。
随着 COVID-19 迫使越来越多的员工在自己家里设立办公室，员工的办公室生活会不会再次发生变化?人工智能和机器学习真的能为更多的公司维持在家工作(WFH)文化吗?
使用AI管理远程工作
人力资源经理和员工必须执行许多任务，以使其符合雇用的法律要求以及其各自公司发布的政策。当考虑到所有这些合规性时，找到合适的候选人可能是一个耗时的过程。但是，企业可以创建远程职位，以减轻经理或内部员工的负担。
对 WFH 的批评之一是企业监视外部工人的生产力和质量的能力。幸运的是，人工智能和机器学习可以帮助您。团队负责人、主管和经理都可以求助于机器学习程序，以一种非侵入性和准确的方式监控员工的表现。
更现代的系统能够通过调查工具利用信息，提供公正的绩效评估，并根据具体情况提供准确的报告，指出员工各自的优势和劣势。
在这里，技术起了带头作用，并创建了难以通过人工管理进行复制的分析水平。对于在远程位置工作的拥有大量员工的公司而言尤其如此。
未来的匹配
人力资源专业人士和招聘经理都会发现寻找合适人选的过程非常耗时。招聘往往是乏味的，当有很多申请者时，总有一个危险，即有技能的候选人可能会被忽视。
人工智能将很快成为内部招聘的关键部分。能够自动筛选数百个简历，在线个人资料和求职信的程序将能够挑选出候选人的关键属性和理想素质，并在适当时突出显示他们。
技术也将有助于填补远程职位。考虑到这一点，AI 和 WFH 确实是未来的匹配。远程工作将帮助企业减少内部支出，并允许熟练的员工根据公司的属性为其工作，而不是根据其与办公室的距离来为他们工作。
匹配AI和远程工作可帮助招聘人员甄选最合适的候选人，并吸引希望在家中工作的潜在员工。
克服远程工作的弊端
继毁灭性的 COVID-19 大流行之后，不可避免的是，越来越多的企业将以更快的速度接受 WFH。但是，虽然对于更多员工来说，远程工作已成为人们的首选，但并不是所有人都理想的选择。
一些员工可能由于有限的共享生活空间而无法在家中成功工作，因此会发现很难提高工作效率。在其他地方，远程工作对留守父母和照料者都有很大的好处。
COVID-19 周围的气候使远程工作成为帮助保护员工的基本选择。反过来，这正帮助公司更多地了解 WFH 和 AI 的潜力。越来越多的企业开始制定可持续的 WFH 计划，以帮助管理生产力并从远方有效地委派任务。
这些新方法对于为员工开发更多远程机会可能具有重要意义——为全职远程工作打开了大门。
自适应人工智能
当然，AI 带有警告。如今，人工智能不可避免地会承担一些人类工人所从事的工作。但是，它为创建更多就业机会打开了大门。
过去曾从事 WFH 任务的人会意识到AI技术的强大功能。在继续开发人工智能系统时，至关重要的是，工人必须掌握控制此类系统所需的技能和知识。
COVID-19 的不幸到来为全球员工提供了远程工作路测。尽管存在一些警告和局限性，但人工智能将很快改变我们对 WFH 职位的看法，并为希望雇用和与来自世界各地的人才合作的企业开辟新天地。


原文链接：https://ai.51cto.com/art/202008/623196.htm
文章转自51cto，本文一切观点和《机器智能技术》圈子无关



Centos7系统安装远程桌面服务-阿里云开发者社区
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
Xrdp是Microsoft远程桌面协议（RDP）的一个开源实现，它允许以图形方式控制远程系统。使用RDP，您可以登录到远程计算机并创建一个真正的桌面会话，就像您登录到本地计算机一样。
系统环境
服务端：Centos7.7 Minimal
客户端：Windows10
安装桌面环境
本实验中安装的系统没有安装桌面环境，我们需要自己安装，如果已经安装桌面了清跳过这一步。Centos7提供了"Cinnamon Desktop","MATE Desktop","GNOME Desktop","KDE Plasma Workspaces","LXQt Desktop","Xfce"让我们安装。
下面的命令列出可用环境组：
[root@localhost ~]# yum grouplist
Loaded plugins: fastestmirror
There is no installed groups file.
Maybe run: yum groups mark convert (see man yum)
Loading mirror speeds from cached hostfile

base: mirrors.tuna.tsinghua.edu.cn
epel: mirrors.aliyun.com
extras: mirrors.aliyun.com
updates: mirrors.aliyun.com
Available Environment Groups:

Minimal Install
   Compute Node
   Infrastructure Server
   File and Print Server
   Cinnamon Desktop
   MATE Desktop
   Basic Web Server
   Virtualization Host
   Server with GUI
   GNOME Desktop
   KDE Plasma Workspaces
   Development and Creative Workstation
Available Groups:
   Cinnamon
   Compatibility Libraries
   Console Internet Tools
   Development Tools
   Educational Software
   Electronic Lab
   Fedora Packager
   General Purpose Desktop
   Graphical Administration Tools
   Haskell
   LXQt Desktop
   Legacy UNIX Compatibility
   MATE
   Milkymist
   Scientific Support
   Security Tools
   Smart Card Support
   System Administration Tools
   System Management
   TurboGears application framework
   Xfce
Done
我们可以选择自己喜欢的桌面环境，在这里选择安装Xfce桌面：
[root@localhost ~]# yum -y install epel-release && yum groupinstall Xfce
安装Xrdp
[root@localhost ~]# yum -y install xrdp
安装完成之后，设置开机启动并启动xrdp
[root@localhost ~]# systemctl start xrdp && systemctl enable xrdp
创建~/.Xclients，设置默认启动xfce4桌面
[root@localhost ~]# echo "xfce4-session" > ~/.Xclients
[root@localhost ~]# chmod +x .Xclients
在客户端远程连接
Centos7安装Xrdp远程桌面服务Centos7安装Xrdp远程桌面服务
Centos7安装Xrdp远程桌面服务Centos7安装Xrdp远程桌面服务
Centos7安装Xrdp远程桌面服务Centos7安装Xrdp远程桌面服务
总结
安装Xrdp服务器允许您通过图形界面从本地管理CentOS 7服务器。
本文原创地址：https://www.linuxprobe.com/centos7-xrdp-remote-desktop.html编辑：逄增宝，审核员：逄增宝



全新出击！《Java开发手册（嵩山版）》解读手册升级下载-阿里云开发者社区
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
《Java开发手册（嵩山版）》解读版升级下载
随着《Java开发手册（嵩山版）》的发布，解读再升级！灵魂13问随新版JAVA开发手册重磅回归，一线大厂怎么用JAVA？千万阅读量技术博主15问为你全面剖析。
作者介绍
Hollis，一个对Coding有着独特追求的人，现任阿里巴巴技术专家，个人技术博主，技术文章全网阅读量数千万，《程序员的三门课》联合作者。

免费下载
《〈Java开发手册（嵩山版）〉灵魂15问》
或者复制该链接到浏览器完成下载或分享：https://developer.aliyun.com/topic/download?id=811

精彩导读

一、为什么禁止使用Apache Beanutils进行属性的copy？
市面上有很多类似的属性拷贝工具类，比较常用的有
1、Spring BeanUtils 2、Cglib BeanCopier 3、Apache BeanUtils 4、Apache PropertyUtils 5、Dozer
那么，我们到底应该选择哪种工具类更加合适呢？为什么Java开发手册中提到禁止使用Apache BeanUtils呢？

接下来就聚焦于对比这几个类库的性能问题来分析。>>点击查看详情
二、为什么要求日期格式化时必须有使用y表示年，而不能用Y？
在Java中进行日期处理大家一定都不陌生，我们经常会需要在代码中进行日期的转换、日期的格式化等操作。
而一般我们进行日期格式化的时候都会使用SimpleDateFormat工具，之前我们有一篇文章介绍过SimpleDateFormat的线程安全问题，这一篇文章再来介绍一个和SimpleDateFormat有关，很容易被忽视，而一旦忽视可能导致大故障的问题。>>点击查看详情
三、《 Java 开发手册-泰山版》提到的三目运算符的空指针问题到底是个怎么回事？
手册中有一条规约引起了作者的关注，那就是手册中提到在三目运算符使用过程中，需要注意自动拆箱导致的NullPointerException（后文简称：NPE）问题：

具体是怎样的呢？>>点击查看详情
四、为什么建议初始化HashMap的容量大小?
我们之前提到过，《Java 开发手册》中建议我们设置 HashMap 的初始化容量。

那么，为什么要这么建议？>>点击查看详情
五、Java开发手册建议创建HashMap时设置初始化容量， 但是多少合适呢?
HashMap 有扩容机制，就是当达到扩容条件时会进行扩容。HashMap 的扩容条件就是当 HashMap 中的元素个数（size）超过临界值（threshold）时就会自动扩容。在 HashMap 中，threshold = loadFactor * capacity。
所以，如果我们没有设置初始容量大小，随着元素的不断增加，HashMap 会发生多次扩容，而 HashMap 中的扩容机制决定了每次扩容都需要重建 hash 表，是非常影响性能的。>>点击查看创建HashMap时设置初始化容量多少合适
六、为什么禁止使用Executors创建线程池?
为什么说可以通过Executors静态工厂构建线程池，但一般不建议这样使用。
本节我们就来围绕这个问题来分析一下为什么JDK自身提供的构建线程池的方式并不建议使用？到底应该如何创建一个线程池呢？>>点击查看详情
七、为什么要求谨慎使用ArrayList中的subList方法？
集合是Java开发日常开发中经常会使用到的。
关于集合类，《Java开发手册》中其实还有另外一个规定：

本节就来分析一下为什么会有如此建议？其背后的原理是什么？>>点击查看详情
八、为什么不建议在for循环中使用“+”进行字符串拼接？
使用+拼接字符串，其实只是Java提供的一个语法糖，那么他的内部原理到底是如何实现的。>>点击查看详情
语法糖：语法糖（Syntactic sugar），也译为糖衣语法，是由英国计算机科学家彼得·兰丁发明的一个术语，指计算机语言中添加的某种语法，这种语法对语言的功能没有影响，但是更方便程序员使用。语法糖让程序更加简洁，有更高的可读性。
九、为什么禁止在for each循环里进行元素的remove/add操作？
在Java开发手册中，有这样一条规定：

本节就来深入分析一下该规定背后的思考。>>点击查看详情
十、为什么禁止工程师直接使用日志系统(Log4j、Log back) 中的API？
作为Java程序员，我想很多人都知道日志对于一个程序的重要性，尤其是Web应用。很多时候，日志可能是我们了解应用程序如何执行的唯一方式。
所以，日志在Java Web应用中至关重要，但是，很多人却以为日志输出只是一件简单的事情，所以会经常忽略和日志相关的问题。>>点击查看详情
十一、为什么禁止把SimpleDateFormat定义成static变量?
在日常开发中，我们经常会用到时间，我们有很多办法在Java代码中获取时间。但是不同的方法获取到的时间的格式都不尽相同，这时候就需要一种格式化工具，把时间显示成我们需要的格式。
最常用的方法就是使用SimpleDateFormat类。这是一个看上去功能比较简单的类，但是，一旦使用不当也有可能导致很大的问题。本节就围绕SimpleDateFormat的用法、原理等来深入分析下如何以正确的姿势使用它。>>点击查看详情
十二、为什么禁止开发人员使用is Success作为变量名？
在日常开发中，我们会经常要在类中定义布尔类型的变量，比如在给外部系统提供一个RPC接口的时候，我们一般会定义一个字段表示本次请求是否成功的。
关于这个”本次请求是否成功”的字段的定义，其实是有很多种讲究和坑的，稍有不慎就会掉入坑里，作者在很久之前就遇到过类似的问题，本节就来围绕这个简单分析一下，到底该如何定一个布尔类型的成员变量。>>点击查看详情
十三、为什么禁止开发人员修改serialVersionUID字段的值？
关于serialVersionUID 。这个字段到底有什么用？如果不设置会怎么样？为什么《Java开发手册》中有以下规定：

本节带你一探究竟。>>点击查看详情
十四、为什么建议开发者谨慎使用继承?
对于很多开发者来说，继承肯定都是不陌生的。但是，继承一定适合所有的场景吗？毫无忌讳的使用继承来做代码扩展真的好吗？
为什么《Java开发手册》中有一条规定：谨慎使用继承的方式进行扩展，优先使用组合的方式实现。>>点击查看详情
十五、为什么禁止使用count(列名) 或count(常量) 来替代count(*)？
除了COUNT(id)和COUNT(*)以外，还可以使用COUNT(常量)（如COUNT(1)）来统计行数，那么这三条SQL语句有什么区别呢？到底哪种效率更高呢？为什么《Java开发手册》中强制要求不让使用 COUNT(列名)或 COUNT(常量)来替代 COUNT(*)呢？

本节就这些问题带来解答。>>点击查看详情

藏经阁系列电子书
阿里云开发者社区——藏经阁系列电子书，汇聚了一线大厂的技术沉淀精华，爆款不断。
点击链接获取海量免费电子书：https://developer.aliyun.com/topic/ebook




阿里云人工智能+大数据的实践与应用 — 阿里云开发者DevUP 沙龙·厦门站
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
阿里云开发者社区携手云原生后端、阿里云基础产品事业部共同出品了本次沙龙。
现场邀请了4位阿里云专家为大家分享云计算行业人工智能+大数据的实践与应用，期待您的参与。




无人机是如何崛起并改变市场需求的
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

                                                               


了解多年来无人机的市场、可用性和需求是如何上升的。




电影里虚构的世界里，空中已经布满了成群的无人机。但是，在现实生活中，我们离实现这一现实目标还差得远。这给我们带来了一个问题：无人机是会继续存在，还是会成为另一种城市炒作的一部分?不管未来会发生什么，目前，这些自动驾驶汽车在带来第四次工业革命方面也起到了重要作用。普华永道的一份题为《建立无人机信任》的报告显示，近31%的英国公众对无人机技术持积极态度，而在商业领域，这一比例上升至56%。该公司相信，通过教育，可以赢得公众和企业的信任，也可以改变人们对无人机的态度。欧盟表示，到2025年，该市场在欧洲的价值将达到10亿欧元。

当无人机首次进入未知的天空时，情况并没有这么乐观。历史记载指出，它们主要用于军事和战争原因。幸运的是，这种情况随时间而改变，目前由于他们能够到达无法到达的地方;无人机被用于造福人类。包括搜救、运输、交通监测、农业测绘、消防等。



无人机：介绍

什么是无人机?用外行人的话说，它是一种无人驾驶飞行器或无人机，可以被认为是飞行机器人。它可以远程控制，也可以使用嵌入GPS和传感器等系统的软件控制飞行计划自主飞行。无人机配备了双全球导航卫星系统(GNSS)，其中包括GPS和GLONASS。它们也可以在非卫星模式下飞行。雷达定位等其他定位功能有助于无人机精确导航，还可以显示无人机与控制器之间的当前位置，而返回Home功能则引导无人机回到控制器。陀螺仪稳定技术促进了平稳飞行和障碍物检测，避碰技术保证了安全。此外，陀螺仪可以为中央飞行控制器提供重要的导航数据。

无人机：需求增长的原因

尽管高昂的成本和技术限制阻碍了无人机的广泛使用，但在提供扫描图像方面，无人机现在是最受青睐的资产。以前，我们依赖卫星图像，但现在由于成本、数据共享和时间方面的一些限制，不可能在日常用途上持续依赖卫星图像。相比之下，无人机可以提供实时、高分辨率的图像数据，其细节要精确得多，图像清晰度也很低。现在，由于小型化传感器成本的降低，即使是普通人也能拥有它们。此外，它还有助于快速决策，减少访问现场的次数。甚至传感器的进步也在数据质量和自动化方面产生了主要影响。此外，如今运行在人工智能和机器学习上的无人机，使其能够与建筑物或地面保持一致的距离，以帮助自动飞行，并提高测量精度。

无人机的应用

让我们看看一些无人机的流行使用案例。




医疗：总部位于加州的Zipline利用位于加纳的一系列无人机配送中心，24小时为该国人口提供疫苗和药品。


房地产：通过捕捉高价值房产的图片，无人机可以颠覆房地产行业。位于洛杉矶郊外的媒体公司ZawStudios使用无人机在大房子里拍摄360度身临其境的照片和视频。成品为潜在买家提供了一个模拟实际演练的视角。


野生动物和森林保护：他们可以协助追踪非法活动，监控动物，统计其数量，计划重新造林，拍摄奇异的图片等等。此外，它们还有助于评估森林健康、侵占、砍伐、森林火灾、偷猎以及水体、生物多样性保护和红树林保护的状况。例如NETRAProUAV,eBeeX,SnotBot,AirShepherd。


能源：sunpower正在使用无人机改进太阳能发电厂。SkySpecs是一家初创公司，该公司使用这些无人机对风力涡轮机进行检查，这在过去只需几分钟就能完成数小时的工作。


天气预报：气象无人机可以收集和提供实时天气数据，帮助气象学家预测未来几天或几周的天气状况，并发布早期风暴警报。例如，Saildrone的自主帆船可以从海洋表面收集海洋和大气数据。


保险：这些形式的无人机在穿越区域和角度时可以覆盖更多的地面，这对人力保险检查员来说是一个挑战。位于加州的公司DroneBase使用无人机对建筑物屋顶进行空中勘测，为保险公司评估与索赔相关的损失提供了一种简单的方法。


互联网：可以向偏远地区提供低成本的互联网服务。最著名的例子就是Facebook的太阳能无人机Aquila。


农业和再造林:通过无人机，农业工人可以收集数据，自动化冗余流程，提高效率。猛禽地图使用无人机帮助农民更好地预测他们的潜在收成。创业公司BiocarbonEngineering使用无人机在仰光南部种植红树林树苗。




除了上述应用之外，无人机还可用于喷洒农药(DJI)、应急响应、搜救、采矿、消防、输油管道空中检查、城市规划、娱乐、旅游和旅游建设、货物配送等。

我们能做些什么?

虽然监管是必要的，但它们可能为无人机未来的发展构成障碍。仅通过将高度限制提高到几米，无人机就可以帮助农民以更低的成本将检查区域扩大一倍，并带来更好的效益。虽然目前允许无人机在视线以外和夜间操作，但在减少无人机日常使用的法规方面需要做很多工作。正因为规则灵活，中国和美国目前在这个市场上处于领先地位。





本文作者：Cassie编译










航空企业如何用「AI利器」提升乘客体验
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

                                                              

 




“早上好，Jones小姐，欢迎您乘坐从伦敦盖特威克机场买入巴黎的这趟「新常态」航班。请花一点时间，通过您手头的设备或座位背面的提示信息访问我们的门户网站。您可以在这里订购任何食物与饮料，我们的乘务员将立即将其送达。要不要来份您平时最喜欢的拿铁加鸡蛋卷套餐？——点击此处再来一份。”





航空公司掌握的客户数据可以说远超任何其他领域，而且这些信息当中蕴藏着对于运营、效率以及服务有着深远影响的高价值情报。然而，目前大部分航空企业仍然沿用着上世纪八十年代旅游繁盛期遗留下来的传统零售模式。因此，航空公司仍然很难真正捕捉到大量数据，并以有意义的方式将其用于生成洞见。最终，在飞机降落之后，飞机上发生的一切都只能短暂存在于机组人员的头脑当中，很快随着下一趟航班的开启而烟消云散。

但是，时代在变化，COVID-19疫情的全面来袭给航空企业的利润带来沉重打击，也增强了人们对于自动式、无缝化候机与飞行体验的迫切渴望。另外，技术行业还开发出创新型机载系统，帮助航空企业在捕捉大量乘客数据的同时，为远距离乘客提供各类服务。

利用这些创新成果以及对大数据的洞察能力，航空公司将获得超越竞争对手的巨大优势。从预订、值机、登机到乘机，航空公司能够全程跟踪客户群体的各类信息。具体来讲，航空企业不仅能够轻松发现销售情况最好的产品，还可以使用大数据深入理解客户的购买习惯，在数千条航线上在正确的时间与地点向乘客宣传最符合喜好的产品。将历史信息汇总起来，航空公司将能够预测客户行为并进行建模，生成个性化结果并推动未来的机票销售。

然而，这一切目前还只是初步愿景。相当一部分航空公司已经挣扎在生存的边缘，需要说服外部投资者暂缓撤资。谁能在这场危机当中逆势成功，谁就必然能在下一个时代中处于航空服务的最前沿。

Amazon教会我们什么是真正的数据之力

Amazon之所以能够在网络购物领域一骑绝尘，依靠的正是“一家店面、包罗万有”的基本思路。很多客户其实并不太清楚自己到底想要什么、哪款产品最值得购买，而Amazon的工作就是为他们提供个性化建议，结合以往的喜好整理出最贴合心思的商品推荐。

之所以能够做到这一点，是因为Amazon会在客户的浏览与购物过程中不断收集数据。Amazon对企业越了解，对于未来产品购买的预测就越是准确。另外，一旦明确了购物需求，Amazon还可以简化引导购买的流程。

具体来说，Amazon的推荐技术基于协同过滤，即首先为用户画像以建立对买家的初步认知，而后根据这份类似于个人资料的素材推荐理想产品。

除了购买操作之外，Amazon还会记录用户浏览过的内容、送货地址以及是否写过评论/反馈。他们甚至可以找到确切适合同类客户细分市场的其他产品，并根据其他同类客户的查询内容为您组织推荐内容，可以说是相当智能。

航空行业为什么做不到？

畅想了美好的前景，再回头看看惨淡的现实——机上零售领域的Amazon模式，似乎还离我们很远很远。

考虑到飞机内的基本条件，我们也不难理解为什么围绕预测与分析展开的创新速度总是进度缓慢。旅客数据往往有着明确的轻量化特性，而且除了当前航班上的少量预见、备注饮食要求或者历史购买记录之外，航空公司很难了解机上乘客的偏好或者期望。另外，飞机的运载容量非常宝贵，难以储备充足的库存，只能根据线路存放一些与目的地相关的纪念品等小物件。乘客在旅途中浏览机上商品目录，一切购买活动都记录为纸质订单的形式。人气最高的商品很快销售一空，买不到的乘客沮丧不已……这就是现实情况，改变的出路在哪里？

另一项非常重要的事实在于，目前只有十分之一的乘客选择在机上进行免税购物，相当于每趟短途航班只能完成10到12笔销售，而长途航班销售量则为30到40笔。另外，这个数字也在逐年缓慢下降。人们普遍认为这是受到选择范围有限、间接费用过高以及配送流程复杂等因素的影响。毕竟除了库存之外，机上的巡回手推车甚至是产品目录本身，都会占用相当一部分飞机运力。换言之，任何没有售出的产品都会带来高额成本，库存管理也因难以预测与及时补充而变得艰巨万分。

归根结底，无论蕴藏着怎样的机遇，机上零售业务一直没有得到多少重视，直到现在......

COVID-19疫情带来的挑战

在COVID-19疫情的冲击之下，航空公司出于健康安全的诉求而开始重视大数据之力。很明显，这既能显著提升机上卫生标准，也有助于缓解日益紧缩的运营利润压力。

根据Black Swan与APEX发布的最新报告，疫情爆发之后，乘客的信心受到严重影响，超过850万段社交对话开始传递负面情绪——数量在过去两个月中增长了43%。根据Black Swan的Will Cooper所言，卫生问题已经成为推动乘客负面情绪的三大主因之一。为此，航空公司必须增加技术在客户体验中的占比，这不仅有助于捕捉重要的客户数据，同时也将帮助航空运营商表现出改善并解决旅客焦虑心态的坚定意愿。

如今，乘客在旅途当中希望获得无缝且高效的体验。航空公司有责任为乘客及机组人员提供这种尽可能减少接触的出行方式。实际上，最近与航空公司进行的一系列沟通表明，限制机组人员与乘客之间的接触，也已经成为航空公司员工正常复工的一项基本前提。在这方面，只有技术能够真正在双方诉求之间取得平衡点。

Gategroup首席商务官Federico Germani在最近的新闻稿中表示，“对于航空公司而言，目前最重要的一步是在世界范围内重启航空服务，同时保障乘客与机组人员的健康安全。航空公司正在努力寻求在这种全新运营环境下行之有效的零售技术。”

考虑到这些压力，航空公司开始考虑利用这一难得的机队停飞机会，立足实际环境推动技术测试。最具远见的各航空公司已经在制定相关计划，着手与技术及零售供应商合作展开探索。

“我们需要谷歌级别的运营能力”

关注像Amazon这样的企业，我们可以看到互联网如何改变消费者的购物习惯与具体方式。而其中蕴藏的潜力，完全有可能重塑客户们在空中的购物习惯。

Gategroup/Black Swan的TRT Epax解决方案等订购与库存系统一直不断发展，伴随着飞机联网能力的改善，使得航空公司能够部署端到端方案，在持续服务客户的同时沿途捕捉相关数据。这一切不仅有助于消除乘客对于卫生防疫效果的顾虑，同时也让航空公司探索出一条在飞机上收集并使用数据的可行道路。

航空企业乘客体验协会（APEX）首席执行官Joe Leader表示，“我们需要谷歌级别的运营能力。”如果航空公司真能将技术运用得如此纯熟，那么AI应用将变得更加轻松，并最终创造出空中版本的Amazon零售体验。

对于航空这一向来行动缓慢的行业来说，此次变革无疑代表着激动人心的一步。而任何无视时代潮流、历史方向的从业方，都将被每位乘客乃至整个时代所抛弃。

 



本文作者：Forbes







除了视频分析，人工智能和机器学习还有什么好处？
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

--------点击屏幕右侧或者屏幕底部“+订阅”，关注我，随时分享机器智能最新行业动态及技术干货----------


人工智能(AI)和机器学习(ML)在物理安全市场上引起了轰动，将视频分析提升到了新的准确性水平。实际上，这些术语已成为整个行业的通用流行语。但是，人工智能和机器学习对物理安全行业产生影响的潜力远远超出了他们改善视频分析的能力。
我们在本周的专家小组圆桌会议主题为：除了更好的视频分析之外，人工智能或机器学习如何使物理安全市场受益?
Nigel Waterton-Chief Revenue Officer, Arcules
虽然我确实认为，要与当今电影中的AI驱动结果相去甚远，但是添加这些算法可以大大帮助企业领导者最终做出更好的决策并降低风险。除了视频分析之外，这一目标也是该细分市场发展的核心。将另一种工具(例如基于云的功能)叠加到此智能上，可带来额外的优势和额外的灵活性，这是我们行业以前从未见过的。
归根结底，这项技术对物理安全行业的真正好处是能够获取从各种物联网(IoT)设备传入的数据，并使用该信息建立业务运营的最佳实践，从而巩固自己的实力，并使组织更加了解组织面临的风险。
Per Björkdahl-Chairman, ONVIF
用户可以通过使用 AI，或更具体地说，通过深度学习和机器学习功能，以更高的效率和准确性来利用视频分析。这些术语尽管有时可以互换使用，但每个都有不同的优点。机器学习可提供更好、更准确的事件检测分析。人们通常在想到视频分析时，会将其与面部识别相关联。但是，机器学习功能远远不止于此，它可以监视运动及过程，以及检测流量和事件。
相比之下，人工智能被用来模仿一个人可以做什么，并有助于某些低级任务的改进。物理安全中的 AI 旨在补充人员能力的终结。 AI 有助于改善自动决策和警报。
Sean Foley-SVP, National Accounts, Interface Security Systems LLC
我们对视频分析中的 AI 革命感到兴奋，但 AI 的应用不仅仅局限于视频。 AI 的真正力量在于处理大量通常是不同的数据集，以产生可行的见解。例如，资产保护专业人员对什么样的销售点交易是欺诈的危险信号有深刻的了解。 AI 可以将这种理解提升到指数级，在数千名员工中评估数百万笔交易，以在流程的早期(甚至是在发生之前)识别欺诈行为，从而减少收缩。
同时，还可以将相同类型的 AI 模式识别应用于减少中央站的误报，或对系统故障进行超准确的预测，以改善客户服务。我们的行业才刚刚开始将几乎无法理解的数据与AI引擎和算法配对。应用是无限的，客户将因此受益。
Stuart Rawling-Vice President of Technology and Customer Engagement, Pelco, Inc
通过深度学习和应用于视频的其他 AI 驱动技术来提高智能的真正可能性是，从长远来看，直到事情发生后，我们才开始观看视频。通过视频收集这种高水平智能的目标可能会自动实现，以至于不需要安全操作员做出响应所需的决策。取而代之的是，由情报驱动的下一步将自动传达给各个利益相关者-从现场警卫到当地警察/消防部门。
相反，当安全主管访问与事件对应的视频时，这是因为他们希望自己查看事件。自动化、简化响应的能力以及即时响应不是整体的、数据丰富的监视策略的目标吗?对于几乎所有企业来说，答案都是肯定的。
Aaron Saks-Product and Technical Manager, Hanwha Techwin America
除了更好的视频分析之外，人工智能(AI)或机器学习还可以极大地有益于物理安全市场。对于摄像机而言，人工智能不仅可以通过基于运动的分析消除误报，还可以做更多的事情。从自动化任务到运行例行程序以及比较数据，人工智能和深度学习都有可能改变我们使用安全摄像机的方式。
由于安装的摄像头远远超过了人类可以监控的数量，为了利用所有这些信息，我们需要 AI 来理解我们正在收集的新数据，并告诉我们应该注意什么。我们想知道异常情况：那辆车在街上走错路了吗?公路中间有人吗?这些设备是功能强大的新型 IoT 传感器，可直接增强业务和运营。
Adam Wynne-Software Engineering Manager, Security and Safety Things GmbH
人工智能(AI)和机器学习还可以通过改进的访问控制系统以及将结果数据与其他设备集成来使物理安全市场受益。通过使用该技术，算法可以通过生物识别来识别个人并将其与安全摄像机自动集成，以开发更全面的访问控制解决方案。 AI 可以通过提高识别速度和准确性来增强生物指纹系统。此外，人工智能和机器学习还带来了实时检测复杂事件的附加好处，以前只有在事实分析之后才能将其作为取证分析的一部分。这使物理安全系统和响应变得更加简化和复杂。
Jonathan Moore-Product Director, AMAG Technology, Inc.
视频分析通常用于识别人和其他物体，然后触发特定的动作，例如打开门或触发警报。尽管此功能很有用，但数据分析具有巨大的价值，可以提供从访问控制系统中存储的大量数据中提取的有用见解。人工智能可以“学习”每个用户的典型访问模式，并在检测到可能对组织构成威胁的可疑或异常行为时警告安全性。
除了检测潜在的危险活动之外，数据分析还可以用于更好地了解建筑物的占用和流量模式，以帮助实施物理疏离，突出显示配置错误或可能会发生故障的面板和设备等。数据分析程序可以帮助企业提高其安全性和内部威胁程序，了解其设施使用情况和流量模式以及优化其安全硬件。
John Davies-Managing Director, TDSi
人工智能(无论是真正的人工智能还是复杂的机器学习)在辅助物理安全方面具有巨大的潜力。通过学习和改善自己的数据，AI 可以快速确定什么是正常或异常行为，以便在早期发现潜在问题。视频分析的好处已被充分证明，但集中式安全系统中的 AI 可以监视范围更广的复杂数据。例如，在繁忙的机场或火车站中，中央 AI 系统可以处理人员进出安全区域的活动(使用访问控制以及视频监视)，并找到可能提示拥塞问题或可疑行为的模式。
此外，我们还看到越来越多的人工智能在诸如无人机之类的尖端技术中使用，它可以在无需人工指导的情况下确定远程安装，电力线或煤气管道是否存在任何问题或需要注意。
Brian Baker-Vice President, Americas, Calipsa
人工智能和机器学习给物理安全处理从摄像机和传感器输入的方式带来了指数式变化。数据是提供给 AI 的燃料，摄像机提供了大量的视频以供查看。 AI 的深度学习算法可自动检测出人类和车辆运动之间的差异，而不是动物、吹树叶或反射光。结果是大大减少了误报和潜在的相关罚款。
我们将 AI 视为增加的安全层，帮助而不是代替人类来更好地保护人员和资产。使用人工智能，中央监控站或企业安全运营中心的操作员可以将注意力集中在真实警报上，以改善安全响应。通过减少虚假警报浪费的时间，管理人员可以在不增加人员的情况下扩展操作。如今，基于云的 AI 软件解决方案几乎在世界任何地方都将其功能添加到兼容摄像机中。
总结
人工智能(AI)和机器学习提供了有用的工具，可以理解大量的物联网(IoT)数据。 通过帮助实现低级决策的自动化，这些技术可以使安全运营商更加高效。 智能功能可以扩展集成选项，例如通过访问控制来增加生物识别的使用。 人工智能还可以帮助改善监控机制和流程。 智能系统可以帮助最终用户了解建筑物的占用和交通模式，甚至可以帮助实现物理距离。 以上这些只是技术的几种可能用途 —— 最后，一切皆有可能。


原文链接：https://ai.51cto.com/art/202008/623391.htm
文章转自51cto，本文一切观点和《机器智能技术》圈子无关



《Java开发手册》解读：大整数传输为何禁用Long类型?
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

8月3日，这个在我等码农心中具有一定纪念意义的日子里，《Java开发手册》发布了嵩山版。每次发布我都特别期待，因为总能找到一些程序员不得不重视的“血淋淋的巨坑”。比如这次，嵩山版中新增的模块——前后端规约，其中一条禁止服务端在超大整数下使用Long类型作为返回。

这个问题，我在实际开发中遇到过，所以印象也特别深。如果在业务初期没有评估到这一点，将订单ID这类关键信息，按照Long类型返回给前端，可能会在业务中后期高速发展阶段，突然暴雷，导致严重的业务故障。期望大家能够重视。
这条规约给出了直接明确的避坑指导，但要充分理解背后的原理，知其所以然，还有很多点要思考。首先，我们来看几个问题，如果能说出所有问题的细节，就可直接跳过了，否则下文还是值得一看的：

一问：JS的Number类型能安全表达的最大整型数值是多少？为什么（注意要求更严，是安全表达）？
二问：在Long取值范围内，2的指数次整数转换为JS的Number类型，不会有精度丢失，但能放心使用么？
三问：我们一般都知道十进制数转二进制浮点数有可能会出现精度丢失，但精度丢失具体怎么发生的？
四问：如果不幸中招，服务端正在使用Long类型作为大整数的返回，有哪些办法解决？

基础回顾
在解答上面这些问题前，先介绍本文涉及到的重要基础：IEEE754浮点数标准。如果大家对IEEE754的细节烂熟于心的话，可以跳过本段内容，直接看下一段，问题解答部分。
当前业界流行的浮点数标准是IEEE754，该标准规定了4种浮点数类型:单精度、双精度、延伸单精度、延伸双精度。前两种类型是最常用的。我们单介绍一下双精度，掌握双精度，自然就了解了单精度（而且上述问题场景也是涉及双精度）。
双精度分配了8个字节，总共64位，从左至右划分是1位符号、11位指数、52位有效数字。如下图所示，以0.7为例，展示了双精度浮点数的存储方式。

存储位分配
1）符号位：在最高二进制位上分配1位表示浮点数的符号，0表示正数，1表示负数。
2）指数：也叫阶码位。
在符号位右侧分配11位用来存储指数，IEEE754标准规定阶码位存储的是指数对应的移码，而不是指数的原码或补码。根据计算机组成原理中对移码的定义可知，移码是将一个真值在数轴上正向平移一个偏移量之后得到的，即[x]移=x+2^(n-1)（n为x的二进制位数，含符号位）。移码的几何意义是把真值映射到一个正数域，其特点是可以直观地反映两个真值的大小，即移码大的真值也大。基于这个特点，对计算机来说用移码比较两个真值的大小非常简单，只要高位对齐后逐个比较即可，不用考虑负号的问题，这也是阶码会采用移码表示的原因所在。
由于阶码实际存储的是指数的移码，所以指数与阶码之间的换算关系就是指数与它的移码之间的换算关系。假设指数的真值为e，阶码为E ，则有 E = e + (2 ^ (n-1) - 1)，其中 2 ^ (n-1) - 1 是IEEE754 标准规定的偏移量。则双精度下，偏移量为1023，11位二进制取值范围为[0，2047]，因为全0是机器零、全1是无穷大都被当做特殊值处理，所以E的取值范围为[1,2046]，减去偏移量，可得e的取值范围为[-1022,1023] 。
3）有效数字：也叫尾数位。最右侧分配连续的52位用来存储有效数字，IEEE754标准规定尾数以原码表示。
浮点数和十进制之间的转换
在实际实现中，浮点数和十进制之间的转换规则有3种情况：
1  规格化
指数位不是全零，且不是全1时，有效数字最高位前默认增加1，不占用任何比特位。那么，转十进制计算公式为：
(-1)^s*(1+m/2^52)*2^(E-1023)
其中s为符号，m为尾数，E为阶码。比如上图中的0.7 :
1）符号位：是0，代表正数。
2）指数位：01111111110，转换为十进制，得阶码E为1022，则真值e=1022-1023=-1。
3）有效数字：
0110011001100110011001100110011001100110011001100110
转换为十进制，尾数m为：1801439850948198。
4）计算结果：
(1+1801439850948198/2^52)*(2^-1) =0.6999999999999999555910790149937383830547332763671875
经过显示优化算法后(在后文中详述)，为0.7。
2  非规格化
指数位是全零时，有效数字最高位前默认为0。那么，转十进制计算公式：
(-1)^s*（0+m/2^52)*2^(-1022)
注意，指数位是-1022，而不是-1023，这是为了平滑有效数字最高位前没有1。比如非规格最小正值为：
0x0.00000000000012^-1022=2^-52  2^-1022 = 4.9*10^-324
3  特殊值
指数全为1，有效数字全为0时，代表无穷大；有效数字不为0时，代表NaN（不是数字）。
问题解答
1  JS的Number类型能安全表达的最大整型数值是多少？为什么？
规约中已经指出：
在Long类型能表示的最大值是2的63次方-1，在取值范围之内，超过2的53次方(9007199254740992)的数值转化为JS的Number时，有些数值会有精度损失。
“2的53次方”这个限制是怎么来的呢？如果看懂上文IEEE754基础回顾，不难得出：在浮点数规格化下，双精度浮点数的有效数字有52位，加上有效数字最高位前默认为1，共53位，所以JS的Number能保障无精度损失表达的最大整数是2的53次方。
而这里的题问是：“能安全表达的最大整型”，安全表达的要求，除了能准确表达，还有正确比较。2^53=9007199254740992，实际上，
9007199254740992+1 == 9007199254740992
的比较结果为true。如下图所示：

这个测试结果足以说明2^53不是一个安全整数，因为它不能唯一确定一个自然整数，实际上9007199254740992、9007199254740993，都对应这个值。因此这个问题的答案是：2^53-1。
2  在Long取值范围内，2的指数次整数转换为JS的Number类型，不会有精度丢失，但能放心使用么？
规约中指出：
在Long取值范围内，任何2的指数次整数都是绝对不会存在精度损失的，所以说精度损失是一个概率问题。若浮点数尾数位与指数位空间不限，则可以精确表示任何整数。
后半句，我们就不说了，因为绝对没毛病，空间不限，不仅是任何整数可以精确表示，无理数我们也可以挑战一下。我们重点看前半句，根据本文前面所述基础回顾，双精度浮点数的指数取值范围为[-1022,1023]，而指数是以2为底数。另外，双精度浮点数的取值范围，比Long大，所以，理论上Long型变量中2的指数次整数一定可以准确转换为JS的umber类型。但在JS中，实际情况，却是下面这样：

2的55次方的准确计算结果是：36028797018963968，而从上图可看到，JS的计算结果是：36028797018963970。而且直接输入36028797018963968，控制台显示结果是36028797018963970。
这个测试结果，已经对本问题给出答案。为了确保程序准确，本文建议，在整数场景下，对于JS的Number类型使用，严格限制在2^53-1以内，最好还是信规约的，直接使用String类型。
为什么会出现上面的测试现象呢？
实际上，我们在程序中输入一个浮点数a，在输出得到a'，会经历以下过程：
1）输入时：按照IEEE754规则，将a存储。这个过程很有可能会发生精度损失。
2）输出时：按照IEEE754规则，计算a对应的值。根据计算结果，寻找一个最短的十进制数a'，且要保障a'不会和a隔壁浮点数的范围冲突。a隔壁浮点数是什么意思呢？由于存储位数是限定的，浮点数其实是一个离散的集合，两个紧邻的浮点数之间，还存在着无数的自然数字，无法表达。假设有f1、f2、f3三个升序浮点数，且它们之间的距离，不可能在拉近。则在这三个浮点数之间，按照范围来划分自然数。而浮点数输出的过程，就是在自己范围中找一个最适合的自然数，作为输出。如何找到最合适的自然数，这是一个比较复杂的浮点数输出算法，大家感兴趣的，可参考相关论文[1]。

所以，36028797018963968和36028797018963970这两个自然数，对应到计算机浮点数来说，其实是同一个存储结果，双精度浮点数无法区分它们，最终呈现哪一个十进制数，就看浮点数的输出算法了。下图这个例子可以说明这两个数字在浮点数中是相等的。另外，大家可以想想输入0.7,输出是0.7的问题，浮点数是无法精确存储0.7，输出却能够精确，也是因为有浮点数输出算法控制（特别注意，这个输出算法无法保证所有情况下，输入等于输出，它只是尽力确保输出符合正常的认知）。

扩展
JS的Number类型既用来做整数计算、也用来做浮点数计算。其转换为String输出的规则也会影响我们使用，具体规则如下：

上面是一段典型的又臭又长但逻辑很严谨的描述，我总结了一个不是很严谨，但好理解的说法，大家可以参考一下：
除了小数点前的数字位数(不算开始的0)少于22位，且绝对值大于等于1e-6的情况，其余都用科学计数法格式化输出。举例：

3  我们一般都知道十进制数转二进制浮点数有可能会出现精度丢失，精度丢失怎么发生的？
通过前面IEEE754分析，我们知道十进制数存储到计算机，需要转换为二进制。有两种情况，会导致转换后精度损失：
1）转换结果是无限循环数或无理数
比如0.1转换成二进制为：
0.0001 10011001100110011001100110011...
其中0011在循环。将0.1转换为双精度浮点数二进制存储为：
0 01111111011 1001100110011001100110011001100110011001100110011001
按照本文前面所述基础回顾中的计算公式 (-1)^s(1+m/2^52)2^(E-1023)计算，可得转换回十进制为：0.09999999999999999。这里可以看出，浮点数有时是无法精确表达一个自然数，这个和十进制中1/3 =0.333333333333333...是一个道理。
2）转换结果长度，超过有效数字位数，超过部分会被舍弃
IEEE754默认是舍入到最近的值，如果“舍”和“入”一样接近，那么取结果为偶数的选择。
另外，在浮点数计算过程中，也可能引起精度丢失。比如，浮点数加减运算执行步骤分为：
零值检测 -> 对阶操作 -> 尾数求和 -> 结果规格化 -> 结果舍入
其中对阶和规格化都有可能造成精度损失：

对阶：是通过尾数右移（左移会导致高位被移出，误差更大，所以只能是右移），将小指数改成大指数，达到指数阶码对齐的效果，而右移出的位，会作为保护位暂存，在结果舍入中处理，这一步有可能导致精度丢失。
规格化：是为了保障计算结果的尾数最高位是1，视情况有可能会出现右规，即将尾数右移，从而导致精度丢失。

4  如果不幸中招，服务端正在使用Long类型作为大整数的返回，有哪些办法解决？
需要分情况。
1）通过Web的ajax异步接口，以Json串的形式返回给前端
方案一：如果，返回Long型所在的POJO对象在其他地方无使用，那么可以将后端的Long型直接修改成String型。
方案二：如果，返回给前端的Json串是将一个POJO对象Json序列化而来，并且这个POJO对象还在其他地方使用，而无法直接将其中的Long型属性直接改为String，那么可以采用以下方式：
String orderDetailString = JSON.toJSONString(orderVO, SerializerFeature.BrowserCompatible);
SerializerFeature.BrowserCompatible 可以自动将数值变成字符串返回，解决精度问题。
方案三：如果，上述两种方式都不适合，那么这种方式就需要后端返回一个新的String类型，前端使用新的，并后续上线后下掉老的Long型（推荐使用该方式，因为可以明确使用String型，防止后续误用Long型）。
2）使用node的方式，直接通过调用后端接口的方式获取
方案一：使用npm的js-2-java的 java.Long(orderId) 方法兼容一下。
方案二：后端接口返回一个新的String类型的订单ID，前端使用新的属性字段（推荐使用，防止后续踩坑）。
引用
[1]http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.52.2247&rank=2
[2]《码出高效》



阿里云推出小白建站：模板与定制如何选择
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
企业建站不仅是企业形象的重要组成部分，更是将自身展示给客户乃至全球的窗口，因此越来越多的企业会选择建立自己的网站，因此，现在阿里云的建站产品也越来越火了，阿里云建站产品主要分为模板建站和定制建站，模板建站指的是云·速成美站，定制建站指的是云·企业官网。
阿里云建站产品产品详情：
1.模板建站(云·速成美站)
2.定制建站(云·企业官网)

模板建站(云·速成美站)
云·速成美站分为基础版、标准版、企业版三个版本，主要特点是价格相对便宜，一般网站有的功能，云·速成美站都有。使用阿里云提供上千套模板，可视化后台管理，会打字就会建站。
定制建站(云·企业官网)
云·企业官网主要分为标准版、高级版、尊贵版三个版本，主要特点是有专门的建站专家一对一服务，可以根据用户的需求定制各种功能。
模板建站与定制建站怎么选
首先，要看自己会不会做网站，是否有建站能力
模板建站适合有一定网站制作能力的个人或小企业用户，模板建站支持Web站点、移动端站点、互动表单以及会员支付多场景。
定制建站适合对网站有品质要求或个性化需求、希望节省人力和时间成本的企业用户。
简单来说：自己会做网站，且阿里云提供的模板建站功能满足自己的需求，那么选择模板建站即可，如果自己不做，完全没接触过网站设计，或者模板建站的功能无法满足自己需求，那么就选择定制建站。
其次，要看功能是否满足自己需求
例如，你希望自己的网站有双语、官网电商、大容量（空间）、有CDN加速，网站秒速打开等功能则必须选择定制建站。
最后，看预算
模板建站官方最低报价是500元，定制建站官方最低报价是4980元，模板建站的价格相对定制建站便宜很多，因此，在模板建站功能能满足自己需求的同时，自己会一点建站能力或者原因学习建站，推荐选择模板建站更实惠。
模板建站与定制建站版本选择注意事项：
如果你选择的是模板建站，需要注意：
1.基础版支持制作页面数7个，支持上传图片数量100个，支持上传文章及产品各20个，支持制作表单数量1个，而标准版和企业版则没有这个限制。
2.企业版为独立IP，基础版标准版为共享IP。
如果你选择的是定制建站，需要注意：
1.标准版为PC站+手机站，高级版为PC站+手机站+双语，尊贵版为PC站+手机站+官网电商。
2.页面制作和新闻/产品预置数量上标准版为10个，高级版为15个，尊贵版为20个。
3.标准版的网站空间为200G，高级版为500G，尊贵版则不限制空间大小。
最后，赠送福利：
阿里云最近上架了全新的建站产品满减券，总额为3200元，具体面额如图所示：

建站满建站领取地址：阿里云小站
领取之后，支付建站产品订单的时候，系统会根据订单金额自动匹配可使用的满减券面额，这样购买更加便宜些。

原文地址



电商搜索“无结果率高，体验差”怎么办？
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
垂直电商与综合类电商相比，具有更精准的市场定位、更深化的产品与服务质量、更强的客户粘性和更独特的品牌附加度的优势，所以搜索性能的好坏直接影响着业务最终结果
案例背景:
某日活千万级的垂直类电商平台，业务以社区+商城形式开展，商城业务是商业收入的主要来源，大部分用户有明确的购买指向性，其中商品搜索天级PV3000万+，搜索引导的成交占比全部成交的60%以上，是站内最重要的功能，在用户满意度调研中发现对搜索体验吐槽连连，反馈的主要问题是站内商品搜不到，个人卖家发布的商品排序靠后
搜索问题反馈
（1）用户：搜索不到想要的商品，体验差；
（2）运营:  站内搜索的无结果率接近60%，说明每天有1800万的PV转换为0，流量白白浪费；

（3）个人卖家:  个人卖家发布的商品排序靠后；打击发布商品积极性，影响平台价值定位和圈层生态，从而直接影响平台收益；
搜索问题成因：
（1）垂直小众的圈子，对于商品的叫法非常多样，并形成主流，用户搜索中不一定按照实际商品名称进行查询（例如：用户会搜“喷泡”其实想找的商品是Air Jordan AirFoamposite系列的鞋）；
（2）用户搜索表述错误（例如：搜“连衣群”其实是想搜“连衣裙”）；
（3）站内的搜索结果分3个tab呈现，分别为“销量”、“价格”、“新品”，用户搜索后默认展现的是“销量”tab下的结果，因此个人卖家发布产品由于销量少或无销量自然导致排序靠后，曝光量小，销量难增长，恶性循环；
问题分析:
（1）针对召回结果不理想情况，经分析发现自建ES服务没有对搜索关键词做智能的语义理解，甚至有些实体名词分词还是错误的；
（2）针对排序问题，经分析需增加“综合”搜索结果呈现，根据核心索引优化排序算法；
开放搜索解决方案：

（1）核心索引上配置使用了电商行业的查询语义理解，包括同义词、停用词、电商拼写纠错、电商实体识别等 ，就是这些功能将搜索关键词进行了系统可识别的智能改写，扩大召回相关结果；
（2）针对商品别称问题，运营同学通过平时运营积累的专业词汇可视化同步到开放搜索做查询语义理解功能的补丁，通过灵活干预得以解决；
（3）创建核心索引“商品标题、颜色、类目名称、品牌名称、运营优化文案、系列名称等”，将它们引入到排序表达式中，通过多个维度构建出更精细化的排序模型；
（4）增加“综合”搜索tab，并默认展示“综合”搜索结果
；
实践后的搜索性能对比：
（1）搜索“詹姆斯球衣”输入成“詹慕斯球衣”
• Before:  服务无法召回相关结果；
• After： 纠错改写为“詹姆斯”进行查询，并且前端会提示“以下的结果是查询：詹姆斯球衣，仍然搜索詹慕斯球衣”；
（2）搜索“喷泡”
• Before：无法召回相关结果；
• After：  召回到Air Jordan AirFoamposite系列的鞋

（3）排序效果
• Before：以销量默认排名，个人卖家排序靠后
• After：提高搜索相关性增加更多商品曝光机会



DevUP 沙龙 | 八月北京、青岛、厦门燥起来
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
炎热的周末不知去哪里耍，不如来参加阿里云开发者 DevUP 沙龙吧。三大城市火热来袭，专家面对面交流，更有实操环节加深理解。放松学习的同时还有机会结交志同道合的小伙伴，约约约！
报名直通车：
8月22日【青岛】活动：阿里云开发者 DevUP 沙龙 -青岛站 -阿里巴巴微服务技术的应用与实践
8月22日【厦门】活动：阿里云人工智能+大数据的实践与应用-阿里云开发者DevUP 沙龙·厦门站
8月27日【北京】活动：阿里云开发者 DevUP 沙龙 -北京站 -阿里云企业AIOT技术与解决方案沙龙
大咖分享还有动手操作，更多精彩尽在【阿里云开发者 DevUP 沙龙】。活动时间均在周末，放松学习同时还有机会结交志同道合的小伙伴，还等什么快来参加吧<<<<<<<
活动一：阿里云开发者 DevUP 沙龙 -青岛站 -阿里巴巴微服务技术的应用与实践

微服务开发中，SpringCloud作为Spring生态中的针对微服务的技术框架，越来越受到各个企业技术人员的追捧。但是，SpringCloud中一些组件，在实践使用中，存在一定的局限。SpringCloudAlibaba，横空出世，替换了SpringCloud中的一些组件，使微服务在实践中，能够更便捷的、更优雅的实现落地。
8月15日，上海ACE同城会特邀阿里平头哥的2位语音产品专家，从操作系统融合、解决方案支撑、语音市场趋势规划等方面，跟大家一起畅聊语音圈！
时间：8月22日（周四）13：30-16：10
地点：山东省青岛市崂山区海尔路170号鑫裕和大厦8楼
活动亮点：
1、面基！在青岛举办的线下技术沙龙。
2、阵容！各类技术专家在线实践教学。
3、干货！快速了解微服务相关知识。
报名地址：https://survey.aliyun.com/apps/zhiliao/7irPO_3gv



活动二：阿里云人工智能+大数据的实践与应用-阿里云开发者DevUP 沙龙·厦门站

阿里云开发者社区携手云原生后端、阿里云基础产品事业部共同出品了本次沙龙。
现场邀请了4位阿里云专家为大家分享云计算行业人工智能+大数据的实践与应用，期待您的参与。
时间：8月22日（周六）13：30——17：20
地点：厦门市集美区杏林湾路营运中心1号楼2楼
报名地址：https://developer.aliyun.com/article/769954




活动三：阿里云开发者 DevUP 沙龙 -北京站 -阿里云企业AIOT技术与解决方案沙龙

在阿里云线上市场，近2万解决方案已经应用在几十万个城市，企业和工厂，无数家庭受天猫精灵带来的只能生活，物联网已经是基础设施，更是企业的核心竞争力。
时间：8月27日（周四）13：30-17：30
地点：北京市朝阳区望京东园4区4号楼——阿里中心·望京B座 2F-13文韵阁
活动亮点：
1、面基！在阿里园区举办的线下技术沙龙。
2、阵容！阿里云各类技术专家在线教学。
3、干货！快速打造企业级物联网平台和应用，实现数字化转型。
报名地址：https://developer.aliyun.com/article/769911




各位小伙伴是不是按耐不住内心的激动了呢？快快点击下方的阅读原文报名，来和阿里巴巴的技术专家们深度交流吧！
ACE同城会
阿里云 ACE全称 Alibaba Cloud Engineer。意为阿里云的工程师、代表着云计算的建设者。同时“ACE”又是扑克牌中的“A”，因此阿里云ACE也寓意着是云计算领域王牌的一群人。
ACE同城会是遍布在全国的开发者社群，作为国内优秀的开发者圈子，为所有开发者提供学习、交流的机会和平台。
在全国48个城市成立了同城会，覆盖13万开发者，举办超100场线下活动。
官网：https://mvp.aliyun.com/ace
现开发者社区招募会长和班委，有意者钉钉扫码联系运营同学，加好友时请备注【ACE同城会会长/班委】。





macOS 神器 Workflow ，让效率翻倍！
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

背景
一起回顾一个大家非常熟悉场景。
上周开发一个需求，开发过程中，我需要登录到服务器上看一下服务运行的日志，确认运行状态或者看一些debug的信息。所以我登录到跳板机，此时我发现我忘了某一台机器的具体名字（通常能记得的人都是天才），所以需要用跳板机提供的 autoget 命令来通过服务器组名来获得机器的列表。
此时我发现我连服务器组名都忘了，所以需要上 eagle eye 上查寻一下组名。这个查询可能得依靠我的记忆打出组名的前缀，通过 eagle eye 给出的补全提示列表来识别出其中那个我需要的组名。
终于我得到了我的组名，为了避免我下次再忘记而不得不再繁琐的查询一遍，我选择把这些结果记录到我的记事本中，方便我下次查找使用。终于我登录了机器，可是不巧我忘了日志记录的位置，我想起某个同事曾经告诉过我日志的路径，于是我查找了与那个同事的聊天记录，找到了这个日志路径。同样为了防止忘记，我又把它记录到了我的记事本中方便下次查找。然后我把日志路径复制粘贴到命令行，我终于可以开始工作了。
昨天我又开发了一个需求，我还需要登录到服务器上看一下服务运行的日志，确认运行状态或者看一些 debug 的信息。所以我登录到跳板机，需要用跳板机提供的 autoget 命令来通过服务器组名来获得机器的列表，我想起了我在记事本中记录了这个内容，于是我打开记事本，搜索了 keyword，在简单的翻找下，我找到了我想要的命令。
进入到机器后，我发现日志的路径我还是没有记住。于是，我再次打开记事本，搜索了另一个 keyword ，再次翻找了一下，找到路径后把它复制粘贴到命令行，我一边粘贴一边想，我要是像在本机的终端环境中，把这些命令写成 bashrc 中的 alias 就好了。我又可以开始工作了。
于是，我的记事本中的内容一般都是这样：

从上述两次流程的对比中，我们发现记事本已经给我们的工作带来很大的提效了。但是在昨天流程最后我的思考中，我们不难发现，这个提效，还有提升的空间。我认为任何用过 shell 的 alias 的同学都会认同我的观点：如果上述流程能用alias来记录这些冗长的命令，我们就不用麻烦记事本了不是吗？
可是跳板机是公共资源，有严格的使用规范。具体服务器又是容器化部署，每次部署都会是一个新的容器，所以在当前的bashrc上写下什么并没有用。或许我们能寻找一个新的途径来实现这个需求。
问题
让我们从背景中总结我们正在面临的是哪些问题：
1、工作中存在非常多冗长难记的信息，需要我们在各个场景反复输入。
2、这些冗长的信息来源分散，查找起来非常麻烦耗时。
每次需要输入时等要通过额外的操作，频繁切换聚焦的窗口来获取这些信息。
3、这些问题虽然各自都占用了我们为数不多的时间和精力，但因为场景小而频繁，当乘以次数后，这些消耗也变得非常可观，并且非常影响我们的工作体验。
思考
让我们思考一下当我们想要使用 alias 的时候我们实际想要的是什么？我以个人的经验来总结，大概是以下几点：
1、用一个很短的短词来替代一个需要高频输入的很长的句子。
2、用一个更好记的词替代一个难记易忘的句。
3、配置的成本可控，使用的成本很低。
我们品一品1、2两点，其本质就是一个字典，由短语为key，长句为value。这个是我们程序员的好朋友了，我们可以简单的通过一个文件就能实现这份配置。事实上，我们使用记事本记录，其实本质也是在使用字典的特性。而第三点，让我瞬间想到使用 Alfred 的 Workflow 这个Mac上的神器。关于 Alfred 此处不做介绍，不知道或者想要了解的同学可以移步官网。
设计
其实针对我们已经给出的需求，我们非常容易就可以得出一个设计思路。我们可以固定一个文件路径保存一个文件，这个文件以一种简单的格式或方式保存一个字典。编写一个 alfred 的 workflow 来解析这个文件形成一个 Map ，并通过搜索和匹配 key 来快速的获取 value ，而获取 value 最有效的方式就是把 value 输出到系统的剪切板中。
考虑到 Mac 和 Alfred 的使用用户并不全是工程师，我们选择记录字典的格式最好越简单越好。所以我计划以普通的文本格式，每一行为一个键值对，第一个空格前的短词为 key ，第一个空格后的内容为 value 。直接让用户新建指定路径的文件并通过编辑文件的方式来管理的形式确实可以被一部分用户所接受，但是为了能面对更多用户，我认为以 workflow 的方式在增删字典的内容也同时是需要支持的。这样不想关心具体实现、不愿接触文本文件的用户同样可以无感使用。
最后我给这个 workflow 取名为 EasyAlias。
实现
来看一下 workflow 的排版：

通过三个关键字的Alfred命令，分别实现设置alias(sal, set alias)，删除alias(dal, delete alias)，查找(gal, get alias)。
其中sal和dal使用简单的keyword输入，而gal为了使用Alfred通过的展示候选列表和搜索匹配的能力，而使用了Script Filter作为输入。三者都通过shell调用了一个实现主要功能的python脚本easy_alias.py，通过传入不同的action参数来区分行为。
sal：
python easy_alias.py set {query}
dal:
python easy_alias.py del {query}
gal:
python easy_alias.py show {query}
cat filter.output
easy_alias.py
# coding=utf8
import sys
import json
from os import listdir, makedirs
from os.path import isfile, join, exists, expanduser

base_path = expanduser("~/.easy_alias")
file_name = "alias_conf"
file_path = join(base_path, file_name)

alias_map = dict()

def init():
    if not exists(base_path):
        makedirs(base_path)
    if not exists(file_path):
        open(file_path, 'w').close()

def get_key_and_value(text):
    seqs = text.strip().split(' ')
    if len(seqs) < 2:
        return None, None
    key = seqs[0];
    value = reduce(lambda x, y: x.strip() + ' ' + y.strip(), seqs[1:])
    return key, value

def get_alias_map():
    with open(file_path, 'r') as f:
        for line in f.readlines():
            k, v = get_key_and_value(line)
            if k == None or v == None:
                continue
            alias_map[k] = v

def set_alias():
    if len(sys.argv) < 3:
        return 
    text = sys.argv[2].strip()
    k, v = get_key_and_value(text)
    if k == None or v == None:
        return
    alias_map[k] = v

def del_alias():
    if len(sys.argv) < 3:
        return 
    key = sys.argv[2].strip()
    new_content = ""
    if key in alias_map:
        alias_map.pop(key)

def show_alias():
    items = list()
    for k, v in alias_map.iteritems():
        d = {
            "uid": k,
            "type": "default",
            "title": k,
            "subtitle": v,
            "arg": v,
            "autocomplete": k,
            "icon": {
                "type": "fileticon",
                "path": "icon.png"
            }
        }
        items.append(d)
    show = {"items": items}
    with open('filter.output', 'w') as f:
        f.write(json.dumps(show))

def write_map_to_file():
    file_content = ''
    for k, v in alias_map.iteritems():
        file_content += k + ' ' + v + 'n'
    with open(file_path, 'w') as f:
        f.write(file_content)

if __name__ == '__main__':
    init()
    get_alias_map()
    action = sys.argv[1]

    with open(join(base_path, 'logs'), 'a') as f:
        f.write(str(sys.argv) + 'n')

    if (action == 'set'):
        set_alias()
    if (action == 'del'):
        del_alias()
    if (action == 'show'):
        show_alias()

    write_map_to_file()
效果
设置一个alias

查找一个alias

删除一个alias

如果觉得通过sal设置和dal删除的方式太麻烦，也可以直接编辑~/.easy_alias/alias_conf

保存文件再查询

作业
这个 workflow 本身很简单很好实现。本文也希望不仅仅只是一个简单分享，希望能与读者有所互动，所以打算留个回家作业。
可以发现现在 dal 命令现在需要使用者盲打key，而不是像gal这样可以搜索补全。这会给使用者带来一定烦恼。回家作业就是将 dal 命令也改造成像 gal 一样可以搜索补全的形式。
作业下载
EasyAliasPro
总结
让我们回过头看一下我们再开始时面对的问题是否得到了很好的解决。
我们无法改变工作中频繁需要冗长信息的状况，但是我们通过访问剪切板的方式让输入变得简单。
我们用一个文件将这些信息集中在一起，并且通过工具打打提升了我们检索这些信息的效率。
Alfred提供给我们一个在检索并获取这些信息上无需切换窗口，并且操作非常简单的方式。
很高兴，我们很大程度上解决了我们先前提出的这些问题！
最后
今天我又开发了一个需求，我还需要登录到服务器上看一下服务运行的日志，确认运行状态或者看一些debug的信息。所以我登录到跳板机，唤醒了Alfred，输入gal ahostp，并将结果粘贴在命令行获得了机器列表。登上机器后，我再次唤醒Alfred，输入gal alog，并粘贴在命令行中。现在我可以开始工作了。
关注「淘系技术」微信公众号，一个有温度有内容的技术社区~




DataWorks百问百答51：如何用独享资源组跑ADB、DLA节点？
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

DataWorks通过ADB、DLA等节点类型访问对应数据源介绍     
   您可以在Dataworks中新建AnalyticDB for MySQL、AnalyticDB for PostgreSQ、Data Lake AnalyticsL等节点，构建在线ETL数据处理流程。
（1）AnalyticDB for MySQL节点用于接入阿里云产品分析型数据库MySQL版，详情请参见分析型数据库MySQL版。
（2）AnalyticDB for PostgreSQL节点用于接入阿里云产品分析型数据库PostgreSQL版，详情请参见分析型数据库PostgreSQL版。
（3）Data Lake Analytics节点用于接入阿里云产品Data Lake Analytics，详情请参见什么是Data Lake Analytics。

以AnalyticDB for MySQL为例：
1、首先需要在数据源配置界面，用连接串形式配置好数据源，jdbc地址用内网地址添加的话，在测试连通性时，默认是用默认资源组在访问，所以会存在网络不通的问题，因此，在我们配置完数据源信息后，可直接保存，跳过测试连通性，直接去建立AnalyticDB for MySQL节点任务。




2、建立好节点之后，选择上方添加好的的数据源，编辑逻辑处理查询等语句，即可在线ETL数据处理。



3、编写语句完成之后，保存，然后点击高级运行，选择独享调度资源组运行即可。



4、出于安全的考虑，数据库会有白名单的限制，因为平台所提供的默认资源组机器IP不固定，时常会出现网络访问不通的情况，所以推荐大家使用独享调度资源组来跑任务（购买的独享调度资源和数据源需要在同VPC同可用区下）。
     用独享资源组跑任务时，需要将独享资源组的EIP、网段信息和独享资源绑定的专有网络的IP网段（或绑定专有网络时选择的交换机网段）加至对应数据源的访问许可内。没有添加的话，会出现以下网络不通的情况：
Caused by: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failure


注意：
再次提醒：独享资源组必须要和数据源在同VPC同可用区下，也要添加相应的网段至数据库白名单中，这样网络方可访问成功。
DataWorks百问百答历史记录 请点击这里查看>>
更多DataWorks技术和产品信息，欢迎加入【DataWorks钉钉交流群】



【最佳实践】3分钟学会使用Elasticsearch跨集群复制功能（CCR）
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
当您需要将本地Elasticsearch集群中的索引数据迁移到一个远程集群中，或者将一个远程集群中的索引数据迁移到本地集群，可通过跨集群复制CCR（Cross Cluster Replication）功能实现。本文介绍具体的实现方法。
背景信息

CCR是开源Elasticsearch在platinum版本中发布的一个商业特性。购买阿里云Elasticsearch实例后，您无需额外付费，只需要简单配置，即可使用CCR功能（目前仅支持单可用区6.7.0及以上版本的阿里云Elasticsearch实例）。CCR的应用场景如下：

灾难恢复及高可用性对于分布在不同地域的Elasticsearch集群，您可以通过CCR进行数据备份。当其中一个集群发生故障时，您可以通过访问其他集群来获取故障集群的数据，保证数据不丢失。
就近访问数据例如A集团下有多个子公司，各子公司所分布的地域不同。为了提高业务处理速度，可按照地理位置划分子公司要承担的业务，并通过CCR将业务数据分发给各地域中的Elasticsearch集群。子公司在处理业务时，可直接访问当前所在地域的集群。
集中报告通过CCR，将多个数据量较小的集群中的数据复制到一个中央集群中，进行可视化分析与报告。

使用CCR功能，需要准备两种类型的集群。一个是远程集群，即提供源数据（Leader index）的集群；一个是本地集群，即订阅数据（Follower index）的集群。该功能为被动复制，即所有复制任务都是由本地集群执行。同时支持批量实时迁移数据，更多详情请参见Cross-cluster replication。
本文以阿里云Elasticsearch为例，为您介绍跨集群复制功能（CCR）的使用方法。阿里云Elasticsearch兼容开源Elasticsearch的功能，以及Security、Machine Learning、Graph、APM等商业功能，致力于数据分析、数据搜索等场景服务。支持5.5.3、6.3.2、6.7.0、6.8.0和7.4.0等版本，并提供了商业插件X-Pack服务。在开源Elasticsearch的基础上提供企业级权限管控、安全监控告警、自动报表生成等功能。阿里云Elasticsearch为您提供1个月的免费试用活动，单击此处即可免费试用。
操作流程

准备工作
准备远程和本地集群，以及待迁移的索引。
步骤一：配置实例网络互通
连通远程和本地集群的网络。
步骤二：添加远程集群
在本地集群的Kibana控制台中，添加远程集群。
步骤三：配置跨集群复制
在本地集群的Kibana控制台中，配置待迁移和迁移后的索引。
步骤四：验证数据迁移结果
在远程集群中插入数据，在本地集群中，验证数据是否迁移成功。
准备工作

准备远程和本地Elasticsearch集群。{#cmd-ps8-i4x-dwf}
具体操作步骤请参见创建阿里云Elasticsearch实例。要求两个实例为相同版本（6.7.0及以上），可用区类型为单可用区，且在同一专有网络和虚拟交换机下。

参见登录Kibana控制台，在远程集群中创建待迁移的索引。
     PUT myindex
   {
     "settings": {
 "index.soft_deletes.retention.operations": 1024,
 "index.soft_deletes.enabled": true
     }
   }

注意
对于7.0及以下版本的Elasticsearch实例，在创建索引时，需要开启soft_deletes属性，否则会报错。
   如果您需要迁移已创建的索引，需要通过重建索引来开启soft_deletes属性。
关闭待迁移的索引的物理复制功能。
对于6.7.0版本的阿里云Elasticsearch实例，系统会默认为新建索引开启物理复制功能。使用CCR功能时，需要先关闭物理复制功能。


关闭索引。
   POST myindex/_close



更新索引settings，关闭物理复制功能。
   POST myindex/_settings
   {
   "index.replication.type" : null
   }



打开索引。{#cmd-c4f-nw3-dk6}
   POST myindex/_open



步骤一：配置实例网络互通

参见配置实例网络互通，在远程集群中添加需要进行网络互通的本地集群。最终配置如下。

步骤二：添加远程集群

登录本地集群的Kibana控制台。
具体操作步骤请参见登录Kibana控制台。

在左侧导航栏，单击 Management 。
在 Elasticsearch 区域中，单击 Remote Clusters 。
单击 Add a remote cluster 。

在 Add remote cluster 页面中，输入远程集群信息。
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20200730191817233.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQ2Mzk2NTYz,size_16,color_FFFFFF,t_70)



Name ：远程集群的名称，不可重复。
Seed nodes ：需要配置为远程集群的主节点的IP地址:9300。远程集群的主节点的IP地址，可在远程集群的Kibana控制台中，使用GET /_cat/nodes?v命令获取。

 **注意** 由于CCR功能是Kibana通过数据节点之间的TCP端口（9300），访问数据节点IP的形式来进行网络互通，因此不支持HTTP端口（9200）访问。

单击 Save 。
保存后，系统会自动连接远程集群。连接成功后，显示 Connected 。

步骤三：配置跨集群复制


在本地集群Kibana控制台的 Management 页面，单击 Elasticsearch 区域中的 Cross Cluster Replication 。
单击 Create a follower index 。
在 Add follower index 页面，配置跨集群复制信息。



|         参数         |                                              说明                                              |
   |--------------------|----------------------------------------------------------------------------------------------|
   | Remote cluster | 选择您在步骤二：添加远程集群中添加的集群。                |
   | Leader index   | 待迁移的索引。本文使用在准备工作中创建的 myindex 索引。 |
   | Follower index | 迁移数据生成的索引。索引名称不可重复。                                                                          |
单击 Create 。
创建成功后，索引的状态显示为 Active 。

步骤四：验证数据迁移结果



参见登录Kibana控制台，在远程集群中插入数据。
   POST myindex/_doc/
   {
     "name":"Jack",
     "age":40
   }



在本地集群中，验证数据是否迁移成功。
   GET myindex_follow/_search



迁移成功后，返回如下结果。

从以上结果可以看到，远程集群的Leader索引（myindex）中的数据，已通过CCR功能复制到了本地集群的Follower索引（myindex_follow）中。

在远程集群中，重新插入一条数据，随即在本地集群中进行查看，验证增量数据是否实时同步。
   POST myindex/_doc/
   {
     "name":"Pony",
     "age":50
   }


数据插入后，立即在本地集群中进行查看，结果如下。

从以上结果可以看到，通过CCR可以实现增量数据的实时同步。
说明 您也可以通过CCR功能的API，进行跨集群复制相关操作，详情请参见Cross-cluster replication APIs。



基于阿里云数据湖分析服务和Apache Hudi构建云上实时数据湖
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
1. 什么是实时数据湖
大数据时代数据格式的多样化，如结构化数据、半结构化数据、非结构化数据，传统数据仓库难以满足各类数据的存储，同时传统数仓已经难以满足上层应用如交互式分析、流式分析、ML等的多样化需求。而数仓T+1的数据延迟导致分析延迟较大，不利于企业及时洞察数据价值；同时随着云计算技术发展以及云上对象存储的廉价性，使得越来越多企业基于云来构建数据湖，而传统数据湖由于缺失ACID事务能力，导致其上构建的表不支持事务，同时也无法处理数据的更新删除，数据湖能力未得到进一步释放。为企业更快洞见数据价值和补齐ACID事务等能力，需要引入实时数据湖，以此作为大数据处理架构来对应上层应用各类分析需求。
2. 大数据平台方案
2.1 传统Hadoop方案
大数据时代以Hadoop体系为首的大数据分析平台逐渐表现出优异性，而围绕Hadoop体系的生态圈也不断完善，Hadoop体系从根本上解决了传统数据仓库的瓶颈问题。

传统批处理带来的延迟较大，并且随数据规模增长，通常会遇到如下问题。

HDFS限制：许多依赖 HDFS 扩展其大数据基础架构的公司都面临着这个问题。根据设计，HDFS 受 NameNode 内存容量的限制，因此存储大量小文件会显着影响性能。当数据大小超过10PB这个问题开始出现，如果数据量达到50-100 PB就会成为问题。 幸运的是，有一些相对简单的解决方案可以将 HDFS 从几十PB扩展到几百PB，例如利用 ViewFS 和 HDFS NameNode Federation；或通过控制小文件的数量并将不同的数据移到单独的集群，这样我们能够减轻 HDFS 的瓶颈。
快速更新：对于很多用例而言，需要尽可能地访问新数据，而传统数仓T+1的更新延迟太大，无法满足对数据实时性要求很高的场景，同时由于数据延迟太大，无法利于企业做出及时决策。
支持在 Hadoop上 更新和删除：大数据下的分布式存储强调数据的只读性质，所以类似于Hive，HDFS这些存储方式都不支持update，HDFS的write操作也不支持并行，这些特性导致其具有一定的局限性，无法支持对现有数据的更新和删除操作。为应对平台数据规模增长，必须找到一种方法来解决 HDFS 文件系统中的这种限制，以便支持更新/删除操作。

2.2 Lambda方案
对于批处理而言，虽然数据质量高，但其延迟太大。考虑到数据延迟问题，业界还有一种比较流行的架构，Lambda架构，兼具低延迟与稳定。

Lambda架构中，一份数据会分别进入速度层进行流式处理生成实时的增量视图和进入批处理层进行批量处理生成稳定可靠的历史视图，在上层查询时会合并增量视图和历史视图形成完整视图返回，这样便兼顾了数据的低延迟，但同时可以看到该架构需要维护两份数据、两份结果存储和多个处理框架，加重了系统维护负担。
能否兼顾系统的可运维性和数据低延迟以及规避上述在传统HDFS上方案的弊端来构建一个可伸缩的实时数据湖呢？答案是肯定的，可以基于阿里云DLA(Data Lake Analytics 数据湖分析) + Apache Hudi构建实时数据湖。
3. 阿里云实时数据湖方案
使用DLA + Hudi技术方案可轻松在阿里云OSS上构建实时可分析的数据湖。
企业典型的数据链路如下。

各类App数据采集到Kafka或其他MQ；
对Kafka中数据使用Spark/Flink等引擎进行处理；
将处理结果写出（DB、HDFS、OSS等）；
通过分析引擎（Presto/Hive/Spark）对结果分析生成报表等；

现在DLA已经内置集成Hudi，与此同时利用DLA内置Spark开箱即用的能力，用户便可在DLA中快速构建Hudi数据湖，架构如下所示。

用户通过DLA SparkStreaming消费上游数据，然后以Hudi增量格式写入OSS并自动同步元数据至DLA Meta；当然对于用户自建Spark集群方式也可支持，也只需要将上游数据以Hudi格式写入OSS并自动关联至DLA Meta即可，接着便可以使用DLA-SQL进行在线交互式分析或使用DLA-Spark进行机器学习和离线分析。两种方案都极大降低了用户使用DLA的门槛，也体现了DLA极致的开放能力，基于DLA和Hudi构建实时数据湖总结有如下优势

全链路数据延迟可达分钟级别，打造T + 0 数据湖；
支持数据增量存储在OSS，支持Upsert/Delete，同时自动构建元数据管理；
丰富的数据源，支持阿里云上超过95%数据源；
支持全托管的SQL & Spark，免去集群运维；
弹性Serverless SQL/Spark，满足交互式、批处理、机器学习多种工作负载；
一份数据存储在OSS，通过DLA Meta增量管理，降低存储成本低；
支持多租户及按照扫描量计费，能有效管理多分析师的查询需求和SQL使用量；

下面简单介绍下什么是DLA和Apache Hudi。
3.1. 什么是DLA
阿里云数据湖分析Data Lake Analytics是阿里云数据库自研的核心产品，是新一代CloudNative分析平台；开放计算，支持MySQL协议，支持Presto、Spark引擎；主打低成本、Serverless无托管成本；统一元数据、可以让用户拥有统一的数据视图。目前在阿里云服务数千客户。
更多详情可参考：https://www.aliyun.com/product/datalakeanalytics

DLA的Serverless能力免去了企业高昂的运维成本及应对数据波峰波谷扩缩容等繁琐步骤，按量计费，无持有成本。同时DLA没有单独存储用户数据，用户数据以开放的格式存储在OSS中，然后只需将元数据关联到DLA Meta后便可使用DLA SQL进行分析，或者通过DLA Spark进行复杂的ETL操作。
3.2 什么是Apache Hudi
Apache Hudi是一个支持插入、更新、删除的增量数据湖处理框架，可以用来管理分布式文件系统（如HDFS）/云上（OSS、S3）超大规模数据集。Hudi提供了如下关键特性

可插拔索引机制支持快速Upsert/Delete
支持增量拉取表变更以进行处理
支持时间旅行，查看旧版本数据
支持ACID，事务提交及回滚
自动管理小文件以优化查询性能
基于行存的快速写入，并支持异步压缩为列存便于分析
用于进行审计跟踪的元数据时间轴

更多详情可参考https://hudi.apache.org/
4. Demo示例
可参考实时数据湖快速入门 了解如何使用DLA和Hudi构建实时数据湖示例。
5. 总结
本篇文章首先介绍了什么是数据湖，以及常见的大数据解决方案，然后介绍了阿里云实时数据湖方案，使用DLA + Hudi方案快速构建近实时可分析数据湖，并列举方案优势，最后提供了简单Demo示例展示如何集成DLA和Hudi。
感兴趣的小伙伴欢迎入钉钉群交流




DataWorks百问百答47：如何配置操作Python UDF函数？
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
udf函数是什么？
maxcompute自带了一些函数比如：max/min/sum 等，但是由于自带的函数数量有限且实现的功能有较大的局限性，通常不能满足业务的需要，这时用户可以自己定义udf来方便扩展。udf 函数可以直接应用于select 语句，对查询结构做格式化处理之后，然后再输出内容。


注意点：
1.Python UDF必须通过annotate指定函数签名。
2.必须实现 evaluate 方法
操作步骤：
step1:
创建python类型ud资源：
案例如下：（实现两个bigint类型字段值相加）

from  odps.udf  import  annotate
@annotate ( "bigint,bigint->bigint" )
class   MyPlus ( object ):
    def   evaluate ( self ,  arg0 ,  arg1 ):
        if   None   in   ( arg0 ,  arg1 ):
            return   None
        return  arg0 + arg1

step2: 
根据资源来配置创建函数： 


注意点1：类名为资源文件名.class类名
注意点2：资源列表中填写 所有 用到的文件(例如udf中用到的其他文本类型文件等)，用英文逗号分隔
step3:
调用函数实现业务需求：

注意点1：调用语句中使用的是函数名
DataWorks百问百答历史记录 请点击这里查看>>
更多DataWorks技术和产品信息，欢迎加入【DataWorks钉钉交流群】



SPA 的 SEO 方案对比、最终实践
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
原文链接：https://taskhub.work/article/73058307795021824  
已获作者授权转载

前端开发技术日新月异，由于现代化构建、用户体验的需求，angular/vue/react 等框架已经成为开发标配，大部分应用都是 SPA，同时也带来了很多新问题：


SEO 不友好
首屏渲染慢

为了解决这些问题，开源社区有很多方案，本文主要对这些方案进行对比。

一、客户端渲染（CSR）方案

React开发的SPA就是一种CSR方案，如图所示，在到达浏览器之前的html页面是没有内容的，要等到浏览器执行相应异步请求获取数据填充后才显示界面。
优点
SPA 的优点（用户体验较好）
缺点

SEO不友好（爬虫如果没有执行js的能力，如百度，获取到的页面是空的，不利于网站推广）
首屏加载慢（到达浏览器端后再加载数据，增加用户等待时间）

二、服务端渲染 （SSR）方案

基本原理： 在服务端起一个node应用，浏览器到来时，先拦截执行部分 js 异步请求，提前将数据填充到 html 页面中返回浏览器。这样爬虫抓取到的页面就是带数据的，有利于SEO
需解决问题：

大部分应用开发时都有状态管理方案（Vuex, Redux），SPA 应用到达浏览器前状态都是空的，使用SSR后意味着需要在服务端提前填充数据到 store
需要拦截相应 hook（vue 的 created、react 的 componentDidMount），等待异步数据请求完成，确认渲染完成

针对这些问题，社区也有相应框架可参考：


框架
解决方案
Github star



Vue
Nuxt.js
28.4k


React
Nextjs
50.8k


Angular
-
-



不想使用框架，也可以自己修改react、vue 的 render 方法实现（改动工作量更大）
优点

SEO 友好
首屏渲染快（可在服务端缓存页面，请求到来直接给 html）

缺点

代码改动大、需要做特定SSR框架的改动（经过我们实践、原有SPA代码改动非常大）
丢失了部分SPA体验
node 容易成为性能瓶颈

三、构建时预渲染方案


Solution
Github Star



prerender-spa-plugin
6k


puppeteer
63.2k


phantomjs
1.4k



基本原理： 利用webpack 等构建工具，针对 SPA 应用开发后只有一个 index.html 文件入口问题，用上述预渲染中间件在前端项目构建时预先获取页面数据，生成多个页面，如 about、help 、contact 等页面，优化首屏渲染与部分页面SEO
优点
代码侵入性小
缺点

无法用于大量动态路径页面场景（生成的 html 页面数据大，而且页面数据会有更新。如 /article/123，文章页面）
后台请求数据变动时前端应该同步更新版本

四、服务端动态渲染（利用user-agent）

回归到原始需求，为了提高用户体验我们用了SPA技术、为了SEO 我们用了 SSR、预渲染等技术。不同技术方案有一定差距，不能兼顾优点。但仔细想，需要这些技术优点的“用户”，其实时不一样的，SPA 针对的是浏览器普通用户、SSR 针对的是网页爬虫，如 googlebot、baiduspider 等，那为什么我们不能给不同“用户”不同的页面呢，服务端动态渲染就是这种方案。
基本原理： 服务端对请求的 user-agent 进行判断，浏览器端直接给 SPA 页面，如果是爬虫，给经过动态渲染的 html 页面
PS： 你可能会问，给了爬虫不同的页面，会不会被认为是网页作弊行为呢？
Google 给了回复：

Dynamic rendering is not cloaking
Googlebot generally doesn't consider dynamic rendering as cloaking. As long as your dynamic rendering produces similar content, Googlebot won't view dynamic rendering as cloaking.
When you're setting up dynamic rendering, your site may produce error pages. Googlebot doesn't consider these error pages as cloaking and treats the error as any other error page.
Using dynamic rendering to serve completely different content to users and crawlers can be considered cloaking. For example, a website that serves a page about cats to users and a page about dogs to crawlers can be considered cloaking.

也就是说，如果我们没有刻意去作弊，而是使用动态渲染方案去解决SEO问题，爬虫经过对比网站内容，没有明显差异，不会认为这是作弊行为。
优点
兼顾 SPA优点同时解决SEO问题
缺点
需要服务端应用（但动态渲染只针对爬虫、不会成为性能瓶颈）
总结： 经过前期其他方案的实践、优缺点权衡、最终我们选择了方案四的动态渲染作为 SPA 的 SEO 方案。
实现细节

上图为最终实现。（存在优化点：右边CDN整合、可以考虑使用Node替代nginx部分功能，简化架构）
社区方案：


方案
github star
描述



puppeteer
63.2k
可用于动态渲染、前端测试、操作模拟。API丰富


rendertron
4.9k
动态渲染


prerender.io
5.6k
动态渲染



选型使用 puppeteer 作为动态渲染方案。
依赖：
{
  "dependencies": {
    "bluebird": "^3.7.2",
    "express": "^4.17.1",
    "puppeteer": "^5.2.0",
    "redis": "^3.0.2",
    "request": "^2.88.2"
  }
}
代码参考Google 官方 Demo进行改造，下面是基础代码：
server.js
import express from 'express';
import request from 'request';
import ssr from './ssr.js';

const app = express();

const host = 'https://www.abc.com';

app.get('*', async (req, res) => {
    const {html, ttRenderMs} = await ssr(`${host}${req.originalUrl}`);
    res.set('Server-Timing', `Prerender;dur=${ttRenderMs};desc="Headless render time (ms)"`);
    return res.status(200).send(html); // Serve prerendered page as response.
});

app.listen(8080, () => console.log('Server started. Press Ctrl + C to quit'));

ssr.js
import puppeteer from 'puppeteer';

// In-memory cache of rendered pages.
const RENDER_CACHE = new Map();

async function ssr(url) {
    if (RENDER_CACHE.has(url)) {
        return {html: RENDER_CACHE.get(url), ttRenderMs: 0};
    }
    const start = Date.now();

    const browser = await puppeteer.launch({
        args: ['--no-sandbox', '--disable-setuid-sandbox']
    });
    const page = await browser.newPage();
    try {
        // networkidle0 waits for the network to be idle (no requests for 500ms).
        await page.goto(url, {waitUntil: 'networkidle0'});
        await page.waitForSelector('#root'); // ensure #posts exists in the DOM.
    } catch (err) {
        console.error(err);
        throw new Error('page.goto/waitForSelector timed out.');
    }

    const html = await page.content(); // serialized HTML of page DOM.
    await browser.close();

    const ttRenderMs = Date.now() - start;
    console.info(`Puppeteer rendered page: ${url} in: ${ttRenderMs}ms`);

    RENDER_CACHE.set(url, html); // cache rendered page.

    return {html, ttRenderMs};
}

export {ssr as default};
Demo 代码存在以下问题：

页面渲染后返回浏览器，有时会再次执行异步请求获取数据（重复请求）
使用了 Map 做页面缓存，在node服务崩溃时会丢失全部缓存。没有超时限制，随着时间增长，内存消耗大（缓存机制）
重复请求 React/Vue 静态文件，ssr 函数会当成一个页面进行渲染（错误渲染）

下面对这些问题逐个击破
重复请求：
根本原因是React/Vue 代码生命周期函数重复执行。一般我们在created/componentDidMount hook 进行异步数据请求，这个hook在动态渲染的时候执行了一次，在HTML返回浏览器的时候，dom挂载又执行了一次，此问题在Google Support也有提及。可以通过小小改造前端代码，判断页面是否已被动态渲染再执行异步请求。可参考：
componentDidMount() {
    const PRE_RENDERED = document.querySelector('#posts');
    if(!PRE_RENDERED) {
        // 异步请求
        // 插入含有 #posts id 的 dom 元素
    }
}
缓存机制
针对 Map 缓存的问题，我们使用了Redis进行改造，增加超时机制，同时可以避免node崩溃缓存击穿问题
redis/index.js
import redis from 'redis';
import bluebird from 'bluebird';

bluebird.promisifyAll(redis);

const host = 'www.abc.com';
const port = 6379;
const password = '123456';

const client = redis.createClient({
    host,
    port,
    password,
    retry_strategy: function(options) {
        if (options.error && options.error.code === "ECONNREFUSED") {
            return new Error("The server refused the connection");
        }
        if (options.total_retry_time > 1000 * 60 * 60) {
            return new Error("Retry time exhausted");
        }
        if (options.attempt > 10) {
            return undefined;
        }
        return Math.min(options.attempt * 100, 3000);
    },
});

client.on("error", function(e) {
    console.error('dynamic-render redis error: ', e);
});

export default client;
ssr.js
import puppeteer from 'puppeteer';
import redisClient from './redis/index.js';

async function ssr(url) {
    const REDIS_KEY = `ssr:${url}`;
    const CACHE_TIME = 600; // 10 分钟缓存
    const CACHE_HTML = await redisClient.getAsync(REDIS_KEY);

    if (CACHE_HTML) {
        return { html: CACHE_HTML, ttRenderMs: 0 };
    }
    const start = Date.now();

    const browser = await puppeteer.launch({
        args: ['--no-sandbox', '--disable-setuid-sandbox']
    });
    const page = await browser.newPage();
    try {
        // networkidle0 waits for the network to be idle (no requests for 500ms).
        await page.goto(url, {waitUntil: 'networkidle0'});
        await page.waitForSelector('#root'); // ensure #posts exists in the DOM.
    } catch (err) {
        console.error(err);
        throw new Error('page.goto/waitForSelector timed out.');
    }

    const html = await page.content(); // serialized HTML of page DOM.
    await browser.close();

    const ttRenderMs = Date.now() - start;
    console.info(`Puppeteer rendered page: ${url} in: ${ttRenderMs}ms`);

    redisClient.set(REDIS_KEY, html, 'EX', CACHE_TIME); // cache rendered page.
    return {html, ttRenderMs};
}

export {ssr as default};
错误渲染
渲染后的页面回到浏览器后，有时执行操作会重新加载样式文件，请求路径类似：/static/1231234sdf.css，这些路径会被当做一个页面路径，而不是静态资源进行渲染，导致渲染错误。解决方式：增加 path 匹配拦截，资源文件直接向原域名请求
import express from 'express';
import request from 'request';
import ssr from './ssr.js';

const app = express();

const host = 'https://www.abc.com';

app.get('/static/*', async (req, res) => {
    request(`${host}${req.url}`).pipe(res);
});

app.get('/manifest.json', async (req, res) => {
    request(`${host}${req.url}`).pipe(res);
});

app.get('/favicon.ico', async (req, res) => {
    request(`${host}${req.url}`).pipe(res);
});

app.get('/logo*', async (req, res) => {
    request(`${host}${req.url}`).pipe(res);
});

app.get('*', async (req, res) => {
    const {html, ttRenderMs} = await ssr(`${host}${req.originalUrl}`);
    res.set('Server-Timing', `Prerender;dur=${ttRenderMs};desc="Headless render time (ms)"`);
    return res.status(200).send(html); // Serve prerendered page as response.
});

app.listen(8080, () => console.log('Server started. Press Ctrl + C to quit'));

动态渲染相比SSR有几点明显好处：

和 SSR 一致的 SEO 效果，通过 puppeteer 还可进一步定制 SEO 方案
node 应用负载压力小，只需应对爬虫请求，相当于只有爬虫来了页面才做SSR
从整体架构上来说相当于一个插件，可随时插拔，无副作用
不需要大量修改SPA代码（只在重复请求问题上用一个标志位去识别，当然也可以不管这个问题）

（重复请求只在爬虫有js执行能力时才出现，一般再次请求数据也没问题）
附录
常见爬虫 user-agent


主体
user-agent
用途



Google
googlebot
搜索引擎


Google
google-structured-data-testing-tool
测试工具


Google
Mediapartners-Google
Adsense广告网页被访问后，爬虫就来访


Microsoft
bingbot
搜索引擎


Linked
linkedinbot
应用内搜索


百度
baiduspider
搜索引擎


奇虎 360
360Spider
搜索引擎


搜狗
Sogou Spider
搜索引擎


Yahoo
Yahoo! Slurp China
搜索引擎


Yahoo
Yahoo! Slurp
搜索引擎


Twitter
twitterbot
应用内搜索


Facebook
facebookexternalhit
应用内搜索


-
rogerbot
-


-
embedly
-


Quora
quora link preview
-


-
showyoubot
-


-
outbrain
-


-
pinterest
-


-
slackbot
-


-
vkShare
-


-
W3C_Validator
-



模拟爬虫测试
# 不带 user-agent 返回SPA页面，html 上无数据
curl 你的网站全路径
# 模拟爬虫、返回页面应该带有 title，body 等数据，方便 SEO
curl -H 'User-agent:Googlebot' 你的网站全路径
参考资料
【1】构建时预渲染：网页首帧优化实践
【2】Implement dynamic rendering
【3】Google 抓取工具（用户代理）概览



基于Docker部署的Jmeter分布式压测
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
为什么需要分布式压测
在压测工作中我们经常遇见对一些关键接口需要压测到很高的QPS，这时候我们需要设置更多的线程去模拟虚拟用户去请求接口，假如我们需要模拟20000个用户，在单台机器很难模拟20000个用户，因为Jmeter是用Java语言开发，每创建一个线程，JVM默认会为每个线程分配1M的堆栈内存空间，这里只计算所需要的内存就需要20G的内存。一般我们的施压机器配置是4核8G或者8核16G的，此时我们需要多台机器共同完成施压请求。
分布式压测一键部署
分布式压测架构示意图如下图所示

Jmeter分布式测试环境中有两个角色：Master和Slaves

Master节点：向参与的Slaves节点发送测试脚本，并聚合Agent节点的执行结果，部署一台
Slaves节点：接收并执行Master节点发送过来的测试脚本，并将执行结果返回给Master，可部署多台

部署前置条件，你的机器上已经安装了Docker
下载Master节点：
docker pull runcare/jmeter-master
下载Slaves节点：
docker pull runcare/jmeter-slave
分布式压测使用
启动Slaves节点，这里假如我们启动三台机器
docker run -it -d --name slave01 runcare/jmeter-slave
docker run -it -d --name slave02 runcare/jmeter-slave
docker run -it -d --name slave03 runcare/jmeter-slave


准备一个测试脚本文件test.jmx
查看一下Slaves机器的IP地址
docker inspect -f '{{ .Name }} => {{ .NetworkSettings.IPAddress }}' $(docker ps -q)

Master机器发送脚本

/Users/eleme/Downloads/jmeter-master 是你脚本test.jmx所在的目录
result=`date +"%Y%m%d%H%M%S"` && docker run --rm -v /Users/eleme/Downloads/jmeter-master:/data a4789222b813 jmeter -n -t /data/test.jmx -l /data/$result.jtl -j /data/$result.log -e -o /data/$result -R 172.17.0.2,172.17.0.3,172.17.0.4
或者
docker run --rm -v $(pwd):/data 20cb9e02cfe8 jmeter -n -t /data/aggregation.jmx -l /data/result.jtl -j /data/result.log  -R 172.17.0.2,172.17.0.3


生产的结果文件，日志文件和报表文件在脚本文件test.jmx同一目录下


如果压测脚本中使用到了csv数据源文件，需要提前复制到Slaves的/data目录下

注意事项

Master和Slaves需要在同一网段，如果mac电脑Master使用安装在mac电脑中的Jmeter，Slaves使用Docker中的Slaves，需要在启动Slaves时将端口映射出来
docker run -it -d -p 1099:1099 -p 60001:60001 runcare/jmeter-slave

执行Master发送脚本时也需要指定server.hostname和server.rmi.localport

进入test.jmx所在目录
result=`date +"%Y%m%d%H%M%S"` && jmeter -n -t test.jmx -l $result.jtl -j $result.log -e -o $result -Djava.rmi.server.hostname=30.208.47.45 -Dserver.rmi.localport=60002 -Dserver_port=1098
Master和Slaves制作附件
Master制作的Dockerfile
# oracle jdk 1.8 备用
#FROM runcare/debian-jre1.8

# openjdk 1.8
FROM runcare/openjdk-jre1.8

# 更新版本1
MAINTAINER runcare

ARG JMETER_VERSION="5.1.1"
ENV JMETER_HOME /opt/apache-jmeter-$JMETER_VERSION
ENV JMETER_DOWNLOAD_URL  https://archive.apache.org/dist/jmeter/binaries/apache-jmeter-$JMETER_VERSION.tgz
ENV SSL_DISABLED true

RUN mkdir -p /tmp/dependencies  
    && curl -L --silent $JMETER_DOWNLOAD_URL >  /tmp/dependencies/apache-jmeter-$JMETER_VERSION.tgz  
    && mkdir -p /opt  
    && tar -xzf /tmp/dependencies/apache-jmeter-$JMETER_VERSION.tgz -C /opt  
    && rm -rf /tmp/dependencies

# TODO: plugins (later)
# && unzip -oq "/tmp/dependencies/JMeterPlugins-*.zip" -d $JMETER_HOME

# Set global PATH such that "jmeter" command is found
ENV PATH $PATH:$JMETER_HOME/bin

VOLUME ["/data"]

WORKDIR    $JMETER_HOME

RUN sed 's/#server.rmi.ssl.disable=false/server.rmi.ssl.disable=true/g' ./bin/jmeter.properties > ./bin/jmeter_temp.properties
RUN mv ./bin/jmeter_temp.properties ./bin/jmeter.properties
Slaves制作的Dockerfile
# oracle jdk 1.8 备用
#FROM runcare/debian-jre1.8

# openjdk 1.8
FROM runcare/openjdk-jre1.8

# 更新版本1
MAINTAINER runcare

ARG JMETER_VERSION="5.1.1"
ENV JMETER_HOME /opt/apache-jmeter-$JMETER_VERSION
ENV JMETER_DOWNLOAD_URL  https://archive.apache.org/dist/jmeter/binaries/apache-jmeter-$JMETER_VERSION.tgz
ENV SSL_DISABLED true

RUN mkdir -p /tmp/dependencies  
    && curl -L --silent $JMETER_DOWNLOAD_URL >  /tmp/dependencies/apache-jmeter-$JMETER_VERSION.tgz  
    && mkdir -p /opt  
    && tar -xzf /tmp/dependencies/apache-jmeter-$JMETER_VERSION.tgz -C /opt  
    && rm -rf /tmp/dependencies

# TODO: plugins (later)
# && unzip -oq "/tmp/dependencies/JMeterPlugins-*.zip" -d $JMETER_HOME

# Set global PATH such that "jmeter" command is found
ENV PATH $PATH:$JMETER_HOME/bin

VOLUME ["/data"]

WORKDIR    $JMETER_HOME

EXPOSE 1099 60001

ENTRYPOINT jmeter-server -Dserver.rmi.localport=60001 -Dserver_port=1099 
            -Jserver.rmi.ssl.disable=$SSL_DISABLED



中国信通院：2020年云计算发展白皮书
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
前言：
-更多关于数智化转型、数据中台内容请加入阿里云数据中台交流群—数智俱乐部 和关注官方微信公总号（文末扫描二维码或点此加入）
-阿里云数据中台官网 https://dp.alibaba.com/index 

（来源：199IT）
中国信通院云计算与大数据研究所副所长栗蔚在会上正式发布并解读白皮书，总结出的2020年云计算发展六大关键词，以及六大关键词背后的重要趋势。
白皮书指出：未来，云计算仍将迎来下一个黄金十年，进入普惠发展期。一是随着新基建的推进，云计算将加快应用落地进程，在互联网、政务、金融、交通、物流、教育等不同领域实现快速发展。二是全球数字经济背景下，云计算成为企业数字化转型的必然选择，企业上云进程将进一步加速。三是新冠肺炎疫情的出现，加速了远程办公、在线教育等SaaS服务落地，推动云计算产业快速发展。”
关键词1：云原生
随着市场持续增长，云技术也不断推陈出新，其中一个值得高度关注的趋势是——云原生采纳率持续攀升。栗蔚介绍，目前超四成的企业已经在使用容器技术，超过七成的私有云企业已经使用或计划使用微服务架构。
关键词2：SaaS
“疫情下，越来越多的企业接受SaaS的模式。”栗蔚表示，从业务上看，我国IaaS发展成熟，PaaS增长高速，SaaS潜力巨大。2019年，我国SaaS市场规模达到194亿元，与全球整体市场（1095亿美元）的成熟度差距明显，但是发展空间却十分巨大。尤其是受疫情的推动，预计未来市场将加速发展。
关键词3：分布式云
“随着云边协同的发展，在工业等多个领域，分布式云将成为主要模式。”栗蔚说，中国信通院的调研显示，超过50%的用户已经计划或者已经使用边缘云的模式，“中心云+边缘云”的分布式云的架构已经崭露头角。
关键词4：原生云安全
“近年来，一个新的理念诞生，即原生云安全。”栗蔚表示，中国信通院发布的《中国公有云发展调查报告（2020年）》显示，42.4%的企业在选择公有云服务商时会考虑服务安全性，安全是影响企业选择的重要因素。而随着云原生快速兴起，原生云安全也成为关注焦点。
关键词5:数字化转型
数字化转型已经成为经济社会发展的重要趋势。栗蔚指出，随着云计算技术、架构、安全等方面的推陈出新，云计算在数字化转型中扮演重要角色。调查显示，超过五成的企业使用云计算是为了降本增效，超四成的企业表示使用云计算提升了IT运行效率，IT运维工作量减少和安全性提升的占比分别为25.8%和24.2%。
关键词6：新基建
“随着利好政策不断加码，云计算已经成为新基建的重要组成部分。”栗蔚表示，无论是工业和信息化部发布的《中小企业数字化赋能专项行动方案》，国家发展改革委、中央网信办发布的《关于推进“上云用数赋智”行动培育新经济发展实施方案》，还是国家发展改革委对新基建概念的解读，都表明——云计算已经成为新基建的重要组成部分。
最后，《白皮书》指出，2020年又是一个新十年的开端，无论是如火如荼的“新基建”、稳步推进的企业数字化转型，还是突如其来的疫情，都将云计算推向了一个新高度。未来十年，云计算将进入全新发展阶段，具体表现为以下六大趋势：
趋势1：云技术从粗放向精细转型
趋势2：云需求从IaaS向SaaS上移
趋势3：云架构从中心向边缘延伸
趋势4：云安全从外部向原生转变
趋势5：云应用从互联网向行业生产渗透
趋势6：云定位既是基础资源也是基建操作系统
详细报告可点击查看：链接文字
或者扫码钉钉群下载



理解Rust的Result/Option/unwrap/?
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
我在学习Rust时，注意到有4个概念经常放到一起讨论：Result、Option、unwapr和?操作符。本文记录了我对这4个Rust概念的思考，这个思考过程帮助我理解并学会了如何写出更地道的Rust代码。
区块链开发教程链接：以太坊 | 比特币 | EOS | Tendermint | Hyperledger Fabric | Omni/USDT | Ripple
1、Option - 可空变量
虽然Rust中有null的概念，但是使用null并不是Rust中常见的模式。假设我们要写一个函数，输入一种手机操作系统的名称，这个函数就会返回其应用商店的名称。如果传入字符串iOS，该函数将返回App Store；如果传入字符串android，那么该函数将返回Play Store。任何其他的输入都被视为无效。
在大多数开发语言中，我们可以选择返回null或字符串invalid来表示无效的结果，不过这不是Rust的用法。
地道的Rust代码应该让该函数返回一个Option。Option或更确切的说Option是一个泛型，可以是Some或None（为了便于阅读，后续文章中将省略类型参数T）。Rust将Some和None称为变体（Variant） —— 这一概念在其他语言中并不存在，因此我也不
去定义到底什么是变体了。
在我们的示例中，正常情况下函数将返回包裹在Some变体中的字符串常量App Store或Play Store。而在非正常情况下，函数将返回None。
fn find_store(mobile_os: &str) -> Option<&str> {
    match mobile_os {
        "iOS" => Some("App Store"),
        "android" => Some("Play Store"),
        _ => None
    }
}
要使用find_store()，我们可以用如下方式调用：
fn main() {
    println!("{}", match find_store("windows") {
        Some(s) => s,
        None => "Not a valid mobile OS"
    });
}
完整的代码如下：
fn find_store(mobile_os: &str) -> Option<&str> {
    match mobile_os {
        "iOS" => Some("App Store"),
        "android" => Some("Play Store"),
        _ => None
    }
}

fn main() {
    println!("{}", match find_store("windows") {
        Some(s) => s,
        None => "Not a valid mobile OS"
    });
}
2、Result - 包含错误信息的结果
Result，或者更确切地说Result，是和Rust中的Option相关的概念，它是一个加强版本的Option。
Result可能有以下结果之一：

Ok(T)：结果为成员T
Err(E)：结果为故障成员E

与之前我们看到Option可以包含Some或None不同，Result中包含了错误相关信息，这是Option中所没有的。
让我们看一个函数实例，它返回一个Result。该函数摘自用于解析JSON字符串的serde_json库，其签名为：
pub fn from_str<'a, T>(s: &'a str) -> Result 
where
    T: Deserialize<'a>, 
假设我们要解析如下的字符串：
let json_string = r#"
    {
        "name": "John Doe",
        "age": 43,
        "phones": [
            "+44 1234567",
            "+44 2345678"
        ]
    }"#;
目标是解析为Rust的一个person结构对象：
#[derive(Serialize, Deserialize)]
struct Person {
    name: String,
    age: u8,
    phones: Vec,
}
解析过程的Rust代码如下：
let p:Person = match serde_json::from_str(json_string) {
    Ok(p) => p,
    Err(e) => ... //we will discuss what goes here next 
};
正常情况下可以得到期望的结果。不过假设在输入的json_string中有一个笔误，这导致程序运行时将执行Err分支。
当碰到Err时，我们可以采取两个动作：

panic!
返回Err

3、unwrap - 故障时执行panic！
在上面的示例中，假设我们期望panic!：
let p: Person = match serde_json::from_str(data) {
        Ok(p) => p,
        Err(e) => panic!("cannot parse JSON {:?}, e"), //panic
    }
当碰到Err时，上面的代码panic!就会崩掉整个程序，也许这不是你期望的。我们可以修改为：
let p:Person = serde_json::from_str(data).unwrap();
如果我们可以确定输入的json_string始终会是可解析的，那么使用unwrap没有问题。但是如果会出现Err，那么程序就会崩溃，无法从故障中恢复。在开发过程中，当我们更关心程序的主流程时，unwrap也可以作为快速
原型使用。
因此unwrap隐含了panic!。虽然与更显式的版本没有差异，但是危险在于其隐含特性，因为有时这并不是你真正期望的行为。
无论如何，如果我们需要调用panic!，代码如下：
use serde::{Deserialize, Serialize};
use serde_json::Result;

#[derive(Serialize, Deserialize)]
struct Person {
    name: String,
    age: u8,
    phones: Vec,
}

fn typed_example() -> Result<()> {
    //age2 is error on purpose
    let data = r#"
        {
            "name": "John Doe",
            "age2": 43,
            "phones": [
                "+44 1234567",
                "+44 2345678"
            ]
        }"#;

    let p:Person = serde_json::from_str(data).unwrap();

    println!("Please call {} at the number {}", p.name, p.phones[0]);

    Ok(())
}

fn main() {
    match typed_example() {
        Ok(_) => println!("program ran ok"),
        Err(_) => println!("program ran with error"),
    }
}
4、?  - 故障时返回Err对象
当碰到Err时，我们不一定要panic!，也可以返回Err。不是每个Err都是不可恢复的，因此有时并不需要panic!。下面的代码返回Err：
let p: Person = match serde_json::from_str(data) {
        Ok(p) => p,
        Err(e) => return Err(e.into()),
};
?操作符提供了一个更简洁的方法来替换上面的代码：
let p:Person = serde_json::from_str(data)?;
这时完整的Rust程序代码如下：
use serde::{Deserialize, Serialize};
use serde_json::Result;

#[derive(Serialize, Deserialize)]
struct Person {
    name: String,
    age: u8,
    phones: Vec,
}

fn typed_example() -> Result<()> {
    //age2 is error on purpose
    let data = r#"
        {
            "name": "John Doe",
            "age2": 43,
            "phones": [
                "+44 1234567",
                "+44 2345678"
            ]
        }"#;

    let p: Person = serde_json::from_str(data)?;

    println!("Please call {} at the number {}", p.name, p.phones[0]);

    Ok(())
}

fn main() {
    match typed_example() {
        Ok(_) => println!("program ran ok"),
        Err(e) => println!("program ran with error {:?}", e),
    }
}
5、使用unwrap和?解包Option
就像我们可以使用unwarp和?来处理Result，我们也可以使用unwrap和?来处理Option。
如果我们unwrap的Option的值是None，那么程序就会panic!。示例如下：
fn next_birthday(current_age: Option) -> Option {
    // If `current_age` is `None`, this returns `None`.
    // If `current_age` is `Some`, the inner `u8` gets assigned to `next_age` after 1 is added to it
    let next_age: u8 = current_age?;
    Some(format!("Next year I will be {}", next_age + 1))
}

fn main() {
  let s = next_birthday(None);
  match s {
      Some(a) => println!("{:#?}", a),
      None => println!("No next birthday")
  }
}

原文链接：Rust学习 - Result/Option/unwrap/? — 汇智网



SaaS 模式云数据仓库 MaxCompute 数据安全最佳实践
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
什么是 MaxCompute?
MaxCompute 是一款云原生、高效能的SaaS模式企业级数据仓库服务，被广泛用于构建现代化企业数据平台，开展BI分析、数据化运营、画像及推荐、智能预测等应用场景。
MaxCompute 构建在阿里云大规模计算、存储资源之上，以Serverless架构提供全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，并最小化用户的运维投入。
MaxCompute支持多种经典计算模型（批处理、机器学习、交互式分析等）和完善的企业管理功能，借助MaxCompute，用户可轻松集成和管理企业数据资产，简化数据平台架构，加速价值实现。
MaxCompute 企业级安全能力升级
MaxCompute 近期对产品的安全能力进行了全面升级。 发布的安全能力有：
· 细粒度授权
· 数据加密 (BYOK)
· 数据脱敏（数据保护伞）
· 持续备份恢复
· 跨地域的容灾备份
· 实时审计日志
MaxCompute 安全体系
对于一个企业级的大数据平台，要应对的安全风险，有三个层次（如图-1）：
1.基础安全与可信平台，保障数据中心的物理安全与网络安全，主要包括数据中心保障设施、数据中心安全管控、数据中心的网络安全等几个维度的建设。
2.大数据平台的系统安全，主要由访问控制、安全隔离、风控审计、以及数据保护等子系统构成，为上层安全应用或工具提供平台能力基础。
3.数据应用的安全，为用户提供工具化的数据安全产品，优化用户体验，帮助用户更好应对各类数据风险。


（图-1：大数据平台安全体系）
近期的MaxCompute安全能力升级，主要新功能覆盖了访问控制、风控审计、以及数据保护几个子系统，如图-1中“大数据平台安全”层中，黄色高亮字体部分。本文中，我们将针对几类主要的数据风险（如图-2），介绍这些数据风险应对的最佳实践。在最佳实践中，将会穿插介绍何时使用、为什么使用、如何使用这些新功能。


（图-2：主要数据风险）
如何应对数据误用
数据误用是由于非故意的、过失性动作导致的，防止误用一般指防止数据被不经意间错误使用。应对数据误用的风险，防止数据误用，核心的一点，就是了解数据，能够回答这些问题：我有什么数据，这些数据在哪里，这些数据是怎么来的、又被如何使用，等一系列问题。
1. MaxCompute 提供基础元数据信息
MaxCompute 可以帮助用户很好的回答这些问题。 MaxCompute 平台构建了统一的元数据管理，基于统一元数据和完备的平台日志，向用户提供元数据和相关日志数据。 用户可以基于 MaxCompute 的 Information Schema，构建自己的数据管理应用。
2. 使用数据地图作为数据管理工具
大多数用户更希望通过现有的数据管理应用或服务，来了解自己的数据：“DataWorks-数据地图”就是这样的应用。 数据总览、数据明细等信息能帮助用户了解自己有哪些数据以及数据的明细信息；产出和使用信息、血缘信息，则能帮助用户了解数据的来龙去脉，帮助用户正确、合理的使用数据。 使正确的数据，被正确的使用在正确的场景下。


（图-3：使用数据地图了解数据）

如何应对数据滥用
数据滥用指的是对数据的使用超出了其预先约定的场景或目的，数据滥用一般是靠故意的、带有目的性的动作完成的。而应对数据滥用，最主要的应对是对数据使用做最小化授权，严格限制数据的被访问、使用的范围。权限管理的最佳实践，推荐图-5中的4大过程：
• 数据分级管理：基于 MaxCompute 的 LabelSecurity 对数据做分类分级管理。
• 授权审批流程：基于 MaxCompute 的 列级别权限管控能力， 对数据的访问使用需求，做最小化授权。
• 定期审计：对权限的申请、审批、使用情况进行分析，做到事前有审批，事后有审计。
• 及时清理：及时清理过期权限，减少数据风险。
可以依托 MaxCompute 的细粒度权限体系，使用 Dataworks 等白屏化工具，来实现最小化授权的最佳实践，应对数据滥用的风险。
(New) MaxCompute 细粒度权限体系提供精细化的权限管理能力
MaxCompute支持不同的授权机制来完成对用户或角色的授权，包括：
• 自主访问控制机制 (DAC, Discretionary Access Control): ACL
• 强制访问控制机制 (MAC, Mandatory Access Control)：LabelSecurity(标签安全策略)
• 基于角色的访问控制机制 (RBAC, Role based Access Control): 角色管理
不论是哪种访问控制机制，授权鉴权过程中的三个要素是相同的：Action，Object，以及Subject，如下图。
在此次的MaxCompute 安全能力发布中，也包括权限模型的升级，支持更细粒度的授权鉴权，提供精细化的权限管理能力。 主要新功能有：
• ACL 支持列级别权限管理，增加Condition支持，增加授权有效期支持；
• 细粒度 Package 内资源权限管控，对 Package 内的资源可以支持到列级别的权限管控；
• 增加独立的 Download 数据下载权限管理，对更高风险的数据批量下载场景做独立权限管控；
• 管理类权限支持分级授权管理，内置 super administrator 角色来分解project owner 管理负担；
• 完善 RBAC，LabelSecurity 增加对 Role 的支持；
• 增强对应用端的权限管理能力。


（图-4：MaxCompute 细粒度权限体系）
（橙色高亮字体为此次细粒度权限能力发布）
2.使用安全中心进行白屏化权限管理
MaxCompute 的细粒度权限体系提供了的实现最小化授权的平台能力，结合一些白屏化工具，如“DataWorks-安全中心”，则可以提供更好的用户体验，让用户更方便的实现权限管理。


（图-5：使用安全中心做白屏化权限管理）
安全中心提供便捷的权限管控功能和可视化的申请、审批流程，也可以进行权限的审计和管理：
• 权限自助申请：选择所需权限的数据表/字段，在线上快速发起申请。
• 权限审计及交还：管理员可以查看数据权限的对应人员，进行审计管理，用户也可以主动交还不再需要的权限。
• 权限审批管理：在线审批授权模式，提供可视化、流程化的管理授权机制，并可以对审批流程进行事后追溯。
如何应对数据泄露
1.数据生命周期


（图-6：数据生命周期）
数据泄露可能发生在数据生命周期的多个阶段，如数据传输、数据存储、数据处理、数据交换等阶段。因此，我们将结合数据生命周期的不同阶段来介绍应对数据泄露的最佳实践。
首先，数据从不同的渠道被采集，经过各类传输通道，进入大数据平台。 在大数据平台中，经过计算后落盘存储；数据也会通过数据分享机制，在不同的租户、业务之间流转；经过一定周期后，一些数据也会被删除销毁。经过处理后的数据，则会通过不同的传输通道，被其他数据应用、或者用户消费。 (如图-7）。


（图-7：大数据平台中的数据生命周期）

2.(New) 应对数据存储过程中的数据泄露风险 - 使用数据加密（存储加密）功能
我们首先看一下如何应对数据存储过程中的数据泄露风险：如磁盘数据被直接访问，磁盘被获取，等风险。应对此类情况的措施，是对磁盘数据进行加密，这样即使数据被恶意获取，加密后的数据也无法被解读使用。
此次安全能力升级中， MaxCompute 发布了存储加密功能，支持用户数据的落盘加密：
• MaxCompute接入秘钥管理系统KMS以保障秘钥的安全性，支持服务秘钥和用户自选秘钥(BYOK)。
• 用户可以在创建MaxCompute项目时，配置选择打开存储加密功能(存量用户可以通过工单申请开通)。
• 支持加密算法：AES256，国密算法，等。
• .数据加密后对用户使用保持透明，各种类型的任务不需额外改变。
3.应对数据数据处理过程中的数据泄露风险 - MaxCompute 安全隔离能力
在数据处理过程中，应对数据泄露的风险则主要在于大数据平台的安全隔离能力。
MaxCompute 提供独立的隔离环境用于执行数据处理应用，可以支持完整的UDF种类，支持 Java和Python UDF, 还支持执行如Spark、Flink、Tensorflow 等开源三方计算引擎，提供了多元化的数据处理能力。


（图-8：MaxCompute 安全隔离能力）
4.应对数据交换(共享)过程中的数据泄露风险 - MaxCompute数据隔离与权限体系
在数据交换、或者说数据共享过程中，则需要完善的数据隔离能力与权限管理体系来保障数据安全、防范数据泄露风险。MaxCompute 提供不同层级和维度上的数据隔离与权限管理机制，以支持多层次的数据保护和数据共享场景。
• 多租户的数据安全隔离：MaxCompute 支持多租户的使用场景，针对不同的用户数据进行数据存储隔离，用户数据被离散存储在分布式文件系统中，满足多用户协同、共享、和安全的需要，做到真正的多租户资源隔离。
• 租户内的业务(Project)数据隔离与共享：同一租户下，不同业务（Project）之间的数据隔离、以及一定程度上的数据共享是非常常见的场景。基于ProjectProtection 保护机制可以实现 Project之间的数据隔离与保护，二Package则能让用户更方便同时也更安全的实现跨Project的数据和资源分享。如前文“MaxCompute 细粒度权限体系提供精细化的权限管理能力”介绍，此次安全能力升级增加了对Package的数据和资源做细粒度的权限管理，增强了Package的数据共享和保护能力。
• (New) 应用端数据访问控制：通过对访问MaxCompute的的应用增加签名机制，增强了对应用端访问控制的管理能力。 例如，只允许特定的应用可以进行授权语句的操作，以避免用户通过接口或不合规的应用进行非法数据授权操作。


（图-9：MaxCompute 数据隔离能力）
5.(New) 数据生命周期中的敏感数据保护
应对数据泄露风险中的一个重要主题是敏感数据保护，前文所述在存储、处理、和交换过程中的风险应对实践，对敏感数据保护同样适用。 此外，还有一些针对敏感数据保护这一特定场景的最佳实践：
• 数据分类分级：使用 MaxCompute 的 LabelSecurity 功能，对数据做安全性的分类分级，对不同类别不同安全等级的数据访问和使用，进行精细化的权限管理。
• （New) 数据脱敏：基于安全行业的脱敏实现或应用，结合 MaxCompute 的平台 UDF 能力，实现不同客户端数据输出时的敏感数据脱敏。脱敏实现也可以与数据分类分级结合使用，对不同分类分级的数据做不同的脱敏实现。


（图-10：敏感数据保护）
（New）用数据保护伞作为敏感数据保护工具
数据保护伞，是基于 MaxCompute 平台的数据分类分级能力和接入脱敏应用能力、构建的敏感数据保护工具。用户可以使用数据保护伞对敏感数据进行标识，选择脱敏算法，在数据屏显输出时进行脱敏。
更多产品说明和使用介绍，详见《数据保护伞》用户文档。


（图-11：敏感数据保护工具 - 数据保护伞）
如何应对数据丢失
除了恶意的数据泄露、数据滥用等风险，数据开发过程中的各种误操作，偶发的设备或机房故障，甚或是罕见的灾害意外情况，都能造成数据丢失的后果。 应对数据丢失风险的最佳实践，主要有备份恢复，以及容灾能力。
1.(New) MaxCompute 备份与恢复
数据开发过程中，避免不了会有误操作删除数据(如Drop/Truncate Table)后需要恢复，或使用“insert into”、“insertoverwrite”语法执行后发现数据有问题需要恢复之前版本。
MaxCompute 近期发布了持续的备份与恢复能力，系统会自动备份数据的历史版本（例如被删除或修改前的数据）并保留一定时间，您可以对保留周期内的数据进行快速恢复，避免因误操作丢失数据。


（图-12：MaxCompute 持续备份与恢复能力）
2.(New) MaxCompute 异地容灾
MaxCompute 的异地容灾能力，更好的提供了在机房故障或意外灾害等极端场景下的数据安全保障。
在为 MaxCompute 项目指定备份位置到备份集群后，MaxCompute 自动实现主集群与备份集群的数据复制，达到主集群与被集群数据的一致，实现异地数据容灾。当发生故障，MaxCompute 项目从主集群切换到备份集群后，使用备份集群的计算资源访问备份集群的数据，完成服务的切换和恢复。

（图-13：MaxCompute 异地容灾）
善用审计，应对各类数据风险
至此，我们已经介绍了在数据开发和使用过程中，应对各类数据风险的实践。我们把非常重要的、适用于各类数据风险应对的一个实践，放在最后介绍：善用日志，构建预警和审计能力。
MaxCompute 提供了完善的历史数据和实时日志：
• Information Schema：提供了项目元数据及使用历史数据等信息。PRIVILEGES 和 HISTORY 类的视图，可以帮助用户对数据权限使用、任务执行等维度做分析审计。
• (New) 实时审计日志功能：MaxCompute 完整记录了用户的各项操作行为，如DDL、授权、任务执行等各类事件，满足实时审计、问题回溯分析等需求。
基于 Information Schema 和 实时审计日志，用户可以构建自己的数据风控和审计体系。Information Schema 去年就已上线，下文将主要介绍新发布的实时审计日志。
当然，并不是所有的用户都计划自己构建风控和审计工具，这种情况下，可以直接使用 Dataworks 中的已有产品，进行风控和审计。优点是无需用户二次开发、开箱即用，缺点则是定制的弹性较小。
1.(New) 实时审计日志
敏感数据是否被过度使用？数据访问权限是否被过度授予？是否有异常如计划外高频的数据访问？在数据安全保障中，管理者常常需要回答这些问题。 MaxCompute 审计日志可以帮助回答这些问题。
MaxCompute完整地记录用户的各项操作行为，并通过阿里云ActionTrail服务将用户行为日志实时推送给ActionTrail。用户可以在ActionTrail中查看和检索用户行为日志，同时通过ActrionTrail将日志投递到日志服务项目或指定的OSS Bucket中，满足实时审计、问题回溯分析等需求。
ActionTrail针对作业（Instance）、表（Table）、函数（Function）、资源（Resource）、用户（User）、角色（Role）和授权（Privilege）等事件的多种操作行为进行审计，详细功能说明和使用介绍，详见《审计日志》用户文档。


（图-14：MaxCompute 审计日志）


2.使用 DataWorks 中的审计工具用户也可以使用 Dataworks 的已有产品，进行数据安全的风控和审计：
• 在前文中介绍的安全中心，可以提供权限的审计。
• 数据保护伞也提供了风控和审计能力，如图-15。


（图-15：使用数据保护伞做风控和审计）
小结
小结的同时呼应开篇，我们再次来看企业级大数据平台三个层次的数据安全保障体系。 这次我们把 MaxCompute 的安全能力按数据生命周期的6个阶段来重新组织，如图-16。帮助大家更好理解，在不同的数据生命阶段，应该采用哪些实践来实施安全保障。图-16中的黄色高亮部分，则标识了此次 MaxCompute 安全能力升级中的新功能。


（图-16：基于大数据平台构建数据什么周期的安全保障）
作为 SaaS 模式下的云数据仓库，MaxCompute 具备领先的安全能力，也通过了国际、欧洲、国内的多项安全合规认证，如国际主流认证ISO系列、SOC1/2/3、PCI，欧洲主流认证C5，国内主流认证安全等级保护2.0，等。 阿里云整体的安全合规认证，详见《阿里云信任中心-合规认证》页面。 欢迎大家使用 MaxCompute，构建企业级的大数据安全。
发布会传送门
查看产品详情



分布式接口限流实现
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
@[toc]
 ## 为什么要接口限流
在我们项目开发过程中，有些接口是暴露在用户的常用中，包括一些高危接口，如  （支付，开发票，订单），这些接口 都是高危接口，且被用户经常使用，在高并发的情况下，io阻塞，不可避免的出现重复提交，或者点击频繁的操作，所以我们就要加入限流，避免用户多次点击，减少我们接口的压力，把整数据不会重复，接口压力减小
为什么要做分布式
在我们做项目负载均衡的时候, 分布式，微服务架构的时候，不可避免的多个节点，这个时候我们就要考虑会被随机分配到各个节点，如果 我们使用 令牌桶 或者 漏斗桶 算法到话，存到 本地，各个节点不会共享，所以
我们要考虑模块，节点间的共享
实现方式
1. 算法实现(无分布式，单体架构，单节点)
自定义注解
package com.yxl.annotation;

import org.springframework.core.annotation.AliasFor;

import java.lang.annotation.*;
import java.util.concurrent.TimeUnit;

/**
 * 
 * 限流注解，
 * 
 */
@Target(ElementType.METHOD)
@Retention(RetentionPolicy.RUNTIME)
@Documented
public @interface RateLimiter {

    int NOT_LIMITED = 0;

    /**
     * qps
     */
    @AliasFor("qps") double value() default NOT_LIMITED;

    /**
     * qps
     */
    @AliasFor("value") double qps() default NOT_LIMITED;

    /**
     * 超时时长
     */
    int timeout() default 0;

    /**
     * 超时时间单位
     */
    TimeUnit timeUnit() default TimeUnit.MILLISECONDS;

}
AOP实现切面  +  令牌桶算法实现
package com.yxl.aspect;

import com.yxl.annotation.RateLimiter;
import lombok.extern.slf4j.Slf4j;
import org.aspectj.lang.ProceedingJoinPoint;
import org.aspectj.lang.annotation.Around;
import org.aspectj.lang.annotation.Aspect;
import org.aspectj.lang.annotation.Pointcut;
import org.aspectj.lang.reflect.MethodSignature;
import org.springframework.core.annotation.AnnotationUtils;
import org.springframework.stereotype.Component;

import java.lang.reflect.Method;
import java.util.concurrent.ConcurrentHashMap;
import java.util.concurrent.ConcurrentMap;


/**
 * 
 * 限流切面
 * 
 *
 * @author yxl
 * @date Created in 2019/9/12 14:27
 */
@Slf4j
@Aspect
@Component
public class RateLimiterAspect {
    private static final ConcurrentMap RATE_LIMITER_CACHE = new ConcurrentHashMap<>();

    @Pointcut("@annotation(com.yxl.annotation.RateLimiter)")
    public void rateLimit() {

    }

    @Around("rateLimit()")
    public Object pointcut(ProceedingJoinPoint point) throws Throwable {
        MethodSignature signature = (MethodSignature) point.getSignature();
        Method method = signature.getMethod();
        // 通过 AnnotationUtils.findAnnotation 获取 RateLimiter 注解
        RateLimiter rateLimiter = AnnotationUtils.findAnnotation(method, RateLimiter.class);
        if (rateLimiter != null && rateLimiter.qps() > RateLimiter.NOT_LIMITED) {
            double qps = rateLimiter.qps();
            if (RATE_LIMITER_CACHE.get(method.getName()) == null) {
                // 初始化 QPS
                RATE_LIMITER_CACHE.put(method.getName(), com.google.common.util.concurrent.RateLimiter.create(qps));
            }

            log.debug("【{}】的QPS设置为: {}", method.getName(), RATE_LIMITER_CACHE.get(method.getName()).getRate());
            // 尝试获取令牌
            if (RATE_LIMITER_CACHE.get(method.getName()) != null && !RATE_LIMITER_CACHE.get(method.getName()).tryAcquire(rateLimiter.timeout(), rateLimiter.timeUnit())) {
                throw new RuntimeException("手速太快了，慢点儿吧~");
            }
        }
        return point.proceed();
    }
}

使用方式

查看结果（这里使用了自定义异常）

2. 分布式实现
package com.yxzapp.annotation;

import org.springframework.core.annotation.AliasFor;

import java.lang.annotation.*;
import java.util.concurrent.TimeUnit;

/**
 * 
 * 限流注解，
 * 
 */
@Target(ElementType.METHOD)
@Retention(RetentionPolicy.RUNTIME)
@Documented
public @interface RateLimiter {

    int NOT_LIMITED = 0;

    /**
     * 类名
     * @return
     */
    String className() default "";

    /**
     * qps
     */
    @AliasFor("qps") double value() default NOT_LIMITED;

    /**
     * qps
     */
    @AliasFor("value") double qps() default NOT_LIMITED;

    /**
     * 限流时间
     */
    int timeout() default 0;

    /**
     * 超时时间单位
     */
    TimeUnit timeUnit() default TimeUnit.MILLISECONDS;

}

使用 AOP + redis 实现
package com.yxzapp.aspect;


import com.yxzapp.annotation.RateLimiter;
import com.yxzapp.commons.constant.MessageConstant;
import com.yxzapp.exception.BizException;
import com.yxzapp.modules.sys.entity.SysUser;
import com.yxzapp.utils.RedisUtils;
import lombok.extern.slf4j.Slf4j;
import org.apache.shiro.SecurityUtils;
import org.aspectj.lang.ProceedingJoinPoint;
import org.aspectj.lang.annotation.Around;
import org.aspectj.lang.annotation.Aspect;
import org.aspectj.lang.annotation.Pointcut;
import org.aspectj.lang.reflect.MethodSignature;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.core.annotation.AnnotationUtils;
import org.springframework.stereotype.Component;
import org.springframework.web.context.request.RequestContextHolder;
import org.springframework.web.context.request.ServletRequestAttributes;

import javax.servlet.http.HttpServletRequest;
import java.lang.reflect.Method;
import java.util.concurrent.ConcurrentHashMap;
import java.util.concurrent.ConcurrentMap;


/**
 * 
 * 限流切面
 * 
 *
 * @author yxl
 * @date  2020/6/19
 */
@Slf4j
@Aspect
@Component
public class RateLimiterAspect {

    @Autowired
    private RedisUtils redisUtils;

    @Pointcut("@annotation(com.yxzapp.annotation.RateLimiter)")
    public void rateLimit() {

    }

    @Around("rateLimit()")
    public Object pointcut(ProceedingJoinPoint point) throws Throwable {
        MethodSignature signature = (MethodSignature) point.getSignature();
        Method method = signature.getMethod();
        Class aClass = signature.getClass();

        // 获取方法上的@RateLimiter注解
        RateLimiter rateLimiter = AnnotationUtils.findAnnotation(method, RateLimiter.class);
    
        if (rateLimiter != null && rateLimiter.qps() > RateLimiter.NOT_LIMITED) {
            //获取qps
            double qps = rateLimiter.qps();
            
            String key = "RateLimiter:" rateLimiter.className() + +':'+ method.getName();
            if(!redisUtils.hasKey(key)){
                redisUtils.setMillisecond(key,rateLimiter.qps(),rateLimiter.timeout());
            }else if(redisUtils.get(key) != null) {
                throw new BizException(MessageConstant.MSG_STATUS,"手速太快了，慢点儿吧~");
            }

            log.debug("【{}】的QPS设置为: {}", key, redisUtils.get(key));

        }
        return point.proceed();
    }
}
使用方式

查看结果 （这里使用了自定义异常）




详细讲解！RabbitMQ防止数据丢失
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
思维导图

一、分析数据丢失的原因
分析RabbitMQ消息丢失的情况，不妨先看看一条消息从生产者发送到消费者消费的过程：

可以看出，一条消息整个过程要经历两次的网络传输：从生产者发送到RabbitMQ服务器，从RabbitMQ服务器发送到消费者。
在消费者未消费前存储在队列(Queue)中。
所以可以知道，有三个场景下是会发生消息丢失的：

存储在队列中，如果队列没有对消息持久化，RabbitMQ服务器宕机重启会丢失数据。
生产者发送消息到RabbitMQ服务器过程中，RabbitMQ服务器如果宕机停止服务，消息会丢失。
消费者从RabbitMQ服务器获取队列中存储的数据消费，但是消费者程序出错或者宕机而没有正确消费，导致数据丢失。

针对以上三种场景，RabbitMQ提供了三种解决的方式，分别是消息持久化，confirm机制，ACK事务机制。

二、消息持久化
RabbitMQ是支持消息持久化的，消息持久化需要设置：Exchange为持久化和Queue持久化，这样当消息发送到RabbitMQ服务器时，消息就会持久化。
首先看Exchange交换机的类图：

看这个类图其实是要说明上一篇文章介绍的四种交换机都是AbstractExchange抽象类的子类，所以根据java的特性，创建子类的实例会先调用父类的构造器，父类也就是AbstractExchange的构造器是怎么样的呢？

从上面的注释可以看到durable参数表示是否持久化。默认是持久化(true)。创建持久化的Exchange可以这样写：
    @Bean
    public DirectExchange rabbitmqDemoDirectExchange() {
        //Direct交换机
        return new DirectExchange(RabbitMQConfig.RABBITMQ_DEMO_DIRECT_EXCHANGE, true, false);
    }
接着是Queue队列，我们先看看Queue的构造器是怎么样的：

也是通过durable参数设置是否持久化，默认是true。所以创建时可以不指定：
    @Bean
    public Queue fanoutExchangeQueueA() {
        //只需要指定名称，默认是持久化的
        return new Queue(RabbitMQConfig.FANOUT_EXCHANGE_QUEUE_TOPIC_A);
    }
这就完成了消息持久化的设置，接下来启动项目，发送几条消息，我们可以看到：

怎么证明是已经持久化了呢，实际上可以找到对应的文件：

找到对应磁盘中的目录：

消息持久化可以防止消息在RabbitMQ Server中不会因为宕机重启而丢失。
三、消息确认机制
3.1 confirm机制
在生产者发送到RabbitMQ Server时有可能因为网络问题导致投递失败，从而丢失数据。我们可以使用confirm模式防止数据丢失。工作流程是怎么样的呢，看以下图解：

从上图中可以看到是通过两个回调函数confirm()、returnedMessage()进行通知。
一条消息从生产者发送到RabbitMQ，首先会发送到Exchange，对应回调函数confirm()。第二步从Exchange路由分配到Queue中，对应回调函数则是returnedMessage()。
代码怎么实现呢，请看演示：
首先在application.yml配置文件中加上如下配置：
spring:
  rabbitmq:
    publisher-confirms: true
#    publisher-returns: true
    template:
      mandatory: true
# publisher-confirms：设置为true时。当消息投递到Exchange后，会回调confirm()方法进行通知生产者
# publisher-returns：设置为true时。当消息匹配到Queue并且失败时，会通过回调returnedMessage()方法返回消息
# spring.rabbitmq.template.mandatory: 设置为true时。指定消息在没有被队列接收时会通过回调returnedMessage()方法退回。
有个小细节，publisher-returns和mandatory如果都设置的话，优先级是以mandatory优先。可以看源码：

接着我们需要定义回调方法：
@Component
public class RabbitmqConfirmCallback implements RabbitTemplate.ConfirmCallback, RabbitTemplate.ReturnCallback {
    private Logger logger = LoggerFactory.getLogger(RabbitmqConfirmCallback.class);

    /**
     * 监听消息是否到达Exchange
     *
     * @param correlationData 包含消息的唯一标识的对象
     * @param ack             true 标识 ack，false 标识 nack
     * @param cause           nack 投递失败的原因
     */
    @Override
    public void confirm(CorrelationData correlationData, boolean ack, String cause) {
        if (ack) {
            logger.info("消息投递成功~消息Id：{}", correlationData.getId());
        } else {
            logger.error("消息投递失败，Id：{}，错误提示：{}", correlationData.getId(), cause);
        }
    }

    @Override
    public void returnedMessage(Message message, int replyCode, String replyText, String exchange, String routingKey) {
        logger.info("消息没有路由到队列，获得返回的消息");
        Map map = byteToObject(message.getBody(), Map.class);
        logger.info("message body: {}", map == null ? "" : map.toString());
        logger.info("replyCode: {}", replyCode);
        logger.info("replyText: {}", replyText);
        logger.info("exchange: {}", exchange);
        logger.info("routingKey: {}", exchange);
        logger.info("------------> end <------------");
    }

    @SuppressWarnings("unchecked")
    private  T byteToObject(byte[] bytes, Class clazz) {
        T t;
        try (ByteArrayInputStream bis = new ByteArrayInputStream(bytes);
             ObjectInputStream ois = new ObjectInputStream(bis)) {
            t = (T) ois.readObject();
        } catch (Exception e) {
            e.printStackTrace();
            return null;
        }
        return t;
    }
}
我这里就简单地打印回调方法返回的消息，在实际项目中，可以把返回的消息存储到日志表中，使用定时任务进行进一步的处理。
我这里是使用RabbitTemplate进行发送，所以在Service层的RabbitTemplate需要设置一下：
@Service
public class RabbitMQServiceImpl implements RabbitMQService {
    @Resource
    private RabbitmqConfirmCallback rabbitmqConfirmCallback;

    @Resource
    private RabbitTemplate rabbitTemplate;

    @PostConstruct
    public void init() {
        //指定 ConfirmCallback
        rabbitTemplate.setConfirmCallback(rabbitmqConfirmCallback);
        //指定 ReturnCallback
        rabbitTemplate.setReturnCallback(rabbitmqConfirmCallback);
    }
    
    @Override
    public String sendMsg(String msg) throws Exception {
        Map message = getMessage(msg);
        try {
            CorrelationData correlationData = (CorrelationData) message.remove("correlationData");
            rabbitTemplate.convertAndSend(RabbitMQConfig.RABBITMQ_DEMO_DIRECT_EXCHANGE, RabbitMQConfig.RABBITMQ_DEMO_DIRECT_ROUTING, message, correlationData);
            return "ok";
        } catch (Exception e) {
            e.printStackTrace();
            return "error";
        }
    }
    
    private Map getMessage(String msg) {
        String msgId = UUID.randomUUID().toString().replace("-", "").substring(0, 32);
        CorrelationData correlationData = new CorrelationData(msgId);
        String sendTime = sdf.format(new Date());
        Map map = new HashMap<>();
        map.put("msgId", msgId);
        map.put("sendTime", sendTime);
        map.put("msg", msg);
        map.put("correlationData", correlationData);
        return map;
    }
}
大功告成！接下来我们进行测试，发送一条消息，我们可以控制台：

假设发送一条信息没有路由匹配到队列，可以看到如下信息：

这就是confirm模式。它的作用是为了保障生产者投递消息到RabbitMQ不会出现消息丢失。
3.2 事务机制(ACK)
最开始的那张图已经讲过，消费者从队列中获取到消息后，会直接确认签收，假设消费者宕机或者程序出现异常，数据没有正常消费，这种情况就会出现数据丢失。
所以关键在于把自动签收改成手动签收，正常消费则返回确认签收，如果出现异常，则返回拒绝签收重回队列。

代码怎么实现呢，请看演示：
首先在消费者的application.yml文件中设置事务提交为manual手动模式：
spring:
  rabbitmq:
    listener:
      simple:
        acknowledge-mode: manual # 手动ack模式
        concurrency: 1 # 最少消费者数量
        max-concurrency: 10 # 最大消费者数量
然后编写消费者的监听器：
@Component
public class RabbitDemoConsumer {

    enum Action {
        //处理成功
        SUCCESS,
        //可以重试的错误，消息重回队列
        RETRY,
        //无需重试的错误，拒绝消息，并从队列中删除
        REJECT
    }

    @RabbitHandler
    @RabbitListener(queuesToDeclare = @Queue(RabbitMQConfig.RABBITMQ_DEMO_TOPIC))
    public void process(String msg, Message message, Channel channel) {
        long tag = message.getMessageProperties().getDeliveryTag();
        Action action = Action.SUCCESS;
        try {
            System.out.println("消费者RabbitDemoConsumer从RabbitMQ服务端消费消息：" + msg);
            if ("bad".equals(msg)) {
                throw new IllegalArgumentException("测试：抛出可重回队列的异常");
            }
            if ("error".equals(msg)) {
                throw new Exception("测试：抛出无需重回队列的异常");
            }
        } catch (IllegalArgumentException e1) {
            e1.printStackTrace();
            //根据异常的类型判断，设置action是可重试的，还是无需重试的
            action = Action.RETRY;
        } catch (Exception e2) {
            //打印异常
            e2.printStackTrace();
            //根据异常的类型判断，设置action是可重试的，还是无需重试的
            action = Action.REJECT;
        } finally {
            try {
                if (action == Action.SUCCESS) {
                    //multiple 表示是否批量处理。true表示批量ack处理小于tag的所有消息。false则处理当前消息
                    channel.basicAck(tag, false);
                } else if (action == Action.RETRY) {
                    //Nack，拒绝策略，消息重回队列
                    channel.basicNack(tag, false, true);
                } else {
                    //Nack，拒绝策略，并且从队列中删除
                    channel.basicNack(tag, false, false);
                }
                channel.close();
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }
}
解释一下上面的代码，如果没有异常，则手动确认回复RabbitMQ服务端basicAck(消费成功)。
如果抛出某些可以重回队列的异常，我们就回复basicNack并且设置重回队列。
如果是抛出不可重回队列的异常，就回复basicNack并且设置从RabbitMQ的队列中删除。
接下来进行测试，发送一条普通的消息"hello"：

解释一下ack返回的三个方法的意思。
①成功确认
void basicAck(long deliveryTag, boolean multiple) throws IOException;
消费者成功处理后调用此方法对消息进行确认。

deliveryTag：该消息的index
multiple：是否批量.。true：将一次性ack所有小于deliveryTag的消息。

②失败确认
void basicNack(long deliveryTag, boolean multiple, boolean requeue) throws IOException;

deliveryTag：该消息的index。
multiple：是否批量。true：将一次性拒绝所有小于deliveryTag的消息。
requeue：被拒绝的是否重新入队列。

③失败确认
void basicReject(long deliveryTag, boolean requeue) throws IOException;

deliveryTag:该消息的index。
requeue：被拒绝的是否重新入队列。

basicNack()和basicReject()的区别在于：basicNack()可以批量拒绝，basicReject()一次只能拒接一条消息。
四、遇到的坑
4.1 启用nack机制后，导致的死循环
上面的代码我故意写了一个bug。测试发送一条"bad"，然后会抛出重回队列的异常。这就有个问题：重回队列后消费者又消费，消费抛出异常又重回队列，就造成了死循环。

那怎么避免这种情况呢？
既然nack会造成死循环的话，我提供的一个思路是不使用basicNack()，把抛出异常的消息落库到一张表中，记录抛出的异常，消息体，消息Id。通过定时任务去处理。
如果你有什么好的解决方案，也可以留言讨论~
4.2 double ack
有的时候比较粗心，不小心开启了自动Ack模式，又手动回复了Ack。那就会报这个错误：
消费者RabbitDemoConsumer从RabbitMQ服务端消费消息：java技术爱好者
2020-08-02 22:52:42.148 ERROR 4880 --- [ 127.0.0.1:5672] o.s.a.r.c.CachingConnectionFactory       : Channel shutdown: channel error; protocol method: #method(reply-code=406, reply-text=PRECONDITION_FAILED - unknown delivery tag 1, class-id=60, method-id=80)
2020-08-02 22:52:43.102  INFO 4880 --- [cTaskExecutor-1] o.s.a.r.l.SimpleMessageListenerContainer : Restarting Consumer@f4a3a8d: tags=[{amq.ctag-8MJeQ7el_PNbVJxGOOw7Rw=rabbitmq.demo.topic}], channel=Cached Rabbit Channel: AMQChannel(amqp://guest@127.0.0.1:5672/,5), conn: Proxy@782a1679 Shared Rabbit Connection: SimpleConnection@67c5b175 [delegate=amqp://guest@127.0.0.1:5672/, localPort= 56938], acknowledgeMode=AUTO local queue size=0
出现这个错误，可以检查一下yml文件是否添加了以下配置：
spring:
  rabbitmq:
    listener:
      simple:
        acknowledge-mode: manual
        concurrency: 1
        max-concurrency: 10
如果上面这个配置已经添加了，还是报错，有可能你使用@Configuration配置了SimpleRabbitListenerContainerFactory，根据SpringBoot的特性，代码优于配置，代码的配置覆盖了yml的配置，并且忘记设置手动manual模式：
@Bean
    public SimpleRabbitListenerContainerFactory rabbitListenerContainerFactory(ConnectionFactory connectionFactory) {
        SimpleRabbitListenerContainerFactory factory = new SimpleRabbitListenerContainerFactory();
        factory.setConnectionFactory(connectionFactory);
        //设置手动ack模式
        factory.setAcknowledgeMode(AcknowledgeMode.MANUAL);
        return factory;
    }
如果你还是有报错，那可能是写错地方了，写在生产者的项目了。以上的配置应该配置在消费者的项目。因为ack模式是针对消费者而言的。我就是写错了，写在生产者，折腾了几个小时，泪目~
4.3 性能问题
其实手动ACK相对于自动ACK肯定是会慢很多，我在网上查了一些资料，性能相差大概有10倍。所以一般在实际应用中不太建议开手动ACK模式。不过也不是绝对不可以开，具体情况具体分析，看并发量，还有数据的重要性等等。
所以在实际项目中还需要权衡一下并发量和数据的重要性，再决定具体的方案。
4.4 启用手动ack模式，如果没有及时回复，会造成队列异常
如果开启了手动ACK模式，但是由于代码有bug的原因，没有回复RabbitMQ服务端，那么这条消息就会放到Unacked状态的消息堆里，只有等到消费者的连接断开才会转到Ready消息。如果消费者一直没有断开连接，那Unacked的消息就会越来越多，占用内存就越来越大，最后就会出现异常。
这个问题，我没法用我的电脑演示，我的电脑太卡了。
五、总结
通过上面的学习后，总结了RabbitMQ防止数据丢失有三种方式：

消息持久化
生产者消息确认机制(confirm模式)
消费者消息确认模式(ack模式)

上面所有例子的代码都上传github了：
https://github.com/yehongzhi/mall
如果你觉得这篇文章对你有用，点个赞吧~
你的点赞是我创作的最大动力~
想第一时间看到我更新的文章，可以微信搜索公众号「java技术爱好者」，拒绝做一条咸鱼，我是一个努力让大家记住的程序员。我们下期再见！！！

能力有限，如果有什么错误或者不当之处，请大家批评指正，一起学习交流！



CentOS 6.x 搭建:Headless Chrome  + ChromeDriver + Selenium基于浏览器的爬虫环境
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
【转载请注明出处】：https://blog.csdn.net/huahao1989/article/details/107890747
Chrome官方网站已经说的很清楚，不再支持6.x的CentOS，至少7以上。   可是很多时候我们使用的服务器版本并不能随便升级，即便已经很难受了，但是还得继续使用低版本，装起来那是真叫一个费劲，还好就是费劲一些，最终还是可以装成功的。
什么是 Headless Chrome
Headless Chrome 是 Chrome 浏览器的无界面形态，可以在不打开浏览器的前提下，使用所有 Chrome 支持的特性运行你的程序。相比于现代浏览器，Headless Chrome 更加方便测试 web 应用，获得网站的截图，做爬虫抓取信息等。相比于出道较早的 PhantomJS，SlimerJS 等，Headless Chrome 则更加贴近浏览器环境。
CentOS版本
lsb_release -a

最新版本Google-Chrome安装
CentOS/RedHat 7以上安装google-chrome可以完全参考https://intoli.com/blog/installing-google-chrome-on-centos/ （6及以下版本不适用）。
指定yum源
服务器应该指定合适yum源，避免找不到某些依赖的尴尬。 
修改 /etc/yum.repos.d/CentOS-Base.repo，可以使用阿里的yum repo：
wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-6.repo
yum clean all
安装google-chrome
根据https://intoli.com/blog/installing-google-chrome-on-centos/ ，执行命令：
curl https://intoli.com/install-google-chrome.sh | bash
脚本会自动检测当前版本安装chrome所缺失的依赖包并下载。

检查是否还缺乏依赖：
ldd /opt/google/chrome/chrome | grep "not found"
返回为空，说明CentOS下chrome依赖问题基本解决。
运行chrome
执行
google-chrome-stable --no-sandbox --headless --disable-gpu --screenshot https://www.suning.com/。
访问成功，在当前目录会生成截图screenshot.png，如果报错
[0100/000000.311368:ERROR:broker_posix.cc(43)] Invalid node channel message
则需要安装依赖包：
yum install  
 ipa-gothic-fonts 
 xorg-x11-fonts-100dpi 
 xorg-x11-fonts-75dpi 
 xorg-x11-utils 
 xorg-x11-fonts-cyrillic 
 xorg-x11-fonts-Type1 
 xorg-x11-fonts-misc -y 
最新版本Chromedriver安装
当前的chrome版本是 google-chrome-stable-72.0.3626.109-1.x86_64，chromedrive的官网是https://sites.google.com/a/chromium.org/chromedriver/downloads

下载地址https://chromedriver.storage.googleapis.com/2.46/chromedriver_linux64.zip
或者选择taobao镜像下载http://npm.taobao.org/mirrors/chromedriver/
镜像下载地址http://npm.taobao.org/mirrors/chromedriver/2.46/chromedriver_linux64.zip
解压后部署到/opt/drivers目录下，尝试运行：
./chromedriver 
Starting ChromeDriver 72.0.3626.7 (efcef9a3ecda02b2132af215116a03852d08b9cb) on port 9515
Only local connections are allowed.
[1550143530.011][SEVERE]: CreatePlatformSocket() returned an error, errno=0: Address family not supported by protocol (97)
另外要修改/etc/hosts，绑定127.0.0.1 localhost，否则，Java Selenium运行时chromedriver可能因为找不到localhost报超时异常
安装selenium

安装 Python 并配置好环境变量
shell输入：python -V 出现对应版本号即安装成功！

安装 pip
python默认自带 pip 在安装目录的scripts目录下，自行配置至环境变量即可，配置好后shell输入：`pip -V` 出现对应版本号即安装成功！


安装 selenium
shell输入：`pip install selenium` 提示：Successfully installed selenium-即安装成功！


python
>>>from selenium import webdriver
>>>driver = webdriver.Chrome()
>>>driver.get('https://www.baidu.com')
已经可以了，正常写python脚本即可。
搭建环境时遇到的问题
1、/lib64/libc.so.6: version `GLIBC_2.14' not found (required by ./chromedriver)
#查看系统版本
cat /etc/redhat-release 
#查看glibc支持的版本
strings /lib64/libc.so.6 |grep GLIBC_

wget http://ftp.gnu.org/gnu/glibc/glibc-2.14.tar.gz 
wget http://ftp.gnu.org/gnu/glibc/glibc-ports-2.14.tar.gz 
tar -xvf  glibc-2.14.tar.gz 
tar -xvf  glibc-ports-2.14.tar.gz
mv glibc-ports-2.14 glibc-2.14/ports
mkdir glibc-2.14/build
cd glibc-2.14/build 
../configure  --prefix=/usr --disable-profile --enable-add-ons --with-headers=/usr/include --with-binutils=/usr/bin
make
make install 
安装编译过程中需要注意三点：

要将glibc-ports解压到glibc目录下
不能在glibc当前目录下运行configure
加上优化开关，export CFLAGS="-g -O2 -march=i486"，否则会出现错误
在make install过程中可能会出现 nss_test1加载不了的情况， 此时可以将加载libnss_test1.so.2的地方注释掉，用grep "nss_test1" . -nr命令在 /glibc目录下查找一下，加载的地方也不多（这只是一个测试nss的静态库，可以不要）

2、/lib64/libc.so.6: version `GLIBC_2.16' not found (required by ./chromedriver)
wget http://ftp.gnu.org/gnu/glibc/glibc-2.16.0.tar.gz 
wget http://ftp.gnu.org/gnu/glibc/glibc-ports-2.16.0.tar.gz 
tar -xvf  glibc-2.16.0.tar.gz 
tar -xvf  glibc-ports-2.16.0.tar.gz
mv glibc-ports-2.16.0 glibc-2.16.0/ports
mkdir glibc-2.16.0/build
cd glibc-2.16.0/build 
../configure  --prefix=/usr --disable-profile --enable-add-ons --with-headers=/usr/include --with-binutils=/usr/bin
make
make install 
报错
Unmatched ( in regex; marked by  HERE in m/$( <-- HERE if $(abi-64-ld-soname),$(abi-64-ld-soname),ld/ at scripts/test-installation.pl line
可以参考解决办法https://sourceware.org/bugzilla/attachment.cgi?id=6616&action=diff
glibc-2.16.0/Makefile
ifeq (,$(install_root))
      CC="$(CC)" $(PERL) scripts/test-installation.pl $(common-objpfx)
endif
改成
ifeq (,$(install_root))
     LD_SO=$(ld.so-version) CC="$(CC)" $(PERL) scripts/test-installation.pl $(common-objpfx)
endif
glibc-2.16.0/scripts/test-installation.pl
sub usage {
    print "Usage: test-installation [soversions.mk]n";
上面添加
if ($ENV{LD_SO}) {
  $LD_SO = $ENV{LD_SO};
} else {
  $LD_SO= "";
}

sub usage {
    print "Usage: test-installation [soversions.mk]n";
在
} else {
  if (/^ld.so/) {
     ($ld_so_name, $ld_so_version)= /=(.*).so.(.*)$/;
上面添加
} elsif ($LD_SO ne "") {
    ($ld_so_name, $ld_so_version) = split ('.so.', $LD_SO);
} else {
  if (/^ld.so/) {
     ($ld_so_name, $ld_so_version)= /=(.*).so.(.*)$/;
欢迎关注 “后端老鸟” 公众号，接下来会发一系列的专题文章，包括Java、Python、Linux、SpringBoot、SpringCloud、Dubbo、算法、技术团队的管理等，还有各种脑图和学习资料，NFC技术、搜索技术、爬虫技术、推荐技术、音视频互动直播等，只要有时间我就会整理分享，敬请期待，现成的笔记、脑图和学习资料如果大家有需求也可以公众号留言提前获取。由于本人在所有团队中基本都处于攻坚和探路的角色，搞过的东西多，遇到的坑多，解决的问题也很多，欢迎大家加公众号进群一起交流学习。
【转载请注明出处】：https://blog.csdn.net/huahao1989/article/details/107890747




kafka_架构模型
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
Kafka架构模型


Kafka消费速度快：

页缓存：找个磁盘当内存；
kafka采用顺序读写，比固态磁盘快


如果消费速度太慢，更改topic的分区个数，就会有很多线程来消费。
flume与kafka的整合
flume监控文件夹，有新文件就搜集起来到kafka队列中

source：spoolDir Source
channel：memory channel
sink：数据到kafka里面

副本默认2
注：仅作笔记。



SpringBoot2 整合Ehcache组件，轻量级缓存管理
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
本文源码：GitHub·点这里 ||  GitEE·点这里
一、Ehcache缓存简介
1、基础简介
EhCache是一个纯Java的进程内缓存框架，具有快速、上手简单等特点，是Hibernate中默认的缓存提供方。
2、Hibernate缓存
Hibernate三级缓存机制简介：
一级缓存：基于Session级别分配一块缓存空间，缓存访问的对象信息。Session关闭后会自动清除缓存。
二级缓存：是SessionFactory对象缓存，可以被创建出的多个 Session 对象共享，二级缓存默认是关闭的，如果要使用需要手动开启，并且依赖EhCache组件。
三级缓存：查询缓存，配置开启该缓存的情况下，重复使用一个sql查询某个范围内的数据，会进行缓存。
3、EhCache缓存特点

快速，简单，并且提供多种缓存策略；
缓存数据有两级：内存和磁盘，无需担心容量问题；
缓存数据会在虚拟机重启的过程中写入磁盘；
可以通过RMI、可插入API等方式进行分布式缓存；
具有缓存和缓存管理器的侦听接口；
支持多缓存管理器实例，以及一个实例的多个缓存区域；
提供Hibernate的缓存实现；

4、对比Redis缓存
Ehcache：直接在Jvm虚拟机中缓存，速度快，效率高，不适合处理大规模缓存数据，在分布式环境下，缓存数据共享操作复杂；
Redis：作为独立的缓存中间件，在分布式缓存系统中非常好用，缓存数据共享，有效支撑大量数据缓存，支持哨兵模式，或者集群模式的高可用成熟方案；
二、集成SpringBoot框架
1、核心依赖

    org.springframework.boot
    spring-boot-starter-cache


    net.sf.ehcache
    ehcache

2、加载配置
基础配置
spring:
  cache:
    ehcache:
      config: classpath:ehcache.xml
启动类注解
@EnableCaching
@SpringBootApplication
public class Application {
    public static void main(String[] args) {
        SpringApplication.run(Application.class,args) ;
    }
}
3、配置详解


    
    

    
        
    

    
        
    

配置参数说明
maxElementsOnDisk:磁盘缓存中最多可以存放的元素数量;
eternal:缓存中对象是否永久有效;
timeToIdleSeconds:当eternal=false时使用，缓存数据有效期(单位:秒),时间段内没有访问该元素,将被清除;
timeToLiveSeconds:缓存数据的存活时间;
maxElementsInMemory:内存中最多可以存放的元素数量,overflowToDisk=true,则会将Cache中多出的元素放入磁盘文件中,若overflowToDisk=false,则根据memoryStoreEvictionPolicy策略替换Cache中原有的元素;
diskExpiryThreadIntervalSeconds:磁盘缓存的清理线程运行间隔;
memoryStoreEvictionPolicy:缓存释放策略,LRU会优先清理最少使用的缓存；
localTempSwap：持久化策略，当堆内存或者非堆内存里面的元素已经满了的时候，将其中的元素临时的存放在磁盘上，重启后就会消失；
三、注解用法
@Service
public class CacheService {

    private static final Logger LOGGER = LoggerFactory.getLogger(CacheService.class);

    @Resource
    private UserMapper userMapper ;

    @Cacheable(value="userEntity")  // 在缓存有效期内，首次查询才访问数据库
    public UserEntity getById (Integer id){
        // 通过日志，标识方法是否执行
        LOGGER.info("getById..."+id);
        return userMapper.selectById(id) ;
    }

    @CacheEvict(value="userEntity",key = "#id") //该ID数据更新，清空该ID缓存
    public void updateUser(Integer id) {
        UserEntity user = new UserEntity() ;
        user.setId(id);
        user.setUserName("myCache");
        userMapper.updateById(user);
    }
}
@Cacheable：注解标记在一个方法上，也可以标记在一个类上，标记在一个方法上表示该方法支持缓存，该方法被调用后将其返回值缓存起来，下次同样的请求参数执行该方法时可以直接从缓存中获取结果，而不需要再次执行该方法。
@CacheEvict：注解标记在需要清除缓存元素的方法或类上的，当标记在一个类上时表示其中所有的方法的执行都会触发缓存的清除操作，并且可以按照指定属性清除。
四、源代码地址
GitHub·地址
https://github.com/cicadasmile/middle-ware-parent
GitEE·地址
https://gitee.com/cicadasmile/middle-ware-parent



全新出击！《Java开发手册（嵩山版）》解读手册升级下载
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
《Java开发手册（嵩山版）》解读版升级下载
随着《Java开发手册（嵩山版）》的发布，解读再升级！灵魂13问随新版JAVA开发手册重磅回归，一线大厂怎么用JAVA？千万阅读量技术博主15问为你全面剖析。
作者介绍
Hollis，一个对Coding有着独特追求的人，现任阿里巴巴技术专家，个人技术博主，技术文章全网阅读量数千万，《程序员的三门课》联合作者。

免费下载
《〈Java开发手册（嵩山版）〉灵魂15问》
或者复制该链接到浏览器完成下载或分享：https://developer.aliyun.com/topic/download?id=811

精彩导读

一、为什么禁止使用Apache Beanutils进行属性的copy？
市面上有很多类似的属性拷贝工具类，比较常用的有
1、Spring BeanUtils 2、Cglib BeanCopier 3、Apache BeanUtils 4、Apache PropertyUtils 5、Dozer
那么，我们到底应该选择哪种工具类更加合适呢？为什么Java开发手册中提到禁止使用Apache BeanUtils呢？

接下来就聚焦于对比这几个类库的性能问题来分析。>>点击查看详情
二、为什么要求日期格式化时必须有使用y表示年，而不能用Y？
在Java中进行日期处理大家一定都不陌生，我们经常会需要在代码中进行日期的转换、日期的格式化等操作。
而一般我们进行日期格式化的时候都会使用SimpleDateFormat工具，之前我们有一篇文章介绍过SimpleDateFormat的线程安全问题，这一篇文章再来介绍一个和SimpleDateFormat有关，很容易被忽视，而一旦忽视可能导致大故障的问题。>>点击查看详情
三、《 Java 开发手册-泰山版》提到的三目运算符的空指针问题到底是个怎么回事？
手册中有一条规约引起了作者的关注，那就是手册中提到在三目运算符使用过程中，需要注意自动拆箱导致的NullPointerException（后文简称：NPE）问题：

具体是怎样的呢？>>点击查看详情
四、为什么建议初始化HashMap的容量大小?
我们之前提到过，《Java 开发手册》中建议我们设置 HashMap 的初始化容量。

那么，为什么要这么建议？>>点击查看详情
五、Java开发手册建议创建HashMap时设置初始化容量， 但是多少合适呢?
HashMap 有扩容机制，就是当达到扩容条件时会进行扩容。HashMap 的扩容条件就是当 HashMap 中的元素个数（size）超过临界值（threshold）时就会自动扩容。在 HashMap 中，threshold = loadFactor * capacity。
所以，如果我们没有设置初始容量大小，随着元素的不断增加，HashMap 会发生多次扩容，而 HashMap 中的扩容机制决定了每次扩容都需要重建 hash 表，是非常影响性能的。>>点击查看创建HashMap时设置初始化容量多少合适
六、为什么禁止使用Executors创建线程池?
为什么说可以通过Executors静态工厂构建线程池，但一般不建议这样使用。
本节我们就来围绕这个问题来分析一下为什么JDK自身提供的构建线程池的方式并不建议使用？到底应该如何创建一个线程池呢？>>点击查看详情
七、为什么要求谨慎使用ArrayList中的subList方法？
集合是Java开发日常开发中经常会使用到的。
关于集合类，《Java开发手册》中其实还有另外一个规定：

本节就来分析一下为什么会有如此建议？其背后的原理是什么？>>点击查看详情
八、为什么不建议在for循环中使用“+”进行字符串拼接？
使用+拼接字符串，其实只是Java提供的一个语法糖，那么他的内部原理到底是如何实现的。>>点击查看详情
语法糖：语法糖（Syntactic sugar），也译为糖衣语法，是由英国计算机科学家彼得·兰丁发明的一个术语，指计算机语言中添加的某种语法，这种语法对语言的功能没有影响，但是更方便程序员使用。语法糖让程序更加简洁，有更高的可读性。
九、为什么禁止在for each循环里进行元素的remove/add操作？
在Java开发手册中，有这样一条规定：

本节就来深入分析一下该规定背后的思考。>>点击查看详情
十、为什么禁止工程师直接使用日志系统(Log4j、Log back) 中的API？
作为Java程序员，我想很多人都知道日志对于一个程序的重要性，尤其是Web应用。很多时候，日志可能是我们了解应用程序如何执行的唯一方式。
所以，日志在Java Web应用中至关重要，但是，很多人却以为日志输出只是一件简单的事情，所以会经常忽略和日志相关的问题。>>点击查看详情
十一、为什么禁止把SimpleDateFormat定义成static变量?
在日常开发中，我们经常会用到时间，我们有很多办法在Java代码中获取时间。但是不同的方法获取到的时间的格式都不尽相同，这时候就需要一种格式化工具，把时间显示成我们需要的格式。
最常用的方法就是使用SimpleDateFormat类。这是一个看上去功能比较简单的类，但是，一旦使用不当也有可能导致很大的问题。本节就围绕SimpleDateFormat的用法、原理等来深入分析下如何以正确的姿势使用它。>>点击查看详情
十二、为什么禁止开发人员使用is Success作为变量名？
在日常开发中，我们会经常要在类中定义布尔类型的变量，比如在给外部系统提供一个RPC接口的时候，我们一般会定义一个字段表示本次请求是否成功的。
关于这个”本次请求是否成功”的字段的定义，其实是有很多种讲究和坑的，稍有不慎就会掉入坑里，作者在很久之前就遇到过类似的问题，本节就来围绕这个简单分析一下，到底该如何定一个布尔类型的成员变量。>>点击查看详情
十三、为什么禁止开发人员修改serialVersionUID字段的值？
关于serialVersionUID 。这个字段到底有什么用？如果不设置会怎么样？为什么《Java开发手册》中有以下规定：

本节带你一探究竟。>>点击查看详情
十四、为什么建议开发者谨慎使用继承?
对于很多开发者来说，继承肯定都是不陌生的。但是，继承一定适合所有的场景吗？毫无忌讳的使用继承来做代码扩展真的好吗？
为什么《Java开发手册》中有一条规定：谨慎使用继承的方式进行扩展，优先使用组合的方式实现。>>点击查看详情
十五、为什么禁止使用count(列名) 或count(常量) 来替代count(*)？
除了COUNT(id)和COUNT(*)以外，还可以使用COUNT(常量)（如COUNT(1)）来统计行数，那么这三条SQL语句有什么区别呢？到底哪种效率更高呢？为什么《Java开发手册》中强制要求不让使用 COUNT(列名)或 COUNT(常量)来替代 COUNT(*)呢？

本节就这些问题带来解答。>>点击查看详情

藏经阁系列电子书
阿里云开发者社区——藏经阁系列电子书，汇聚了一线大厂的技术沉淀精华，爆款不断。
点击链接获取海量免费电子书：https://developer.aliyun.com/topic/ebook




Spring事务的传播行为案例分析
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
网上关于Spring事务传播性以及隔离型的文章漫天盖地，还有不负责任的直接复制名词意思，文章虽然很多却是看的云里雾里，我们今天将给出案例分别和大家一起学习。
1、spring给出经常面试的考点Spring事务的4个特性含义---这个很容易理解
2、spring事务传播特性的定义以及案例分析 
一、事务的特性ACID
这四个英文单词拼写我一直记不住，求记忆方法

原子性(Atomicity)：事务是一系列原子操作，要么全部成功，要么全部失败。
一致性(Consistency):一旦完成(不管是成功还是失败)，确保它所在的一系列业务状态保持一致，状态都是成功，或者都是失败，不能一部分成功一部分失败。
隔离性(Isolation):不同事务同时进行某项业务，处理相同的数据时候，需要保证事务之间相互独立，互相之间数据不影响。
持久性(Durability)：一旦事务完成，无论发生什么系统性错误，事务执行后的数据都被持久化了，不会因为重启或其他操作对数据进行更改。

二、spring事务传播特性的定义以及案例分析 
我们先给出定义再分别进行简单的代码分析
给出百度图片，请大家参考，首先生命力如果想在工程中运用事务spring 的xml必须开启事务，以下这些特性一般都是在xml属性中进行配置。

类似这种的配置一定要有，否则万事具备只欠东风，这个是DB事务有JTA和JPA以及Herbernate等，这里就不展开说明，可自行百度。

三、案例解析事务传播7大行为
1、无事务，这个时候id 为16的第一次插入成功，第二次插入的时候失败，库中留存第一次的数据

   无事务运行
2、propagation_required,默认事务的传播行为required，在进行实验2的时候将表中id为16的数据先删除以免影响接下来的测试。@Transactional(propagation=Propagation.REQUIRED) ==  @Transactional这两个的作用是一样的没有事务创建一个事务执行,
![
qq'q](http://college.creditease.cn/resources/upload/image/20200804/1596529605681003338.jpeg)
事务的传播特行为为required
结果是因为主键冲突将事务进行了回滚，所以两条数据都没有插入进去。
3、propagation_supports,如果当前程序存在事务就加入该事务运行，如果不存在事务则在非事务中运行

事务的传播行为性为supports
因为调用方未用事务那么就在非事务中运行，所以插入了first的第一条数据。
4、propagation_mandatory,必须在一个事务中运行，否则就会抛出异常mandatory 这个单词有强制性的意思我们默认用required 而不用mandatory，是因为mandatory不能自动创建事务。

事务的传播行为为manatory
因为调用的外层没有事务，所以两条数据没有插入。大家想想下面这种写法会发生什么现象

事务的传播行为mandatory
5、propagation_ required _new,不管事务是不是存在，都会另起一个事务，如果事务存在则将当前事务挂起，重新执行新加的事务

事务的传播行为required_new
结果和require一样，两条数据都没有入库，唯一健冲突导致第一条数据回滚，大家可以思考下我下面这两种情况。

情景1新起的事务抛出异常会不会让外围事务回滚？

情景2外围事务失败会不会导致新起事务已提交的回滚？
6、 propagation_ not _support,表示不在事务中运行，如果当前存在事务则将事务挂起
![qqq
](http://college.creditease.cn/resources/upload/image/20200804/1596529886418082560.jpeg)
事务的传播行为not_suppoted
这种情景下，如果你根据我的思路一步走的应该可以想到id 为17的入库，第二条主键冲突虽然然而notSupportSonTransationsl（）这个方法没有事务所以不影响第一条入库情况，但是外围事务id为16的要进行回滚了，所以库中只有一条数据id=17的。
7、 propagation_never,表示当前方法不能运行在事务当中，如果有事务则会抛出异常---->Existing transaction found for transaction marked with propagation 'never'

事务的传播行为NEVER
8、 propagation_nested,这种嵌套的事务，外围如果没有事务则自己另起一个事务，可独立与外围事务进行单独的提交或者回滚（这句话不要理解错了），下面这个案例同样的数据一条也没有落入库中，

事务的传播行为nested
事务的传播行为级别简单的演示完毕
作者：宜信技术学院，王巧敏



灵魂拷问，上 Kubernetes 有什么业务价值？
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
本文整理自 2020 年 7 月 22 日《基于 Kubernetes 与 OAM 构建统一、标准化的应用管理平台》主题线上网络研讨会。文章共分为上下两篇，本文为上篇，主要和大家介绍上 Kubernetes 有什么业务价值，以及什么是“以应用为中心”的 Kubernetes。下篇将跟大家具体分享如何构建“以应用为中心”的 Kubernetes。
视频回顾链接：https://www.bilibili.com/video/BV1Dv411v7P4/
关注阿里巴巴云原生公众号，回复 “0722” 即可下载 PPT
非常感谢大家来到 CNCF 的直播，我是张磊，阿里云的高级技术专家，Kubernetes 项目资深维护者。同时也是 CNCF 应用交付领域 co-chair。我今天给大家带来的分享主题是《基于 Kubernetes 与 OAM 构建统一、标准化的应用管理平台》。在封面上有个钉钉群组二维码。大家可以通过这个二维码进入线上交流群。

上 Kubernetes 有什么业务价值？
今天要演讲的主题是跟应用管理或者说是云原生应用交付是相关的。首先我们想要先回答这么一个问题：为什么我们要基于 Kubernetes 去构建一个应用管理平台？

上图是一个本质的问题，我们在落地 K8s 经常遇到的一个问题。尤其是我们的业务方会问到这么一个问题，我们上 Kubernetes 有什么业务价值？这时候作为我们 K8s 工程师往往是很难回答的。原因在哪里呢？实际上这跟 K8s 的定位是相关的。K8s 这个项目呢，如果去做一个分析的话，我们会发现 K8s 不是一个 PaaS 或者应用管理的平台。实际上它是一个标准化的能力接入层。什么是能力接入层呢？大家可以看一下下图。

实际上通过 Kubernetes 对用户暴露出来的是一组声明式 API，这些声明式 API 无论是 Pod 还是 Service 都是对底层基础设施的一个抽象。比如 Pod 是对一组容器的抽象，而 Deployment 是对一组 pod 的抽象。而 Service 作为 Pod 的访问入口，实际上是对集群基础设施：网络、网关、iptables 的一个抽象。Node 是对宿主机的抽象。Kubernetes 还提供了我们叫做 CRD（也就是 Custom Resource）的自定义对象。让你自己能够自定义底层基础设施的一个抽象。
而这些抽象本身或者是 API 本身，是通过另外一个模式叫做控制器(Controller)去实现的。通过控制器去驱动我们的底层基础设施向我的抽象逼近，或者是满足我抽象定义的一个终态。
所以本质来讲，Kubernetes 他的专注点是“如何标准化的接入来自于底层，无论是容器、虚机、负载均衡各种各样的一个能力，然后通过声明式 API 的方式去暴露给用户”。这就意味着 Kubernetes 实际用户不是业务研发，也不是业务运维。那是谁呢？是我们的平台开发者。希望平台开发者能够基于 Kubernetes 再去做上层的框架或者是平台。那就导致了今天我们的业务研发和业务运维对 Kubernetes 直接暴露出来的这一层抽象，感觉并不是很友好。
这里的关键点在于，Kubernetes 对这些基础设施的抽象，跟业务研发和业务运维看待系统的角度是完全不同的。这个抽象程度跟业务研发和业务运维希望的抽象程度也是不一样的。语义完全对不上，使用习惯也是有很大的鸿沟。所以说为了解决这样一个问题，都在思考一些解决方法。怎么能让我 Kubernetes 提供的基础设施的抽象能够满足我业务研发和业务运维的一个诉求呢？怎么能让 Kubernetes 能够成为业务研发和业务运维喜欢的一个平台呢？
方法一：把所有人都变成 Kubernetes 专家

假如我们所有人都是 Kubernetes 专家，那当然会喜欢 Kubernetes 对我提供的服务，这里给他发个 Kubernetes 的 PhD 博士。这里我强烈推荐阿里云和 CNCF 主办的云原生技术公开课。大家试试学完这门课程后，能不能变成 Kubernetes 专家。
这个方法门槛比较高，因为每个人对于这个系统本身感兴趣程度不太一样，学习能力也不太一样。
方法二：构建一个面向用户的应用管理平台
业界常见的方法，大家会基于 Kubernetes 构建一个面向用户的应用管理平台，或者说是一个 PaaS，有人直接做成一个 Serverless。

那这个具体是怎么做呢？还是在 Kubernetes 之上，会搭建一个东西叫做上层应用管理平台，这个上层应用平台对业务研发和业务运维暴露出来一个上层的 API。比如说业务研发这一侧，他不太会暴露 Pod，Deployment 这样的抽象。只会暴露出来 CI/CD 流水线。或者说一个应用，WordPress，一个外部网站，暴露出这样一个上层的概念，这是第一个部分。
第二部分，它也会给业务运维暴露出一组运维的 API。比如说：水平扩容，发布策略，分批策略，访问控制，流量配置。这样的话有一个好处，业务研发和业务运维面对的 API 不是 Kubernetes 底层的 API，不是 Node，不是 Service，不是 Deployment，不是我们的 CRD。是这样一组经过抽象经过封装后的 API。这样的业务研发和业务运维用起来会跟他所期望的 Ops 流水线，它所熟悉的使用体检有个天然的结合点。
所以说只有这么做了之后，我们才能够跟我们的业务老大说，Kubernetes 的业务价值来了。实际上业务价值不是在 Kubernetes 这一层，而是在 Kubernetes 往上的这一层--"你的解决方案"。所以说这样的一个系统构建出来之后呢，实际上是对 Kubernetes 又做了一层封装。变成了很多公司都有的，比如说 Kubernetes 应用平台。这是一个非常常见的做法。相比于我们让研发运维变成 Kubernetes 专家来说会更加实际一点。
但是我们在阿里也好，在很多社区的实际场景也好，它往往会伴随着这么一个问题。这个问题是：今天 Kubernetes 的生态是非常非常繁荣的，下图是我在 CNCF 截的图，好几百个项目，几千个可以让我们 Kubernetes 即插即用的能力。比如 istio，KEDA，Promethues 等等都是 Kubernetes 的插件。正是基于这么一个扩展性非常高的声明式 API 体系才会有了这么繁荣的 Kubernetes 生态。所以可以认为 Kubernetes 能力是无限的，非常强大。

可是这么一个无限能力，如果对接到一个非常传统的，非常经典的一个应用管理平台。比如说我们的 PaaS 上，如 Cloud Foundry。立刻就会发现一个问题，PaaS 虽然对用户提供的是很友好的 API，但是这个 API 本身是有限的，是难以扩展的。比如说 Cloud Foundry 要给用户使用，就有 Buildpack 这么一个概念，而不是 Kubernetes 所有的能力都能给用户去使用。其实几乎所有的 PaaS 都会存在这么一个问题。它往上暴露的是一个用户的API，是不可扩展的，是个有限集。
下面一个非常庞大繁荣的 Kubernetes 生态，没办法直接给用户暴露出去。可能每使用一个插件就要重新迭代开发你的 PaaS，重新交付你的 PaaS。这个是很难接受的。
传统 PaaS 的“能力困境”
这问题是一个普遍存在的问题，我们叫做传统 PaaS 的“能力困境”。

本质上来说这个困境是什么意思呢？K8s 生态繁荣多样的应用基础设施能力，与业务开发人员日益增长的应用管理诉求，中间存在一个传统的 PaaS，他就会变成一个瓶颈。K8s 无限的能力无法让你的研发与运维立刻用到。所以传统 PaaS 就会成为一个显而易见的瓶颈。
这样给我带来一个思考：我们能不能抛弃传统 PaaS 的一个做法，基于 K8s 打造高可扩展的应用管理平台。我们想办法能把 K8s 能力无缝的透给用户，同时又能提供传统 PaaS 比较友好的面向研发运维的使用体验呢？
其实可以从另外一个角度思考这个问题：如何基于 K8s 打造高可扩展的应用管理平台，实际上等同于 如何打造一个“以应用为中心的”的 Kubernetes。或者说能不能基于 Kubernetes 去封装下，让它能够像 PaaS 一样，去面向我的实际用户去使用呢？这个就是我们要聊的关键点。 
什么是“以应用为中心”的 Kubernetes
特征一：通过原生的声明式 API 和插件体系，暴露面向最终用户的上层语义和抽象

我们不是说要在 Kubernetes 上盖一个 PaaS，或者说是盖一个大帽子，不干这件事情。因为 K8s 本身可以扩展，可以写一组 CRD，把我们要的 API 给装上去。比如 CI/CD 流水线，就可以像 Tektong 系统直接使用 pipeline。应用也可以通过某些项目直接暴露出来。运维这一侧的发布扩容等，都可以通过安装一个 Operator 去解决问题。当然也需要一些技术将这些运维策略绑定到应用或者流水线中。
这就是我们第一个点，以应用为中心的 K8s 首先是暴露给用户的语义和 API，而不是非常底层的，比如 Service、Node 或者是 Ingress。可能用户都不知道什么意思，也不知道怎么写的。
特征二：上层语义和抽象可插拔，可扩展，没有抽象程度锁定和任何能力限制

第二个点很重要，上层语义和抽象必须是可插拔的，必须是可扩展的，是无缝兼容利用 K8s 的可扩展能力的。并且也不应该有对抽象程度的锁定。
举个例子：比如一个应用本身既可以是 Deployment，这是一个比较低程度的抽象。也可以是 Knative Service，这是一个相对来说高程度的抽象，相对于 deployment 来说比较简单，只有一个 PodTemplate。甚至可以更简单，可以是一个 Service，或者是个 Function。这个时候抽象程度就很高。如果基于 K8s 做一个以应用为中心的框架的话，它应该是能够暴露工作负载的多种抽象程度的。而不是说单独去使用 Knative，只能暴露出 Knative Service。假如我想使用 Knative 部署一个 Statefulset，这当然是不可以的。抽象程度是完全不一致的。所以我希望这个以应用为中心的 K8s 是没有抽象程度的锁定的。
同时也不应该有能力的限制，什么叫没有能力的限制呢？比如从运维侧举个例子，运维侧有很多很多扩容策略、发布策略等等。如果我想新加一个策略能力，它应该是非常简单的，就像在 K8s 安装一个 Operator 一样非常简单，能 helm insatll 就能搞定，答案是必须的。假如需要添加一个水平扩容，直接 helm install vpa 就能解决。通过这种方式才能做一个以应用为中心的 Kubernetes。
可以看到它跟我们的传统 PaaS 还是有很大区别的，它的可扩展能力非常非常强。它本质上就是一个 K8s，但是它跟专有的 Service，Knative，OpenFaaS 也不一样。它不会把抽象程度锁定到某一种 Workload 上，你的 Workload 是可以随意去定义。运维侧的能力也可以随意可插拔的去定义。这才是我们叫做一个以应用为中心的 Kubernetes。那么这么一个 Kubernetes 怎么做呢？
后续我们将会在下篇文章中详细为大家解读如何构建“以应用为中心”的 Kubernetes？以及构建这么一个以用户为中心的 Kubernetes，需要做几个层级的事情。
《云原生实践公开课》
去年，CNCF 与 阿里云联合发布了《云原生技术公开课》已经成为了 Kubernetes 开发者的一门“必修课”。今天，阿里云再次集结多位具有丰富云原生实践经验的技术专家，正式推出《云原生实践公开课》。课程内容由浅入深，专注讲解“ 落地实践”。还为学习者打造了真实、可操作的实验场景，方便验证学习成果，也为之后的实践应用打下坚实基础。课程已经正式上线，欢迎大家观看。
点击链接即可免费观看课程：https://developer.aliyun.com/learning/roadmap/cloudnative2020
“阿里巴巴云原生关注微服务、Serverless、容器、Service Mesh 等技术领域、聚焦云原生流行技术趋势、云原生大规模的落地实践，做最懂云原生开发者的公众号。”



阿里云开发者 DevUP 沙龙 -青岛站 -阿里巴巴微服务技术的应用与实践邀你参加啦
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
微服务开发中，SpringCloud作为Spring生态中的针对微服务的技术框架，越来越受到各个企业技术人员的追捧。但是，SpringCloud中一些组件，在实践使用中，存在一定的局限。SpringCloudAlibaba，横空出世，替换了SpringCloud中的一些组件，使微服务在实践中，能够更便捷的、更优雅的实现落地。
活动亮点：
1、面基！在青岛举办的线下技术沙龙。
2、阵容！各类技术专家在线实践教学。
3、干货！快速了解微服务相关知识。
时间：8月22日（周四）13：30-16：10
地点：山东省青岛市崂山区海尔路170号鑫裕和大厦8楼
报名地址：https://survey.aliyun.com/apps/zhiliao/7irPO_3gv





物模型接入价值与实践
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
物模型价值
物联网元年
关键词：探索、快速
2016年阿里云物联网平台（前称：物联网套件）上线，为客户设备上云提供了通道能力，包括MQTT连接、消息流转等核心功能。
第一批客户大多基于该模式使用物联网平台能力，当时整个行业处于物联网云平台起步期，包括AWS，Azure起步阶段同样只是提供通道能力。
基于通道能力，客户使用物联网平台接入方式详见文档 https://developer.aliyun.com/article/746536。
这个阶段的客户大多是硬件厂商，软硬一体开发，尝试物联网转型提升设备价值，对物联网平台的诉求比较简单，希望自己更多参与，对新模式有更多把控力，所以都会采用自定义协议上云。


物联网繁荣
关键词：生态、扩展、数字化
近两年物联网设备、解决方案如雨后春笋般涌出，不少用户希望赶上物联网这波浪潮。这个阶段的客户不仅仅关注设备连云，也开始关注围绕设备产生的解决方案。因此客户角色从硬件厂商，快速扩展到集成商、软件提供商等。由于大量角色的进入，对软硬开发解耦、易扩展的能力提出了诉求。同时我们也发现第一批使用通道能力的平台客户随着自己业务发展、设备扩展，原来的架构已无法支撑，对物联网平台也提出了新的要求。
举两个典型场景：

老客户升级：某个共享设备提供商，原来仅提供大学校园共享洗衣机服务，利用物联网平台通道能力上云，随着公司业务发展，从共享洗衣机业务扩展到校园淋浴、饮水机、充电桩等多类设备，原来自定义协议和API无法支撑多品类设备，难扩展。需要有一套接入标准和规范，方便快速扩展设备类型。
新生态客户：某个充电桩平台客户，提供充电桩管理平台，作为甲方要求大量桩企（乙方）按照平台规范接入，典型的软硬件分离场景。需要有一套接入标准和规范，方便快速扩展桩企规模。

这一阶段平台在通道能力之上，提供了物模型能力，物模型可以屏蔽底层设备差异，让软件开发者基于平台提供的标准API开发；硬件开发者基于平台提供的标准协议开发；从而达到软硬开发解耦的目的。


物联网赋能
关键词：场景化、智能
物联网终极目标一定是基于设备采集数据赋能业务，实现数字业务化。例如金融、物流、家居、餐饮、商场、医疗、交通等不同领域通过物联网数字化后，结合数据分析智能化决策、互联互通、场景规则、数字孪生等能力实现纵深领域场景化、智能化。
这一阶段平台在通道能力、物模型能力之上，还进一步提供设备智能运维、数据分析、可视化、数字孪生等高价值服务，帮助客户数字化后产生真正的业务价值。


基于以上分析，物联网已经过了最初的“元年”阶段，也迈入了“繁荣”阶段，正逐步朝“问物联网要赋能”的阶段演进。物模型是物联网生态化、高扩展、数字化、智能化非常重要的基础，强烈建议客户使用。
物模型接入实践
自定义接入模式
以一个老客户为例，原来仅使用物联网平台通道能力，下图中1~8流程都需要自定义开发，当客户设备类型足够简单时，该模式复杂度通常不会成为客户痛点。


面临的挑战
随着客户接入设备种类越来越多，面临的扩展性问题也越来越严峻。


使用物模型后的模式
物模型模式下，设备与云交互协议、云平台设备API都基于物模型标准化了，即使设备不断扩展，客户业务服务器和设备端逻辑都不需要进行调整，保证了扩展性。


物模型接入流程详细介绍
流程图
以下是客户详细接入流程，主要分为：云端配置、设备开发、服务端开发、设备运行时管理四大部分。平台会提供一些工具，使各部分流程更高效。接下来进行详细介绍。

本文试图手把手介绍从0到1接入物模型，还会配套介绍一些接入过程中有帮助的平台能力，所以文章篇幅比较长，事实上客户接入流程还是非常简单的，真正开发只需要涉及到图中红色三个模块。
如果您希望快速接入，可以直接关注P0部分，其它部分都可以跳过。
1 云端配置
1.1 创建产品（P0）
1.登录物联网平台。
2.创建产品。

说明：
• 所属品类：标准品类库提供了一些供参考的模板，选择后可以修改，建议使用。
• 节点类型：根据实际选择即可。
• 数据格式：“ICA标准数据格式(Alink JSON)”表示设备使用标准Alink JSON格式上报数据；“透传/自定义”表示设备可以使用自定义格式，通过Alink特定Topic上报物联网平台，该模式客户需要写脚本进行转换，透传模式在此不做展开，后面单独起文章介绍。
1.2 物模型建模（P0）
1.模型查看。
已有的模型是继承自创建产品时选择的“充电桩”品类模板。

2.编辑模型。
通过“编辑草稿”，进行修改和添加，最后需要对物模型“发布上线”。

说明：
• 定义物模型非常重要，物模型通过属性、事件、服务三要素描述了设备所有能力，设备和云交互、客户服务器访问设备通过物模型都可以实现协议标准化。如果客户定义的物模型如果足够通用和专业，阿里可以帮助作为ICA行业标准进行推广。
• 服务的调用方式有：同步调用、异步调用两种模式。客户云端开发调用下行控制API，同步调用和异步调用获取返回结果方式不一样，在后文“3.3”章节详细介绍。
物模型概念介绍
物模型介绍文档请参见这里。
了解物模型概念，能够帮助您更好对设备建模。
1.3 物模型配置
当前默认是物模型强校验模式，即设备上报数据在IoT平台会进行物模型数据规范强校验，如果不符合规范会报错。
另外物模型弱校验、免校验、去重等规则也会在近期陆续开放，后期进行文档补充。
配置之后，会在设备运行时生效。
关联阅读：4.2 物模型扩展规则校验。
1.4 注册三元组（P0）
1.注册设备。

说明：
• 添加设备：测试阶段使用较多，单个添加。
• 批量添加：量产阶段使用，有两种模式，“自动生成”表示设备标识符(deviceName)由平台按照一定的规则随机颁发；“批量上传”支持客户自定义设备标识符(deviceName)。
2.查看设备列表。
可以通过“设备列表”、“批次管理”两种方式查看创建的设备列表。

通过“批次管理”查看这一批次设备详情，并且支持下载三元组列表。

注意：此处设备标识符(deviceName)非常重要，与productKey, deviceSecret一起称为设备的“三元组”，作为设备的唯一身份，大部分情况需要烧录到设备上。
2 设备开发
2.1 使用设备SDK开发（P0）
设备接入SDK文档请参见这里。

根据需要选择合适的语言版本。C SDK 建议使用“4.x”版本。
本文选择 Java SDK进行演示。
环境准备：https://help.aliyun.com/document_detail/97331.html
物模型开发：https://help.aliyun.com/document_detail/97333.html
1.开发之前需要先准备如下好两份数据：

设备证书信息（productKey、deviceName、deviceSecret）


设备物模型



为了方便查看物模型详细数据规范，通过导出“物模型TSL”查看详细物模型定义，其中包括物模型属性、事件、服务标识符、参数、数据规范。抽取部分内容，针对以下属性、事件、服务在DEMO中进行开发演示。
    "schema":"https://iotx-tsl.oss-ap-southeast-1.aliyuncs.com/schema.json",
    "profile":{
        "productKey":"a1nhbEV****"
    },
    "properties":[
        {
            "identifier":"acOutMeterIty",
            "name":"交流输出电表底值监测属性",
            "accessMode":"rw",
            "required":false,
            "dataType":{
                "type":"int",
                "specs":{
                    "min":"0",
                    "max":"200",
                    "step":"1"
                }
            }
        }
    ],
    "events":[
        {
            "identifier":"post",
            "name":"post",
            "type":"info",
            "required":true,
            "desc":"属性上报",
            "method":"thing.event.property.post",
            "outputData":[
                {
                    "identifier":"acOutMeterIty",
                    "name":"交流输出电表底值监测属性",
                    "dataType":{
                        "type":"int",
                        "specs":{
                            "min":"0",
                            "max":"200",
                            "step":"1"
                        }
                    }
                }
            ]
        },
        {
            "identifier":"startChaResEvt",
            "name":"启动充电结果事件",
            "type":"info",
            "required":false,
            "method":"thing.event.startChaResEvt.post",
            "outputData":[
                {
                    "identifier":"gunNum",
                    "name":"充电枪编号",
                    "dataType":{
                        "type":"int",
                        "specs":{
                            "min":"0",
                            "max":"100",
                            "step":"2"
                        }
                    }
                }
            ]
        }
    ],
    "services":[
        {
            "identifier":"set",
            "name":"set",
            "required":true,
            "callType":"async",
            "desc":"属性设置",
            "method":"thing.service.property.set",
            "inputData":[
                {
                    "identifier":"acOutMeterIty",
                    "name":"交流输出电表底值监测属性",
                    "dataType":{
                        "type":"int",
                        "specs":{
                            "min":"0",
                            "max":"200",
                            "step":"1"
                        }
                    }
                }
            ],
            "outputData":[

            ]
        },
        {
            "identifier":"get",
            "name":"get",
            "required":true,
            "callType":"async",
            "desc":"属性获取",
            "method":"thing.service.property.get",
            "inputData":[
                "acOutMeterIty"
            ],
            "outputData":[
                {
                    "identifier":"acOutMeterIty",
                    "name":"交流输出电表底值监测属性",
                    "dataType":{
                        "type":"int",
                        "specs":{
                            "min":"0",
                            "max":"200",
                            "step":"1"
                        }
                    }
                }
            ]
        },
        {
            "identifier":"startChaResService",
            "name":"开启充电",
            "required":false,
            "callType":"async",
            "method":"thing.service.startChaResService",
            "inputData":[
                {
                    "identifier":"charm",
                    "name":"电量",
                    "dataType":{
                        "type":"int",
                        "specs":{
                            "min":"1",
                            "max":"100",
                            "step":"2"
                        }
                    }
                }
            ],
            "outputData":[
                {
                    "identifier":"realcharm",
                    "name":"realcharm",
                    "dataType":{
                        "type":"int",
                        "specs":{
                            "min":"0",
                            "max":"100",
                            "step":"2"
                        }
                    }
                }
            ]
        }
    ]
}
2.开发代码。
如下示例中只需要将三元组，和属性、事件、服务参数替换成您的设备信息。其它代码可以直接运行。
关于免订阅能力介绍：
有些设备最资源比较敏感，为了避免初始化订阅大量Alink协议中系统Topic带来的性能开销，平台提供了免订阅能力，即平台帮设备进行Topic订阅。
SDK只有3.1.0及以后版本支持免订阅能力，并且默认打开该能力。
如果3.1.0及以后版本SDK您希望取消免订阅，依旧按需订阅Topic，可以设置SDK配置项关闭该能力，在make.settings中设置“FEATURE_MQTT_AUTO_SUBSCRIBE=n”。
public class Demo {

    public static void main(String[] args) throws Exception {

        String pk = "a1nhbEVCP**";
        String dn = "7mBP6Dd6IT27Rt***";
        String ds = "*****";

        /**
         * 连接 & 认证
         */
        LinkKitInitParams params = new LinkKitInitParams();

        // 设置 Mqtt 初始化参数
        IoTMqttClientConfig config = new IoTMqttClientConfig();
        config.productKey = pk;
        config.deviceName = dn;
        config.deviceSecret = ds;
        config.receiveOfflineMsg = false;
        params.mqttClientConfig = config;

        // 设置初始化三元组信息，用户传入
        DeviceInfo deviceInfo = new DeviceInfo();
        deviceInfo.productKey = pk;
        deviceInfo.deviceName = dn;
        deviceInfo.deviceSecret = ds;

        params.deviceInfo = deviceInfo;

        LinkKit.getInstance().init(params, new ILinkKitConnectListener() {
            public void onError(AError aError) {
                System.out.println("===============FAILURE===============");
                ALog.e(TAG, "Init Error error=" + aError);
                System.out.println("===============FAILURE===============");
            }

            public void onInitDone(InitResult initResult) {
                System.out.println("===============SUCCESS===============");
                ALog.i(TAG, "onInitDone result=" + initResult);
                System.out.println("===============SUCCESS===============");
            }

        });

        //此处sleep 5S，由于上面init是异步流程
        Thread.sleep(5000);

        /**
         * 物模型开发
         */

        /**
         * 上报属性
         */
        Map properties = new HashMap<>();

        // key为物模型中属性标识符"acOutMeterIty"，value需要遵循属性值规范：int类型，取值范围在0~200之间；
        properties.put("acOutMeterIty", new ValueWrapper(10));

        LinkKit.getInstance().getDeviceThing().thingPropertyPost(properties, new IPublishResourceListener() {

            @Override
            public void onSuccess(String s, Object o) {
                System.out.println("=====thingPropertyPost success=======");
                System.out.println(s);
                System.out.println(JSON.toJSONString(o));
            }

            @Override
            public void onError(String s, AError aError) {
                System.out.println("=====thingPropertyPost failure=======");
            }
        });

        // 上报属性之后，云端会返回响应结果，此处是监听云端返回的属性reply
        LinkKit.getInstance().registerOnNotifyListener(new IConnectNotifyListener() {

            @Override
            public void onNotify(String s, String s1, AMessage aMessage) {
                System.out.println("===PROPERTY REPLY===");
                System.out.println("TOPIC：" + s1);
                System.out.println("Payload：" + JSON.toJSONString(aMessage));
            }

            @Override
            public boolean shouldHandle(String s, String s1) {
                return false;
            }

            @Override
            public void onConnectStateChange(String s, ConnectState connectState) {
            }
        });

        /**
         * 上报事件
         */
        HashMap eventMap = new HashMap<>();

        // key为物模型中事件参数的标识符"gunNum", value为事件参数值需要遵循数值规范：int类型，取值范围0~100之间；
        eventMap.put("gunNum", new ValueWrapper.IntValueWrapper(50));

        OutputParams eventOutput = new OutputParams(eventMap);

        // 参数identity为"startChaResEvt"属于物模型事件标识符。
        LinkKit.getInstance().getDeviceThing().thingEventPost("startChaResEvt", eventOutput, new IPublishResourceListener() {
            public void onSuccess(String resId, Object o) {
                System.out.println("=====thingEventPost success=======");
                System.out.println(resId);
                System.out.println(JSON.toJSONString(o));
            }

            public void onError(String resId, AError aError) {
                System.out.println("=====thingEventPost failure=======");
            }
        });

        /**
         * 监听并执行下行服务
         */
        // 获取设备支持的所有服务
        LinkKit.getInstance().getDeviceThing().getServices();

        // 用户可以根据实际情况注册自己需要的服务的监听器
        List srviceList = LinkKit.getInstance().getDeviceThing().getServices();

        for (int i = 0; srviceList != null && i < srviceList.size(); i++) {
            Service service = srviceList.get(i);

            LinkKit.getInstance().getDeviceThing().setServiceHandler(service.getIdentifier(), new ITResRequestHandler() {

                public void onProcess(String identify, Object result, ITResResponseCallback itResResponseCallback) {

                    System.out.println("onProcess() called with: s = [" + identify + "], o = [" + result + "], itResResponseCallback = [" + itResResponseCallback + "]");
                    System.out.println("收到云端异步服务调用 " + identify);
                    try {
                        /**
                         * 设置属性(property)的模式
                         */
                        // "set"为设置属性默认的标识符
                        if ("set".equals(identify)) {
                            // TODO 用户需要设置真实设备的的属性
                            /**
                             * 向云端同步设置好的属性值
                             */
                            Map desiredProperty = (Map) ((InputParams) result).getData();

                            LinkKit.getInstance().getDeviceThing().thingPropertyPost(desiredProperty, new IPublishResourceListener() {

                                @Override
                                public void onSuccess(String s, Object o) {
                                    if (result instanceof InputParams) {
                                        Map data = (Map) ((InputParams) result).getData();
                                        //                        data.get()
                                        ALog.d(TAG, "收到异步下行数据 " + data);
                                        // 响应云端 接收数据成功
                                        itResResponseCallback.onComplete(identify, null, null);
                                    } else {
                                        itResResponseCallback.onComplete(identify, null, null);
                                    }
                                }

                                @Override
                                public void onError(String s, AError aError) {
                                    AError error = new AError();
                                    error.setCode(100);
                                    error.setMsg("setPropertyFailed.");
                                    itResResponseCallback.onComplete(identify, new ErrorInfo(error), null);
                                }
                            });

                            /**
                             * 服务(service)的模式
                             */
                            // "startChaResService"为服务的标识符
                        } else if ("startChaResService".equals(identify)) {

                            Map inputParams = (Map) ((InputParams) result).getData();
                            // TODO 根据服务入参inputParams执行设备逻辑，比如启动充电
                            // 充电完成后，向云端返回输出参数
                            OutputParams outputParams = new OutputParams();
                            // key为"charm"属于物模型中"startChaResService"服务出参标识符，value为出参值遵循数据规范：int类型，数据范围1~100之间；
                            outputParams.put("charm", new ValueWrapper.IntValueWrapper(20));

                            itResResponseCallback.onComplete(identify, null, outputParams);

                        } else {
                            // 根据不同的服务做不同的处理，跟具体的服务有关系
                            OutputParams outputParams = new OutputParams();
                            // 根据特定服务，按照服务规范返回服务的出参。
                            itResResponseCallback.onComplete(identify, null, outputParams);
                        }
                    } catch (Exception e) {
                        e.printStackTrace();
                        ALog.d(TAG, "云端返回数据格式异常");
                    }
                }
                public void onSuccess(Object o, OutputParams outputParams) {
                    ALog.d(TAG, "onSuccess() called with: o = [" + o + "], outputParams = [" + outputParams + "]");
                    ALog.d(TAG, "注册服务成功");
                }
                public void onFail(Object o, ErrorInfo errorInfo) {
                    ALog.d(TAG, "onFail() called with: o = [" + o + "], errorInfo = [" + errorInfo + "]");
                    ALog.d(TAG, "注册服务失败");
                }
            });
        }
    }
}
说明：
• 上报属性成功，云端会返回REPLY，有以下日志说明设备到云，云到设备的链路全部走通。

• 设备收到属性设置指令，在完成物理设备属性修改后，建议将最新属性同步上报云端。
2.2 不使用SDK开发
1.协议准备。
“2.1 使用设备SDK开发”介绍了使用阿里云提供的SDK进行设备开发，当然您也可以选择不使用SDK，完全基于Alink协议（设备和云交互协议）开发。
Alink协议文档：https://help.aliyun.com/document_detail/90459.html
重点关注物模型协议部分：https://help.aliyun.com/document_detail/89301.html 。里面包含了物模型相关所有Topic介绍（物模型Topic列表在控制台也可以查看，如下图）。


文档详细介绍了设备端如何向云端上报“属性”、“事件”，如何订阅云端向下发送的“服务”指令。
Topic和Payload都基于客户定义的物模型进行标准化和规范化，从而使得客户设备与云交互方式不会随着设备类型变化而改变，满足扩展性要求。

2.环境准备。
根据自己选型选择合适的MQTT客户端，本文选择eclipse paho。

    org.eclipse.paho
    org.eclipse.paho.client.mqttv3
    1.1.1//可以选择您需要的版本

3.开发。
物模型复用“2.1 使用设备SDK开发”中“开发前准备”给出的。
关于免订阅能力介绍：
有些设备最资源比较敏感，为了避免初始化订阅大量Alink协议中系统Topic带来的性能开销，平台提供了免订阅能力，即平台帮设备进行Topic订阅。
SDK只有3.1.0及以后版本支持免订阅能力，并且默认打开该能力。
如果不使用SDK开发，可以通过设备端在MQTT的连接报文中的clientId部分, 新增_ss=1表示开启自动订阅, 建连成功后服务端会自动订阅上以下表格中的topic, 若传递 _ss=0 或者不传递该字段, 则不会发生服务端自动订阅动作。
4.上报属性。
String productKey = "a1nhbEV****";
String deviceName = "7mBP6Dd6IT2*****";
String deviceSecret = "****";

// MQTT连接
MqttTestClient client;
client = new MqttTestClient(productKey, deviceName, deviceSecret);

client.connect();

String setTopic = "/thing/event/property/post";
String setTopicReply = "/thing/event/property/post_reply";

// 上报属性，云端会返回REPLY，进行订阅。（为了节省端侧订阅开销，可以开通免订阅）
// 此处client进行了封装，您根据自己的业务进行封装即可，也可以直接使用MQTT Client subscribe
client.sysTopic(setTopicReply).subscribe();

// 封装Alink协议系统参数
Map payload = new HashMap();
Map params = new HashMap();
payload.put("id", 11);//id需要保证设备端一段时间内唯一
payload.put("params", params);
payload.put("method", "thing.event.property.post");

// 组装属性payload
String propKey = "acOutMeterIty";
int statusValue = 30;
Map proValue = new HashMap<>();
proValue.put("value", statusValue);
proValue.put("time", System.currentTimeMillis());
params.put(propKey, proValue);

// 上报（client进行了封装，您根据自己的业务进行封装即可，也可以直接使用MQTT Client publish消息）
client.sysTopic(setTopic).publish(JSON.toJSONString(payload));

// 打印云端返回的Reply（client进行了封装，您根据自己的业务进行封装即可，也可以直接使用MQTT Client监听订阅消息）
client.sysTopic(setTopicReply).readTopic(10000);

client.disconnect();
日志打印的设备请求和响应。

5.上报事件。

String productKey = "a1nhbEV****";
String deviceName = "7mBP6Dd6IT27*****";
String deviceSecret = "***";

// MQTT连接
MqttTestClient client;
client = new MqttTestClient(productKey, deviceName, deviceSecret);

client.connect();

// topic中为"startChaResEvt"属于物模型事件标识符。
String setTopic = "/thing/event/startChaResEvt/post";
String setTopicReply = "/thing/event/startChaResEvt/post_reply";

// 报事件，云端会返回REPLY，进行订阅。（为了节省端侧订阅开销，可以开通免订阅）
client.sysTopic(setTopicReply).subscribe();

// 封装Alink协议系统参数
Map payload = new HashMap();
Map params = new HashMap();
payload.put("id", 11);//id需要保证设备端一段时间内唯一
payload.put("params", params);
payload.put("method", "thing.event.startChaResEvt.post");

// 组装属性payload
Map dataValue = new HashMap<>();
// key为物模型中事件参数的标识符"gunNum", value为事件参数值需要遵循数值规范：int类型，取值范围0~100之间；
dataValue.put("gunNum", 59);

params.put("value", dataValue);
params.put("time", System.currentTimeMillis());

// 上报（client进行了封装，您根据自己的业务进行封装即可，也可以直接使用MQTT Client publish消息）
client.sysTopic(setTopic).publish(JSON.toJSONString(payload));

// 打印云端返回的Reply（client进行了封装，您根据自己的业务进行封装即可，也可以直接使用MQTT Client监听订阅消息）
client.sysTopic(setTopicReply).readTopic(10000);

client.disconnect();
6.服务调用。
此处为一段伪代码。可以在MQTT建连的时候通过callback监听云端下发的控制指令或消息。
前提：已经对下行的TOPIC进行订阅过，免订阅能力参考上面介绍。
mqttClient = new MqttClient(url, clientId, persistence);
final MqttConnectOptions connOpts = new MqttConnectOptions();
connOpts.setMqttVersion(4);
connOpts.setAutomaticReconnect(true);
connOpts.setCleanSession(false);
connOpts.setUserName(mqttUsername);
connOpts.setPassword(mqttPassword.toCharArray());
connOpts.setKeepAliveInterval(65);
LogUtil.log(clientId + "进行连接, 目的地: " + url);

// 此处订阅云端下发的消息
mqttClient.setCallback(new MqttCallback() {
    @Override
    public void connectionLost(Throwable cause) {
        LogUtil.log("connection lost, cause:" + cause);
        cause.printStackTrace();
    }

    @Override
    public void messageArrived(String topic, MqttMessage message) throws Exception {
        TopicChannel topicChannel = getTopic(topic);
        LogUtil.log("receive message, channel:" + topicChannel
                    + ",topic:" + topic
                    + ", payload:" + new String(message.getPayload(), "UTF-8") + "");
        topicChannel.put(message);
    }

    @Override
    public void deliveryComplete(IMqttDeliveryToken token) {
        //如果是qos 0消息 token.resp是没有回复的
        LogUtil.log("sent, " + ((token == null || token.getResponse() == null) ? "null"
                                : token.getResponse().getKey()));
    }
});

mqttClient.connect(connOpts);
重点说明：
• 所有被订阅的下行Topic都会被监听到。物模型相关的主要包括：属性上报Reply、属性下行设置、服务下行控制。
• 设置设备属性（https://help.aliyun.com/document_detail/89301.html#title-wmh-y2e-18r），默认异步方式返回结果。
• 订阅的Topic为Alink协议标准Topic：“/sys/{productKey}/{deviceName}/thing/service/property/set”
• 服务控制（https://help.aliyun.com/document_detail/89301.html#title-3pt-nfy-jys），同异步方式取决于物模型中service配置的调用模式。
• 服务异步方式订阅的Topic为Alink协议标准Topic：“/sys/{productKey}/{deviceName}/thing/service/{tsl.service.identifier}”
• 服务同步方式订阅的Topic需要遵循RRPC Topic模式：详见文档https://help.aliyun.com/document_detail/90568.html
注意：仅设备侧需要感知RRPC特殊TOPIC，设备上云后，数据流转、开放API面向的还是Alink协议编程。
2.3 在线调试
设备开发后之后，如何快速模拟业务服务器给设备下发指令，调试设备能力？IoT平台提供了“在线调试”的功能，可以模拟设备或模拟应用端到端调试。


此处使用“在线调试”里面“调试真实设备”能力。通过控制台下发设备控制指令，分两类：1）属性设置；2）服务调用。
1.服务调用调试。


云端下发后，可以到设备端查看控制Log是否打印，以判断指令达到端侧。
从图中可见设备收到startChaResService服务，同时向云端返回了输出参数。
2.属性设置调试。

说明：
• “获取”：暂不支持到设备，只能从云端获取设备最新属性。
• “设置”：指令直接到设备端，设备修改本地属性之后，上报云端最新属性；到设备上的设置指令为"set"。
• “设置期望值”：如果设备在线，会直接下发设备，如果设备离线，指令在云端进行缓存，待上线后下发设备端，下发之后，设备修改本地属性之后，同样上报云端最新属性；到设备上的设置指令同样为"set"。如果您希望使用物模型期望值能力，可点击查看最佳实践。

云端下发后，可以到设备端查看控制Log是否打印，以判断指令达到端侧。
从图中可见设备收到set指令，返回了服务响应，同时向云端上报了最新属性。
说明：服务结果还可以通过“2.4 查看物模型数据”章节中获取。
2.4 查看物模型数据
DEMO运行之后，可以看到设备已经“在线”状态。
“运行状态”展示设备上报的属性值；
“事件管理”展示设备上报的事件；
“服务调用”展示云端下发设备的控制服务；

上报属性结构化展示。

上报事件，包括事件参数展示。

属性设置、服务调用两类服务的云端下发入参、设备响应出参都有展示，如上证明设备收到云端指令，并且正常返回响应。
2.5 查看日志服务
设备在运行过程，可能会出现一些异常，比如连接失败、认证失败、数据异常等等，为了便于排查，可以查看日志服务。举例设备上报数据可能会不符合物模型规范，比如事件参数"gunNum"对应值的数据范围为0~100之间，而真实上报了50000。日志服务会展示设备错误详情。


可以看到日志内容为“{"Reason":"tsl parse: int value is bigger than max 100 -> gunNum"}”，说明gunNum对应值超过物模型规范最大值100的限制。物模型规范详情到“物模型TSL”查看。

同时可以通过“日志转储”中“日志报表”进一步查看设备大盘，包括设备上下线次数、设备上线IP区域分布、设备消息量、设备消息量Top列表、物模型错误分布、云端API错误分布等多维度指标。
日志服务介绍文档请参见这里。
3 服务端开发
设备连接到阿里云IoT平台，设备数据会保存在IoT平台时序数据库。同时IoT平台提供两种方式供客户获取设备数据：方式1）通过服务端订阅或者规则引擎实时流转到客户服务器；2）通过开放API供客户调用获取。
3.1 服务端调用API开发（P0）
1.环境准备。
SDK下载文档：https://help.aliyun.com/document_detail/30581.html
API接口列表：https://help.aliyun.com/document_detail/69579.html
重点关注物模型使用相关API


2.以下示例为设置设备属性API，设备异步返回结果，客户需要通过“数据流转”方式获取。
String accessKey = "***";
String accessSecret = "***";
try {
    DefaultProfile.addEndpoint("cn-shanghai", "cn-shanghai", "Iot", "iot.cn-shanghai.aliyuncs.com");
} catch (Exception e) {
    System.out.println("DefaultProfile exception");
}

IClientProfile profile = DefaultProfile.getProfile("cn-shanghai", accessKey, accessSecret);
DefaultAcsClient defaultAcsClient = new DefaultAcsClient(profile);

SetDevicePropertyRequest setDevicePropertyRequest = new SetDevicePropertyRequest();
// 如果使用实例，此处传入真实实例id；如果公共实例，不需要设置。
//createProductRequest.setIotInstanceId("iothub-test-xxx");
setDevicePropertyRequest.setProductKey(pk);
setDevicePropertyRequest.setDeviceName(dn);

Map properties = new HashMap<>();
// key为物模型中属性标识符"acOutMeterIty"，value需要遵循属性值规范：int类型，取值范围在0~200之间；
properties.put("acOutMeterIty", 98);
setDevicePropertyRequest.setItems(JSON.toJSONString(properties));

SetDevicePropertyResponse response = null;
try {
    response = defaultAcsClient.getAcsResponse(setDevicePropertyRequest);
} catch (Exception e) {
    Log.error("执行失败：e:" + e.getMessage());
}

System.out.println("===============");
System.out.println("setDeviceProperty request : " + JSON.toJSONString(setDevicePropertyRequest));
System.out.println("setDeviceProperty response : " + JSON.toJSONString(response.getData()));
System.out.println("setDeviceProperty requestId : " + response.getRequestId());
System.out.println("===============");
重点说明：

下行控制如果为异步服务，需要通过订阅数据流转获取设备返回结果，订阅方式和数据结构详见“3.2 数据流转”章节介绍。
关联介绍：“3.2.1 服务端订阅”中“重点说明”。
3.2 数据流转
平台提供两种数据流转方式：方式1）服务端订阅；方式2）规则引擎；
3.2.1服务端订阅（P0）
服务端订阅配置

“推送消息类型”选择“设备上报消息”，包括物模型属性上报、事件上报、设备下行指令结果（包括属性设置响应、服务控制响应）等消息。
消息格式详见文档：https://help.aliyun.com/document_detail/73736.html


服务端订阅DEMO
接入说明：https://help.aliyun.com/document_detail/143601.html
/**
 * AMQP服务端订阅
*/
//参数说明，请参见AMQP客户端接入说明文档。
String accessKey = "***";
String accessSecret = "***";
String consumerGroupId = "***";
//iotInstanceId：购买的实例请填写实例ID，公共实例请填空字符串""。
String iotInstanceId = "";
long timeStamp = System.currentTimeMillis();
//签名方法：支持hmacmd5、hmacsha1和hmacsha256。
String signMethod = "hmacsha1";
//控制台服务端订阅中消费组状态页客户端ID一栏将显示clientId参数。
//建议使用机器UUID、MAC地址、IP等唯一标识等作为clientId。便于您区分识别不同的客户端。
String clientId = "TESTClientID";

//userName组装方法，请参见AMQP客户端接入说明文档。
String userName = clientId + "|authMode=aksign"
    + ",signMethod=" + signMethod
            + ",timestamp=" + timeStamp
            + ",authId=" + accessKey
            + ",iotInstanceId=" + iotInstanceId
            + ",consumerGroupId=" + consumerGroupId
            + "|";
//计算签名，password组装方法，请参见AMQP客户端接入说明文档。
String signContent = "authId=" + accessKey + "×tamp=" + timeStamp;
String password = doSign(signContent,accessSecret, signMethod);
//接入域名，请参见AMQP客户端接入说明文档。
String connectionUrl = "amqps://${uid}.iot-amqp.${regionId}.aliyuncs.com:5671?amqp.idleTimeout=80000";

Hashtable hashtable = new Hashtable<>();
hashtable.put("connectionfactory.SBCF",connectionUrl);
hashtable.put("queue.QUEUE", "default");
hashtable.put(Context.INITIAL_CONTEXT_FACTORY, "org.apache.qpid.jms.jndi.JmsInitialContextFactory");
Context context = new InitialContext(hashtable);
ConnectionFactory cf = (ConnectionFactory)context.lookup("SBCF");
Destination queue = (Destination)context.lookup("QUEUE");
// Create Connection
Connection connection = cf.createConnection(userName, password);
((JmsConnection) connection).addConnectionListener(myJmsConnectionListener);
// Create Session
// Session.CLIENT_ACKNOWLEDGE: 收到消息后，需要手动调用message.acknowledge()。
// Session.AUTO_ACKNOWLEDGE: SDK自动ACK（推荐）。
Session session = connection.createSession(false, Session.AUTO_ACKNOWLEDGE);
connection.start();
// Create Receiver Link
MessageConsumer consumer = session.createConsumer(queue);
consumer.setMessageListener(messageListener);
}

private static MessageListener messageListener = new MessageListener() {
    @Override
    public void onMessage(Message message) {
        try {
            //1.收到消息之后一定要ACK。
            // 推荐做法：创建Session选择Session.AUTO_ACKNOWLEDGE，这里会自动ACK。
            // 其他做法：创建Session选择Session.CLIENT_ACKNOWLEDGE，这里一定要调message.acknowledge()来ACK。
            // message.acknowledge();
            //2.建议异步处理收到的消息，确保onMessage函数里没有耗时逻辑。
            // 如果业务处理耗时过程过长阻塞住线程，可能会影响SDK收到消息后的正常回调。
            executorService.submit(() -> processMessage(message));
        } catch (Exception e) {
            logger.error("submit task occurs exception ", e);
        }
    }
};

/**
 * 在这里处理您收到消息后的具体业务逻辑。
*/
private static void processMessage(Message message) {
    try {
        byte[] body = message.getBody(byte[].class);
        String content = new String(body);
        String topic = message.getStringProperty("topic");
        String messageId = message.getStringProperty("messageId");
        System.out.println("AMQP receive message"
                           + ", topic = " + topic
                           + ", messageId = " + messageId
                           + ", content = " + content);
    } catch (Exception e) {
        logger.error("processMessage occurs error ", e);
    }
}

private static JmsConnectionListener myJmsConnectionListener = new JmsConnectionListener() {
    /**
     * 连接成功建立。
     */
    @Override
    public void onConnectionEstablished(URI remoteURI) {
        logger.info("onConnectionEstablished, remoteUri:{}", remoteURI);
    }

    /**
     * 尝试过最大重试次数之后，最终连接失败。
     */
    @Override
    public void onConnectionFailure(Throwable error) {
        logger.error("onConnectionFailure, {}", error.getMessage());
    }

    /**
      * 连接中断。
      */
    @Override
    public void onConnectionInterrupted(URI remoteURI) {
        logger.info("onConnectionInterrupted, remoteUri:{}", remoteURI);
    }

    /**
     * 连接中断后又自动重连上。
     */
    @Override
    public void onConnectionRestored(URI remoteURI) {
        logger.info("onConnectionRestored, remoteUri:{}", remoteURI);
    }

    @Override
    public void onInboundMessage(JmsInboundMessageDispatch envelope) {}

    @Override
    public void onSessionClosed(Session session, Throwable cause) {}

    @Override
    public void onConsumerClosed(MessageConsumer consumer, Throwable cause) {}

    @Override
    public void onProducerClosed(MessageProducer producer, Throwable cause) {}
};

/**
 * 计算签名，password组装方法，请参见AMQP客户端接入说明文档。
 */
private static String doSign(String toSignString, String secret, String signMethod) throws Exception {
    SecretKeySpec signingKey = new SecretKeySpec(secret.getBytes(), signMethod);
    Mac mac = Mac.getInstance(signMethod);
    mac.init(signingKey);
    byte[] rawHmac = mac.doFinal(toSignString.getBytes());
    return Base64.encodeBase64String(rawHmac);
}
日志打印出订阅到的流转消息如下，符合预期。

重点说明：
下行控制如果为异步服务，需要通过订阅数据流转获取设备返回结果。订阅Topic为"/sys/{productKey}/{deviceName}/thing/downlink/reply/message"，需要根据"requestId"关联请求和响应。
关联介绍：“3.1 服务端调用API开发”中“重点说明”。

3.2.2 规则引擎数据订阅。
配置SQL
SQL介绍文档这里。

调试SQL
Payload数据格式文档这里。

可以查看“调试结果”。


符合配置的SQL结果。
转发数据
可以转发到客户以下多种云产品中，本文选择AMQP作为示例验证。


创建完成后，需要到规则列表页“启动”改规则。
订阅数据
服务端订阅代码可以复用上面“3.1”服务端订阅代码。差别就是服务端订阅，订阅的是Topic对应的完整Payload；而规则引擎流转AMQP，在消息流转过程可以对Payload做一些规则过滤或简单计算。
以下日志精简报文是通过规则引擎过滤后获取的数据。

说明：同一组数据不要同时开通规则引擎和服务端订阅两种订阅模式，避免消息干扰。
4 设备运行时
设备量产之后，到达消费者手上，会开始激活上线进入到设备运行时。由于不属于开发态流程，本章节仅做简单介绍，目的是能让开发者知道开发态的配置在运行态如何产生作用，对设备接上阿里云IoT平台后的流程有个简单的认识。

本文通过物模型接入流程，介绍了平台设备连接、物模型规范校验、物模型数据、规则引擎、服务端订阅、开放API六大基础能力。
设备全生命周期过程中，还有不少设备管理能力供客户选择，其中包括设备标签、设备分组、设备检索、OTA、设备运维、设备分发、文件上传、远程配置等，欢迎使用。
4.1 连接
设备连接过程，云端会对设备进行身份认证。
4.2 物模型规范校验
由于目前物模型配置仅提供强校验模式，物模型规范校验主要对设备上报的报文进行Alink协议解析、物模型数据规范校验。平台后续会陆续开放弱校验、免校验、数据去重能力。
关联阅读：1.3 物模型配置
4.3 设备管理能力
4.3.1 设备标签
介绍文档：https://help.aliyun.com/document_detail/73733.html
4.3.2 设备分组
介绍文档：https://help.aliyun.com/document_detail/90386.html
4.3.3 OTA
介绍文档：https://help.aliyun.com/document_detail/85700.html
4.3.4 设备分发
介绍文档：https://help.aliyun.com/document_detail/143450.html



语雀的技术架构演进之路
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
作者 | 不四
每个技术人心中或多或少都有一个「产品梦」，好的技术需要搭配好的产品，才能让用户爱不释手，尤其是做一款知识服务型产品。
作者何翊宇（花名：不四，微信：dead_horse）是蚂蚁金服体验技术部高级前端技术专家，语雀产品技术负责人。本文从技术架构的视角，回顾了语雀的原型、内部服务和对外商业化的全过程，并对函数计算在语雀架构演进过程中所扮演的角色做了详细的介绍。
语雀是一个专业的云端知识库，用于团队的文档协作。现在已是阿里员工进行文档编写和知识沉淀的标配，并于 2018 年开始对外提供服务。
原型阶段
回到故事的开始。
2016 年，语雀孵化自蚂蚁科技，当时，蚂蚁金融云需要一个工具来承载它的文档，负责的技术同学利用业余时间，搭建了这个文档工具。项目的初期，没有任何人员和资源支持，同时也是为了快速验证原型，技术选型上选择了最低成本的方案。
底层服务完全基于体验技术部内部提供的 BaaS 服务和容器托管平台：

Object 服务：一个类 MongoDB 的数据存储服务；
File 服务：阿里云 OSS 的基础上封装的一个文件存储服务；
DockerLab：一个容器托管平台；


这些服务和平台都是基于 Node.js 实现的，专门给内部创新型应用使用，也正是由于有这些降低创新成本的内部服务，才给工程师们提供了更好的创新环境。
语雀的应用层服务端，自然而然的选用了蚂蚁体验技术部开源的 Node.js Web 框架 Egg（蚂蚁内部的封装 Chair），通过一个单体 Web 应用实现服务端。应用层客户端也选用了 React 技术栈，结合内部的 antd，并采用 CodeMirror 实现了一个功能强大、体验优雅的 markdown 在线编辑器。
当时仅仅是一个工程师的业余项目，采用内部专为创新应用提供的 BaaS 服务和一系列的开源技术，验证了在线文档工具这个产品原型。
内部服务阶段
2017年，随着语雀得到团队内部的认可，他的目标已经不仅仅是金融云的文档工具，而是成为阿里所有员工的知识管理平台。不仅面向技术人员 Markdown 编辑器，还向非技术知识创作者，提供了富文本编辑器，并选择了更“Web”的路线，在富文本编辑器中加入了公式、文本绘图、思维导图等特色功能。而随着语雀在知识管理领域的不断探索，知识管理的三层结构（团队、知识库、文档）开始成型。
在此之上的协作、分享、搜索与消息动态等功能越来越复杂单纯的依靠 BaaS 服务已经无法满足语雀的业务需求了。
为了应对业务发展带来的挑战，我们主要从下面几个点进行改造：

BaaS 服务虽然使用简单成本低，但是它们提供的功能不足以满足语雀业务的发展，同时稳定性上也有不足。所以我们将底层服务由 BaaS 替换成了阿里云的 IaaS 服务（MySQL、OSS、缓存、搜索等服务）。
Web 层仍然采用了 Node.js 与 Egg 框架，但是业务层借鉴 rails 社区的实践开始变成了一个大型单体应用，通过引入 ORM 构建数据模型层，让代码的分层更清晰。
前端编辑器从 codeMirror 迁移到 Slate。为了更好的实现语雀编辑器的功能，我们内部 fork 了 Slate 进行深入开发，同时也自定义了一个独立的内容存储格式，以提供更高效的数据处理和更好的兼容性。


在内部服务阶段，语雀已经成为了一个正式的产品，通过在阿里内部的磨炼，语雀的产品形态基本定型。
对外商业化阶段
随着语雀在内部的影响力越来越大，一些离职出去创业的阿里校友们开始找到玉伯（蚂蚁体验技术部研究员）：“语雀挺好用的，有没有考虑商业化之后让外面的公司也能够用起来？”
经过小半年的酝酿和重构，2018 年初，语雀开始正式对外提供服务，进行商业化。
当一个应用走出公司内到商业化环境中，面临的技术挑战一下子就变大了。最核心的知识创作管理部分的功能越来越复杂，表格、思维导图等新格式的加入，多人实时协同的需求对编辑器技术提出了更高的挑战。而为了更好的服务企业用户与个人用户，语雀在企业服务、会员服务等方面也投入了很大精力。在业务快速发展的同时，服务商业化对质量、安全和稳定性也提出了更高的要求。
为了应对业务发展，语雀的架构也随之发生了演进：
我们将底层的依赖完全上云，全部迁移到了阿里云上，阿里云不仅仅提供了基础的存储、计算能力，同时也提供了更丰富的高级服务，同时在稳定性上也有保障。

丰富的云计算基础服务，保障语雀的服务端可以选用最适合语雀业务的的存储、队列、搜索引擎等基础服务；
更多人工智能服务给语雀的产品带来了更多的可能性，包括 OCR 识图、智能翻译等服务，最终都直接转化成为了语雀的特色服务；

而在应用层，语雀的服务端依然还是以一个基于 Egg 框架的大型的 Node.js Web 应用为主。但是随着功能越来越多，也开始将一些相对比较独立的服务从主服务中拆出去，可以把这些服务分成几类：

微服务类：例如多人实时协同服务，由于它相对独立，且长连接服务不适合频繁发布，所以我们将其拆成了一个独立的微服务，保持其稳定性。
任务服务类：像语雀提供的大量本地文件预览服务，会产生一些任务比较消耗资源、依赖复杂。我们将其从主服务中剥离，可以避免不可控的依赖和资源消耗对主服务造成影响。
函数计算类：类似 Plantuml 预览、Mermaid 预览等任务，对响应时间的敏感度不高，且依赖可以打包到阿里云函数计算中，我们会将其放到函数计算中运行，既省钱又安全。

随着编辑器越来越复杂，在 slate 的基础上进行开发遇到的问题越来越多。最终语雀还是走上了自研编辑器的道路，基于浏览器的 Contenteditable 实现了富文本编辑器，通过 Canvas 实现了表格编辑器，通过 SVG 实现了思维导图编辑器。

语雀的这个阶段（也是现在所处的阶段）是商业化阶段，但是我们仍然保持了一个很小的团队，通过 JavaScript 全栈进行研发。底层的服务全面上云，借力云服务打造语雀的特色功能。同时为企业级用户和个人知识工作者者提供知识创作和管理工具。
和函数计算的不解之缘
语雀是一个复杂的 Web 应用，也是一个典型的数据密集型应用（Data-Intensive Application），背后依赖了大量的数据库等云服务。语雀服务端是 Node.js 技术栈。当提到 node 的时候，可能立刻就会有几个词浮现在我们脑海之中：单线程（single-threaded）、非阻塞（non-blocking）、异步（asynchronously programming），这些特性一方面非常的适合于构建可扩展的网络应用，用来实现 Web 服务这类 I/O 密集型的应用，另一方面它也是大家一直对 node 诟病的地方，对 CPU 密集型的场景不够友好，一旦有任何阻塞进程的方法被执行，整个进程就被阻塞。
像语雀这样用 node 实现整个服务端逻辑的应用，很难保证不会出现一些场景可能会消耗大量 CPU 甚至是死循环阻塞进程的，例如以 markdown 转换举例，由于用户的输入无法穷举，总有各种可能让转换代码进入到一个低效甚至是死循环的场景之中。在 node 刚出世的年代，很难给这些问题找到完美的解决办法，而即便是 Java 等基于线程并发模型的语言，在遇到这样的场景也很头痛，毕竟 CPU 对于 web 应用来说都是非常重要的资源。而随着基础设置越来越完善，当函数计算出现时，node 最大的短板看起来有了一个比较完美的解决方案。
阿里云函数计算是事件驱动的全托管计算服务。通过函数计算，您无需管理服务器等基础设施，只需编写代码并上传，只需要为代码实际运行所消耗的资源付费，代码未运行则不产生费用。
把函数计算引入之后，我们可以将那些 CPU 密集型、存在不稳定因素的操作统统放到函数计算服务中去执行，而我们的主服务再次回归到了 I/O 密集型应用模型，又可以愉快的享受 node 给我们带来的高效研发福利了！
以语雀中遇到的一个实际场景来举例，用户传入了一些 HTML 或者 Markdown 格式的文档内容，我们需要将其转换成为语雀自己的文档格式。在绝大部分情况下，解析用户输入的内容都很快，然而依然存在某些无法预料到的场景会触发解析器的 bug 而导致死循环的出现，甚至我们不太敢升级 Markdown 解析库和相关插件以免引入更多的问题。但是随着函数计算的引入，我们将这个消耗 CPU 的转换逻辑放到函数计算上，语雀的主服务稳定性不会再被影响。

除了帮助 Web 系统分担一些 CPU 密集型操作以外，函数计算还能做什么呢？
在语雀上我们支持各种代码形式来绘图，包括 Plantuml、公式、Mermaid，还有一些将文档导出成 PDF、图片等功能。这些场景有两个特点：

他们依赖于一些复杂的应用软件，例如 Puppeteer、Graphviz 等；
可能需要执行用户输入的内容；

支持这类场景看似简单，通过 process.exec 子进程调用一下就搞定了。但是当我们想把它做成一个稳定的对外服务时，问题就出现了。这些复杂的应用软件可能从设计上并没有考虑要长期运行，长期运行时的内存占用、稳定性可能会有一些问题，同时在被大并发调用时，对 CPU 的压力非常大。再加上有些场景需要运行用户输入的代码，攻击者通过构建恶意输入，可以在服务器上运行攻击代码，非常危险。
在没有引入函数计算之前，语雀为了支持这些功能，尽管单独分配了一个任务集群，在上面运行这些三方服务，接受主服务的请求来避免影响主服务的稳定性。但是为了解决上面提到的一系列问题还需要付出很大的成本：

需要维持一个不小的任务集群，尽管可能大部分时间都用不上那么多资源。
需要定时对三方应用软件进行重启，避免长时间运行带来的内存泄露，即便如此有些特殊请求也会造成第三方软件的不稳定。
对用户的输入进行检测和过滤，防止黑客恶意攻击，而黑客的攻击代码很难完全防住，安全风险依旧很大。


最后语雀将所有的第三方服务都分别打包在函数中，将这个任务集群上的功能都拆分成了一系列的函数放到了函数计算上。通过函数计算的特点一下解决了上面的所有问题：

函数计算的计费模式是按照代码实际运行的 CPU 时间计费，不需要长期维护一个任务集群了。
函数计算上的函数运行时尽管会有一些常驻函数的优化，但是基本不用考虑长期运行带来的一系列问题，且每次调用之间都相互独立，不会互相影响。
用户的输入代码是运行在一个沙箱容器中，即便不对用户输入做任何过滤，恶意攻击者也拿不到任何敏感信息，同时也无法进入内部网络执行代码，更加安全。


除了上面提到的这些功能之外，语雀最近还使用 OSS + 函数计算替换了之前使用的阿里云视频点播服务来进行视频和音频的转码。
由于浏览器可以直接支持播放的音视频格式并不多，大量用户上传的视频想要能够直接在语雀上进行播放需要对它们进行转码，业界一般都是通过 FFmpeg 来对音视频进行转码的。转码服务也是一个典型的 CPU 密集型场景，如果要自己搭建视频转码集群会面临大量的资源浪费，而使用阿里云视频点播服务，成本也比较高，而且能够控制的东西也不够多。函数计算直接集成了 FFmpeg 提供音视频处理能力，并集成到应用中心，配合 SLS 完善了监控和数据分析。语雀将音视频处理从视频点播服务迁移到函数计算之后，通过优化压缩率、减少不必要的转码等优化，将费用降低至之前的 1/5。

从语雀的实践来看，语雀并没有像 SFF 一样将 Web 服务迁移到函数计算之上（SFF 模式并不是现在的函数计算架构所擅长的），但是函数计算在语雀整体的架构中对稳定性、安全性和成本控制起到了非常重要的作用。总结下来函数计算非常适合下面几种场景：

对于时效性要求不算非常高的 CPU 密集型操作，分担主服务 CPU 压力。
当做沙箱环境执行用户提交的代码。
运行不稳定的三方应用软件服务。
需要很强动态伸缩能力的服务。

在引入函数计算之后，语雀现阶段的架构变成了以一个 Monolith Application 为核心，并将一些独立的功能模块根据使用场景和对能力的要求分别拆分成了 Microservices 和 Serverless 架构。应用架构与团队成员组成、业务形态息息相关，但是随着各种云服务与基础设施的完善，我们可以更自如的选择更合适的架构。

为什么要特别把 Serverless 单独拿出来说呢？还记得之前说 Node.js 是单线程，不适合 CPU 密集型任务么？
由于 Serverless 的出现，我们可以将这些存在安全风险的，消耗大量 CPU 计算的任务都迁移到函数计算上。它运行在沙箱环境中，不用担心用户的恶意代码造成安全风险，同时将这些 CPU 密集型的任务从主服务中剥离，避免出现并发时阻塞主服务。按需付费的方式也可以大大节约成本，不需要为低频功能场景部署一个常驻服务。所以我们会尽量的把这类服务都迁移到 Serverless 上（如阿里云函数计算）。
结语 | 语雀的技术栈选择
语雀这几年一步步发展过来，背后的技术一直在演进，但是始终遵循了几条原则：

技术栈选型要匹配产品发展阶段。产品在不同的阶段对技术提出的要求是不一样的，越前期，对迭代效率的要求越高，商业化规模化之后，对稳定性、性能的要求就会变高。不需要一上来就用最先进的技术方案，而是需要和产品阶段一起考虑和权衡。
技术栈选型要结合团队成员的技术背景。语雀选择 JavaScript 全栈的原因是孵化语雀的团队，大部分都是 JavaScript 背景的程序员，同时 Node.js 在蚂蚁也算是一等公民，配套的设施相对完善。
最重要的一点是，不论选择什么技术栈，安全、稳定、可维护（扩展）都是要考虑清楚的。用什么语言、用什么服务会变化，但是这些基础的安全意识、稳定性意识，如何编写可维护的代码，都是决定项目能否长期发展下去的重要因素。




关注「Alibaba F2E」
把握阿里巴巴前端新动向



掌门教育微服务体系Solar第3弹：Nacos企业级落地下篇
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

联席作者：谢璐 谢庆芳 伊安娜 任浩军
郑重鸣谢：Nacos - 彦林，Spring Cloud Alibaba - 小马哥、洛夜，Nacos 社区 - 张龙（pader）、春少（chuntaojun）
相关文章推荐：

掌门教育微服务体系 Solar | 阿里巴巴 Nacos 企业级落地上篇
掌门教育微服务体系 Solar | 阿里巴巴 Nacos 企业级落地中篇

前言

在高速发展的时候，公司规模越来越大，老师人数越来越多，这时候公司不能铺太多人去做运营与服务，必须提高每个人效，这就需要技术驱动。因此掌门教育转变成一家技术驱动型的公司，如果被迫成为一家靠资金驱动的公司就活不下去了。
-- 张翼（掌门教育创始人兼CEO）

掌门教育自2014年正式转型在线教育以来，秉承“让教育共享智能，让学习高效快乐”的宗旨和愿景，经历云计算、大数据、人工智能、 AR / VR / MR 以及现今最火的 5G ，一直坚持用科技赋能教育。掌门教育的业务近几年得到了快速发展，特别是今年的疫情，使在线教育成为了新的风口，也给掌门教育新的机遇。
随着业务规模进一步扩大，流量进一步暴增，微服务数目进一步增长，使老的微服务体系所采用的注册中心 Eureka 不堪重负，同时 Spring Cloud 体系已经演进到第二代，第一代的 Eureka 注册中心已经不大适合现在的业务逻辑和规模，同时它目前被 Spring Cloud 官方置于维护模式，将不再向前发展。如何选择一个更为优秀和适用的注册中心，这个课题就摆在了掌门人的面前。经过对 Alibaba Nacos 、HashiCorp Consul等开源注册中心做了深入的调研和比较，最终选定 Alibaba Nacos 做微服务体系 Solar 中的新注册中心。
背景故事
基础架构部选择新的注册中心，测试组需要配合对业界成熟的注册中心产品做分析和比较。由于掌门教育采用的是比较纯净的 Spring Cloud 技术栈，所以我们需要围绕它的注册中心，从测试角度，进行功能和性能上研究。
Spring Cloud 技术栈官方支持 Netflix Eureka ，HashiCorp Consul ，Zookeeper 三个注册中心，它们可以相互间实现无缝迁移，Alibaba Nacos 是新加盟 Spring Cloud 技术栈的新成员。测试组的同学们对上述四个注册中心做了一一研究和分析，鉴于时间紧迫，除了 Eureka 和 Nacos 之外，其它两个中间件未做深入的功能测试和性能测试。下面提供来自阿里巴巴 Nacos 官方某次业界宣讲的资料截图以供大家参考:

Eureka 介绍


Zookeeper 介绍


Consul 介绍

上述三个注册中心比较

本文将围绕 Alibaba Nacos 着重针对其功能测试和性能测试两方面进行剖析和介绍。
Nacos 测试篇
Nacos 性能测试
① Nacos Server 性能测试
开发部署了 UAT 的 Nacos ，测试亲自压测。
核心脚本
def registry(ip):
    fo = open("service_name.txt", "r")
    str = fo.read()
    service_name_list = str.split(";")
    service_name = service_name_list[random.randint(0,len(service_name_list) - 1)]
    fo.close()
    client = nacos.NacosClient(nacos_host, namespace='')
    print(client.add_naming_instance(service_name,ip,333,"default",1.0,{'preserved.ip.delete.timeout':86400000},True,True))
    while True:
      print(client.send_heartbeat(service_name,ip,333,"default",1.0,"{}"))
      time.sleep(5)
压测数据

压测结果图


Nacos Server 是3台 1C4G 集群，同时承受1499个服务和12715个实例注册，而且 CPU 和内存长期保持在一个合适的范围内，果真 Nacos 性能是相当 OK 的。
Nacos 功能测试
① Nacos Server 接口测试

更多更详 API 请参见 Nacos 官方文档: Open API 指南
https://nacos.io/zh-cn/docs/open-api.html
② Nacos Eureka Sync 测试
交叉注册
网关，服务 A ，服务 B 各10台实例，网关注册 Eureka ， A 注册 Nacos ， B 注册 Eureka ，同步正常，可调用。
压力测试
请求大于100万次，查看 Sync Server 会不会受到影响，结果 ErrorRequest = 0，同步服务数和实例数没有变化。

有无损调用
网关 Sync Server 挂掉，网关服务 Eureka 同步 Nacos 失败，不影响网关 -> A -> B 调用。
自动创建同步
发布系统第一次发布应用到 Eureka / Nacos ，会自动创建 Eureka -> Nacos 的同步任务或 Nacos -> Eureka 的同步任务

减少 Sync Server

Sync Server 4C8G ，停止机器，逐台递减，结论：平均1台 4C8G 机器最大可同步100个服务。
增加 Sync Server

2台 Etcd 节点，停机一台，Etcd 读取超时，结论：600个服务至少2台 Etcd 节点，这里重点强调，新增服务时， Hash 算法虚拟节点数，务必和原有的保持一致，不然会出现同步失败，影响跨注册中心调用。

重启 Sync Server

增加 Sync Server 个数，重启 Sync Server ，各节点同步数重新计算且均衡。
③ Nacos Client 功能测试
Nacos Client 界面重点测试集群管理，服务列表和权限控制。


Nacos Server 重启后，集群管理界面正常展示3台集群节点 IP 。
服务注册 Nacos Server 后，服务列表新增注册上去的服务名和实例个数，而且可查看详情。



服务上下线操作，健康状态和元数据等展示正常。
编辑，删除等操作只有具备 Admin 权限的人员才可操作。

④ Nacos Client 自动化测试
自动化测试链路
全链路测试路径
API网关 -> 服务A（两个实例） -> 服务B（两个实例）

全链路服务部署

自动化测试入口
结合 Spring Boot Junit ， TestApplication.class 为测试框架内置应用启动程序， MyTestConfiguration 用于初始化所有测试用例类。在测试方法上面加入 JUnit 的 @Test注解
@RunWith(SpringRunner.class)
@SpringBootTest(classes = { TestApplication.class, MyTestConfiguration.class }, webEnvironment = SpringBootTest.WebEnvironment.RANDOM_PORT)
public class MyTest {
    @Autowired
    private MyTestCases myTestCases;

    private static long startTime;

    @BeforeClass
    public static void beforeTest() {
        startTime = System.currentTimeMillis();
    }

    @AfterClass
    public static void afterTest() {
        LOG.info("* Finished automation test in {} seconds", (System.currentTimeMillis() - startTime) / 1000);
    }

    @Test
    public void testNoGray() throws Exception {
        myTestCases.testNoGray(gatewayTestUrl);
        myTestCases.testNoGray(zuulTestUrl);
    }

    @Test
    public void testVersionStrategyGray() throws Exception {
        myTestCases.testVersionStrategyGray1(gatewayGroup, gatewayServiceId, gatewayTestUrl);
        myTestCases.testVersionStrategyGray1(zuulGroup, zuulServiceId, zuulTestUrl);
    }
}
@Configuration
public class MyTestConfiguration {
    @Bean
    public MyTestCases myTestCases() {
        return new MyTestCases();
    }
}
基于 Nacos Client 的普通调用自动化测试
在测试方法上面增加注解 @DTest ，通过断言 Assert 来判断测试结果。注解 @DTest 内容如下：
@Target({ ElementType.METHOD, ElementType.TYPE })
@Retention(RetentionPolicy.RUNTIME)
@Inherited
@Documented
public @interface DTest {

}
代码如下：
public class MyTestCases {
    @Autowired
    private TestRestTemplate testRestTemplate;

    @DTest
    public void testNoGray(String testUrl) {
        int noRepeatCount = 0;
        List resultList = new ArrayList();
        for (int i = 0; i < 4; i++) {
            String result = testRestTemplate.getForEntity(testUrl, String.class).getBody();

            LOG.info("Result{} : {}", i + 1, result);

            if (!resultList.contains(result)) {
                noRepeatCount++;
            }
            resultList.add(result);
        }

        Assert.assertEquals(noRepeatCount, 4);
    }
}
基于 Nacos Client 的灰度蓝绿调用自动化测试
在测试方法上面增加注解 @DTestConfig ，通过断言 Assert 来判断测试结果。注解 DTestConfig 注解内容如下：
@Target({ ElementType.METHOD, ElementType.TYPE })
@Retention(RetentionPolicy.RUNTIME)
@Inherited
@Documented
public @interface DTestConfig {
    // 组名
    String group();

    // 服务名
    String serviceId();

    // 组名-服务名组合键值的前缀
    String prefix() default StringUtils.EMPTY;

    // 组名-服务名组合键值的后缀
    String suffix() default StringUtils.EMPTY;

    // 执行配置的文件路径。测试用例运行前，会把该文件里的内容推送到远程配置中心或者服务
    String executePath();

    // 重置配置的文件路径。测试用例运行后，会把该文件里的内容推送到远程配置中心或者服务。该文件内容是最初的默认配置
    // 如果该注解属性为空，则直接删除从配置中心删除组名-服务名组合键值
    String resetPath() default StringUtils.EMPTY;
}
代码如下：
public class MyTestCases {
    @Autowired
    private TestRestTemplate testRestTemplate;

    @DTestConfig(group = "#group", serviceId = "#serviceId", executePath = "gray-strategy-version.xml", resetPath = "gray-default.xml")
    public void testVersionStrategyGray(String group, String serviceId, String testUrl) {
        for (int i = 0; i < 4; i++) {
            String result = testRestTemplate.getForEntity(testUrl, String.class).getBody();

            LOG.info("Result{} : {}", i + 1, result);

            int index = result.indexOf("[V=1.0]");
            int lastIndex = result.lastIndexOf("[V=1.0]");

            Assert.assertNotEquals(index, -1);
            Assert.assertNotEquals(lastIndex, -1);
            Assert.assertNotEquals(index, lastIndex);
        }
    }
}
初始默认无灰度蓝绿的配置文件 gray-default.xml




灰度蓝绿生效的配置文件 gray-strategy-version.xml


    
        1.0
    

基于 Nacos Client 的自动化测试报告样例
---------- Run automation testcase :: testStrategyCustomizationGray() ----------
Header : [a:"1", b:"2"]
Result1 : zuul -> solar-service-a[192.168.0.107:3002][V=1.1][R=qa][G=solar-group] -> solar-service-b[192.168.0.107:4002][V=1.1][R=dev][G=solar-group]
Result2 : zuul -> solar-service-a[192.168.0.107:3002][V=1.1][R=qa][G=solar-group] -> solar-service-b[192.168.0.107:4002][V=1.1][R=dev][G=solar-group]
Result3 : zuul -> solar-service-a[192.168.0.107:3002][V=1.1][R=qa][G=solar-group] -> solar-service-b[192.168.0.107:4002][V=1.1][R=dev][G=solar-group]
Result4 : zuul -> solar-service-a[192.168.0.107:3002][V=1.1][R=qa][G=solar-group] -> solar-service-b[192.168.0.107:4002][V=1.1][R=dev][G=solar-group]
* Passed
---------- Run automation testcase :: testVersionRuleGray() ----------
Result1 : zuul -> solar-service-a[192.168.0.107:3002][V=1.1][R=qa][G=solar-group] -> solar-service-b[192.168.0.107:4002][V=1.1][R=dev][G=solar-group]
Result2 : zuul -> solar-service-a[192.168.0.107:3001][V=1.0][R=dev][G=solar-group] -> solar-service-b[192.168.0.107:4001][V=1.0][R=qa][G=solar-group]
Result3 : zuul -> solar-service-a[192.168.0.107:3002][V=1.1][R=qa][G=solar-group] -> solar-service-b[192.168.0.107:4002][V=1.1][R=dev][G=solar-group]
Result4 : zuul -> solar-service-a[192.168.0.107:3001][V=1.0][R=dev][G=solar-group] -> solar-service-b[192.168.0.107:4001][V=1.0][R=qa][G=solar-group]
* Passed
Nacos 测试总结
Nacos 不仅性能好，而且界面简洁，这样的注册中心你值得拥有。
作者介绍

吴毅挺，掌门技术副总裁，负责技术中台和少儿技术团队。曾就职于百度、eBay 、携程，曾任携程高级研发总监，负责从零打造携程私有云、容器云、桌面云和 PaaS 平台。
任浩军，掌门基础架构部负责人。曾就职于平安银行、万达、惠普，曾负责平安银行平台架构部 PaaS 平台 Halo 基础服务框架研发。10 多年开源经历，Github ID：@HaojunRen，Nepxion 开源社区创始人，Nacos Group Member，Spring Cloud Alibaba & Nacos & Sentinel & OpenTracing Committer。

参与 Nacos 落地的基础架构部成员，包括：
童子龙，张彬彬，廖梦鸽，张金星，胡振建，谢璐，谢庆芳，伊安娜
“阿里巴巴云原生关注微服务、Serverless、容器、Service Mesh 等技术领域、聚焦云原生流行技术趋势、云原生大规模的落地实践，做最懂云原生开发者的公众号。”



一图看懂阿里云 @KubeCon 2020（含 PPT 下载）
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

近日，首届 CNCF 与全球开源志愿者发起的 KubeCon 2020 线上峰会已圆满落幕，吸引了来自 30+ 个国家 5800+ 参会者观看。作为云原生领域最受开发者欢迎的平台，阿里云以 27 场演讲位列话题丰富度第一位，并于会上详解了阿里云 ACK Pro、ASM、ACR EE、ACK@Edge 等四款企业级容器新品，分享了对云原生创新基础设施和云原生操作系统进化的思考。
<关注公众号，回复 “KubeCon” 即可下载 PPT>
活动谢幕，你是否学有所获呢？
不要担心，下文将带你回顾 KubeCon 2020 峰会上阿里云的全部干货亮点！
【首日亮点全解读】

【次日亮点全解读】

【一图看懂阿里云要点精彩】

“阿里巴巴云原生关注微服务、Serverless、容器、Service Mesh 等技术领域、聚焦云原生流行技术趋势、云原生大规模的落地实践，做最懂云原生开发者的公众号。”



查看Socket断开原因及加入心跳机制防止自动断开连接
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
【转载请注明出处】：https://blog.csdn.net/huahao1989/article/details/107804286
一般情况下，前端页面连接WebSocket服务的时候都是通过Nginx等负载均衡，然后由Nginx去代理连接后端的socket服务。Nginx的配置类似如下：
map $http_upgrade $connection_upgrade {
    default upgrade;
    '' close;
}
location / {
    proxy_pass https://socket;
    proxy_set_header Host $host;
    proxy_set_header X-Real-IP $remote_addr;
    proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
         
    proxy_http_version 1.1;
    proxy_set_header Upgrade $http_upgrade;
    proxy_set_header Connection $connection_upgrade;
}
如果建立连接之后不做一些措施，那么可能会有各种各样的原因会导致socket断开，最好在socket断开时将错误打印出来。
ws.onclose = function (ev) {
  console.log('socket 断开: ' + ev.code + ' ' + ev.reason + ' ' + ev.wasClean)
}
socket断开时，会触发CloseEvent, CloseEvent会在连接关闭时发送给使用 WebSocket 的客户端，它在 WebSocket 对象的 onclose 事件监听器中使用。 CloseEvent有三个字段需要注意, 通过分析这三个字段，一般就可以找到断开原因：


CloseEvent.code: code是错误码，是整数类型

CloseEvent.reason: reason是断开原因，是字符串

CloseEvent.wasClean: wasClean表示是否正常断开，是布尔值。一般异常断开时，该值为false



状态码
名称
描述



0–999
 
保留段, 未使用.


1000
CLOSE_NORMAL
正常关闭; 无论为何目的而创建, 该链接都已成功完成任务.


1001
CLOSE_GOING_AWAY
终端离开, 可能因为服务端错误, 也可能因为浏览器正从打开连接的页面跳转离开.


1002
CLOSE_PROTOCOL_ERROR
由于协议错误而中断连接.


1003
CLOSE_UNSUPPORTED
由于接收到不允许的数据类型而断开连接 (如仅接收文本数据的终端接收到了二进制数据).


1004
 

保留. 其意义可能会在未来定义.


1005
CLOSE_NO_STATUS

保留. 表示没有收到预期的状态码.


1006
CLOSE_ABNORMAL

保留. 用于期望收到状态码时连接非正常关闭 (也就是说, 没有发送关闭帧).


1007
Unsupported Data
由于收到了格式不符的数据而断开连接 (如文本消息中包含了非 UTF-8 数据).


1008
Policy Violation
由于收到不符合约定的数据而断开连接. 这是一个通用状态码, 用于不适合使用 1003 和 1009 状态码的场景.


1009
CLOSE_TOO_LARGE
由于收到过大的数据帧而断开连接.


1010
Missing Extension
客户端期望服务器商定一个或多个拓展, 但服务器没有处理, 因此客户端断开连接.


1011
Internal Error
客户端由于遇到没有预料的情况阻止其完成请求, 因此服务端断开连接.


1012
Service Restart
服务器由于重启而断开连接.


1013
Try Again Later
服务器由于临时原因断开连接, 如服务器过载因此断开一部分客户端连接.


1014
 
由 WebSocket标准保留以便未来使用.


1015
TLS Handshake
保留. 表示连接由于无法完成 TLS 握手而关闭 (例如无法验证服务器证书).


1016–1999
 
由 WebSocket标准保留以便未来使用.


2000–2999
 
由 WebSocket拓展保留使用.


3000–3999
 
可以由库或框架使用.? 不应由应用使用. 可以在 IANA 注册, 先到先得.


4000–4999
 
可以由应用使用.



为了保证socket稳定，不断开，最好也是最简单的办法是添加一些逻辑，一直保持socket处在连接的状态。常见的做法就是间隔发ping消息给服务端，服务端接收到这个消息之后返回pong消息，以此来保持心跳，以防sock断开。我们常见的ping消息和pong消息实际上是发送了一个文本消息，这个消息的内容是ping或者pong，甚至是heatbeat等等，但是从socket协议来说是有设计ping消息和pong消息的。在socket的数据帧中，有一个opcode，它表明了socket的数据帧是什么类型的：

%x0：表示一个延续帧。当Opcode为0时，表示本次数据传输采用了数据分片，当前收到的数据帧为其中一个数据分片。
%x1：表示这是一个文本帧（frame）
%x2：表示这是一个二进制帧（frame）
%x3-7：保留的操作代码，用于后续定义的非控制帧。
%x8：表示连接断开。
%x9：表示这是一个ping操作。
%xA：表示这是一个pong操作。
%xB-F：保留的操作代码，用于后续定义的控制帧。

规范的心跳应该是在opcode里定义type：ping（9）才对，消息的内容是null，什么都没有，这才是最轻量级最规范的websocket心跳机制。一般情况下，使用发文本消息的方式也是没啥问题的，无非就是多消耗了一点流量和带宽，调试起来也容易一些，有可能心跳消息本身就会带一些业务数据。
js代码如下：
var lockReconnect = false;  
var ws = null;          
var wsUrl = 'wss://127.0.0.1/socket'
createWebSocket(wsUrl);  

function createWebSocket(url) {
    try{
        if('WebSocket' in window){
            ws = new WebSocket(url);
        }
        initEventHandle();
    }catch(e){
        reconnect(url);
        console.log(e);
    }     
}

function initEventHandle() {
    ws.onclose = function (ev) {
        reconnect(wsUrl);
         console.log('socket 断开: ' + ev.code + ' ' + ev.reason + ' ' + ev.wasClean)
    };
    ws.onerror = function (ev) {
        reconnect(wsUrl);
        console.log("llws连接错误!");
    };
    ws.onopen = function () {
        heartCheck.reset().start();      
        console.log("llws连接成功!"+new Date().toLocaleString());
    };
    ws.onmessage = function (message) {    
        heartCheck.reset().start();      //拿到任何消息都说明当前连接是正常的
        console.log("llws收到消息啦:" +message.data);
        if(message.data!='pong'){
            var msg = JSON.parse(message.data);
        }
    };
}

// 当窗口关闭时，主动去关闭websocket连接
window.onbeforeunload = function() {
    ws.close();
}  

function reconnect(url) {
    if(lockReconnect) return;
    lockReconnect = true;
    setTimeout(function () {     //没连接上会一直重连，设置延迟避免请求过多
        createWebSocket(url);
        lockReconnect = false;
    }, 2000);
}
 
var heartCheck = {
    timeout: 3000,       
    timeoutObj: null,
    serverTimeoutObj: null,
    reset: function(){
        clearTimeout(this.timeoutObj);
        clearTimeout(this.serverTimeoutObj);
        return this;
    },
    start: function(){
        var self = this;
        this.timeoutObj = setTimeout(function(){ 
            ws.send("ping");
            console.log("ping!")
            self.serverTimeoutObj = setTimeout(function(){
              //如果超过一定时间还没重置，说明后端主动断开了
                ws.close();      
            }, self.timeout)
        }, this.timeout)
    }
}
服务端Java代码：
@OnMessage  
public void onMessage(String message, Session session) {  
        if(message.equals("ping")){

        }else{
               
        }
}
欢迎关注 “后端老鸟” 公众号，接下来会发一系列的专题文章，包括Java、Python、Linux、SpringBoot、SpringCloud、Dubbo、算法、技术团队的管理等，还有各种脑图和学习资料，NFC技术、搜索技术、爬虫技术、推荐技术、音视频互动直播等，只要有时间我就会整理分享，敬请期待，现成的笔记、脑图和学习资料如果大家有需求也可以公众号留言提前获取。由于本人在所有团队中基本都处于攻坚和探路的角色，搞过的东西多，遇到的坑多，解决的问题也很多，欢迎大家加公众号进群一起交流学习。
【转载请注明出处】：https://blog.csdn.net/huahao1989/article/details/107804286




SpringCloud--微服务架构
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
@[toc]

微服务架构
微服务架构是一种架构模式，它提倡将单一应用程序划分成一组小的服务，服务之间互相协调。互相配合，每个服务运行在其独立的进程中，服务与服务之间采用轻量级通信机制互相协作（通常基于HTTP协议的RESTful API）。每个服务都围绕这具体业务进行构建，并且能够被独立的部署到生产环境 
通俗的讲 就是 一个个springboot 开发出来的模块就是落地功能


而我们 Spring Cloud是一系列框架的有序集合。它利用Spring Boot的开发便利性巧妙地简化了分布式系统基础设施的开发，如服务发现注册、配置中心、消息总线、负载均衡、断路器、数据监控等，都可以用Spring Boot的开发风格做到一键启动和部署。Spring Cloud并没有重复制造轮子，它只是将各家公司开发的比较成熟、经得起实际考验的服务框架组合起来，通过Spring Boot风格进行再封装屏蔽掉了复杂的配置和实现原理，最终给开发者留出了一套简单易懂、易部署和易维护的分布式系统开发工具包。



SpringCloud = 分布式微服务架构的一站式解决方案，是多种微服务架构落地技术的几何体，俗称微服务全家桶
SpringCloud的基础功能：
: 服务治理： Spring Cloud Eureka
客户端负载均衡： Spring Cloud Ribbon
服务容错保护： Spring Cloud Hystrix
声明式服务调用： Spring Cloud FeignAPI
网关服务：Spring Cloud Zuul
分布式配置中心： Spring Cloud Config
SpringCloud的高级功能：
: 消息总线:Spring Cloud Bus
消息驱动的微服务：Spring Cloud Stream
 分布式服务跟踪： Spring Cloud Sleuth

SpringCloud 中文网 https://www.springcloud.cc/.


个人博客地址：http://blog.yxl520.cn/





Spring Cloud系列之微服务介绍
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
相信我，请认真读完，点开每一个链接，或许你才能真正了解什么是微服务？什么是分布式？什么是云计算？绝对没有多余！
1 微服务
微服务架构是“新常态”。构建小型的、自包含的、随时可以运行的应用程序可以为代码带来极大的灵活性和灵活性。spring boot的许多专门构建的特性使得在大规模生产中构建和运行微服务变得非常容易。别忘了，没有spring cloud，就没有一个微服务架构是完整的，它简化了管理，增强了您的容错能力。

1.1 什么是微服务？
微服务是一种现代的软件方法，应用程序代码可以独立于其他程序以可管理的小块形式交付。
1.2 为什么要构建微服务？
它们的小规模和相对隔离可以带来许多额外的好处，例如更容易维护、提高生产力、更大的容错能力、更好的业务协调等等。
2 Spring Cloud
开发分布式系统可能具有挑战性。复杂性从应用层转移到网络层，要求服务之间进行更大的交互。使您的代码成为“本机云”意味着要处理12个因素的问题，例如外部配置、无状态状态、日志记录和连接到支持服务。spring cloud项目套件包含许多使应用程序在云中运行所需的服务。

2.1 Service discovery——服务发现
在云中，应用程序不可能总是知道其他服务的确切位置。服务注册中心（如Netflix Eureka）或sidecar解决方案（如HashiCorp consur）都可以提供帮助。spring cloud为流行的注册中心提供了Discovery Client实现，比如Eureka、consur、Zookeeper，甚至Kubernetes的内置系统。还有一个spring cloud负载平衡器（Spring Cloud LoadBalancer），可以帮助您在服务实例之间小心地分配负载。
2.2 API gateway——API 网关
由于有如此多的客户机和服务器，在您的云架构中包含一个API网关通常是很有帮助的。网关可以负责保护和路由消息、隐藏服务、限制负载以及许多其他有用的事情。spring cloud gateway为您提供了对API层的精确控制，集成了spring cloud服务发现和客户端负载平衡解决方案，以简化配置和维护。
2.3 Cloud configuration——云配置
在云中，配置不能简单地嵌入到应用程序中。配置必须足够灵活，以应对多个应用程序、环境和服务实例，并在不停机的情况下处理动态变化。spring cloud config旨在减轻这些负担，并提供与Git等版本控制系统的集成，以帮助您确保配置的安全。
2.4 Circuit breakers——断路器
分布式系统可能不可靠。请求可能会遇到超时或完全失败。断路器可以帮助缓解这些问题，spring cloud断路器为您提供了三种流行的选择：Resilience4J、Sentinel或Hystrix。
2.5 Tracing——追踪
调试分布式应用程序可能很复杂，而且需要很长时间。对于任何给定的失败，您可能需要将来自多个独立服务的信息跟踪拼凑在一起。spring cloud sleuth可以以一种可预测和可重复的方式为您的应用程序安装工具。当与Zipkin结合使用时，您可以将注意力集中在任何可能存在的延迟问题上。
2.6 Testing——测试
在云计算中，拥有可靠、可信、稳定的api可以获得额外的分数，但要实现这一目标还需要一段旅程。基于契约的测试是高绩效团队经常使用的一种技术。它有助于规范化api的内容，并围绕它们构建测试，以确保代码始终处于检查状态。
spring cloud contract通过使用Groovy、Java或Kotlin编写的契约，为REST和基于消息传递的api提供基于契约的测试支持。
3 流数据
spring cloud stream使得使用和生成事件变得非常容易，无论您选择哪个消息传递平台。spring cloud stream只需几行代码就可以将您的微服务与实时消息传递连接起来，以帮助您构建高度可伸缩、事件驱动的系统。
Get started with Spring Cloud Stream
4 管理微服务
spring boot的可选仪器框架microller直接将度量发送给Prometheus、Atlas等，以提供有价值的见解。spring cloud的Sleuth和Zipkin项目补充了这一点，它们提供了分布式跟踪，以便您能够实时跟踪正在发生的事情。
Get started with Micrometer on Spring Boot
5 云计算
微服务的小型、无状态特性使其成为水平扩展的理想选择。像TAS和PKS这样的平台可以提供可扩展的基础设施来匹配，并大大减少您的管理开销。使用云连接器，您还可以轻松地使用多个后端服务。
Try Pivotal Web Services for free
6 链接

https://spring.io/microservices
https://spring.io/cloud
https://run.pivotal.io/

Spring Cloud系列
Spring Cloud系列之微服务介绍
[Spring Cloud系列之微服务注册中心]()
[Spring Cloud系列之微服务统一配置中心]()
[Spring Cloud系列之微服务RPC]()
[Spring Cloud系列之微服务服务监控]()
[Spring Cloud系列之微服务链路跟踪]()
[Spring Cloud系列之微服务授权与认证]()
关于
我是冯文议（Erwin Feng），Java Developer，专注于程序设计与开发。开源项目：JavaLib、api-result。喜欢电影、游戏、音乐、茶、旅行。
我的个人网站：https://fengwenyi.com
我的Github：https://github.com/fengwenyi



云原生语境下，如何重新解读微服务？
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

最近，O’Reilly 公布了一份关于企业微服务市场现状的数据调研。报告显示，在访问了全球 1,502 名软件工程师、系统和技术架构师、工程师以及决策者后，有 77％ 的组织反馈采用了微服务，其中 92％ 的组织成功使用了微服务。

如果以这份报告为依据，微服务在企业的普及率已接近八成。看起来，企业对微服务的兴趣可能已经接近顶峰。云原生的基础设施从设计上保证了它是微服务部署的最佳平台，但是也对现有的微服务框架带来了新的挑战，在云原生大行其道的今天：

我们对微服务还应该继续投入精力关注吗？
云原生和微服务之间的关系是什么？
随着 Serviece Mesh 等技术的不断成熟，微服务的体系和思想会产生怎样的演化？
Spring Cloud、Dubbo 还会继续作为微服务开发框架的继续流行下去吗？
容器、Kubernetes、ServiceMesh、Serverless 这些云原生时代的主角，会如何助力下一代微服务架构为业务发展赋能？

这些问题值得每一位技术从业人员去思考，并发现由此带来的企业数字化转型升级新挑战、新机遇。也许有同学会说：“上个阶段微服务架构的问题都还没解决，又来了个‘云原生时代的微服务’，我这从哪儿开始学起啊？”
来，从这儿开始！

2020 云原生微服务大会
为推动云原生下的微服务技术发展和实践交流，由阿里云主办的首届“云原生微服务大会”将于 2020 年 8 月 18-19 日在线上召开。本次大会聚焦微服务架构前沿发展和业界最佳实践，重点探讨云原生语境下微服务的挑战和技术趋势，帮助企业技术决策者、架构师、开发者们迎接云原生时代的到来。
点击活动官网预约大会直播：https://developer.aliyun.com/topic/microservices2020#/
25 位全球专家共同解读云原生语境下的微服务定义
我们一直在强调微服务带来的好处，但另一方面，随着业务规模越来越大，拆分的服务实例越来越多，传统的微服务架构中关于服务之间的交互，服务发现、监控、容错性、日志收集和服务熔断等的处理也越来越困难。今天，以容器、服务网格、微服务、Serverless 为代表的云原生技术，带来一种全新的方式来构建应用，也使这些挑战有了可解的办法。

2020 云原生微服务大会嘉宾（部分）
8 月 18 日 - 19 日的 2020 云原生微服务大会，我们将特邀微软云首席软件工程师白海石，前Red Hat首席架构师、istio in action 作者、solo.io Field CTO Christian Posta，Spring 布道师 Josh Long，阿里云资深技术专家 & CNCF TOC 李响，南京大学软件工程教授 & 微服务方向专家张贺等 25 位全球微服务领域先行者和权威技术专家，深度探讨微服务架构在云原生时代的发展趋势、业界最佳实践和创新应用案例，一定会让你转变思维，重新审视微服务的思想、核心技术和落地路径。
5 大专场聚焦下一代微服务核心技术和实践
主论坛：08/18 09:00-12:00
云原生语境下，微服务也被赋予了新的意义，支持新的应用范式，承载新的计算价值。主论坛邀请多位技术领袖深度探讨云原生趋势下，微服务技术的实践和演进方向。
微服务开源专场：08/18 14:00-16:30
在微服务架构的落地和演进的过程中，微服务开源项目日益繁荣并不断赋能开发者。本论坛将聚焦微服务领域热门开源技术的落地实践，与开发者探讨微服务架构开源发展及未来趋势。
云原生架构专场：08/18 16:30-19:00
云时代下，企业需要新技术架构，使之更好地利用云计算优势，让业务更敏捷、成本更低、可伸缩性更强，而云原生架构的应用意义正在于此。本论坛将专注探讨云原生架构落地时面临的挑战与解决方案。
前端全栈专场：08/19 14:00-16:30
伴随着云+端、Serverless 等技术的发展，势必给前端带来更大的场景与机会，前端即将进入黄金时代。本专场将邀请行业专家深入探讨前端全栈实践问题及趋势。
超大规模实践专场：08/19 16:30-19:00
当前云原生微服务化落地的场景多样，行业已有很多生产环境下的实战案例，本专场将邀请来自掌门教育、爱奇艺、携程、中国工商银行的行业专家，在云原生微服务视角下探讨超大规模场景下的实践经验。
点击链接：https://developer.aliyun.com/topic/microservices2020#/，登录活动官网 ，即可预约 2020 云原生微服务大会在线直播，查看完整精彩内容，还有更多有奖互动环节等你参与！
“阿里巴巴云原生关注微服务、Serverless、容器、Service Mesh 等技术领域、聚焦云原生流行技术趋势、云原生大规模的落地实践，做最懂云原生开发者的公众号。”



解读Knative 0.16.0版本特性
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
前言
Knative 0.16.0 版本已于近期发布，针对 Knative  v0.16.0 版本对这些新功能特性进行解读，让你快速对新版本特性有所深入了解。
从Knative 0.16.0开始，k8s 最小支持版本为：1.16。
Serving
Autoscaling-自动扩缩容
优化缩容时对不可达 revision 处理
当revision reachable时，没有必要再采用步长缩容对逻辑，直接缩容到0即可。
移除 PodAutoscaler custom metrics API
custom metrics API的之前主要作用是提供给 HPA 用于支持基于请求的并发数的metric指标，但是安装custom metrics API 会对 k8s 侵入性太强，另外custom metrics API 对于apiserver的代码维护也带来了问题。针对这些问题，从0.16.0版本开始不再支持custom metrics API。
核心 API
多容器支持
社区终于在0.16.0开始进行多容器支持（尽管当前是alpha）。可以在config-features 配置文件中通过设置“multi-container” 为 “enabled” ，开启多容器特性。
环境变量支持downwards API
可以在config-features 配置文件中通过设置“kubernetes.podspec-fieldref” 为 “enabled” ，开启环境变量支持downwards API 。
webhooks 高可用支持
通过leader选举支持webhooks主备高可用。
Networking-网络
支持通过Header中Tag进行路由选择
在服务请求的Header中，可以通过指定tag，来访问tag对应的revision版本。
例如：如果请求访问 http://svc-name.ns.svc 服务，并且在Header中设置了：Knative-Serving-Tag:tag-name, 那么该请求就会路由到http://tag-name-svc-name.ns.svc 对应的revision 服务。
knative-serving namespace删除istio注入标签
当前knative-serving namespace的istio注入标签已经没有实际的应用，因此在0.16.0版本中从 knative-serving namespace中移除istio-injection=enabled标签
Eventing
V1版本支持
从0.16.0开始，以下资源提供了v1版本支持：

Subscription
Channel
InMemoryChannel
Broker
Trigger
Sequence
Parallel

这意味着Event这部分功能日渐成熟。
新增sugar-controller
引入一个 sugar-controller 主要用于调和 Namespace 和 Trigger，同时会从核心controller中移除Namespace reconciler和 Trigger reconciler
PingSource 事件接收高可用支持
当前接收PingSource adapter通过leader选举支持主备高可用部署。
总结
随着Knative 0.16.0 版本的发布，社区越来越关注用户 Knative 实际使用中的诉求, 如多容器支持、通过Header中Tag进行路由选择等。相信在后续的版本中会提供更多实用的功能来满足不同的 Serverless 场景实际运用。欢迎有兴趣的同学一起交流。
欢迎加入 Knative 交流群




十年中间件最佳实践集锦，八月福利大放送
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
轻松应对业务增长，阿里云为在线教育“定制”丰富的中间件，助力提升系统稳定性、灵活性和反脆弱性，通过消息队列，让你的业务沟通无畅，信息不丢失，还有全年优惠大放送！
活动链接：https://www.aliyun.com/activity/daily/aioe?spm=5176.12825654.a9ylfrljh.d114.e9392c4aCTHfz0&scm=20140722.2478.2.2461



高德地图 AMAP-TECH 算法大赛火热进行中······
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

阿里巴巴高德地图 AMAP-TECH 算法大赛于 7 月 8 日开启初赛，赛题为「基于车载视频图像的动态路况分析」，活动邀请了业界权威专家担任评委，优秀选手不仅可以瓜分丰厚的奖金，领取荣誉证书，还有机会进入高德地图【终面通道】！赶紧邀请小伙伴一起来参赛吧。
报名请戳：
https://tianchi.aliyun.com/competition/entrance/531809/introduction
下面给大家介绍下大赛详情。
背景
高德地图每天会为用户提供海量的定位和路线导航规划服务，其所提供的路况状态信息（即道路交通是拥挤、缓行还是畅通）的准确性会影响到用户在出行过程中的决策和体验。传统的路况状态主要依靠驾车用户的轨迹信息生成。在用户少、驾驶行为异常的道路上，这种方法难以保证路况状态的准确性。
车载视频图像包含了更多的信息量，给了我们另外一个解决问题的视角。通过视频或图片，可以观察到路面的真实状态，包括机动车数量、道路宽度和空旷度等等。基于车载视频图像可以获取更准确的路况状态，为用户出行提供更高质量的服务。
本赛题要求参赛者通过计算机视觉等人工智能算法，基于视频图像中识别到的路面信息来判断道路通行状态，提高道路路况状态判断的准确性，从而提升高德地图用户的出行体验。
赛题描述及数据说明
术语说明
路况：根据道路的平均车速、道路等级，对道路上车辆通行状态的描述，分为畅通、缓行、拥堵三个等级，在高德地图上显示为绿色、黄色、红色，如图1所示。
参考帧：存在图像序列内路况状态渐变的情况，每个图像序列存在一幅参考帧图像，参考帧时刻的路况状态为该图像序列的真值路况状态。


图1. 路况状态示意图
问题定义
输入：给定一组含有 GPS 时间的图像序列（包含 3-5 帧图像），其中一幅图像作为参考帧。
输出：以参考帧为准，输出该图像序列对应的路况状态（畅通、缓行和拥堵）。
如下图所示，该序列包含 3 帧图像，其中第 3 帧图像为参考帧。算法需要基于整个序列，推断路况状态。当图像序列内的路况状态不一致时，以参考帧为准。


图2. 路况判断流程示意
图像序列由行车记录仪拍摄，路况真值（ground truth）是对应道路当前时刻真实的路况状态。大部分场景下，前方车辆的数量和密度决定了路况状态，但是也存在一些其他情况供参赛选手参考：

行驶道路存在大量路边停车，但不影响车辆行驶，实际路况状态为畅通。
跟车距离较近，前车遮挡视野内道路的情况，影响对当前路况的判断。
行驶在双向道路，对向车道拥堵，行驶车道路况状态为缓行或畅通。
相机安装存在角度偏差，可能会影响路况判断。

数据说明
数据集分为预赛数据集和复赛数据集，预赛数据集先公布，仅供预赛使用。复赛数据集等预赛结束后公布，复赛中也可以使用预赛数据集。预赛数据集包括训练集和测试集。训练集合有 1500 个序列、共约 7000 幅图像；测试集合为 600 个序列、共约 2800 幅图像。预赛数据集包含不同等级的道路，包含高速路、城市快速路、普通道路等。路况真值类型的分布情况约为畅通 70% 、缓行 10% 、拥堵 20% 。路况真值主要基于参考帧标注。路面车辆较多的情况下，在标注时结合了序列中其他帧的信息。
数据格式
数据组织是以图像序列为单位，每个文件夹包含参考帧和其前后相邻帧的图像序列，图像序列最多为 5 帧图像。
提供数据中包含以下信息：

图像序列的参考帧图像名。
图像序列的路况状态。
0：畅通，1：缓行，2：拥堵，-1：测试集真值未给出。
每帧图像采集时刻的 GPS 时间。
单位为秒。如 GPS 时间 1552806926 比 1552806921 滞后 5 秒钟。

提供 JSON 格式标注文件，具体数据格式示意如下：
"status": 0 畅通，1 缓行，2 拥堵，-1 未知（测试集默认状态为-1）
{
"annotations": [
    {
        "id": "000001",
        "key_frame": "2.jpg",
        "status": 0,
        "frames": [
            {
                "frame_name": "1.jpg",
                "gps_time": 1552806921
            },
            {
                "frame_name": "2.jpg",
                "gps_time": 1552806926
            },
            {
                "frame_name": "3.jpg",
                "gps_time": 1552806931
            },
            {
                "frame_name": "4.jpg",
                "gps_time": 1552806936
            }
        ]
    },
    {
        "id": "000002",
        "key_frame": "3.jpg",
        "status": 2,
        "frames": [
            {
                "frame_name": "1.jpg",
                "gps_time": 1555300555
            },
            {
                "frame_name": "2.jpg",
                "gps_time": 1555300560
            },
            {
                "frame_name": "3.jpg",
                "gps_time": 1555300565
            },
            {
                "frame_name": "4.jpg",
                "gps_time": 1555300570
            },
            {
                "frame_name": "5.jpg",
                "gps_time": 1555300580
            }
        ]
    }
]
}
评价方式
路况包含通畅/缓行/拥堵三种状态，比赛评分考量每个图像序列的路况分类的准确情况，采用加权 F1 Score 作为算法评价指标。



权威专家评委团
为体现比赛的专业性，我们邀请到了多位权威专家来担任评委，包括：北京大学教授 查红彬、中科院自动化所研究员 王亮、阿里巴巴高德地图技术委员会主席 李小龙（聪云）、阿里巴巴高德地图首席科学家 任小枫、阿里巴巴达摩院自动驾驶实验室负责人 王刚（永川）。同时，阿里巴巴高级算法专家郝志会担任本次比赛的明星师兄，他们将为参赛团队提供最为专业的指导。
赛程、参赛对象
本次大赛分为初赛、复赛及决赛三个阶段：
报名（7月8日-8月28日，UTC+8）。
初赛（7月8日-8月31日，UTC+8）。
复赛（9月4日-10月13日，UTC+8）。
决赛（10月下旬，具体时间待定，UTC+8）。
数据集将于 7 月 8 日正式开放下载。7 月 20 日10:00 AM 以后可以在线提交测试集的路况识别结果（ JSON 文件格式）进行评测。评估程序根据真值，计算选手得分。
大赛面向全社会开放，个人、高等院校、科研单位、企业、创客团队等人员均可报名参赛，个人参赛或组队均可，组队人数上限为3人。
奖项设置
冠军：1支队伍，奖金6万元人民币+获奖证书。
亚军：1支队伍，奖金4万元人民币+获奖证书。
季军：1支队伍，奖金2万元人民币+获奖证书。
优胜奖：2支队伍，每支队伍奖金1万元人民币+获奖证书。
复赛审核通过的排名前 10 的队伍将有机会进入阿里巴巴高德地图校招绿色通道。
（上述奖项以方案评审及线上实战总决赛后的最终名次决定）
拉上小伙伴来参赛吧！
参赛者交流
扫描以下二维码或搜索钉钉群号 31160357 加入，重要节点通知会在群内第一时间告知，如对本次赛事、赛题及赛制有任何疑问，也可在群内@任意管理员提问。




轻松处理高于平常10倍的视频需求，还能节省60%的IT成本，蓝墨做对了什么？
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

近年来，Serverless 一直在高速发展，并呈现出越来越大的影响力。主流的云服务商也在不断地丰富云产品体系，提供更好的开发工具，更高效的应用交付流水线，更好的可观测性，更细腻的产品间集成，但一切才刚刚开始。
国内一些大公司已经有了一些成熟的Serverless应用案例，一些创业公司也开始加入Serverless阵营，如果说Serverless到底解决了什么问题，核心就是节约成本、节省精力。
蓝墨是一家由美国留学生回国创业的高科技公司，专注于移动互联时代数字出版和移动学习领域的新技术研究及平台运营，依托自主研发的蓝墨移动交互式数字教材核心技术体系，为出版社、学校和教师提供移动交互式数字教材、校园移动学习平台及教师自助数字出版等解决方案。
自2012年成立以来，蓝墨的业务就一直保持着高速增长，其技术团队也在逐步发展壮大。从创业开始，蓝墨的技术团队对于一些开放的新技术抱有极大的热情，并愿意应用快速迭代的互联网新技术，来确保其业务系统稳定运行。在疫情期间，在线教育迎来需求爆发，蓝墨加大了整合业界优质课程资源的力度，不断拓展自身的业务边界，在赢得机遇的同时，技术团队也面临了前所未有的挑战。
视频处理相关业务是蓝墨技术团队遇到的最棘手的问题之一。蓝墨每天都要处理大量视频教材资源，涉及到视频剪辑、切分、组合、转码、分辨率调整、客户端适配等一系列复杂的技术工作。在前几年的技术实践中，蓝墨技术团队通过FFmpeg等技术已经建立起一整套自主可控视频处理机制，支撑了业务的快速发展。但今年的业务增长速度是蓝墨的工程师们始料未及的，高峰期数十倍于往年的视频处理需求让现有的架构不堪重负，严重影响了用户体验。
怎么办？蓝墨技术团队的第一个想法是扩容！
水平扩容是能够立竿见影解决问题的，但在全天范围内，视频处理的需求量存在极为陡峭的波峰波谷，大量的任务发生在几个高峰时间段，而且具有一定程度上的突发性。如果按照最高峰期的需求量来规划系统容量，会造成计算资源的大量浪费，而且最高峰期的需求量到底是多少，也是很难预判的。如果采用错峰处理的方式，可以降低计算资源成本，但对于用户的需求得不到及时的处理。
水平扩容方案因此被放弃。
如果水平扩容走不通，能不能从视频处理的角度提升效率。比如使用云厂商提供的视频转码服务，类似于BaaS的方式。这样的方案可以完全不用考虑容量规划的问题，根据实际业务量按需调用云服务即可。看似可行，但是结合蓝墨自身业务的实际情况，技术团队又陷入了犹豫。蓝墨的视频处理机制做得非常精细，这里面包含着大量自定义的业务逻辑，需要使用代码来实现，而这些功能是第三方的视频转码服务根本无法实现的。
推倒重来！蓝墨现在的核心诉求概括有三个：节省成本、极致弹性、免运维，而这些恰恰是Serverless最擅长解决的问题。经过对国内云厂商提供的Serverless服务的多方面调研后，蓝墨技术团队一致认为在视频处理领域阿里云函数计算是最适合他们的方案。
函数计算（Function Compute，简称FC）是一个事件驱动的全托管 Serverless 计算服务，对于使用者而言，无需管理服务器等基础设施，只需编写代码并上传，函数计算会准备好计算资源，并以弹性、可靠的方式运行代码。由于FC完全兼容现有的代码逻辑，也能够支持各类主流的开发语言，所以蓝墨技术团队可以把代码逻辑以近乎无缝衔接的方式从原有的架构迁移到FC上，并且成本极低。通过对接OSS触发器，只要OSS上有新的视频源文件上传，就能自动拉起函数计算实例，开启一次视频处理业务的生命周期。通过整合Serverless工作流，还能对分布式任务进行统一编排，实现对于大文件切片后进行并行处理并最终合并的复杂操作，更进一步的提升了处理效率。
对于蓝墨的技术团队而言，函数计算是一种完全按需调用的Serverless化方案，能够充分利用云计算的弹性能力。一方面，函数计算FC能够在短时间内迅速调集上万个实例的计算资源，实现视频处理任务的快速执行；另一方面，由于不需要预留计算资源，也不需要对底层的软硬件进行维护，可以极大地降低运营成本，让蓝墨技术团队更专注于复杂业务逻辑的实现上。相比于传统的方式，基于函数计算FC的Serverless方案在视频处理场景下，可以帮助蓝墨节省了60%左右的IT成本投入。

Serverless的价值不言而喻。阿里云是国内最早一批推出Serverless计算服务的企业，函数计算（Function as a Service）更是 Serverless 中最具代表性的产品形态。可以说，蓝墨并不是第一家享受到函数计算FC巨大价值的企业，新浪微博、石墨文档、芒果TV等都是函数计算的拥趸者。前不久，在2020可信云线上峰会上，阿里云函数计算FC通过了基础能力要求、平台可观测能力、服务性能、服务和服务计量准确等21项测试，以全部满分的成绩通过了可信云函数即服务能力认证。此前，在Forrester发布的报告中，阿里云函数计算被给予“强劲表现者”的评价。
除了拓展更加丰富的产品形态，阿里云函数计算也不断优化用户体验，包括做了硬盘挂载、预留实例、镜像加速、大规模实例等业内领先的实践，真正把用户需求放在首位，沉下心来做对用户更有价值的产品。
所以，蓝墨才会坚定地选择函数计算，并在视频处理之外的其他业务领域，积极探索可以进行Serverless化改造的场景，成功落地了FC和日志服务的集成。当日志以流的方式源源不断写入时，日志服务会自动触发函数计算FC对数据进行处理，分析日志中的重要信息，实现异常事件的报警，并按照业务规则把日志进行压缩、转换后存放到其他媒介中，从而更好地保障系统稳定高效运行。
蓝墨技术团队负责人表示，将来蓝墨会将更多场景与函数计算FC进行整合，充分享受云原生的技术红利，提升整个团队的战斗力。而阿里云也将一直与用户站在一起，打赢接下来每一场漂亮的战斗！
【加入阿里云在线教育客户交流钉钉群】
欢迎扫码加入在线教育行业客户交流钉钉群，阿里巴巴众多专家将在群内定期分享行业最佳实践和前沿技术干货，扫码入群，与更多行业精英互动交流。扫码或搜索钉钉群号均可加入：35712134。


【填问卷抽淘公仔-阿里云中间件用户调研】
点击链接，一分钟填问卷抽淘公仔：
https://survey.aliyun.com/apps/zhiliao/YmW95Gk8bU
【更多干货】：
1、点击链接了解更多在线教育案例、最佳实践、优惠活动：
https://www.aliyun.com/activity/daily/aioe
2、点击 阿里云函数计算 了解更多实践案例。



金蝶天燕加入阿里云原生合作伙伴计划并发布金融行业服务治理联合解决方案
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

近日，金蝶天燕与阿里云正式签订“云原生合作伙伴计划协议”并联合推出金融行业服务治理解决方案，提升数字化运营效率。对此，阿里云云原生生态负责人宁晓民说：“金蝶天燕是中间件行业的领导厂商，是阿里云在金融行业的重要合作伙伴，此次合作后，双方将自身优势强强联合，共同推动金融行业数字化转型。
数字化时代，微服务、分布式结构逐渐成为主流，云原生已成为云计算的技术趋势。阿里云在云原生领域的投入广泛而深入，在容器、服务网格和 Serverless 等领域均有丰富的技术和产品体系。然而随着业务发展，IT服务越来越多，如何协调各种服务，保障服务的SLA（服务级别协议，保障服务品质、水准、性能），对服务架构和运维人员是一个很大的挑战。为了满足服务线下管控、保障线上高效运行，需要有一个统一的服务治理平台对服务进行统一、有效管控，保障服务的高效、健康运行。
在金融行业，对服务治理的需求更加迫切。现有大而全的系统犹如一张大网，错综复杂，体现为“三不清晰”和“三多”。
“三不清晰”：系统边界不清晰；系统部署架构不清晰；功能架构不清晰；
“三多”：涉及到的人员角色多；业务流程多；服务环节多。
总之，牵一发而动全身，所以，对服务治理有着更高的要求。
“金蝶天燕阿里云原生金融行业服务治理联合解决方案”面向全领域金融业务系统，帮助金融企业梳理关键业务流程。如银行IT系统业务需求流程梳理、系统接口与交易流程梳理、微服务架构下的服务化和标准化治理等，实现覆盖服务全生命周期的统一管理。为金融行业提供高性能、高可靠兼具扩展性与安全性的服务治理平台。
在中国，云计算的整体渗透率仍不足 10%，金融领域更是远低于这个数字。阿里云作为国内顶尖的云服务商，有着成熟的架构体系与稳定的平台。金蝶天燕的产品曾服务于中国人民银行、中国证券监督管理委员会、中国银行、光大银行等金融行业的重要客户，在金融行业有着丰富的服务经验。
金蝶天燕与阿里云一直是关系紧密的合作伙伴，在去年推出了“政府数字新财联合解决方案”，得到了广泛好评。此次“金融行业服务治理联合解决方案”是双方在金融领域迈出的新一步，未来双方将继续深入合作，金蝶天燕将发挥自身优势，立足阿里云平台，提供更多的优秀产品与解决方案。
点击：阿里云原生合作伙伴计划，加入我们。



【升级】8月5日阿里云服务热线95187维护通知
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
尊敬的阿里云用户，您好

接北京移动运营商通知，将于2020年8月5日00:00-01:00期间，对阿里云服务热线95187进行线路升级切换。
如您使用的是移动手机号码，此段时间将无法正常拨打95187，建议您拨打阿里云售后热线4008013260进行服务咨询。或使用联通、电信号码拨打95187进行咨询。
感谢您的理解与支持，谢谢。
             
        
    
    

          
        
      
      
          
              






    







【升级】8月13日DDoS高防（新BGP）升级通知
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
【阿里云】【DDoS高防(新BGP)】【升级通知】
升级窗口：北京时间 2020年8月13日 02:00- 06:00
升级内容：DDoS高防(新BGP)进行网络升级操作。
升级影响：升级期间，部分IP需要重新连接，会导致TCP连接闪断2-3次。闪断对短连接和具备自动重连的长连接业务基本无影响，请确保您在业务上做好重连重试机制，以增强业务的容错能力。
给您带来的不便敬请谅解，有任何问题，可点击联系我们进行咨询反馈。
             
        
    
    

          
        
      
      
          
              






    







【漏洞预警】Nexus Repository Manager 3.x 远程代码执行漏洞（CVE-2020-15871）
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
2020年8月3日，阿里云应急响应中心监测到Nexus Repository Manager 3.x 版本存在远程代码执行漏洞。

漏洞描述
Sonatype Nexus Repository 是一个开源的仓库管理系统，在安装、配置、使用简单的基础上提供了更加丰富的功能。近日Sonatype官方发布安全公告披露了在Nexus Repository Manager 3.x 版本中存在远程代码执行漏洞（CVE-2020-15871），攻击者可在登录后利用该漏洞执行任意命令。漏洞利用需要登录，危害相对较小。阿里云应急响应中心提醒Nexus Repository Manager 3.x 用户尽快采取安全措施阻止漏洞攻击。

影响版本
Nexus Repository Manager OSS/Pro version < 3.25.1

安全建议
升级到Nexus Repository Manager 3.x 至最新版本 3.25.1

相关链接
https://support.sonatype.com/hc/en-us/articles/360052192693-CVE-2020-15871-Nexus-Repository-Manager-3-Remote-Code-Execution-2020-07-29


阿里云云安全中心应急漏洞模块已支持对该漏洞一键检测

我们会关注后续进展，请随时关注官方公告。
如有任何问题，可随时通过工单或服务电话95187联系反馈。
阿里云应急响应中心
2020.8.3
             
        
    
    

          
        
      
      
          
              






    







菜鸟+Hologres=智能物流-阿里云开发者社区
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
作者：阿里巴巴菜鸟物流团队（弃疾，孝江，姜继忠）
一、业务背景
菜鸟智能物流分析引擎是基于搜索架构建设的物流查询平台，日均处理包裹事件几十亿，承载了菜鸟物流数据的大部分处理任务。
智能物流分析引擎将基于运配网络的各类应用场景集中到了统一的一个技术架构，以此提供强大的吞吐和计算能力。基于原架构的数据处理流程为：Datahub实时采集数据源，包含仓、配、运和订单等数据，实时计算Flink基于流批一体的模式对数据预处理，形成一个以订单为单位，包含订单跟踪事件的宽表，写入存储引擎HBase中，再供外部查询。

在数据处理部分，随着数据量的增加，原有的存储系统HBase在维表全量导入中所需要的时间越来越长，这就需要耗费大量的资源，另外其单机吞吐的表现不是很好，单位成本高。在数据量较小时，成本不是需要考虑的关键因素，但当数据量规模变大时，成本的重要性就体现出来了。菜鸟智能物流每天需要处理大批量的数据，这也就意味着每天将会浪费大量的资源。

同时，在我们的场景中，有些表是作为Flink维表基于PK进行PointQuery，有些表需要进行OLAP分析，而HBase并不能两种场景都满足。为了OLAP分析，需要将数据同步到批处理系统中，为了KV查询，需要将数据同步到KVStore。不同的查询需求就需要借助多个系统，数据在不同系统之间的导入导出不仅会加深数据同步的负担，也会带来冗余存储，也极容易出现数据不一致的情况，并且多个系统也会给开发和运维带来一定的成本。

基于以上背景，当前我们最需要解决的问题是降低整体的资源消耗成本，那么就需要有一款产品既能提供存储能力还要提供高性能的写入能力。而在查询场景上，若是这款产品能同时满足KV查询和复杂OLAP查询将会是加分项，这样就会解决多个系统带来的数据孤岛问题，一次性满足所有需求。

我们在集团内对多个产品进行了调研，最终选择了Hologres替换现有的HBase。

二、业务架构
菜鸟物流引擎需要处理大量的表和数据，全量任务快递线和仓配线通过MaxCompute（原ODPS）表的日分区快照做驱动源，增量任务通过对应的事件流做驱动，来进行引擎数据写入。
全量任务会根据包裹的历史履行进度进行聚合，生成这个包裹的客观履行和历史属性信息，并通过Flink Job实时同步更新到Hologres里，提供给数据任务进行关联。实时数据在接收到一条事件消息后，首先会去关联这条包裹历史履行，并会调用算法服务链，进行拆合单、末端网点预测、路由选择、时效预测等，生成新的预测履行进度。新的预测履行会作为回流数据写入TT（消息中间件，类似Kafka）和Hologres中，并再提供给数据任务进行关联。
通过数据任务之间的互相协同，我们对数据关系进行了梳理，并尽量降低数据之间的依赖，最终业务处理架构如下图所示：


数据驱动层 在数据驱动层中，包含几个部分：全量任务的主表驱动、增量任务的主表驱动、业务辅表的驱动。

数据关联层 数据关联层主要包括各种Flink的SQL Operator。为了提升全量任务和增量任务的吞吐，通过存储和计算优化，将数据关联尽可能的分布到不同的数据分区上，来进行性能提升。

数据交互层 索引数据通过Swift Sink的方式写入到索引构建服务中；要持久化的内部数据，通过写入接口保存到存储服务中。


 
三、业务价值
将HBase替换成Hologres之后，给业务带来的价值主要有以下几个方面：

1.整体硬件资源成本下降60%+
对比HBase，相同配置的Hologres有着更强的写入性能，能够提供更好的吞吐量，也就是说我们可以用更少的资源来满足现有数据规模的处理需求。在实际业务应用中，整体硬件资源成本下降60%+，解决了我们最棘手的问题。

2.更快的全链路处理速度（2亿记录端到端3分钟）
全量数据处理所需的时间是非常重要的指标，设想某一天新发布的数据处理代码有bug，新产出的数据不可用，即使修复了代码，还得继续解决已经存在的错误数据，此时就要跑一次全量，用正常的数据覆盖错误的数据。全量任务的运行时间决定了故障的持续时间，全量运行的速度越快，故障才能越快解决。
在物流分析引擎的全量中，我们需要先通过所有维表的数据，确保维表自身的数据是正确的，这是一个非常耗时的操作。以其中一张表为例，2亿多的数据量，使用Hologres同步只需要3分钟左右，这也意味着可以更快的执行完毕全量数据，以便我们能够更从容应对突发情况。
3.一个系统，满KV和OLAP两个场景，没有数据冗余
Hologres在存储上支持行存和列存两种存储模式。列存适合海量数据的交互式分析，而行存适合基于Primary Key的整行读取。这就意味着我们可以将所有的数据存储在Hologres中，需要PointQuery就选择行存模式，需要复杂OLAP分析就选择列存模式，满足了OLAP和KV查询，无需再借助其他系统，既保证了数据存储的唯一性，也避免了各种系统之间的导入导出和复杂运维。
4.大维表实时SQL查询
以前如果想查一下维表中的数据，由于是KV接口，并不是很方便。Hologres兼容PostgreSQL生态，可以直接使用psql客户端访问，通过标准的PostgreSQL语法查询表中的数据，支持各种过滤条件，能够很方便的实时检查数据是不是有问题。
5.强Schema
原有的维表存储是一个弱Schema的存储服务，在Flink任务中，即使访问不存在的字段也不会报错，只是获取到的字段值为空。代码里不小心写错了字段名，一是很难立刻发现，通常要等到数据产出时候才能发现，甚至只能等用户发现，另外排查起来也很麻烦，没法直接定位。使用Hologres的时候字段名写错立即报错，错误信息很明确，避免了潜在的错误风险，还能节省时间。



关于小机 | 计算机百年趣味史（上）第8篇-阿里云开发者社区
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
上一篇：七个”小矮人” | 计算机百年趣味史（上）第7篇
下一篇：PC时代 | 计算机百年趣味史（上）第9-10篇
本文作者：衍云
小机即小型机（minicomputer），从名字上我们可以知道是体积会较小的机器，不过体积也是针对大机(mainframe)来说是，如果光从绝对体积上讲，那显然又不对。所以，小机是对特定时代一群类似机器的统称。我们来看下小机的关键历史。其历史时间是与大型机并行的。
1950年，肯·奥尔森（小型机之父）在MIT攻读硕士研究生的时候就加入了SAGE(Semi-Automatic Ground Environment，半自动地面环境，也就是上面提到的SAGE)项目中，后来和IBM的合作中，他看到IBM内部的官僚等级，奥尔森深感不满，并决定打败他们。
于是在1957年，DEC成立了。通过存储测试逻辑软件和存储测试器站稳后便开始向计算机研制进军。1959年12月，DEC公司向市场推出了它的第一台计算机PDP-1的样机。
1964年，推出了小巧玲珑的PDP-7型计算机（18位机），首次使用了倒装芯片（Flip chip），是的这就是UNIX最早诞生的元老。
1965年的秋季，DEC公司推出了小巧玲珑的PDP-8型计算机(12位机)，销售迅速扩大，抢占了IBM公司的计算机市场。
1970年1月，DEC推出了PDP-11型计算机(肯·汤普森Ken Thompson跑的第一版Unix)。PDP-11拥有一系列计算功能，很快成为小型计算机工业的榜样，同时成为了小型计算机设计的楷模，成为了巅峰。
不过PDP系列相互之间不兼容，导致每次程序需要重新移植。
对于这些小巧玲珑的小机，IBM真是等到1979年时候，才开始意识到，并制作中小型商用计算机系统（System/3, System/32, System/34, System/36），当1988年时候IBM推出了下一代就是AS/400系列在与各个厂家竞争中独占鳌头，形势才发生变化。DEC也开始划水下坡。
不过就像IBM忽略了小机市场那样，DEC也忽略了PC市场，使得苹果电脑占领了先机，而当IBM在1981年杀入PC市场，再加上DEC产品失误，后来就彻底没有DEC什么事情了。
1998年1月DEC公司被竞争公司康柏（Compaq）以96亿美元的价格收购，结束了DEC在历史舞台上的最后一幕。
和大机一样，只要有需求就会有竞争。小机厂家除了IBM，DEC之外，还有很多厂家，只是相比DEC晚了一些或者说更缺少一种典型。美国的Sun（1982年成立，早期使用摩托罗拉公司芯片，现已被Oracle收购）、日本Fujitsu（富士通）等公司的小型机是基于SPARC处理器架构（该处理器由1985年Sun公司研制，现在Oracle已放弃了SPARCE转用Intel Xeon）,而美国HP公司的则是基于PA-RISC架构，后基于Itanium ，而最新的SuperdomeX也基于Intel Xeon；Compaq公司是Alpha架构。另外，不同厂家的小机其内部的各种总线也会存在差异，例如I/O总线,Fujitsu是PCI，而Sun是SBUS。处理器除了以上架构外，还有MIPS架构由斯坦福(Stanford)大学JohnL. Hennessy校长/教授（和David A. Patterson合著有《计算机体系机构：量化研究的方法》，并与2017年一起获得图灵奖， David A. Patterson 教授2016年，加入Google TPU团队）领导的研究小组1981开始研制。
此外，由于小机的发展刚好赶上的UNIX的热潮，所以很多小型机都开始使用基于Unix的操作系统,像Sun Solaris（已被Oracle抛弃）,HP是用HP-UX,IBM是AIX和OS/400。小型机是封闭专用的计算机系统,用小型机的用户一般是看中安全性、可靠性和专用服务器的高速运算能力。由于UNIX操作系统在小机上的霸主地位，很多人也将小机叫做UNIX服务器。
小机相比大机市场竞争更加激烈，也更百花齐放。
国内也有厂商基于Itanium开发小型机，在863国家项目的基础上，浪潮和华为均开发了产品。不过只有浪潮的天梭K-1系统在2013年上市，而华为转而使用Intel Xeon并推出了KunLun服务器。
最后在小机篇中，
我们来看下小机中的战斗机，IBM Power系列(集团在2012下线的小机就是IBM的Power系列机器)。
目前最新的IBM Power机器是Power E980(也是几年前的产品，这个小机的定位已经决定其更行迭代较X86/ARM慢)，外观没啥好看的，和普通的X86 4路服务器几乎一样，重要的其内置核心。
我们来看下他强大的配置，最大16 x POWER9 processors(8, 10, 11 or 12 cores each),也就是128, 160, 176 or 192 Power9核心。这里最大是物理核心192个，开超线程(4thread per core)后是最大得到768线程，最重要的几乎完美的扩展性。

Power是标准的SMP结构，对于内存来说所有CPU访问的速度都是一致的，而x86采用了NUMA结构，每个CPU访问自己的这部分内存特别快，但是如果需要访问其它部分那就要走UPI总线，客观上造成了随着CPU数量的增多，处理能力的增长Power系列的线性程度远好于x86。另外，作为小型机，搭上自家的AIS系统，其设计更加完整紧凑，综合起来性能完爆Intel X86是没啥问题的，就是一个问题，贵！不过相比Z15大机，小机还是性价比更高的，毕竟价格摆在那里。
扯远了......回到历史......



开源国产数据库峰会-南京站-阿里云开发者社区
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
国际形势、国内趋势，现在中国数据库市场暗流涌动，这次盛会，让处于中国数据库一线的专家们为你解惑释疑。
此次大会由中国计算机学会、开源中国、开源&国产数据库联盟、神脑资讯(CUUG)等单位主办，特邀阿里云、腾讯、迪思杰、亚信科技、苏宁易购、人大金仓、南大通用等企业代表，特邀北京大学、武汉大学、南京财经大学等院校代表，共同探讨国产数据库的发展，为各行各业提供去‘O’的全面解决方案，为现在身为DBA或者即将走上这条路的人士提供指导方向。
参会嘉宾：
周正中 (网名：德哥、阿里云数据库专家、PG 中国社区大学校长)
秦小麟 (南京航空航天大学数据管理与知识工程研究所所长，江苏省政协常委)
彭煜玮 (武汉大学计算机学院教授，CCF 数据库专委会委员)
孙国梓 (南京邮电大学教授，CCF 南京副主席)
韩宏坤 (迪思杰(北京)数据管理技术有限公司总裁)
张文升 (PG 中国社区核心成员，著有《PostgreSQL 实战》和《PostgreSQL 内幕探索》畅销书籍)
陈河堆 (中兴通讯数据库平台负责人，PG 中国社区核心成员，著有《深入浅出 PostgreSQL》畅销书籍)
姜明俊 (亚信科技数据库技术创新实验室总监，PG 中国社区核心成员)
陈华军 (苏宁易购 IT 总部资深技术经理，PG 中国社区核心成员)
梁红凤 (北京人大金仓信息技术股份有限公司副总裁)
杜国旺 (南大通用副总裁，首席战略官)
陈卫星 (北京神脑资讯技术有限公司(CUUG)总裁)
刘建国 (北京神脑资讯技术有限公司(CUUG)总经理)
会议方式：
线下：阿里云创新中心基地
报名方式：https://jinshuju.net/f/gvUtP5
线上：同步直播
直播地址：https://wx.vzan.com/live/tvchat-778077007
参会人员奖项：
一等奖：PG中级认证课程(价值6800元) 5名
二等奖：PG高级课程(价值5800) 5名
三等奖：《PostgreSQL 实战》《深入浅出PostgreSQL》作者现场签名 各10本
四等奖：峰会精美纪念品 30名
五等奖：峰会纪念T恤 400名
报名方式、直播地址、主题分享、会议抽奖等内容会在群内公布
QQ群1：913256657



什么是DTS | 《DTS控制台入门一本通》第一章-阿里云开发者社区
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
下一章：DTS概览页 | 《DTS控制台入门一本通》第二章

点击免费下载
《DTS控制台入门一本通》>>>


也可以PC端点击https://developer.aliyun.com/topic/download?id=803 下载
DTS 全称为数据传输服务 DTS，它最常见的用途是把本地数据库的数据迁移、同步到阿里云，或者把阿里云的数据迁移、同步到本地。它更多的是一个数据迁移产品，它最终做的事情就是把数据从源端抽取 ( 复制源端数据，源端数据依然还在 ) 然后写入到目标端。另外，它还提供数据订阅的功能（关于数据订阅，后面章节会进行讨论），支持对增量数据进行订阅。简单的可以理解成下图这种架构，如图 1-1。




云上备份-阿里云开发者社区
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800
讲师简介：
辛阳，灾备技术国家工程实验室常务副主任，教授。
吴结生，阿里巴巴高级研究员、阿里云智能存储负责人
李媛（紫英），阿里云混合云灾备技术专家，阿里云产品经理
张磊，阿里云智能高级技术专家
目录
一、灾备技术（灾备技术国家工程实验室常务副主任辛阳）
二、云，让灾备更简单（阿里巴巴高级研究员吴结生）
三、阿里云混合云灾备应用场景实践与案例解读（阿里云智能高级技术专家张磊）
一、灾备技术
灾备技术简介：
习主席指出：“没有信息化就没有现代化，没有网络安全就没有国家安全“。


灾备技术作为”网络安全的最后一公里“，其不仅是网络安全保障体系的重要组成部分，也是网络与系统基础设施持续有效运行的基本保障，是信息化国家战略的重要支撑。
灾备中心作为数据中心建设的基本组成部分，也是新基建工作的重要组成部分。
从全球角度看,移动互联网、云计算、大数据、下一代移动通信等信息技术的发展,使得数据量呈爆炸式增长,人工智能、深度学习、类脑计算等数据再利用技术的成熟,又使得数据价值呈指数上升。
但是火灾、地震、跑水、网络安全黑客攻击、运营误操作等天灾人祸时时刻刻威胁着数据和信息系统的稳定运行,重要数据与信息系统一旦受到破坏等同于企业和组织的"现金流"被追中断。
如今我国政府业和企业的关键业务系统已经全部信息化，保持业务运行的持续稳定既是重要的也是迫切的。
灾备行业相关法规：


    2017年6月1日《网络安全法》正式实施,三十四条规定"对重要系统和数据库进行容灾备份",从法律角度对信息系统的备份进行了强制要求。
    2019年12月1日《信息安全技术网络安全等级保护基本要求》2.0正式实施,在新的标准中,对于数据备份和灾难恢复做出更高要求:除了备份之外,还要有数据和业务系统的本地高可用和异地容灾手段。
灾备行业相关标准：


国际标准：目前，通用的暂难恢复标准采用的是1992年的SHARE78标准。
国家标准：
1.2007年中国灾难备份与恢复行业的第一个国家标准《信息系统灾难恢复规范》（GB/T20988-2007)开始正式实施。
2、2013年《公共安全业务连续性管理体系要求》国家标准（GB/T 30146-2013）正式发布。
3、2019年7月1日由全国信息安全标准化技术委员会（SAC/TC260）提出并归口的《信息安全技术灾难恢复服务能力评估准则》（GB/T 37046-2018）,正式实施。
云灾备的优势：
云灾备的概念与分类：
    云灾备是指灾备业务的云端实现形式,主要包括云备份与云容灾;
    云备份与云容灾是一个有机的统一体,其中云备份是指备份技术将生产存储数据直接备份到公有云上,进而实现数据备份与恢复功能;
    云容灾则是指通过数据系统的云端迁移、高可用等方式实现业务的快速接管,保证业务连续性；
优势：


    基础设施减少，降低IT成本
    按需付费，高度机动性
    高度灵活性，快速恢复
云灾备的关键技术：
    重复数据删除技术
    数据压缩传输技术
    云存储与安全隐私技术
    虚拟化与超融合技术
    云数据库备份技术
云灾备技术未来发展方向
    微服务的支持
    NEW sql数据库支持
    多云和混合云的支持
云灾备发展中的问题：


用户角度：
1.普及云灾备与数据安全技术提升灾备安全意识;
2、云灾备人才培养需要进一步加快;
3、充分挖掘灾备技术数据的再利用价值,降低总TC0;
云厂商角度：
1、灾备技术需要不断突破,尤其对专网;
2、大力研发数据隐私保护技术;
3、进一步拓展广义"灾备技术"内涵,进一步降低云灾备成本;
4、提供可选的多种多选第三方灾备数据安全技术增值应用
监管角度：  
1、云灾备标准体系进一步完善;
2、推动行业协会发挥更大的作用;
3、数据隐私性要求要有强有力的惩罚性条款配套;
云灾备-大势所趋：
“上云”和“云上”将成为常态，“云灾备”和“灾备云”大势所趋。
大力发展以云为代表的灾备基础设施是行业所需也是产业技术发展的必然趋势。
二、云，让灾备更简单
唯一不变的是变化：


依靠数据来进行决策和运营，数据的价值化会引导其极致的地位，在这些变化的后面大家可能会去思考它的驱动力是什么，这个驱动力就是所说的数字化经济的转型，是业务的数字化、在线化以及智能化。
在数字经济时代灾备是最基础的技术需求，灾备技术是保障数据安全和技术安全的基本需求。
在灾备的构成实际包含两部分：做数据保护，做业务连续性的保障。只有在两种保护下面才能做到不论发生什么故障，系统才能正常运行的。
ALL IN CLOUD，拐点已至：


云存储逐渐成为主流的寄载点，数据一般分为三种：
1.存在个人电脑，手机上的个人消费数据。
2.存在企业数据中心的数据，企业数据中心层数
3.位于规模云上的数据层数。
灾备市场洞察：


灾备市场的一个情况，2019年达成了对数据中心的这种灾备的一个调查，就是分析发现，据说到2020年的时候，30%的大型企业会使用这个快照和备份，20%的企业会使用这个语音作为备用库，另外到2022年的时候40%的企业会替换他们在2018年备份的方案。
这个调查的市场从另一个角度来看，到2021年的时候呢，使用情况会达到281，那么相比2020年或者是2022相比2021的话，往年增长大概是17%左右。
总结来说:
第一：灾备技术是保障这个信息安全和数据安全的基础技术需求。
第二：云存储灾备是大势所趋，就如辛阳教授提到的那样。
第三：灾备市场的扩大，年增长率会进一步的加速。
传统灾备解决方案面临的痛点：


围绕公共云的灾备方案解决痛点，典型的两地三中心的方案，在同城的时候做数据中心，做数据双活，在远一点的地方找一个异地容灾的数据中心，就是上述有图绘制所示。
每个数据中心上部署应用做备份，做容灾。在传统的方案上具备图中的几个痛点。
云灾备解决方案：



在云灾备的解决方案里，假如客户拥有自己的数据中心，就是左上的生产中心，那么云灾备就可以在同城就近找一个阿里云的数据中心做一个业务的迁移，而阿里云会找一个远程的异地容灾能力进行备份。
从客户角度来看可以不用去维护多个数据中心，而在公共云上容灾服务是以托管的方式进行的，可以一键部署不需要运维的。
而在云上有很多优点，可以做资源的弹性伸缩，按时恢复，随时演练，对于随时演练来说，可能拥有一套比较完备的灾备解决方案，但是由于没有很方便的方式来做演练，到真正的用起来的时候会发现业务的需求可能会导致发生很多的损失。
公共云是解决传统灾备问题的最佳方案：


基于公共云的灾备方案较传统方案，他在客户的痛点上有如下几个特点：第一个特点就是可运维性和可维护性，在传统灾备方案里面因为比较复杂，在公共云的战略方案里面就是全托管免运维服务。
在扩展性方面它就发挥出这种弹性资源的弹性伸缩这种能力，这种分配是按需计费的。
在传统解决方案里面扩展系统方面实际上压力还是比较大的，因为它要做一些扩容，扩容一般周期比较长。公共云的拓展上线的速度就是分钟左右，在工作上是分钟级的一个部署，即开即用。
那么在这个在传统的解决方案里面，若要建造这些数据中心能够进入到这个设备进入这个网络，连通性需要几个月或者以年的这种长度来建造，然后从成本的角度来看的话，在公共云上可以节省70%的资源，从复杂度或灾备演练的可操作性来看的话，这个优势也是非常大的，所以可以简单易行的做部署演练。
云灾备给企业带来的核心竞争力：


灾备是企业最重要的一环，是信息安全里面的最重要的一环，它是带给企业核心竞争力的，如上图绿色部分所示。
在云灾备的场景下，可以对数据进行很多的创新，不但可以降低IT的成本，可以复用这些数据做很多其它事情，同时也会带来业务上的创新，例如可以用云上灾备数据做些数据分析，数据发掘，可以做开发环境加速开发的效能，或是做一些只读的数据分析，可以带来更多的数据发掘。Cloud Backup也是很流行的一个方向，将备份的数据化静态数据为宝来降低IT成本，加速业务创新。
云上的灾备可以增强数据保护和业务连续性能力，因为这里面提到，常态化的演练可以对数据保护和业务能力进行及时的修改，真正到故障来的时候可以做到很好的切换和替换，可以及时的保障业务的连续性。
阿里云企业级云灾备解决方案（混合云备份服务）：


总的来说云的灾备有这些核心竞争力，优势，解决传统方案的痛点。
混合云的备份产品：可以从本地的机房分配到公共云上，或者将公共云备份到另一个机房中，拥有非常丰富的场景和环境。
例如这些File/sql server等等这些应用文件块存储，可以非常便捷的进行线上至线下，或者线下至线上的一个备份。
安全：全链路的加密，数据从本地中心，从备份的网关进行加密以后传到云上，云上也是加密存储进行落盘。
可靠：在全链路进行数据校验，在阿里云上也及时进行周期性的校验，使得你的数据是不会丢失不会错的。
便宜：1.有自己创新的重删和压缩的技术，重删和压缩比高达30：1。
2.云存储本身的性价比高，这些备份放在对象存储，NAS，块存储本身它自己的性价比比较高。
阿里云混合云备份服务2019年被评为数据保护创新奖
阿里云企业级云灾备解决方案（混合云容灾服务）：


全托管的一个容灾工作服务，它具备非常特别的业务能力，第一个是保障业务的连续性，它可以实现秒级的这个RPO，以及这种分钟级的这个RTO，然后也满足提供丰富场景和模式的需求，例如混合云备份中提到的一些产品，把线下的这个本地机房的物理虚拟机或者物理机可以备份容灾到这个云上来做一键演练，并且可以一键恢复。


总结来说云灾备解决方案里面有以上的优势：低成本、速度快、常态演练、多种模式、安全可靠。
云上，更安全更可靠：


在阿里云上，数据是更加安全更加可靠的。因为提供了一系列的产品和技术的解决方案来让数据在云上更加安全更加可靠。
第一个例子就是怎样让数据上来以后数据丝毫不能错。
第二，通常说到的高可靠，有12个9的这种可靠性。高可用，不管出现什么问题，随时随地需要访问这个数据，读写这些数据的情况都可以访问。
再就是保证不出错，数据存在阿里云上怎样保证不错？在上传数据的时候做端到端的数据完整性校验，在数据存储至阿里云以后，定期进行数据的扫描，保障数据不会因为磁盘的静默性的错误带来损失。
第三是通过跨多个数据中心的可用区来达到高可靠高可用。
当数据上传至阿里云，使用其跨可用区的纠删码进行校验，通过数据分片保障多个可用区的协调性与可靠性。
可以通过分片容忍数据的损坏，只要通过6个数据进行恢复，这就是容忍AZ级别的故障损坏，通过别的分片进行恢复可用。
数据保护，可靠，可控，可见：


在云上数据保护是可靠可控可见的，进行全链路的数字加密。不论在安全方面或是计算方面以及存储方面我们都进行了加密，所以这个数据是可靠的。
这个加密呢，是可控的，就是客户，他自己可以来控制它的这个密钥，比如可以用我们的这个密钥管理系统，也可以用他自己的，这个不是一个MP，他自己带来的这个密钥，因为它也可以用，我们这种就是硬件内存的原理。
就是这种硬件支撑的这种密码管理器，所以上这个密码的这个管理是可控的，然后第三个呢，是可见，就是我们对客户的数据的一些，比如说像内部的操作，一些日志也透明化给客户，然后客户自己对这些数据的读写的访问呢，客户他自己可以来打开，他的那个访问日志也可以来做可见的。
像数据的运维和因公都可以可见的拿到内部的操作日志。
最完整的存储产品和服务：


提供完整的产品和服务：右下角提供了基础的存储服务，左下角提供了混合云的存储矩阵。链接两者之间的数据迁移服务，在线迁移服务或是离线迁移（闪电立方）。
在这些服务之上呢建立了数据管理服务，例如备份服务，容灾服务，日志服务（纯托管一站式管理分析服务），智能媒体管理（集成阿里巴巴达摩院的技术分析，抽取图片数据的结构化数据）。
总结：阿里云的灾备服务它具备低成本、安全可靠、随时放心的特点。
三、阿里云混合云灾备应用场景实践与案例解读
（一）、阿里云混合云灾备服务简介
混合云备份服务（HBR)


混合云备份服务为用户自有机房和阿里云上数据提供统一备份的BRaaS（备份即服务）。
特点：
    经济：轻量级的能够直接以纯软件的方式为用户实现本地备份及云上备份的统一，它的经济成分是比较高的，最高可以节约80%TCO。
    高效：数据重删压缩比高达30：1，高效重删提升数据保存、传输效率降低带宽使用为整体效率带来非常大的好处。
    安全：数据上云实现端到端的严苛的AES-256加密技术。
    可靠：采用端到端的链路传输。加上后台的定期扫描确保一致性及数据的可靠性。
    监控：整套监控运维都在平台上，备份任务失败主动通知，直接以短信或者电话方式通知到管理员，出现问题可以第一时间查询到。
提供的服务有本地上云备份，云上数据备份（支持跨地域），VMware云上备份容灾。
HBR技术架构：


适用场景：
1.本地上云备份---本地文件、数据库、虚拟机的云备份。
2.云上数据备份---ECS主机数据、以及NAS/OSS自动备份
HBR技术架构可以是纯软件或者是软硬结合的技术架构，它可以从源端通过重删，压缩，加密之后在上到云上去。像NAS/OSS可以通过云原生的方式，无需安装，无需部署其他的云资源的方式备份到云备份库，备份到云备份库不需要做任何管理，也不需要额外购买ECS等全自动备份策略，可以按需扩容。
HBR高效重删技术-精准识别重复数据：


拿手的高效重删技术，通过变长重删，两个数据源精准识别数据重复部分：当你在两个类似内容文件，不同版本可以精确实现重删。
混合云容灾服务（HBR）：
为阿里云企业级本地应用，云上应用提供高性能整机容灾服务，目标性能达到秒级RPO,分钟级RTO。优势：一体机部署、实时复制，无中断演练、一键切换。


适用场景：
1.本地应用云容灾---官网、OA、核心业务容灾上云。
2.云上跨地域容灾---阿里云上部署的CRM.OA等应用跨地域容灾。
HDR-持续数据复制（CDR)技术：


1、HDR基于CDR，是个磁盘级IO复制，一旦落盘就会从内存上拷贝到云上。
2、数据落到云盘上会基于数据的云盘及云盘快照保护可以短时间的把整机的服务拉起来向外提供服务了。
3、在实现高性能的前提之下还确保资源的精致利用，云上的计算资源消耗仅仅占云下的15%。
（二）、云灾备典型案例解读
典型案例-影视制作公司海量数据日常备份


有150TB的编辑数据，每天都有变化，需要每天都要备份一下，数据放在大规模NAS集群上，在用户的本地机房虚拟机安装HDR备份软件，分任务对150TB数据扫描备份，通过高效的重删压缩技术，在2GB专线带宽的情况下将备份窗口控制在8小时内，将大量数据集中到同一个备份库，当大量数据集中到同一个备份库之后它整体的重删压缩比会更高。
所以在这样一个场景中，用阿里云单个备份库就实现了150TB的数据备份。
同时云上资源非常有弹性的，可能第二天有项目上的变化存在数据的增长和变化，那么在云上按需的弹性伸缩就是非常好的优势。
只需配置好文件夹就会基于云上数据的动态进行调整，这样就会按使用量付费，而不是按照最大的量规划运算。
典型案例-地产公司全站统一备份


在云下，它自己就自建了两个数据中心，同时他也一部分业务跑在云上的。
数据中心混合云架构是现在企业的IT系统发展的一个非常典型的一个发展方向，那么其实已经有部分业务上云上，同时又有一部分业务是在云下，其实那个设计到混合云架构，用户希望看到的是什么？
是一个统一的，完全统一的，有一个管理员在一个窗口就能够管理起来的一个灾备系统，那么这次如何来实现呢？就用阿里云的这个备份服务来实现了，我们呢，最后复制的特点就是我们可以软硬件部署这样的话呢，就是在用户本地有灾备一体机，在云上我们有软件版的灾备ECS。
这样的话，就是整个服务在云上，云下完全打通，数据双向复制，也就是说本地的数据先在本地备份，在云上备份，这样的话呢，就是有一个本地备份加异地备份叫双备份的这么一个机制来给用户的数据上个双保险。
同时呢，云上的数据也能够复制到远程的一体机上，那么，这样可以就实现了一个完全符合等保规定的把一个备份突破，同时整套备份。
它支持Oracle，SAP文件，还有其他类型的应用，另外还有大数据的应用。
它的管理入口是在云上的，那么在云上就可以方便的，就是在任何时间，任何地点都可以方便地管理这套备份系统。
典型案例-石化公司核心系统云容灾


希望实现低成本有足够物理距离的容灾系统，系统大概有十几台服务器，希望实现分钟级的RPO,确保分钟级的RPO情况之下同时也能兼顾到整体的成本，那么混合云容灾服务给到的方案是给用户本地上海部署一个灾备一体机，负责用户生产系统的数据聚合压缩加密复制到阿里云上，利用阿里云的HDR的CDR持续数据复制技术，建立一个一对一的数据盘的复制，云上只需非常低的内存，只要准备好一对一的云盘，那么云下的服务器上的盘上数据都可以实时复制到阿里云上。同时这些赋予ECS(承载ECS)云盘规格都很低，平常都需要运行15%CPU内存的ECS就可以了，当用户只需要容灾演练或故障切换的时候才需要把这些真正的ECS拉起来，也就是说云上的按需拉起的ECS的规格是可以更大的是用户可以按需指定的，那么这些ECS在容灾演练的时候可能只需要运行1-2个小时来验证数据的正确性。
这些ECS是按需使用费用是非常低的，每天只有容灾演练的几天左右。



DTS数据迁移 | 《DTS控制台入门一本通》第三章（上篇）-阿里云开发者社区
mimukeji — Wed, 02 Jul 2025 09:43:00 +0800

点击免费下载
《DTS控制台入门一本通》>>>


也可以PC端点击https://developer.aliyun.com/topic/download?id=803 下载
数据迁移可以把源端数据库的数据迁移到目标端（迁移不会影响源端数据库的数据，也不会导致源端数据库的数据丢失），数据迁移只支持后付费（按量付费），该页面展示了当前账户下各个地域的数据迁移实例的运行状态，如图 3-1。您还可以在这个页面创建新的迁移任务以及查看当前迁移任务的详细信息。

3.1地域
图 2-1 标记①处为地域信息，此处可以切换各个地域查看不同地域的实例信息。
推荐从概览页进入。
3.2文件导入
图 3-1 标记②的“文件导入”功能，是使用 DTS 提供的一个客户端工具，将工具部署在本地，使用该工具将本地数据库导出的文件，然后上传，实现导入功能，相当于我们自己导出文件然后导入一样，如图 3-2，该功能已经不再支持使用，请勿使用。

3.3创建迁移任务页面
图 3-1 标记②的“创建迁移任务”，可以进行数据迁移的任务配置，点击后，会 进入 DTS 迁移任务的配置界面，如图 3-3，需要注意： 
● DTS 目前的实现是逻辑迁移。 
● 逻辑迁移的意思是指 DTS 会借助 SELECT 的方式抽取源库已存在的数据， 然后再通过 INSERT 的方式写入到目标库。 
● 目前还不支持物理文件层面的迁移。

DTS 迁移任务主要分为 2 部分进行配置，即源库信息和目标库信息，源库是指 要使用 DTS 迁移的源端的数据库，目标库是指待迁入数据的数据库。比如我们要把 MySQL A 数据库的数据迁移到 MySQL B 数据库，这里，MySQL A 数据库 A 就是 源库。目标库就是 MySQL B 数据库。下面对源库以及目标库配置过程的具体项目进 行讨论。
3.3.1　实例类型
如图 3-3，顾名思义，就是 DTS 支持迁移的源端数据库接入的类型，并且 DTS 对不同的接入类型的实例，有不同的支持粒度，主要分为如下几种。无论是哪一种， 最终实现的核心目的是能让 DTS 的服务器集群连接到源端或者目标端的数据库。
3.3.1.1　有公网 IP 自建的数据库
这是最简单的一种接入类型，就是指您的源端的数据库有公网 IP 地址，这个地 址允许其他程序 ( 这里特指 DTS) 可以通过您的公网 IP 连接到您的源端数据库 , 这种 实例类型配置比较灵活，但是容易受到公网网络环境的影响，进而影响迁移的速率。 当我们选择这个类型时，页面的信息也会按照“有公网 IP 自建的数据库”进行展示， 如图 3-4。您需要把源端数据库的公网连接地址填写到“主机名或者 IP 地址”里， 这个需要再次强调，这个 IP 地址必须能够让 DTS 服务器访问到，即连通性必须正 常。如果连通性有问题，在“测试连接”时会出错。我们会在“测试连接”部分详细 讨论。这里有 4 点需要说明： 
● 虽然这里特指的是“自建数据库”，但是只要是公网可达的 ( 比如 RDS 的公网 地址 )，都可以使用这个方式进行传输。 
● 这里指的 IP 并不是只可以填写 IP, 也可以填写域名 ( 比如 RDS 的公网连接字 符串 )。 
● 自建 MySQL 数据库一般都有一个参数 bind_address，这个是指 MySQL 接 受（监听）来自于哪个 IPV4 或者 IPV6 地址的连接，为了避免出现 DTS 无法 连接的情况，建议设置成“*”或者“0.0.0.0”。
● 请一定确保，自建数据库所在主机的防火墙没有拦截 DTS 服务器地址的入方
向的访问。服务器地址我们会在“3.3.2　实例地区”讨论。

3.3.1.2　通过专线 /VPN 网关 / 智能接入网关接入的自建数据库
相比公网的不安全而言。这个方式实现了非“公网”传输。但是这里的非“公 网”传输需要借助其他的产品来实现，这些产品是：高速通道专线、智能接入网关、 VPN 网关。它们最终实现的是把本地自建数据库和阿里云的链路打通。通过非“公 网”的方式进行连接。最终只要连通性正常。就可以进行传输。如下图 3-5。这里有 5 点需要特别说明： 
● 虽然它们都可以实现非“公网”方式连接。但是实现方式是不一样的。专线才 是真正意义上的内网传输。而智能接入网关和 VPN 网关都是依赖公网实现的。 只是实现了非“公网”方式连接 ( 打通了本地与阿里云内网 )。 
● 选择这个方式，需要填写 VPC ID(“已和源端数据库联通的 VPC”)。请注意， 这里不是随便填写一个 VPC ID 就可以了。这个 VPC ID 必须进行了高速通道 专线、智能接入网关、VPN 网关的相关配置打通了链路才可以。没有做任何 配置的 VPC ID 即使填写上也无法联通 ( 测试连接会出错 )。具体配置方式涉 及各个产品的较多内容，您如果需要可参考具体产品的帮助文档。
● 虽然这里特指的是“自建数据库”，但是只要是通过这三种方式实现网络可达 的 ( 比如 VPC 下的 RDS)，都可以使用这个方式进行传输。 ●“IP 地址”这部分，只可以填写 IP 地址。如何填写域名或者字符会提示“请输 入合法的 ip 地址”。 ● 配置好高速通道专线、智能接入网关、VPN 网关之后，还需要配置 DTS 与它们 之间路由，配置路由需要参考：
https://help.aliyun.com/document_detail/117525.html?spm=a2c4g.11186623.6.590.2d2f6487R0gxRt

3.3.1.3　无公网 IP:Port 的数据库 ( 通过数据库网关 DG 接入 )
如下图 3-6，选择这个接入方式，也可以实现非“公网”接入。它的实现方式 是要在源端数据库所在的主机上安装一个数据库网关。这个数据库网关与智能接入网 关、VPN 网关相似，依赖于公网。但是免去了复杂的配置步骤与较高的成本。这种 接入方式的使用量较少。使用时需要注意如下 1 点：
● 这里配置时需要选择“数据库网关 ID”，这里不是选择了 ID 就可以了，还需 要对这个网关进行安装和添加数据库。也就是要保证网关“状态”运行正常。

3.3.1.4　通过云企业网 CEN 接入的自建数据库
如下图 3-7，云企业网简称 CEN(Cloud Enterprise Network)，它不是一种具体 的接入方式，即它并不是专线、VPN 这种连接能力。它是一个能力提供者或者平台。 它提供一种组网的能力，可以实现专线、VPN 等的网络互通与管理。选择这个接入方 式后，需要选择“云企业网实例 ID”以及“已和源库互联的 VPC 网络”。这里特指 “自建数据库”。但是无论是自建还是云数据库，只要连接打通，都可以使用这种方式。

3.3.1.5　ECS 上的自建数据库
顾名思义，就是指在阿里云 ECS 服务器上搭建的自建数据库，如下图 3-8，选 择这个接入方式非常适合 ECS 服务器上的数据库进行迁移。您只需要选择对应的 “ECS 实例 ID”，填写相关数据库信息即可。此处需要注意 2 点： 
● ECS 服务器有安全组的限制。正常情况下，当选择完 ECS 的实例 ID，填写 完数据库的连接信息，然后点击 DTS 源端数据库的“测试连接”后，DTS 会 自动把 DTS 服务器的 IP 端添加到 ECS 的安全组里面。如图 3-9。如果您遇 到连通性问题，请先检查这一点是否正常。 
● 除了安全组，ECS 上部署的操作系统内还有防火墙，请确保防火墙也做了响 应的入方向放行规则。


3.3.1.6　RDS 实例
这里特指您购买的阿里云的 RDS 数据库实例，如下图 3-10，选择这个接入方式后，只需要填写对应的“RDS 实例 ID”以及账密即可。DTS 后台会自动的通过实例 ID 查询对应 RDS 的连接地址和端口。并且，DTS 还支持“其他阿里云账号下的 RDS 实例”的迁移。您可以在阿里云 B 账号下迁移阿里云 A 账号的 RDS 数
据库。跨账号迁移的操作与配置比较复杂，可以参考该云栖文档：
https://yq.aliyun.com/articles/353204?spm=a2c4e.11155435.0.0.6ff363b5zVAhec
此处注意如下 1 点：
● RDS 数据库产品有一个安全限制，就是白名单。同“3.3.1.5　ECS 上的自建数据库”的自动添加安全组行为类似，DTS 也会自动把 DTS 服务器的地址段添加到 RDS 数据库的白名单中。添加完后的白名单信息您无法在云 RDS白名单页面看到。

3.3.1.7 云　MONGODB 实例
这里特指您购买的阿里云的 MONGODB 数据库实例，如下图 3-11，选择这个接入方式后，只需要填写对应的云 MONGODB 的实例 ID、认正数据库以及账密即可。同“3.3.1.6　RDS 实例”的自动添加白名单行为一样，DTS 也会自动把 DTS服务器的地址段添加到云 MONGODB 数据库的白名单中。添加完后的白名单信息您无法在云 MONGODB 的白名单页面看到。

3.3.1.8　PolarDB
这里特指您购买的阿里云的 PolarDB 数据库实例，如下图 3-12，选择这个接入方式后，只需要填写对应的云 PolarDB 的实例 ID 以及相关的连接信息即可。同“3.3.1.6　RDS 实例”的自动添加白名单行为一样，DTS 也会自动把 DTS 服务器的地址段添加到云 PolarDB 数据库的白名单中。添加完后的白名单信息您无法在云PolarDB 的白名单页面看到。

3.3.2实例地区
图 3-3 中的“实例地区”选择后也就意味着 DTS 会使用这个地区的服务器（DTS 在很多地区都部署了服务器）连接源端数据库进行数据的抽取和传输（简单说 就连接数据库后执行 select 查询获取数据）。选择不同的实例类型，在实例地区选择 上有 2 点不同，主要如下：
● 如果实例类型选择的是“有公网 IP 自建的数据库”，实例地区这里理论上选 择任何一个都可以（因为公网 IP 任何地方都可达），建议选择与数据库所在 地域物理距离相近的地区。比如自建数据库的机房在北京，则建议选择华北 2 地区。 
● 除“有公网 IP 自建的数据库”外的其他实例类型在选择实例地区时，则需 要按照实例所在的地域进行选择。比如 RDS 实例在华东 1，则地域必须 选择华东 1。这样的话，DTS 的华东 1 服务器集群才可以正常连接华东 1 的 RDS。 
重点再说明一下实例类型部分说明的问题，因为 DTS 的服务器非常多，为了能 够让 DTS 顺利的链接上源端的数据库，假设您源端数据库做了防火墙 ( 自建 )、安全 组 (ECS)、白名单 (RDS) 等安全设置，您还需要把 DTS 这个地区的所有服务器（有 的客户不想放行所有服务器，这个暂时无法满足）的地址进行放行。需要放行的 DTS 服务器的网段点击图 3-3 的“获取 DTS IP 段”查看，如下图 3-13。

3.3.3端口
图 3-3 的“端口”部分用来指定需要 DTS 访问的数据库端口，只有某些实例类型才需要填写该项目。指定了 IP 只能说明您的数据库运行在这台主机上，但是这台主机上可能运行了很多的应用程序。端口就用来说明要访问哪个应用程序。请注意您的网络防火墙或者安全组 ( 特指 ECS) 配置。对对应端口的访问进行放行。
3.3.4数据库类型
图 3-3 的“数据库类型”部分用来选择迁移的数据库类型，目前阿里云 DTS 支 持的源端数据库类型有：Oracle、MySQL、SQLServer、PostgreSQL、Mongodb、 DB2、TIDB。这里需要正确的选择源端数据库的类型，如果您源端是 MySQL 则需 要选择 MySQL。您选择什么样的数据库类型意味着 DTS 的应用程序使用哪种数据 库驱动进行连接您的源端数据库，所以请务必选择正确。这里有 3 个注意点： 
● 源库的数据库类型与目标库的数据库类型建议一致，因为兼容性最好。以下 图 3-14 为例，当选择实例类型为 RDS，实例 ID 是一台 MySQL 实例时， 目标端数据库类型或者实例类型时会展示出 SQLServer、Postgresql。目 前 DTS 除 了 支 持 MySQL->Oracle、Mysql->Postgresql、MySQL-> MySQL、MySQL-> PolarDB MySQL、MySQL-> AnalyticDB MySQL、 MySQL-> DRDS 外，其他的数据库类型暂不支持，所以如果此时目标选择 SQLserver 实例，迁移会出现异常。其他的实例类型和数据库类型同理。 
● 若源端数据库为 Sqlsever 时，当开启增量迁移时，一个 DTS 任务只允许一 个数据库进行增量迁移（这取决于其事务日志）。全量迁移支持多个数据库。 
● 若源端数据库为 PostgreSQL 时，无论是否开启增量迁移，一个 DTS 任务只 允许迁移一个数据库（这取决于其 XLOG）。

3.3.5数据库账号
图 3-3 的“数据库账号”指的是您需要 DTS 使用哪个账号连接您的源端的数据 库。这里出现问题最多的是 MySQL 数据库的账号问题以及 MONGODB 数据库的 账号问题。主要有如下 4 点： 
● MySQL 的数据库账号组成是 user 和 host 两个元素，即：user@host 这种 格式。这也就意味着，如果 user 相同而 host 不同，这不是相同的账号。比如 如下 2 个账户：alitest@'%' 与 alitest@'10.0.0.1'。 当 您 使 用“alitest” 账 户 在 IP 为 10.0.0.1 的客户端主机访问您的数据库的时候，鉴权时账户用的是 alitest@'10.0.0.1'。当您使用“alitest”账户在 IP 为 10.0.0.2 的客户端主机访 问您的数据库的时候，由于“alitest”的 host 只有 % 和 10.0.0.1。而 10.0.0.1 并不符合，所以鉴权时账户用的是 alitest@'%'。了解这点非常重要。
● 所以，我非常建议您创建一个独立的账号进行 DTS 的迁移，并且账号的 host 建议是 '%'。因为 DTS 服务器的网段非常多，并且没有规律（请参考图 3-5）。% 可以有效的避免账户连接多问题。 
● MySQL 遇到最多的数据库账号连接类问题是这个错误 : Access denied for user 'xxxx'@'xxxx' (using password: YES) 这个错误在连接时产生的原因有 2 个：账户错误或者密码错误。您如果遇到， 请参考这里排查： https://yq.aliyun.com/articles/158321?spm=a2c4e.11155435.0.0.6ff363b5cXNuax 
● MONGODB 的账户链接时，还需要填写一个“数据库名称”项，如下图 3-15。这个是指 MONGODB 账户的 authentication database。 authentication database 是指创建 MONGODB 账户的时候所在的数据库。比如一 个 MONGODB 数据库为 alitest。我们执行 use alitest 切换到 alitest 数据库 下，然后执行 db.createUser() 创建一个 test 账户，密码是 123。当我们使 用 test 账户登陆 mongodb 的时候，数据库名称 (authentication database) 就是 alitest。

3.3.6数据库密码
图 3-3 的“数据库密码”指的是使用的“数据库账号”的连接密码。数据库密码遇到的问题较少。请重点关注“数据库账号”章节的相关问题。
3.3.7连接方式
当实例类型选择“ECS 上的自建数据库”，数据库类型选择“MySQL”时， DTS 支持连接方式的选择，即支持 SSL 加密的连接方式。当勾选“SSL 安全连接” 时，需要上传 SSL 的证数等文件，如下图 3-16。其中 CA 根证数是必传的。另外， DTS 目前只支持 SSL 加密。请注意如下 2 点： 
● 如您要使用 SSL 安全连接，请确保您的源端数据库以及目标端数据库做了相 应的 SSL 配置，关于如何配置数据库的 SSL 非本书的重点。不在此赘述。 
● 并非所有的实例类型以及数据库类型 DTS 都支持 SSL 访问。

3.3.8测试连接
重点中的重点，图 3-3 的“测试连接”点击后，会使用我们配置的这些连接信 息去连接源端或者目标端的数据库，针对 ECS、RDS、云 MONGODB、云 REDIS 等云数据库，还会进行安全组、白名单的检查和添加操作，检查对应的云 ECS 实例 和云数据库实例的安全组、白名单里是否有 DTS 的安全组或者白名单，没有则添加。 测试分为 ping、telnet、数据库协议 ( 比如 MySql JDBC Connect ) 三个层面，测 试结果如下图 3-17。需要注意如下 4 点： 
● 如果测试连接失败。分为 ping 失败，telnet 失败以及数据库协议 ( 比如 MySql JDBC Connect) 失败。我们只需要关注 telnet 和数据库协议即可。因为 ping 现在的测试结果并不能说明问题，可以忽略它的测试结果。 
● telnet 如果成功，说明 DTS 可以正常通过您配置的地址与端口访问到对应的应 用程序。如果失败，则说明 DTS 无法通过您配置的地址与端口访问到您的应用 程序。此时则需要进行网络防火墙或者安全组的排查或者抓取网络报文排查。 
● 数据库协议 ( 比如 MySql JDBC Connect ) 如果成功，则说明 DTS 可以通 过您配置的地址、端口、数据库账号、数据库密码等信息，成功访问到您的数 据库。如果失败，一般会有错误提示，对 MySQL 来说，最常见的是 Access denied for user 'xxxx'@'xxxx' (using password: YES)， 这 点， 我 们 在 “3.3.5　数据库账号”讨论过。其他的连接问题，可以参考这个云栖文档 : https://yq.aliyun.com/articles/158321?spm=a2c4e.11155435.0.0.6ff363b5aL5jmA 
● 有时点击测试连接后，会一直转圈，没有任何结果。遇到这个情况。可以忽略 测试连接，直接点击“授权白名单并进入下一步”。换句话说，测试连接并不 是必须要点击的。如果配置的源库连接有问题，我们点击“授权白名单并进入 下一步”跳转到新页面时会出错 ( 因为此时会真正的去源库取数据库的对象信 息，如下图 3-18)。如果配置的目标库连接有问题，我们在“预检查”时会 出错 ( 因为预检查会检查目标库连接 )。所以测试连接一般情况下可点可不点。 大多数情况下不需要执着于这一步。


3.3.9授权白名单并进入下一步
图 3-3 的“授权白名单并进入下一步”点击后，会和测试连接一样，也会进
行安全组与白名单的检查和添加，然后会进入数据库迁移对象选择页面，如下图3-19。这是一个库级别 ( 数据库级别的同步，DTS 还支持表级别和列级别同步 ) 同步的任务截图。这个页面的左侧显示的是源端数据库的对象信息 ( 如图例里的 dtstest、mysqltest 数据库 )。右侧显示的是要迁移到目标数据库的对象信息 ( 如 图例里的 dtstestdata 数据库 )，如果您要更改迁移到目标数据库的对象的名字， 可以把鼠标放到“dtstestdata”上，然后点击右侧的编辑，更改库名 ( 除了更改库 名外，表级别同步还支持修改表名以及列名 )。该功能为 DTS 的库表列映射，如下 图 3-20。



3.3.10迁移类型
3.3.10.1结构迁移
图 3-19 里的“结构迁移”是指是否迁移源端数据库的对象结构信息。这些结构 包括表结构、索引、视图、存储过程等。DTS 会通过 Select 的方式，获取源库的数 据对象的结构。为什么要进行结构迁移？什么时候需要结构迁移？原因分别如下： 
● 结构迁移针对的是关系型数据库，非关系型数据库不需要 ( 比如 MONGODB)，对关系型数据库来说，数据要存储，必须先建表。所以 DTS 需要先 进行结构迁移，创建表结构才能进行后面的数据迁移。 
● 当目标数据库里面没有对应的表对象时，才需要选择结构迁移。如果目标数据 库里面已经有了对应的数据库的表对象，不需要选择结构迁移 ( 比如目标库已 经有表 A，此时选择结构迁移，DTS 会在目标库创建表 A，因为表 A 已经存 在，DTS 创建会出错，提示 1050 - Table xxxx already exists)。 
结构迁移遇到的最常见的问题是 : 
● 源端或者目标端的数据库的数据库对象非常非常多，因为 DTS 要以 Select 的 方式查询这些信息。数据库对象过多，容易造成查询超时，这类问题比较难解决。
如果您遇到这种问题，请反馈阿里云售后。 如果要查看 DTS 在源端或者目标端的进程状态，大多数数据库都可以在源 端或者目标端的执行数据库的相关查询命令，以 MySQL 为例，可以执行 :show processlist 确认会话信息。
3.3.10.2全量数据迁移
图 3-19 里的“全量数据迁移”是指是否迁移源端数据库的数据 ( 表的记录 )。 这是真正的数据的迁移，它迁移的是源端数据库表里已经存在的数据（这些数据可 能是历史数据，早已经写入，也可能刚刚写入不久的数据，非未来新增的数据），简 单的说，DTS 会通过 Select 获取源端数据库里的表的数据。然后通过 Insert、 Replace into、Update、Delete 的方式，写入到目标端。DTS 使用 Select 查询对 应表的数据，不是一次性全部查询的。一般是对的数据进行分片 ( 常见的是使用主键进行分割 )，然后并行查询各个分片的数据。DTS 写入目标端数据也是并行写入的。 这也就导致有 2 个问题： 
● DTS 迁移完成后，目标数据库的数据空间大小比源端数据库的数据空间大小 大，这是因为并行写入产生数据空洞导致。如果您遇到这种问题，可以在业务 允许的期间执行 Optimize table xxx 对表的空间进行收缩 (Optimize table 有 产生 MDL 阻塞的可能 , 执行时请评估执行时间和业务影响 )。 
● Optimize table 大多数情况下，都能够成功的对表的空间进行收缩。极少的情况 下无法对表的空间进行收缩。如果遇到无法收缩的情况，可以反馈阿里云售后。 如果要查看 DTS 在源端或者目标端的进程状态，大多数数据库都可以在源 端或者目标端的执行数据库的相关查询命令，以 MySQL 为例，可以执行 :show processlist 确认会话信息。
3.3.10.3增量数据迁移
图 3-19 里的“增量数据迁移”是指 DTS 通过解析源端数据库的相关数据库日 志 ( 比 如 MySQL 的 Binlog、SQLserver 的 Transaction Log、MONGODB 的 oplog 等 )，把全量迁移开始之后的增量数据，实时的同步到目标端。即源端有一条 Insert，DTS 会解析这些日志，生成一个同样的 Insert 发送到目标端，实现增量数 据迁移，增量迁移目前不支持触发器的迁移。 
很多客户在问，DTS 是如何保证数据完整性的？ DTS 通过全量 + 增量的方式 保证数据完整性，但是在如下 2 个情况下，DTS 无法保证数据的完整性： 
● 迁移的对象里，没有主键或者唯一键的数据库对象，无法保证完整性。因为 DTS 是分批次抽取和并发写入数据，没有主键时会造成数据重复或者数据缺 失的情况。请确保迁移对象有主键或者唯一键。 
● 多对一的相同数据库对象的数据迁移，无法保证数据完整性。多对一是指多个 源库通过多个任务，把源端多个数据库对象的数据迁移到目标库的同一个数据 库对象里。 如果要查看 DTS 在源端或者目标端的进程状态，大多数数据库都可以在源端或者目标端的执行数据库的相关查询命令，以 MySQL 为例，可以执行 :show processlist 确认会话信息。DTS 的增量会在源端的 MySQL 数据库启动一个 binlog dump 进程（如果您搭建过 MySQL 主从，MySQL 本身的主从也是会起动一个 binlog dump 进程）。 DTS 的增量数据迁移延迟是无法保证的，正常情况下 DTS 的增量迁移是秒级延 迟，但是当遇到一些 DDL、大量更新时或者 DTS 规格达到瓶颈等情况时，增量数据 迁移延迟会增高。如果您遇到大的延迟（比如超过 1000S），可与阿里云售后反馈。
3.3.11预检查并启动
当迁移对象以及迁移类型配置好后，点击“预检查并启动”将会进行下面的检 查环节，检查环节顺利通过后，会启动 DTS 任务开始迁移数据。检查的目的是避免 一些已知的问题导致 DTS 迁移异常，常见的检查项目如下图 3-21。预检查失败后， 无法进行下一步，需要您针对出错的检查项进行处理，当您处理了预检查失败的检查 项后。可以点击启动任务（启动方式为图 3-1 中任务列表的“启动任务”按钮。）重 新启动预检查。

3.3.11.1源库连接性检查
检查预检查的 DTS 服务器是否可以通过迁移任务页面的相关配置正常连接源端 数据库。需注意如下 2 点： 
● DTS 的服务器有很多，这些服务器有的部署了预检查程序，有的部署了“测 试连接”程序，有的部署了结构迁移的程序，有的部署了全量迁移的程序，有 的部署了增量迁移的程序。这也就意味着，任何一个环节的连接正常都不能保 证下一个或者其他环节连接也正常 ( 比如数据库等防火墙做了限制 )。您可能 会遇到预检查正常但是后续的结构迁移连接异常，也可能遇到结构迁移任务正 常但是后续的全量迁移连接异常的情况。这些都是有可能的。 
● 遇到连接异常的情况，首先要有一个判断，这个异常是网络本身 (TCP/IP) 不通还是应用层面的问题。如果是网络层面的，则需要查防火墙以及链路 配置。如果网络没问题只是在应用层出现的异常，则需要查造成这个应用异 常的原因。举一个例子，前面提到过的这个错误 : Access denied for user 'xxxx'@'xxxx' (using password: YES)。这个错误意味着，网络可达，只是 在对数据库进行账密认证的时候出错了 ( 应用层 )。如果网络不可达，我们甚 至无法进行数据库应用层面的这些认证。了解这点非常重要。
3.3.11.2源库权限检查
要使 DTS 通过您在创建迁移任务页面填写的账户信息获取源端数据库的数据， 就需要对这个账户进行一写数据库对象的授权。不同的数据库类型以及迁移类型需要 不同的数据库权限。以 MySQL 为例，结构、全量迁移只需要 SELECT 权限即可。 而增量迁移则需要 REPLICATION SLAVE、REPLICATION CLIENT、SHOW VIEW 和 SELECT 权限。
3.3.11.3目的库连接性检查
检查预检查的 DTS 服务器是否可以通过迁移任务页面的相关配置正常连接目标端数据库。注意点与“3.3.11.1　源库连接性检查”相同。
3.3.11.4　目的库权限检查
要使 DTS 把从源端获取到的数据写入目标端数据库，也需要对应的写入权限。 同样以 MySQL 为例，结构、全量和增量需要 SELECT 和 INSERT、UPDATE、 DELETE、CREATE 等等读写的权限。
3.3.11.5　存储引擎检查
这个一般是针对 MySQL 数据库的迁移，因为 MySQL 有很多数据库引擎。 DTS 不支持 FEDERATED、MRG_MyISAM 或 TokuDB 存储引擎的迁移。
3.3.11.6　源库版本检查
检查源库的版本是否符合 DTS 产品的要求，以 MySQL 为例，DTS 只支持如 下几个版本：5.1、5.5、5.6、5.7、8.0。其他数据库类型的版本限制可以参考这里： https://help.aliyun.com/document_detail/26618.html?spm=a2c4g.11186623.2.7.3a392a8770k06x#concept-26618-zh
3.3.11.7　同名对象存在性检查
目的是检查目标数据库中是否存在和待迁移对象同名的对象。当我们选择结构迁 移的时候，DTS 会在目标创建对象结构，如果目标数据库已经有同名的对象结构了， 就会创建失败。 
这点我们在“3.3.10.1　结构迁移”讨论过。
3.3.11.8　数据库可用性检查
检查目标实例是否已经有了对应的数据库，比如我们要把源端 alitest 的数据库 迁移到目标端。我们需要先在目标端手动创建 alitest 实例。避免预检查失败，请注 意如下 1 点： 
● 很多情况下，DTS 会自动的在目标端创建数据库，DTS 自动创建数据库的 前提是账户的权限正常。不过也有例外（比如字符集问题，数据库名称不合法 等），如果遇到 DTS 无法自动创建数据库的情况，请手动创建后重启预检查。
3.3.11.9　源库 binlog 开启检查
当迁移类型勾选增量迁移时，才会检查该项，在“3.3.10.3 增量数据迁移”我们 讨论过，增量迁移是通过一些日志来实现的。这个检查项是为了检查数据库这方面的 日志是否开启。如果源端是 MySQL 数据库，则检查 binlog。
3.3.11.10　源库 binlog 模式检查
开启了相关日志后，要检查源数据库的 Binlog 模式是否为 ROW。建议更 改 .cnf 配置文件，改完配置文件的参数后，请对源端数据库进行一次重启。
3.3.11.11　源库 binlog_row_image 是否为 FULL
如果您源端是 MySQL5.6 及以上的 数据库版本时，开启增量迁移后，会检查 binlog_row_image 参数。建议更改 .cnf 配置文件，改完配置文件的参数后，请对 源端数据库进行一次重启。
3.3.11.12　源库 server_id 检查
如果您源端是 MySQL 数据库，则开启增量迁移后，会检查源端数据库的 server id 参数。server_id 值需要是大于 2 的整数。请注意如下 1 点： 
● 建议更改 .cnf 配置文件，更改完配置文件参数后，请对源端数据库进行一次重启
3.3.11.13　源库 binlog 存在性检查
这个检查项目主要检查 show binary logs 列出来的的文件是否存储，检查这个 的目的是因为很多情况下，我们删除 MySQL 的 binlog 时，是直接从操作系统目录 remove 掉的，并没有通过 MySQL 的 purge 进行删除。这也就导致数据库里还存 在着 binlog 文件的记录，而操作系统目录里已经没有了。遇到这种情况出现，您可 以通过执行 purge 来清理 MySQL 数据库记录的 binlog 文件。使之与操作系统目录 的文件数量和编号对应。
3.3.11.14　MySQL 密码格式检查
检查源库使用数据库密码格式是否为老版。主要检查数据库的参数 old_ passwords 是否为 1。如果您的 old_passwords 为 1，建议修改为 0。修改密码格 式可能会影响业务的正常运行，请谨慎操作。
3.3.11.15　复杂拓扑存在性检查
DTS 支持的迁移拓扑一般有如下 5 种：一对一、一对多、级联、多对一、双向 迁移（非双向同步），其中双向迁移是不支持的拓扑结构，如果后台检测到这种拓扑结 构，会出错。如果这个检查项您出现预检查失败，一般可以联系和授权阿里云售后跳 过概检查项（预检查检测环节可以手动跳过的前提是双向迁移的数据对象以及数据不 冲突，避免造成数据混乱）。
3.3.11.16　补充
如果预检查出现这种错误检查项“unexpected error”，请与阿里云售后反馈确认。
3.3.12　立即购买并启动
预检查通过后，点击下一步，进入购买页面，如下图 3-22。选择规格后，点击 “立即购买并启动”正式运行 DTS 任务。这里需要注意如下 3 点： 
● 对 DTS 迁移来说，只进行结构迁移和全量迁移，目前是免费的 
● 选择增量迁移后，才会收费，暂停同样收费。 
● DTS 迁移只支持后付费（按量计费），不支持包年包月。

方案	github star	描述
puppeteer	63.2k	可用于动态渲染、前端测试、操作模拟。API丰富
rendertron	4.9k	动态渲染
prerender.io	5.6k	动态渲染

主体	user-agent	用途
Google	googlebot	搜索引擎
Google	google-structured-data-testing-tool	测试工具
Google	Mediapartners-Google	Adsense广告网页被访问后，爬虫就来访
Microsoft	bingbot	搜索引擎
Linked	linkedinbot	应用内搜索
百度	baiduspider	搜索引擎
奇虎 360	360Spider	搜索引擎
搜狗	Sogou Spider	搜索引擎
Yahoo	Yahoo! Slurp China	搜索引擎
Yahoo	Yahoo! Slurp	搜索引擎
Twitter	twitterbot	应用内搜索
Facebook	facebookexternalhit	应用内搜索
-	rogerbot	-
-	embedly	-
Quora	quora link preview	-
-	showyoubot	-
-	outbrain	-
-	pinterest	-
-	slackbot	-
-	vkShare	-
-	W3C_Validator	-

状态码	名称	描述
0–999		保留段, 未使用.
1000	CLOSE_NORMAL	正常关闭; 无论为何目的而创建, 该链接都已成功完成任务.
1001	CLOSE_GOING_AWAY	终端离开, 可能因为服务端错误, 也可能因为浏览器正从打开连接的页面跳转离开.
1002	CLOSE_PROTOCOL_ERROR	由于协议错误而中断连接.
1003	CLOSE_UNSUPPORTED	由于接收到不允许的数据类型而断开连接 (如仅接收文本数据的终端接收到了二进制数据).
1004		`保留`. 其意义可能会在未来定义.
1005	CLOSE_NO_STATUS	`保留`. 表示没有收到预期的状态码.
`1006`	CLOSE_ABNORMAL	`保留`. 用于期望收到状态码时连接非正常关闭 (也就是说, 没有发送关闭帧).
1007	Unsupported Data	由于收到了格式不符的数据而断开连接 (如文本消息中包含了非 UTF-8 数据).
1008	Policy Violation	由于收到不符合约定的数据而断开连接. 这是一个通用状态码, 用于不适合使用 1003 和 1009 状态码的场景.
1009	CLOSE_TOO_LARGE	由于收到过大的数据帧而断开连接.
1010	Missing Extension	客户端期望服务器商定一个或多个拓展, 但服务器没有处理, 因此客户端断开连接.
1011	Internal Error	客户端由于遇到没有预料的情况阻止其完成请求, 因此服务端断开连接.
1012	Service Restart	服务器由于重启而断开连接.
1013	Try Again Later	服务器由于临时原因断开连接, 如服务器过载因此断开一部分客户端连接.
1014		由 WebSocket标准保留以便未来使用.
1015	TLS Handshake	保留. 表示连接由于无法完成 TLS 握手而关闭 (例如无法验证服务器证书).
1016–1999		由 WebSocket标准保留以便未来使用.
2000–2999		由 WebSocket拓展保留使用.
3000–3999		可以由库或框架使用.? 不应由应用使用. 可以在 IANA 注册, 先到先得.
4000–4999		可以由应用使用.

阿里云服务-米姆科技官方网站

公司文化

米姆（MEME）科技简介

测试标题

个人清新简洁PPT模板

Sodinokibi病毒解析及处置方案

阿里云双十一优惠活动怎么玩？

【升级】10月微消息队列MQTT升级公告

【升级】10月消息服务MNS升级计划通知

【升级】10月21日消息队列AMQP升级通知 （更新）

【升级】10月17日CNNIC注册局系统维护通知

【升级】10月21日Datahub公有云2.18版本产品稳定性升级通知

【漏洞预警】Apache Solr configset upload文件上传漏洞（CVE-2020-13957）

【漏洞预警】Windows TCP/IP远程执行代码漏洞（CVE-2020-16898）

【漏洞预警】VMware vCenter任意文件读取漏洞

【漏洞预警】Nexus Repository Manger 2&3 Shiro身份验证绕过漏洞

【漏洞预警】Adobe Magento 远程代码执行漏洞（CVE-2020-24407）

【漏洞预警】Apache Kylin API未授权访问漏洞（CVE-2020-13937）

3分钟短文：太爽了，用Laravel写API接口！-阿里云开发者社区

引言

以路由开端

用户权限

看看效果

写在最后

面对复杂业务，if-else coder 如何升级？-阿里云开发者社区

从 if-else 说起

1. 多态扩展

2. 代码分离

3. 多维分析

维度思维

1. 多维度的重要性

2. 无处不在的多维思考

1）波士顿矩阵

2）订单要素分析

3）数据交叉分析

4）分析矩阵

5）组织阵型

6）时间维度

7）RFM 模型

复杂业务治理总结

1. 业务理解

2. 领域建模

3. 流程分解

4. 多维分析

篇后寄语

阿里云rds并发性能解读-大分区表高并发性能提升100倍？-阿里云开发者社区

全面上云这条路，洋葱学院已经走了近7年 -阿里云开发者社区

创新且锐意进取，是这个公司的基因。

疫情大考突如其来，IT架构稳如泰山

能应对猝不及防的疫情流量洪峰，洋葱都做了怎样的努力、下足了哪些功夫呢？

基本功夯实的基础上，洋葱学院还做了一些方案优化和升级。

数据库的升级

故障检测

AI辅助教学，学生老师个性化“Friday”

用心做产品，以诚待客

双11大战必备神器——DataV数据可视化-阿里云开发者社区

专业级的数据可视化

多种数据源支持

图形化编辑界面

灵活部署和发布

阿里云物联网平台如何订阅异步服务调用的返回结果？-阿里云开发者社区

视图在SQL中的作用是什么，它是怎样工作的？-阿里云开发者社区

如何创建，更新和删除视图

创建视图：CREATE VIEW

嵌套视图

修改视图：ALTER VIEW

删除视图：DROP VIEW

如何使用视图简化 SQL 操作

利用视图完成复杂的连接

利用视图对数据进行格式化

使用视图与计算字段

总结

什么是存储过程，在实际项目中用得多么？-阿里云开发者社区

什么是存储过程，如何创建一个存储过程

DELIMITER

存储过程的 3 种参数类型

流控制语句

关于存储过程使用的争议

AnalyticDB向量检索+AI 实战: 声纹识别-阿里云开发者社区

一、背景

【升级】10月21日消息队列AMQP升级通知（更新）