现状

存在大量的单点问题:每个门店一个物理服务器,中心机房多个服务器。门店服务器故障,营业受影响;中心机房服务器故障,门店的非现金业务(银行卡刷卡、微信支付、支付宝等)受影响

总体思路

撤销每个门店的服务器,保证门店网络的可靠性(多线路接入、4G终端设备等),服务器集中到中心机房,构建更高可用性的数据平台。


基本目标


  • 高可用性:最小的停机时间,部分硬件损坏不对正常业务产生影响。

  • 可扩展性:随业务增加,可不停止业务进行容量扩充,也不改变现有的系统架构。

  • 可视化运维:随时掌握系统的运行情况,并以集中、直观的方式进行展示。

  • 低成本:充分利用现有资源、合理规划,使整个平台成本可控且满足实际需求。


架构组成

本方案架构由负载均衡、超融合私有云、监控平台以及备份系统组合而成。

001.jpg

Ø 负载均衡

负责将门店终端的请求按一定的算法,转发到多个相同的后端应用。负载均衡实际包含三个功能:负载均衡、健康检查及失败切换。

  • 负载均衡:多个后端分担负载,以支持更大规模的访问及业务请求;

  • 健康检查:后端服务某一个或者几个出现故障,负载均衡器会自动把故障系统从转发队列里面自动清除;后端服务恢复正常后,其又会自动加入到转发队列;

  • 失败切换:负载均衡器是成对出现的,一般设置为一主一备,一旦主负载均衡出现故障,辅助负载均衡自动接替其工作。

002.jpg


Ø 超融合私有云

三台或者三台以上配置较高的物理服务器,组成去中心化的集群、去中心化的存储,只要组成集群的最小单位存在,整个集群就不会奔溃;运行在物理节点的虚拟机如果设定了HA(高可用),一旦物理机发生故障,这些虚拟机将自动漂移到运行正常的其它物理节点上。

003.jpg

超融合由如下几个特点:

  • 去中心化:没有专门的控制节点,无需考虑控制节点的单点问题。

  • 去集中存储:传统的私有云集群架构,保障可用性是以共享存储方式实现的。但共享存储本身就是单点,虽然可以以多磁盘冗余已经双控制器的方式提高可用性,但仍然存在IO集中、性能无法提升的困境。

  • 更低的建设成本:去掉昂贵的中心化存储,磁盘分布到本地物理服务器,投资成本大幅度降低。

  • 在线扩容:不停止服务,对物理机配件(内存、cpu等)进行扩容,甚至新增物理节点。


Ø 系统监控

对主机资源(包括物理节点、虚拟机节点)运行状况进行实时监控、对应用或者服务进行实时监控,一旦出现故障,能及时有效的告警。

004.jpg

Ø 数据备份

备份包括两部分,一是对重要的虚拟机进行备份,另一个是对应用数据进行备份。虚拟机备份的目的是为了故障的快速恢复,应用数据备份是为了数据的完整性。

有了上述多重保障措施以后,整个平台的可用性提高了好几个量级。考虑到一下几个场景的故障,我们来进一步进行描述其可用性及可靠性:

  • 虚拟机故障。负载均衡发挥作用,客户端访问不受影响,业务不会中断。

  • 物理机故障。超融合机制发挥作用,运行其上的应用(包括虚拟机系统)自动漂移,客户端访问不受影响,业务不会中断。

  • 集群整体崩溃。备份系统发挥作用,重构一个新的集群,以网络方式挂接上备份数据,web界面选中备份文件,点击恢复,坐等虚拟机进行快速恢复。传统的恢复方式大概是这样的:重新安装系统à部署应用环境à复制备份数据到目标系统à导入数据à验证数据有效性、完整性à恢复服务。

  • 监控系统是不眠之眼,一旦故障,立即告警,可通知技术人员进行及时修复。


基础设施


  • 负载均衡器

独立的服务器一对,不需要高配置。推荐配置:单cpu,32g内存,300G 15000转sas盘(主要数据为访问日志)。


  • 超融合私有云

至少四台物理服务器,数据网络与集群网络分离,建议万兆网络,无条件情况下,也必须保障全千兆。单台物理服务器具体的配置建议如下:

  • Cpu:2颗。单颗核心数10,多线程。

  • 内存:至少128G,ddr3也可以,主要根据主板来定。

  • 硬盘:系统盘250G固态硬盘,数据盘4块或者更多2.4T容量的10000转sas高性能磁盘(sata盘读写性能比较差,不建议使用)。

  •  网卡:如果使用万兆网络,则需单独采购网卡及光纤模块。


  • 数据备份

内存、cpu低配,磁盘用多块低速大容量sata盘,备份容量大于其它数据之总和。为了减少备份时间,有效利用存储空间,并不是把所有的数据都进行备份,只要能保证系统发生灾难性故障时,能快速对整个系统进行恢复就足够了。


  • 监控系统

单物理机,一般配置即可。为保证可靠性,可对整个系统进行自动备份。


主要软件


  • 负载均衡

Keepalived + haproxy


  • 超融合私有云

  • 系统:debian

  • 管理平台:proxmox VE 5.3

  • 存储:ceph


  • 监控系统

  • 系统:centos 7

  • 管理平台:centroen 18


  • 备份系统

  • 系统:centos 7或者freebsd

  • 共享:NFS


实施步骤


1. 部署超融合私有云

  • 初始化集群、创建ceph存储(监视器、OSD、POOL);

  •  挂接共享存储,上传操作系统ISO;

  • 创建虚拟机;

  • 安装虚拟机操作系统;

  • 虚拟机设置高可用(HA)。

虚拟机能做成模板、能克隆、能手动迁移、遇物理机能自动漂移为合格。


2. 部署应用

  • 在虚拟机上安装所需的应用,检查无误后做成模版;

  • 用模板克隆虚拟机,启动后更改其网络地址等,保证虚拟机的唯一性;

  • 导入数据;

  • 测试服务的正确性。

应用部署由甲方自行完成,乙方配合。


3. 负载均衡

  • 安装系统;

  • 安装软件;

  • 功能配置;

  • 功能测试;


4. 监控系统

  • 安装系统;

  • 监控项配置;

  • 模拟故障及故障恢复。


5. 数据备份

  • 准备共享空间,并分配好合适的权限;

  • 设定自动备份时间;

  • 临时设定一个比较近的时间点,选取少许虚拟机进行备份;

  • 检查自动备份是否如愿。

  • 手动删掉已经备份过的虚拟机,用刚才的数据恢复进行测试,检验其可靠性及正确性。


项目交付


  • 单项功能全部正常:负载均衡、监控系统、备份、故障转移等;

  • 整体功能正常:终端系统能正常开展各种业务,如收银、订单处理、商品录入等;

  • 技术培训:模块功能讲解、风险告知(哪些功能最好不要轻易去尝试)、虚拟机管控、数据备份、监控项增加或者减少;

  • 免费维护期:自交付之日起三个月。


需采购硬件







序号

名称

配置

采购

数量

价格

总价

质保期

1

负载均衡一对

现有设备,内存32G,600G硬盘

无需

0

   

2

备份服务器

现有设备,内存32G,8-12块SATA盘

无需

0

   

3

服务器更换CPU

更换至10H20C CPU 2470V2

10

   

4

服务器增加内存

每台服务器内存增加至160G

20

   

5

服务器系统盘

服务器使用单独系统盘,每台服务器一个,共计5台服务器

5

   

6

万兆网卡

10Gb/s万兆网卡+万兆光纤跳线

5

   

7

万兆模块

10Gb/s万兆光纤模块

10

   

8

SAS万转硬盘

服务器更换成SAS 万转硬盘,提高性能,每台服务器4个,共计5台服务器

20

   

9

24口万兆交换机

24口全万兆;支持4K个VLAN;支持Guest VLAN、Voice VLAN;支持GVRP协议;支持MUX VLAN功能;支持基于MAC/协议/IP子网/策略/端口的VLAN;支持1:1和N:1 VLAN Mapping功能;MAC特性:支持MAC地址自动学习和老化;支持静态、动态、黑洞MAC表项;支持源MAC地址过滤;
IP路由:静态路由、RIPv1/2、RIPng、OSPF、OSPFv3、ECMP、ISIS、ISISv6、BGP、BGP4+、VRRP、VRRP6;

根据实际
情况选择
16口全
万兆或者
24口全
万兆交换

1

   

10

16口万兆交换机

16口全万兆;支持4K个VLAN;支持Guest VLAN、Voice VLAN;支持GVRP协议;支持MUX VLAN功能;支持基于MAC/协议/IP子网/策略/端口的VLAN;支持1:1和N:1 VLAN Mapping功能;MAC特性:支持MAC地址自动学习和老化;支持静态、动态、黑洞MAC表项;支持源MAC地址过滤;
IP路由:静态路由、RIPv1/2、RIPng、OSPF、OSPFv3、ECMP、ISIS、ISISv6、BGP、BGP4+、VRRP、VRRP6;

1

   

含增值税总价


 






项目实施服务


项目实施需要到现场进行,涉及的费用包括路费、住宿费、餐费。因超融合平台、负载均衡平台、监控平台等皆采用开源软甲,不会产生授权费用;而运行在平台之上的各种erp等商业应用,授权及费用问题,由项目方自行解决及负责。

名称

金额

差旅

项目方支付,我方不垫付

实施费用

元,不含税。

授权

无,需付费的话,项目方自行处理

预计项目实施周期为两周。


验收标准如下:

  • 超融合系统

  •  能创建虚拟机并安装操作系统;

  •  能迁移虚拟机;

  • 能创建模板;

  • 能从模板创建虚拟机;

  • 能对创建好的虚拟机进行克隆;

  •  能销毁虚拟机;

  • 能对虚拟机进行备份;

  • 能从备份中恢复虚拟机;

  • 关闭物理服务器,运行其上并设定到HA中的虚拟机能自动漂移。


  • 负载均衡

  • 健康检查:关闭某一个虚拟机或者应用,服务不受影响;

  • 失败切换(一):关闭主负载均衡,vip自动漂移,转发服务不受影响;

  • 失败切换(二):恢复主负载均衡,vip回到主控负载均衡,转发服务继续进行。


  • 监控系统

  •  能正常添加监控项;

  •  能进行语法检查;

  • 模拟主机故障,监控能实时告警;

  •  模拟服务故障,监控能实时告警。