《大规模web服务开发技术》笔记

zoukankan html css js c++ java

《大规模web服务开发技术》笔记
前段时间趁空把《大规模 web服务开发技术》这本书看完了，今天用一下午时间重新翻了一遍，把其中的要点记了下来，权当复习和备忘。由于自己对数据压缩、全文检索等还算比较熟，所以笔记内容主要涉及前5章内容，后面的零星记了一些。本文可能对如下人士比较有帮助：1、对这本书有兴趣，但对内容存疑的；2、对大规模Web服务有一定经验的，可对照着查漏补缺。

Hatena的规模(2010年4月)
- 注册用户150w，UU1900w/月
- 请求数：几十亿/月
- 繁忙时流量：850Mbps（不含图像）
- 硬件（服务器）600台，通过虚拟化技术，主机超过1300台
- 日志每天几GB级别，数据库GB到TB级别
系统增长的战略
- 最小化开端、预见变化的管理和设计
平衡效率和质量
- 开会、规范化、文档、敏捷等
GB级别（千万）的文本数据库，不用索引，一句select查询200s也未能执行完

内存和硬盘的速度差异
- 寻址：前者是后者的10w到100w倍
- 传输速度（总线）：前者——7.5G/s，后者——58M/s
找寻单机瓶颈（用足单机的性能，不要推测，要测量）
- sar或vmstat查看是CPU问题还是IO问题
- 若是CPU问题
- 若是IO问题
CPU扩展比较方便，但IO负载的扩展比较困难
- 查看实际负载：top结果中的load average（1分钟 5分钟 15分钟）
- 查看是IO负载过高还是CPU负载过高：sar -P（多核）
处理大规模技术的重点
- 尽量在内存中进行，可实现分布式，利用局部性
- 算法的复杂度，O(n) --> O(logn)有质的飞跃
- 数据压缩和检索技术
缓存机制
- 页面缓存（page cache）
- sar命令
降低IO负载的策略
1. 提高缓存，即加内存
1. 扩展到多台服务器
1. 2实际可能未提高缓存命中率（每台机器的数据不变），需要切分（Partition）数据
切分（Partition）——利用局部性的分布式
- 以RDBMS的表为单位
- 从数据中间切分
- 按用途将系统分成不同的“岛”
以页面缓存为基础的基本运维规则
- 操作系统启动时不要马上投入生产环境，要先预热，即读一遍所有文件
- 性能测试要在缓存优化后进行
数据库横向扩展策略

灵活应用操作系统缓存
- 尽量让数据库大小小于物理内存
- 考虑表的结构设计对数据库大小的影响
建立索引
- B+树
- 提高搜索效率（logn），改善磁盘寻道次数
- MySQL的explain命令帮助查看索引是否有效
MySQL的分布式
- master/slave设计（master更新，slave读）
MySQL的Partition
- 将联系不紧密的表放在不同机器上
- 避免对不同机器上表进行JOIN操作
- Partition的代价
- 实现冗余化最少需要多少台机器
Web服务的基础设施重视的三点
1. 低成本、高效率
1. 设计很重要
1. 开发速度很重要
一台服务器能处理的流量极限
- Hatena标准服务器：4核CPU，8G内存；
- 性能：繁忙时每分钟几千请求
- 若4核CPU*2，32G内存
调优
- 掌握负载
冗余性与系统稳定性

master的冗余化
- multi-master
系统的稳定性
- 资源应都保留一定余量，只用到70%左右
- 去除不稳定因素（尽量自动化处理）
虚拟化技术
- 好处
- Hatena的虚拟化应用
SSD的寿命
- 损耗程度指标：S.M.A.R.T值中的E9（Media Wearout Indicator）---> smartctl命令
- Hatena写入最频繁的SSD用了9个月左右
网络的分界点
- 1Gbps，即30wpps，是PC路由器的极限（1Gbps是千兆以太网的界限，30wpps是Linux内核的极限）
- 500台主机，是子网、ARP表的极限
RDBMS还是k-v存储
- 判断依据
- MyISAM vs. InnoDB
- 分布式k-v
缓存系统
- Squid
- Varnish
- nginx、pound……
- 缓存服务器上线时注意
查看全文

相关阅读:
[每日一题系列] LeetCode 1071. 字符串的最大公因子
 [每日一题系列] LeetCode 1013. 将数组分成和相等的三个部分
 git diff (19)
WinDbg探究CLR底层(1)
使用LINQ、Lambda 表达式、委托快速比较两个集合，找出需要新增、修改、删除的对象
 转MySQL遇到的语法差异及解决方案
 批量拼脚本神器-NimbleText
Visual Studio 2017中使用正则修改部分内容
 如何使用ILAsm与ILDasm修改.Net exe(dll)文件
 在Windows上安装Elasticsearch v5.4.2

原文地址：https://www.cnblogs.com/grimm/p/5211393.html