数学之美读后感
数学之美
吴军,著名学者,投资人,人工智能、语音识别和互联网搜索专家
著有 《浪潮之巅》 《数学之美》 《大学之路》 《文明之光》 《硅谷之谜》 和 《智能时代》 等多部畅销书
阅读缘由
- 公司为大数据公司,该怎么感受,如何理解用数据思维的方式
- 由于 硅谷之谜 留下的印象,所以想通过数据处理背后的数学模型来了解数据思维
不要畏惧
-
不需要理解里面复杂的数学公式(本人也不懂),作者结合历史人文知识,穿插生活中现象后的规律,讲得通俗易懂
-
三论(信息论 系统论 控制论),信息时代的科学基础,也是作者推崇的信息时代变革的理论。与后视镜中的工业时代的理论,做一个比较更容易体会
-
工业时代的科学基础,牛顿和机械思维
- 流水生产线,把原材料从一边进,成品从另一端出。在变化不快的计划时代,具有很高的效率。通过顶层设计,利用个人的经验,把中间过程工序,一道道设计好,一环扣一环。
- 瀑布模式,严格遵循预先计划的需求分析、设计、编码、集成、测试、维护的步骤顺序进行,对于需求的变化这将是一个灾难
-
信息时代的科学基础,三论
- 百科
- 硅谷之谜与三论对于我的启示
- 推崇的开发模式,注重人的交互,通信,比文档的信息传递更高效;与客户(用户)的协作,明确需求,客户与团队是一个整体,更开放的系统;快速响应需求的变化,灵活性,控制(牵强附会上去的)
-
-
信息论,本书中很多思考方式用到了信息论
-
信息的作用
- 消除不确定性,当现有信息不足以消除时,可能需要引入其他信息,像说的多维度
- 现实世界人与人之间或动物与动物之间的通信,和机器间通信的联系
- 有趣的是,不同文化的地域,却都用十进制,可能都是用十个手指计数。那有没有加上脚趾,用二十进制的呢?有,玛雅文明,后来消失了
-
信息的作用
有趣章节
-
搜索引擎
布尔代数 二进制运算,逻辑运算
-
crawl
- 图论
-
index
- 分词
-
page rank
-
确定网页和查询相关性,TF-IDF
Term Frequency:关键词的频率(单文本词频),一个网页上 某词出现的频率,一个词在网页上出现的频率越高,则权重越高;一个词在一个网页中的权重
Inverse Document Frequency:逆文本频率指数,假如一个词出现的次数越频率,它的权重越低;一个词的权重
加权求和:TF1 · IDF1 + TF2 · IDF2 + ... + TFn · IDFn 一个词权重的高低,是由其信息量决定的- 通用词
- 专业词
- 长尾词
-
-
crawl
-
信息指纹
-
哈希
- url 匹配
-
相似哈希,simhash
- es 数据
-
判断两个集合是否相同
- 一一比较
- 排序后,顺序比较
- 一个放 hashtable,循环另一个集合比较
- 生成集合指纹比较
- 盗版追踪
-
哈希
-
逻辑回归和搜索广告
-
搜索广告三阶段
- 竞价排名,类似莆田
- 搜索词预测 + 出价 + 点击率,Google Ads,模仿者: 雅虎 Panama,百度凤巢
- 根据网络行为推送,行为营销,用户画像
-
预估点击率
- 影响因素(位置,与搜索词相关性,展示时间等),逻辑回归模型,准确度
- 影响因素(位置,与搜索词相关性,展示时间等),逻辑回归模型,准确度
-
搜索广告三阶段
-
余玄定理和新闻分类
- 同一类新闻用词都是相似的,不同类的新闻用词各不相同
- 同一类新闻用词都是相似的,不同类的新闻用词各不相同
-
搜索引擎反作弊
- 尴尬的时刻,美好的 SEO,相对于搜索引擎来说却是一个作弊者
- 失效的 SEO,外链
- 反作弊软件的学习进步,使得 SEO 难度更大,使得大批以此为利益的团体甭离,SEO 成本上升(导致选择 SEM)
- SEO,与搜索引擎猫捉老鼠的游戏,随着难度成本的上升,以及移动互联网时代搜索引擎的弱化,未来何去何从
背后的人
- 信息论,克劳德·艾尔伍德·香农
- 现代语音识别和自然语言处理,弗里德里克·贾里尼克
- 隐含马尔可夫模型,安德烈·马尔可夫
- 布尔代数,乔治·布尔
- 自然语言处理的教父,米奇·马库斯
- 维特比算法,安德鲁·维特比,高通创始人之一
- 美女,海蒂·拉玛尔
- Google AK-47,阿米特·辛格
数据思维
数学模型
- 由经验决策,到数据决策,通过数据消除不确定性
- 以日历及二十四节气为例,是怎么推算出来的,也就是记录数据(大数据),发现规律(数学),然后验证(意义)
- 系统性能调优,怎么定位问题,通过记录的耗时分布进行分析(通过经验判断进行分析)
- 还不清晰,还没想明白,未完待续