zoukankan      html  css  js  c++  java
  • 数学之美

    数学之美读后感

    数学之美

    吴军,著名学者,投资人,人工智能、语音识别和互联网搜索专家

    著有 《浪潮之巅》 《数学之美》 《大学之路》 《文明之光》 《硅谷之谜》 和 《智能时代》 等多部畅销书

    阅读缘由

    • 公司为大数据公司,该怎么感受,如何理解用数据思维的方式
    • 由于 硅谷之谜 留下的印象,所以想通过数据处理背后的数学模型来了解数据思维

    不要畏惧

    • 不需要理解里面复杂的数学公式(本人也不懂),作者结合历史人文知识,穿插生活中现象后的规律,讲得通俗易懂

    • 三论(信息论 系统论 控制论),信息时代的科学基础,也是作者推崇的信息时代变革的理论。与后视镜中的工业时代的理论,做一个比较更容易体会

      • 工业时代的科学基础,牛顿和机械思维

        • 流水生产线,把原材料从一边进,成品从另一端出。在变化不快的计划时代,具有很高的效率。通过顶层设计,利用个人的经验,把中间过程工序,一道道设计好,一环扣一环。
        • 瀑布模式,严格遵循预先计划的需求分析、设计、编码、集成、测试、维护的步骤顺序进行,对于需求的变化这将是一个灾难
           
      • 信息时代的科学基础,三论

        • 百科
        • 硅谷之谜与三论对于我的启示
        • 推崇的开发模式,注重人的交互,通信,比文档的信息传递更高效;与客户(用户)的协作,明确需求,客户与团队是一个整体,更开放的系统;快速响应需求的变化,灵活性,控制(牵强附会上去的)
           
    • 信息论,本书中很多思考方式用到了信息论

      通信六要素

      • 信息的作用
        • 消除不确定性,当现有信息不足以消除时,可能需要引入其他信息,像说的多维度
      • 现实世界人与人之间或动物与动物之间的通信,和机器间通信的联系
      • 有趣的是,不同文化的地域,却都用十进制,可能都是用十个手指计数。那有没有加上脚趾,用二十进制的呢?有,玛雅文明,后来消失了

    有趣章节

    • 搜索引擎

      布尔代数 二进制运算,逻辑运算

      • crawl
        • 图论
      • index
        • 分词
      • page rank

        • 确定网页和查询相关性,TF-IDF

          Term Frequency:关键词的频率(单文本词频),一个网页上 某词出现的频率,一个词在网页上出现的频率越高,则权重越高;一个词在一个网页中的权重
          Inverse Document Frequency:逆文本频率指数,假如一个词出现的次数越频率,它的权重越低;一个词的权重
          加权求和:TF1 · IDF1 + TF2 · IDF2 + ... + TFn · IDFn 一个词权重的高低,是由其信息量决定的

          • 通用词
          • 专业词
          • 长尾词
             
    • 信息指纹

      • 哈希
        • url 匹配
      • 相似哈希,simhash
        • es 数据
      • 判断两个集合是否相同
        • 一一比较
        • 排序后,顺序比较
        • 一个放 hashtable,循环另一个集合比较
        • 生成集合指纹比较
      • 盗版追踪
         
    • 逻辑回归和搜索广告

      • 搜索广告三阶段
        • 竞价排名,类似莆田
        • 搜索词预测 + 出价 + 点击率,Google Ads,模仿者: 雅虎 Panama,百度凤巢
        • 根据网络行为推送,行为营销,用户画像
      • 预估点击率
        • 影响因素(位置,与搜索词相关性,展示时间等),逻辑回归模型,准确度
           
    • 余玄定理和新闻分类

      • 同一类新闻用词都是相似的,不同类的新闻用词各不相同
         
    • 搜索引擎反作弊

      • 尴尬的时刻,美好的 SEO,相对于搜索引擎来说却是一个作弊者
      • 失效的 SEO,外链
      • 反作弊软件的学习进步,使得 SEO 难度更大,使得大批以此为利益的团体甭离,SEO 成本上升(导致选择 SEM)
      • SEO,与搜索引擎猫捉老鼠的游戏,随着难度成本的上升,以及移动互联网时代搜索引擎的弱化,未来何去何从

    背后的人

    • 信息论,克劳德·艾尔伍德·香农
    • 现代语音识别和自然语言处理,弗里德里克·贾里尼克
    • 隐含马尔可夫模型,安德烈·马尔可夫
    • 布尔代数,乔治·布尔
    • 自然语言处理的教父,米奇·马库斯
    • 维特比算法,安德鲁·维特比,高通创始人之一
    • 美女,海蒂·拉玛尔
    • Google AK-47,阿米特·辛格

    数据思维

    数学模型

    • 由经验决策,到数据决策,通过数据消除不确定性
    • 以日历及二十四节气为例,是怎么推算出来的,也就是记录数据(大数据),发现规律(数学),然后验证(意义)
    • 系统性能调优,怎么定位问题,通过记录的耗时分布进行分析(通过经验判断进行分析)
    • 还不清晰,还没想明白,未完待续
  • 相关阅读:
    qt creator中输入中文中文变繁体
    Trie
    pycharm 专业版的 django功能
    fzu 1533
    django使用问题记录
    查看SQLServer最耗资源时间的SQL语句
    从mysql数据库删除重复记录只保留其中一条(保留id最小的一条)
    使用CSS3的appearance属性改变元素的外观
    mysql中将多行数据合并成一行数据
    MySQL字符串的拼接、截取、替换、查找位置
  • 原文地址:https://www.cnblogs.com/ranmofang/p/8536958.html
Copyright © 2011-2022 走看看