zoukankan      html  css  js  c++  java
  • project 2

    1. 最后老师的答案输出为0.748,用来检测代码正确性

    2. estimator有三个,分别为NaiveBayes、StringIndexer、CountVectorizer。三者在使用中需要fit,即一个training的过程。fit之后estimator转变为transformer。tokenizer不需要fit就可以直接使用

    transform(DF)即真正的使用model,得到输出New DataFrame

    3. 在同一个pipeline里面的estimator只能fit同一个DataFrame

    4. task1.1即对raw data进行预处理,对csv的读取老师已经做完了,首先将每一句话打散成单词,通过tokenizer实现,起名为words。再利用CountVectorizer转为向量形式,起名为features。最后用StringIndexer转换成label,即0.0 1.0 2.0 的形式。将这些辅助工具放在pipeline里,最后返回pipeline

    raw data

    words

     features

    5. 

    6. task1.1结束之后,可以开始stacking

    由于我们training出来的结果只能分成两类,所以解决方法就是多做几次分类

  • 相关阅读:
    CSS3 Transitions 你可能不知道的知识点
    css规范
    移动应用表单设计秘籍
    SVN和Git的一些用法总结
    让Terminal显示git分支
    JavaScript正则表达式下——相关方法
    requests模块
    flask模块
    os模块
    简单的socket编程
  • 原文地址:https://www.cnblogs.com/eleni/p/13439158.html
Copyright © 2011-2022 走看看