zoukankan      html  css  js  c++  java
  • 特征抽取----Word2Vec

    #导入相关的库
    from pyspark.ml.feature import Word2Vec
    from pyspark.sql import SparkSession
     
    #配置spark
    spark = SparkSession.builder.master("local").appName("Word2VecDemo").getOrCreate()
    #创建三个词语序列,每个代表一个文档
    documentDF = spark.createDataFrame([
    ("Hi I heard about Spark".split(" "), ),
    ("I wish Java could use case classes".split(" "), ),
    ("Logistic regression models are neat".split(" "), )
    ], ["text"])
    #新建一个Word2Vec ,他是一个Estimator
    word2Vec = Word2Vec(vectorSize =3, minCount=0, inputCol="text", outputCol="result")
    #读入训练集,用fit() 方法生成Word2VecModel
    model = word2Vec.fit(documentDF)
    #利用生成的Word2VecModel转成特征向量
    result =model.transform(documentDF)
    for row in result.collect():
      text, vector = row
      print("Text: [%s] => Vector: %s " % (", ".join(text), str(vector)))
     

    关于超参数的设置:

  • 相关阅读:
    css知识点
    javascript 中闭包
    javascript 继承方法总结
    css滚动滚轮事件
    关于闭包的总结
    xpth xslt
    好的js函数
    自动化测试实施(4)
    自动化测试实施(5)
    自动化测试实施(3)
  • 原文地址:https://www.cnblogs.com/SoftwareBuilding/p/9485882.html
Copyright © 2011-2022 走看看