zoukankan      html  css  js  c++  java
  • Atitit.jsou html转换纯文本 java c# php

    Atitit.jsou html转换纯文本 java c# php

     

    1原理<p> <h> <li><div> lable转换为回车1

    2调用2

    3Php的实现strip_tags2

    4参考2

     

    1. 原理<p> <h> <li><div> lable转换为回车

     

       "'&(quot|#34);'i", // 替换 HTML 实体

    作者:: 绰号:老哇的爪子 ( 全名::Attilax Akbar Al Rapanui 阿提拉克斯 阿克巴 阿尔 拉帕努伊 ) 汉字名:艾龙,  EMAIL:1466519819@qq.com

    转载请注明来源: http://blog.csdn.net/attilax

     

     

    public void head(Node nodeint depth) {

    String name = node.nodeName();

    if (node instanceof TextNode)

    append(((TextNode) node).text());

    else if (name.equals("li"))

    append("  * ");

    }

     

    public void tail(Node nodeint depth) {

    String name = node.nodeName();

    if (name.equals("br"))

    append(" ");

    else if (StringUtil.in(namenew String[] { "p""h1""h2""h3",

    "h4""h5" }))

    append(" ");

    else if (name.equals("a"))

    append(String.format(" <%s>",

    new Object[] { node.absUrl("href") }));

    }

     

    private void append(String text)

     

     

    2. 调用

    public static void main(String[] args) {

    pathx.isWebPathMode = true;

    String f = pathx.classPath() + "/com/attilax/cms/cms_tmplt.html";

    String txt = filex.read(f);

    Document doc = Jsoup.parse(txt);

    // Document doc = Jsoup.connect(url).get();

    String plainText;

    HtmlToPlainText formatter = new HtmlToPlainText();

    plainText = formatter.getPlainText(doc);

    System.out.println(plainText);

     

    String x = "工作时间:08:00-22:00 性别要求:男女不限";

    x = plainText;

    @SuppressWarnings("rawtypes")

    Map m = new RowParser().parse(x);

    System.out.println(AtiJson.toJson(m));

    System.out.println("---f");

     

    }

     

    3. Php的实现strip_tags

    string strip_tags(string str[,string allowable_tags])

    4. 参考

     

    Jsoup代码解读之一-概述 - ImportNew.htm

    PHPHTML转换成纯文本内容实例-Php常用代码-Php教程-壹聚教程网.htm

  • 相关阅读:
    错误记录(一):VSCode
    【洛谷P4770】你的名字
    【洛谷P3177】树上染色
    【洛谷P3704】数字表格
    【CF762F】Tree nesting
    【洛谷P5064】等这场战争结束之后
    【洛谷P3346】诸神眷顾的幻想乡
    【BZOJ#2119】股市的预测
    UiPath数据抓取Data Scraping的介绍和使用
    UiPath录制器的介绍和使用
  • 原文地址:https://www.cnblogs.com/attilax/p/5963481.html
Copyright © 2011-2022 走看看