zoukankan      html  css  js  c++  java
  • 关于手机等品牌型号搜索与采集的中文分词分离

    很久以前,写过一个手机的搜索查询,这里要涉及到手机类型和型号的分离。

    很久之后前,有人问起这个问题,于是,写点说明就把这函数的草稿发布了,并写下了这一些说明。

    函数说明,如搜索输入:诺基亚N95,将被拆分成品牌:诺基亚 型号:N95

    对于手机数据采集,也可以用这函数分离出品牌和型号。

    SetSearchKey("诺基亚N95",out 诺基亚,out N95);

    函数代码如下:

    protected void SetSearchKey(string keyword, out string goodsName, out string goodsModel)
            {
                keyword 
    = keyword.ToLower().Trim();
                
    if (keyword.Contains(" "))//带空格,分离
                {
                    goodsName 
    = keyword.Split(' ')[0].Trim();
                    goodsModel 
    = keyword.Split(' ')[1].Trim();
                }
                
    else if (Regex.Match(keyword, @"^[\u4E00-\u9FA5]+[\w\d]+").Success)//以中文开头,包含英文,分离
                {
                    goodsName 
    = Regex.Match(keyword, @"^([\u4E00-\u9FA5]+)[\w\d]+").Groups[1].Value;
                    goodsModel 
    = keyword.Replace(goodsName, string.Empty);
                }
                
    else
                {
                    
    string[] keys = new string[] { "nec""lg""vk""cect" };
                    
    for (int i = 0; i < keys.Length; i++)
                    {
                        
    if (keyword.IndexOf(keys[i]) == 0)
                        {
                            goodsName 
    = keys[i];
                            goodsModel 
    = goodsModel = keyword.Replace(goodsName, string.Empty);
                            
    return;
                        }
                    }
                    goodsName 
    = keyword;
                    goodsModel 
    = keyword;

                }
            }
    版权声明:本文原创发表于 博客园,作者为 路过秋天 本文欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则视为侵权。
    个人微信公众号
    创业QQ群:617713515
    Donation(扫码支持作者):支付宝:
    Donation(扫码支持作者):微信:
  • 相关阅读:
    vue报错 ModuleBuildError: Module build failed: Error: `sass-loader` requires `node-sass` >=4. Please install a compatible version.
    js 相对路径转为绝对路径
    查询数据库表结构,默认值,是否为空等
    NOLOCK、HOLDLOCK、UPDLOCK、TABLOCK、TABLOCKX
    【58沈剑架构系列】RPC-client异步收发核心细节?
    Windows下性能最好的I/O模型——完成端口
    链表的基本操作
    逐步优化求解最大子序列和
    python 遍历文件夹
    Markdown笔记
  • 原文地址:https://www.cnblogs.com/cyq1162/p/1349062.html
Copyright © 2011-2022 走看看