• 给定字典做分词


    近期须要用到分词,无聊写个算法。。。

    算法:给定一个字典和一句话,做分词。

    Target:输入词典,输出全部可能的分词结果

    思路:dfs

    加速:首先推断是不是这句话里全部的词在字典中都有(validate)


    //
    //  Wordsplit.cpp
    //  
    //  Target: Find all possible splitting of a sentence given a dictionary dict
    //  Howto:  refer to main
    //
    //  Created by Rachel on 14-8-16.
    //  Copyright (c) 2014年 ZJU. All rights reserved.
    //
    
    #include <iostream>
    #include <stdio.h>
    #include "vector"
    #include <set>
    #include<unordered_set>
    using namespace std;
    
    class Wordsplit {
    private:
        vector<string> list;
        bool match(string s, string cur_ele){
            int l = cur_ele.length();
            if (s.substr(0,l)==cur_ele) {
                return true;
            }
            return false;
        }
        
        bool validate(string s, unordered_set<string> &dict){
            //1. calculate all alphabets in the query
            set<char> alpha;
            for (int i=0; i<s.length(); i++) {
                alpha.insert(s[i]);
                }
            //2. calculate all alphabets in the dictionary
            set<char> beta;
            unordered_set<string>::iterator dict_it;
            for (dict_it = dict.begin(); dict_it!=dict.end(); dict_it++) {
                for (int i=0; i<(*dict_it).length(); i++) {
                    beta.insert((*dict_it)[i]);
                }
            }
            set<char>::iterator it;
            for (it = alpha.begin(); it!=alpha.end(); it++) {
                if (beta.find(*it)==beta.end()) {
                    return false;
                }
            }
            return true;
        }
        
    public:
        string split(string s, unordered_set<string> &dict, string cur_str){
            if (s.length()==0) {
                list.push_back(cur_str.substr(0,cur_str.length()-1));
                return s;
            }
            //cout<<s<<endl;
            unordered_set<string>::iterator it;
            for (it=dict.begin(); it!=dict.end(); it++) {
                if (match(s, (*it))) {
                    string tmp_str = cur_str;
                    string latter = s.substr(it->length(), s.length()-it->length());
                    cur_str += (*it) + " "; // add current word to cur_str
                    cur_str += split(latter, dict, cur_str); // split remaining words
                    cur_str = tmp_str; //back to last status
                }
            }
            return "no result";
        }
        
        
        vector<string> main(string s, unordered_set<string> &dict) {
            if (!validate(s, dict)) {
                return list;
            }
            split(s, dict, "");
            return list;
        }
    };
    
    int main()
    {
        Wordsplit s;
        unordered_set<string> L={"程序猿","公务员","员","我","喜","做","程序","一","欢","喜欢","做一个","一个"};
        vector<string> V = s.main("我喜欢做一个程序猿", L);
        vector<string>::iterator it;
        for (it=V.begin(); it!=V.end(); it++) {
            cout<<(*it)<<endl;
        }
    }



    输出:

    喜欢 做一个 程序

    喜欢 做一个 程序猿

    喜欢 一个 程序

    喜欢 一个 程序猿

    做一个 程序

    做一个 程序猿

    一个 程序

    一个 程序猿



  • 相关阅读:
    腾讯云CentOS7学习
    听力词汇发音练习软件
    中缀表达式转后缀表达式
    两个升序序列的中位数
    CentOS配置静态IP
    一种简单的基于图像或激光雷达的道路(赛道)识别程序
    Win10+VS2019 配置YOLOv3
    【算法题】CCF CSP第二题练习(更新中)
    rpm的使用
    SCL
  • 原文地址:https://www.cnblogs.com/wgwyanfs/p/7065588.html
走看看 - 开发者的网上家园