homeword04-word search
0. 摘要
本次作业,要求完成一个word search的程序,具体要求是: 输入:一个包含20-60个单词的文件,各单词不大于20个字母,无空格。
输出:一个猜词游戏的字母矩阵,满足如下条件:
1. 每个单词在矩阵中出现,且只出现1次
2. 上下、下上、左右、右左及对角线共8个方向,每个方向均不少于2个单词排布。
3. 矩阵长宽可以不同
4. 不存在无效行或列
5. (进阶要求)矩阵为正方形
6. (进阶要求)矩阵四角有单词覆盖
对于这个题目的实现,在可解的基础上,最重要的是以一种相对高效的方式给出结果。为此,老师讲解了“简单粗暴”法、我也参与到同学们的讨论中。我认为,首先选择一个合适的骨架,在此基础上进行拓展是一个优秀的方法,在实现过程中,骨架的恰当选择和随机化算法的应用都将用来提高效率。
1. 程序框架
这样一个程序,我首先想到类似枚举的算法显然是不行的,为此我们必须找到某些优化条件,在大量的重试中,这会显现出很大的价值。通过观察成品word search的例子,我发现很多长单词都被放置在竖直方向。也许,先选出这样一个竖直的单词作为基础,是一个不错的切入点。为此,在第一阶段,我写了复杂而精准的评估函数。此函数将为每个骨架评估一个值,值越大,越理想,此后的工作就是循环调用产生函数,优先以优选的骨架为基础进行填充,直到得出结果。这里面,“骨架”定义为一个竖直放置的单词(主骨)加上其上搭出的一个方向的其他单词(次骨)。其具体实现,请看下一章详细说明。以下,简要介绍程序框架:
模式匹配函数,若给定的字符串与模式串不能匹配,返回-1。这里面模式串为“不完整的字符串”,如模式串”bei*ang*ni***sity”匹配于”beihanguniversity”。
int compare (string pattern,string ith)
绘图函数,负责将抽象表示的骨架映射到二维数组中,便于后面的函数调用来寻找出骨架的全部模式串string pattern[].参数中 num 表示骨架中主骨在str中的序号。skl[i][0]表示与主骨第i下标字母连接的次骨单词序号。skl[i][1]表示这个次骨与主骨公共字母在次骨串的下标。
void plot_skl_mtrcs(int num, int skl[60][2])
给定一个骨架,找出其全部模式串string pattern[],用于后期评估骨架的可拓展性。
void find_all_prtn(int num, int skl[60][2])
骨架评估函数,调用上述程序,给定一个骨架,返回一个评估值。该值的大小能够评估选定骨架的理想程度,使得程序能够以较好的切入点进行尝试。
int esimate(int num, int skl[60][2])
作图函数,用于输出结果
void plot()
初始的读取
void init()
骨架选取与迭代
void set_skeleton()
然而,当这些过程完成后,我们还是发现矩阵的大小不够理想。这已经不可以在评估上解决了,因为我们遇到了一个瓶颈,对优化的考虑过于复杂但是在实现中逻辑及其复杂,实现难度很大,而即使不怎么进行骨架的选取,我们发现对于结果的影响也微乎其微。为此,我们进入第二阶段,淡化前期评估的复杂逻辑,转向随机化和大量枚举。第二阶段,我负责的评估部分400行代码大量精简(精简了也没有太大改变,计算机速度快),转而写出一个验证的程序,此程序不断调用前面写出的代码得到一个矩阵,指导矩阵符合要求停止。第二阶段,前面的代码被包装成头文件,验证部分调用之。最终效果姑且令人满意。
我也请教过鲁海浩和肖俊鹏一组,他们告诉我即使全部随机化,也比认真的优化差不到哪里,最多只会多一行一列矩阵而已。这与我的认识完全一致。这个程序启发我,在情况量大、难以入手的程序面前,其实最好的办法就是随机化。
2. 具体代码解释
因为最开始想得不对,我的核心工作在后面都精简了,而个人认为这个评估写的还是比较好,所以这一部分,我将主要解释自己之前写的部分的思路,之前的代码虽然与最终版本不用,但是更加清晰独立能说明功能。至于控制以及修改后的部分,请参阅我的队友熊英夫的博客 http://www.cnblogs.com/yuzuka
难度和复杂度较大的是void find_all_prtn(int num, int skl[60][2]) 和int esimate(int num, int skl[60][2])两个函数,前者找到四个方向的全部模式串,后者进行评估:
void find_all_prtn(int num, int skl[60][2])
首先调用plot_skl_mtrcs(num, skl)将骨架映射至二维数组skl_mtrcs,然后分别在4个方向上定义[beginY][beginX]和[endX][endY]两个点向中间夹逼,直到遇到彼此或者遇到字母。begin,end之间的部分用空格替换‘ ’得到当前位置的一个模式串。
针对不同情况,begin,end两点的横纵坐标的变化规律不同。代码如下:
1 /* 2 * 找出四个方向全部模式串,写入string pattern[],pattern[i][0] = ' '表示后面没有了。 3 * 四个方向为水平左到右,竖直上到下,还有左上到右下,和右上到左下。 4 */ 5 void find_all_prtn(int num, int skl[60][2]) 6 { 7 int i_ptn = 0, i, j, k; 8 int beginX, beginY, endX, endY; 9 char c; 10 plot_skl_mtrcs(num, skl); 11 //horizontal 12 for (i = 0; i < 100; ++i){ 13 endX = 99; 14 endY = 0; 15 while (beginX <= endX){ 16 if (skl_mtrcs[beginX][i] == '