一直打算找个时间把Earley算法的框架整合到我的parse算法上,感觉能够得到一个更好的思路。这两天水到渠成的把这件事做了。
说的挺轻松呵呵,当初折腾自己的算法的时候,和第一次接触Earley算法把它做对的时候,都下了些功夫;尤其是前者。而且一直没有融合,也不完全是没有时间,而是思路没理顺。
跟Earley Parser比,有更小的空间占用和更简单的步骤,因为Earley的从根本上可以说是一种Chart Parser,所以难免有些多余的格子和操作。好像它上面的研究者都没想着应该换个思路。
跟我自己最初的算法比,那个基本上是从NFA Simulation上硬生生长出来的,过小的起点基础根本承受不住我的思路,所以很乱而且不敢保证没有bug。不过那个算法是原生支持一部分CS语言的。
跟LL、LR比,我个人觉得在支持全部CFG的同时,它在思路和实现两方面上也清晰简明的多,可扩展性更强,唯一吃亏的效率问题,也就可以通过扩展子部件优化,这确实是得益于Earley。
怎么说呢,现在就差一个正确性的证明;做一个它可以正确生成Earley Item Set并且操作等价于Earley算法(虽然实际上已经不需要这些Earley算法的部分了)的证明,也许是个不错的捷径。
希望我没弄错什么、在近期有时间可以搞一下这个事;如果弄下来确实是正确的且还没有和别人的重复,嗯嗯就可以起名字了嘿嘿。
P.S. 谁有写正经论文和国外投稿的经验,求教。