基于网络爬虫的电力故障信息检索引擎设计

【摘要】 针对当前电力故障信息搜索的低效问题,结合计算机信息技术,提出一种基于网络爬虫的检索引擎。为实现该引擎,先对网络爬虫的原理进行了分析,同时为提高网络爬虫抓取的准确度,在URL提取后,引入KMP算法对故障信息字符进行匹配,以提高匹配的效率和准确度。在完成上述的抓取后,通过JSOUP完成对信息的解析,得到目标网页链接。为验证上述方案,通过ETL完成数据库搭建,并采用Eclipse3.1+MySQL5.0+Tomcat5.5完成对引擎平台的开发。最后通过配网台账抽取,验证了本方案的可行性。