loading ...
loading...

2008-02-01 | HTML Parser 选型

分享
标签: html  parser 
  针对目前开源的Html parser项目做了选型比较以下是比较数据:  
解析情况 Htmlparser-1.6 Nekohtml-1.9.6.1 HtmlCleaner-1.55
 解析正确性  准确  很准确  准确
 生产XML格式  很好,格式美化效果非常好,自动对齐代码整齐  很好,哦而有错位现象,比如
<script></script>
<noscript></noscript>
会被分割到head和body中
 Head域的Script块会被移动到body部分,格式美化效果非常好,自动对齐代码整齐
 Html元素补偿  支持,补偿元素略有不准确,比如<p>ddd<table>会被处理为<p>ddd<table> </table></p>  支持,正确  支持,正确
 是否支持从URL解析  支持  支持  不支持
 解析<script>代码中的html标记  正确  对字符串中的<符号,会处理成&lt;  BUG:凡出现html标记的地方都会换行并对格式美化;
 解析<!->注释中的HTML标记  正确,保留注释,不做格式美化  正确,保留注释,不做格式美化  对注释忽略良好,内部不处理,只对格式美化(对齐方式)
 对<tbody>标记处理  原样保留,不做元素补偿处理  会对<tbody>补偿处理,但是处理有bug  正确
 针对页面有多个<HTML>标记  正确,保留多个HTML  会去掉第二个html标记,并且将body  会忽略掉第二个html
 对类似&amp;特殊字符处理  正确  正确  正确
 Api复杂度  最复杂  较复杂  简单
 对同一文件解析1000次耗时  656ms  1516ms  1438ms
  在选型之前也看到了Jericho html parser 但是该项目的安照tag模式去搜寻解析的,不是常规的生成xml模式,这对我们后面用到的xpath不兼容,所以放弃了该项目。
分享 分享 |  评论 (0) |  阅读 (?)  |  固定链接 |  类别 (滴滴点点) |  发表于 16:30  | 最后修改于 2008-02-03 23:39
搜狐博客温馨提示:搜狐博客官方不会要求参加活动的各位博友缴纳任何的手续费用。请勿轻信留言、评论中的中奖信息,更不要拨打陌生电话及向陌生帐户汇款,谨防受骗!识别更多网络骗术,请 点击查看详情
您还未登录,只能匿名发表评论。或者您可以 登录 后发表。
 
  *中国人爱国心,搜狗输入法爱国主题皮肤下载>>
表  情:
加载中...
回复通知: 同时用小纸条通知对方该回复