标签:
针对目前开源的Html parser项目做了选型比较以下是比较数据:
在选型之前也看到了Jericho html parser 但是该项目的安照tag模式去搜寻解析的,不是常规的生成xml模式,这对我们后面用到的xpath不兼容,所以放弃了该项目。
| 解析情况 | Htmlparser-1.6 | Nekohtml-1.9.6.1 | HtmlCleaner-1.55 |
| 解析正确性 | 准确 | 很准确 | 准确 |
| 生产XML格式 | 很好,格式美化效果非常好,自动对齐代码整齐 |
很好,哦而有错位现象,比如 <script></script> <noscript></noscript> 会被分割到head和body中 |
Head域的Script块会被移动到body部分,格式美化效果非常好,自动对齐代码整齐 |
| Html元素补偿 | 支持,补偿元素略有不准确,比如<p>ddd<table>会被处理为<p>ddd<table> </table></p> | 支持,正确 | 支持,正确 |
| 是否支持从URL解析 | 支持 | 支持 | 不支持 |
| 解析<script>代码中的html标记 | 正确 | 对字符串中的<符号,会处理成< | BUG:凡出现html标记的地方都会换行并对格式美化; |
| 解析<!->注释中的HTML标记 | 正确,保留注释,不做格式美化 | 正确,保留注释,不做格式美化 | 对注释忽略良好,内部不处理,只对格式美化(对齐方式) |
| 对<tbody>标记处理 | 原样保留,不做元素补偿处理 | 会对<tbody>补偿处理,但是处理有bug | 正确 |
| 针对页面有多个<HTML>标记 | 正确,保留多个HTML | 会去掉第二个html标记,并且将body | 会忽略掉第二个html |
| 对类似&特殊字符处理 | 正确 | 正确 | 正确 |
| Api复杂度 | 最复杂 | 较复杂 | 简单 |
| 对同一文件解析1000次耗时 | 656ms | 1516ms | 1438ms |
![]() |
冬日娜刻薄提问雷哭史冬鹏(图)
孙悦是本届奥运的最大收获
程菲终于走出了失望(图)
|
![]() |
花样游泳姐妹花私家生活照 盘点北京奥运会十大悲情英雄(图) |
![]() |
![]() |
![]() |


档案
日志
相册
视频








评论
想第一时间抢沙发么?