`
bazhuang
  • 浏览: 147600 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

jsoup 1.6.0的问题

    博客分类:
  • java
阅读更多
今天再看一个jsoup的问题时候,发现如下代码会出现问题:
Document doc = Jsoup.parse("<table><tr><td>0</td></tr></table>","http://www.iteye.com");

最后发现转换之后td中的内容就丢失了,然后仔细debug一下jsoup的代码,发现在TreeBuilderState这个类中有个nullString变量,内容为“0X0000”,悲剧了,它直接把0作为null字符串对待了,吃掉它了。

最后去http://search.maven.org/#artifactdetails%7Corg.jsoup%7Cjsoup%7C1.6.1%7Cjar,找了一下最新的1.6.1版本源码,发现代码已经发生了改变。前后2段代码如下:
private static String nullString = String.valueOf(0x0000);
 private static String nullString = String.valueOf('\u0000');

第一行是1.6.0中的代码,1.6.1中就已经是修改过的了。
后面的修改为\u0000,这样就一切搞定了。

把三方库升级到1.6.1就可以了,开源包在使用上还是要多注意一些,bug总是有的,估计有时候还需要自己去hack修复。选用三方库的时候还是慎重一些。不过就这次碰到的这个问题,是没有办法,htmlparser有它的bug无法满足要求。
分享到:
评论

相关推荐

    jsoup-1.6.0-sources

    很好用的一下html页面分析jar包jsoup-1.6.0-sources

    jsoup-jsoup-1.6.1.zip

    jsoup是一款Java的HTML解析器,主要用来对HTML解析。其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果,无论HTML的格式是否完整。

    jsoup-1.6.0

    jsoup 的主要功能如下: 1. 从一个 URL,文件或字符串中解析 HTML; 2. 使用 DOM 或 CSS 选择器来查找、取出数据; 3. 可操作 HTML 元素、属性、文本; jsoup 是基于 MIT 协议发布的,可放心使用于商业项目。

    jsoup-1.15.3.jar

    jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jarjsoup-...

    jsoup-1.14.3-API文档-中文版.zip

    赠送jar包:jsoup-1.14.3.jar; 赠送原API文档:jsoup-1.14.3-javadoc.jar; 赠送源代码:jsoup-1.14.3-sources.jar; 赠送Maven依赖信息文件:jsoup-1.14.3.pom; 包含翻译后的API文档:jsoup-1.14.3-javadoc-API...

    Jsoup

    Jsoup

    Jsoup 1.5.2 和jsoup 1.6

    Jsoup 1.5.2 和jsoup 1.6 开发包jar包,开发文档,源码包

    JsoupAPI(jsoup帮助文档)

    JsoupAPI jsoup最新版帮助文档(1.10.2)

    Jsoup库文件;Jsoup解析Java包

    Jsoup库文件;Jsoup解析Java包

    jsoup1.10.3包和jsoupApi帮助文档

    最新jsoup1.10.3和jsoupApi帮助文档

    Jsoup.jar Jsoup jar 包 java

    可以解析xml ,html 的java jar 包;Jsoup,常用的jar 包

    JsoupXpath

    整理JsoupXpath( https://github.com/zhegexiaohuozi/JsoupXpath)是一款纯Java开发的使用xpath解析提取html内容的解析器,xpath语法分析与执行完全独立,html的DOM树生成借助Jsoup,故命名为JsoupXpath. 为了在java...

    jsoup 帮助文档1.6.3

    jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的... &lt;groupId&gt;org.jsoup &lt;artifactId&gt;jsoup &lt;version&gt;1.6.3 &lt;/dependency&gt;

    jsoup-1.11.3-API文档-中文版.zip

    赠送jar包:jsoup-1.11.3.jar; 赠送原API文档:jsoup-1.11.3-javadoc.jar; 赠送源代码:jsoup-1.11.3-sources.jar; 赠送Maven依赖信息文件:jsoup-1.11.3.pom; 包含翻译后的API文档:jsoup-1.11.3-javadoc-API...

    jsoup分页爬取网页

    jsoup分页爬取网页,jsoup分页爬取网页jsoup分页爬取网页内置jsoup所需要的jar包

    org.jsoup.jar

    import org.jsoup.Jsoup

    JsoupXpath jsoup升级版 java爬虫工具

    JsoupXpath jsoup的升级版 ,支持jsoup的同时还支持原生xpath语法,让你的爬虫更得心应手,无所不爬!

    jsoup-1.14.3-API文档-中英对照版.zip

    赠送jar包:jsoup-1.14.3.jar; 赠送原API文档:jsoup-1.14.3-javadoc.jar; 赠送源代码:jsoup-1.14.3-sources.jar; 赠送Maven依赖信息文件:jsoup-1.14.3.pom; 包含翻译后的API文档:jsoup-1.14.3-javadoc-API...

    jsoup-jar包

    java抓取网页模块JSoup,Jsoup-jar包.

    jsoup1.6源码及API

    jsoup1.6源码及API jsoup-1.6.1.jar jsoup-1.6.1-javadoc.jar jsoup-1.6.1-sources.jar

Global site tag (gtag.js) - Google Analytics