`
m635674608
  • 浏览: 4928421 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

java开源HTML解析器收集

    博客分类:
  • java
 
阅读更多
  • HTML文档解析器 HTMLParser

    HTML Parser 是一个对HTML进行分析的快速实时的解析器,最新的发行版本是1.6,另外2.0的开发版本已经两年没有进展了。 示例代码: Parser parser = new Parser ("http://whatever"); NodeList list = parser.parse (null); Node node = list.elementAt...更多HTMLParser信息
  • HTML解析器 jsoup

    本站使用 jsoup 来解析 HTML。 jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操 作数据。 jsoup的主要功能如下: 从一个URL,文件或字符串中解析H...更多jsoup信息

    最近更新: jsoup 1.7.2 发布,支持 CSS 类伪码选择器 发布于 3个月前

  • HTML文档解析器 NekoHTML

    NekoHTML是一个Java语言的 HTML扫描器和标签补全器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能够扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档 过程中常犯的错误。 NekoHTML能增补缺失的父元素、...更多NekoHTML信息
  • Html文档解析器 JTidy

    JTidy 是 HTML Tidy 用Java语言实现的版本,提供了一个HTML的语法检查器和很好的打印功能。JTidy可以用来清除格式不好和不对的 HTML。此外,JTidy提供了对整个HTML的DOM分析器。程序员可以将JTidy当作一个处理HTML文件的DOM解析器来使用。...更多JTidy信息
  • Html文档解析器 HtmlCleaner

    HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良 好(Well-Formed)的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来...更多HtmlCleaner信息
  • 通用网页正文抽取 cx-extractor

    基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关 对于Web信息检索来说,网页正文抽取是后续处理的关键。 虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘。能不能高效、准...更多cx-extractor信息
  • HTML 解析和生成器 Cobra

    Cobra 是一个纯 Java 的HTML 解析和生成器,支持 HTML 4 、JavaScript、CSS 2 示例代码: import org.lobobrowser.html.parser.*; import org.lobobrowser.html.test.*; import org.lobobrowser.html.gui.*; import org.lobobrowser.html.*; import org.w...更多Cobra信息
  • HTML 解析器 Jericho

    Jericho HTML解析器是一个Java库,以分析和操纵部分的HTML文件,其中包括服务器端的标签,而过滤掉任何无法识别的或无效的HTML 。它也提供高层次的HTML表单操作函数。 示例代码: import net.htmlparser.jericho.*; import java.util.*; import java.io.*;...更多Jericho信息

    最近更新: Jericho 3.3 发布,HTML 解析器 发布于 6个月前

  • xhtmlrenderer

    解析HTML和CSS,并且能输出成image,PDF等格式. Flying Saucer is an XML/CSS renderer, which means it takes XML files as input, applies formatting and styling using CSS, and generates a rendered representation of that XML as output. The out...更多xhtmlrenderer信息
  • HTML解析器 CyberNeko

    CyberNeko 是一个HTML解析器,它可以将HTML文件解析成w3c的Document对象。也就是 NekoHTML更多CyberNeko信息
  • HTML 解析类库 MozillaParser

    MozillaParser 是一个 Java 的HTML 解析类库,基于 mozilla 的html 解析器,提供了Java类到 Mozilla类的一个桥接,输入一个HTML文本,输出一个 Java 的 Document 对象。更多MozillaParser信息
  • HTML解析器 HotSax

    HotSAX是一个快速,小型的footprint,用于HTML/XML/XHTML的非确认的SAX2解析。它可以在简单的Web代理、页面抓取器和爬虫程序中使用。它类似于Apache Xerces分析器。更多HotSax信息
  • Java的HTML解析器 Jerry

    Jerry 是 Jodd 工具包中的一个HTML解析工具。它有点像是用Java实现的jQuery。Jerry是一个高效简洁的Java库,用来简化HTML的解析,遍历和操 作。 Jerry的API在设计的时候完全向jQuery靠拢,几乎和jQuery一样,所以有时候你可以直接copy jQuery的代码来用。当...更多Jerry信息
  • 网页缩略图生成类库 Scrender

    Scrender是一个用来生成网页缩略图的Java类库,基于SWT开发。它实质上是调用本地浏览器引擎对要进行截图的网站进行渲染,然后保存该网页的缩略图。 示例代码请看这里。更多Scrender信息
  • Java的HTML解析包 jScraper

    jScraper 提供了简单的接口用来解析HTML文本,它将HTML文本转成Java的对象。 查看 jScraper 的 JavaDoc 文档: http://sharkysoft.com/software/java/html/docs/javadocs/...更多jScraper信息
  • XSS HTMLFilter

    XSS HTMLFilter这是一个采用Java实现的开源类库。用于分析用户提交的输入,消除潜在的跨站点脚本攻击(XSS),恶意的HTML,或简单的 HTML格式错误。 示例代码: // retrieve input from user... String input = ... String clean = new HTMLInputFilter().fil...更多XSS HTMLFilter信息
  • HTML4J

    HTML4J 是一个 Java 解析 HTML 的类库。示例代码: Reader re = ... // Create the document HTMLDoc doc = new HTMLDoc(); // Load its content doc.load(re); // Get the HTML HTMLFragment html = doc.getHTML(); // ...更多HTML4J信息
  • HTML解析器 TagSoup

    TagSoup 是一个Java开发符合SAX的HTML解析器更多TagSoup信息
  • HTML解析器 JoyHTML

    JoyHTML的目的是解析HTML文本当中的链接和正文,利用超链接密度法为主要判断依据的标记窗算法,采用DOM树解析模式。JoyHTML更多JoyHTML信息
  • HTML解析器 VietSpider

    VietSpider HTMLParser 是一个纯 Java 的 HTML DOM 解析器,支持 HTML 4.0.1 。具有语法检查、自动关闭元素,可以处理一些匹配错误的元素,执行效率高。更多VietSpider信息
    • HTML生成库 renderSnake

    • RenderSnake 是一个轻量级的Java类库用来通过Java方法生产html页面,包含4个核心类库: HtmlCanvas , a class that has methods for all HTML 4.01 and HTML5 tags for opening and closing it HtmlAttributes, a class that has methods for all existin...更多renderSnake信息
    • 网页抽取工具 Krabber

      Krabber是kVitrail的网页抽取工具。 Krabber的设计目标是提供一个可以为Java应用调用的、可以执行网页上的JavaScript代码、并返回JavaScript代码执行后的网页的HTML代码的网页抽取工具。更多Krabber信息
    • Java的HTML解析库 gohtml

      gohtml 是一个很小的 Java 类库,用来解析 HTML 文档,目前尚未公开发布版本。更多gohtml信息

       

       

      http://www.7mdm.com/1176.html

分享到:
评论

相关推荐

    java开源包6

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源包10

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源包9

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源包8

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源包11

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源包4

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源包5

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源包101

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    JAVA上百实例源码以及开源项目

    笔者当初为了学习JAVA,收集了很多经典源码,源码难易程度分为初级、中级、高级等,详情看源码列表,需要的可以直接下载! 这些源码反映了那时那景笔者对未来的盲目,对代码的热情、执着,对IT的憧憬、向往!此时此...

    java开源包1

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源包3

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源包2

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源包7

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    JAVA上百实例源码以及开源项目源代码

     Java绘制图片火焰效果,源代码相关注释:前景和背景Image对象、Applet和绘制火焰的效果的Image对象、Applet和绘制火焰的效果的Graphics对象、火焰效果的线程、Applet的高度,图片到图片装载器、绘制火焰效果的X坐标...

    Java资源包01

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    Java版水果管理系统源码-GoodUtils:收集互联网上好用的工具和网站甚至框架

    Java版水果管理系统源码 收集互联网上好用的工具和网站甚至框架 一个 JS 的后端框架,设计很有意思,每个文件(HTML / JSX / JS)自动成为可访问的路径,不需要其他任何配置 一个可以从命令行上传文件的网站,文件...

    leetcode中国-tris:tris,意味着很多。如果标题没有正确的图标,我可以使用工具编写

    HTML、CSS、JavaScript、SQL、Python、PHP、Bootstrap、Java、XML 等的示例 其他特定工具 - “我可以使用吗”提供了最新的浏览器支持表,以支持桌面和移动 Web 浏览器上的前端 Web 技术。 - 一个 PostCSS 插件,它...

    asp.net知识库

    ASP.NET 2.0 中收集的小功能点 asp.net2.0中的webpart使用小记 2.0问题、错误解决办法 ASP.NET 2.0使用Web Part创建应用程序之二(共二) 体验 .net2.0 的优雅(2) -- ASP.net 主题和皮肤 NET2.0系列介绍(一).NET...

Global site tag (gtag.js) - Google Analytics