饭桶精英: DOM和SAX比较和选择

Sunday, January 11, 2009

DOM和SAX比较和选择

更多精彩请到 http://www.139ya.com

转自: DOM和SAX比较和选择
当解析一个XML时我们有很多选择方案，如SAX、DOM、JDOM、JAXP、数据绑定等等，必须根据实际情况来选择一个或几个。在此仅谈论SAX和DOM，可以从以上四点考虑，选择合适的解析器。

1. SAX提供的模型不允许对XML文件随机存取
如：当前解析到第3个Element，此时程序无法得到第5个Element的信息，因为还没有解析到第5个Element；同样也无法得到第1个 Element的信息，因为已经丢失了。当然可以通过声明变量保存解析过的数据，但这如同手动在内存中构造了某种数据结构，一般都是树型结构，这相当麻烦且没有必要，因为DOM恰恰提供了这样一个内存中的模型。

2.SAX模型中元素之间的横向移动困难
SAX提供的是层次型的解析，便利所有第1个Element的子节点（一直到叶子节点）后，才可能开始解析下一个兄弟Element。而且很难知道某一时刻，解析到了哪个层次节点了。DOM则可以很好的解决这个问题，可以方便的找到任何兄弟节点。

3.SAX是熊瞎子劈苞米
SAX是解析一个节点后回调一个方法，把该节点相关信息传送个调用者，然后丢弃这些信息，继续解析下一个节点。正是这样一个机制，使得SAX占用内存很少，它不会预存储整个XML文档，也不会在解析后保存任何解析结果。而DOM则正好相反，把整个XML加载进内存中，即使是延迟加载策略，也会浪费额外的性能为代价。所以当XML非常庞大的时候，还是需要首选SAX。

4.SAX的修改XML能力差
尽管SAX2.0提供了XMLWriter，但是大量的修改XML，还是不建议采用它来完成。XMLWriter更适合记录解析过程的日志。而DOM则具有强大的修改模型的能力，进而保存更新后的XML。

下面分别详细介绍DOM和SAX：

XML的DOM解析器
DOM（Document Object Model）是W3C指定的，它不是专门为Java或其他语言而制定的，所以有些地方不大符合Java的风格，如使用NodeList和NameNodeMap而没有使用Java的集合框架类。
DOM把XML在内存中生成一个树结构，了解其结构也就基本了解了DOM。基本结构的主要接口为：
Node <- Document
<- DocumentType
<- Element
<- Entity
<- CharacterData <- Comment
<- Text <- CDATA
所有接口都是扩展Node的，也就是说树中的任何东西都是Node，所以Node是很重要的接口。通过Node的getNodeType()和getNodeValue()分别可以得到节点的类型和节点的值。

节点类型有：
Node.DOCUMENT_NODE
Node.ELEMENT_NODE
Node.TEXT_NODE
Node.CDATA_SECTION_NODE
Node.PROCESSING_INSTRUCTION_NODE
Node.ENTITY_REFERENCE_NODE
Node.DOCUMENT_TYPE_NODE
可以通过以下方式判断
switch(node.getNodeType()){
case Node.Document_NODE:
//...
case Node.ELEMENT_NODE:
//...
}

开始解析：
URI xmlUri=new URI("xml file address");
DOMParser parser = new DOMParser();
parser.parse(xmlUri);
Document doc = parser.getDocument();
不同的解析器的构造方式不同，有的解析器会直接返回Document对象，如下：
Document doc = parser.parse(xmlUri);
Element rootElement = doc.getDocumentElement();
NodeList childrenNodes=rootElement.getChildNodes();
依次类推就可以遍历所有节点，分别处理每个节点即可。值得注意的是文本也是一个节点Text，但是属性则不是一个节点，可以通过Elemenet.getAttributes()获得。其他的也没什么了，参考一下DOM的JavaDoc就OK了。

------值得注意的细节------
1.性能与内存
DOM解析器会把所有的XML文档全部加载到内存中，如果XML文件非常庞大，那么这样的解析器会耗尽内存，导致内存益处异常；当前，很多解析器已经采用了延迟加载设计模式（类似于Hibernate的lazy策略），即只有当具体用刀某个节点数据的时候再去加载该节点，不用的就不加载，这种策略节省了内存的浪费，但是对性能有一定影响。这是有得必有失，需要根据实际情况而定采用什么策略。

2.Node的属性
因为所有节点都是继承Node的，所以任何节点都可以调用getNodeType(),getNodeValue(),getNodeName()之类的方法，但是并不是这些方法对任何节点都有效，比如说对于Element来说，getNodeValue()就无效，因为Element下的文本是Text 类表示的，而不是一个String。

3.SAXException
当使用DOM解析器时，如果出现了SAXException，不用惊讶。

XML的SAX解析器
SAX解析器是通过回调的方式来执行XML的解析工作的。对于基本的解析操作还是比较简单的，就是实现SAX2.0定义的四个核心接口，并注册进解析器即可。具体的操作都在四个接口中的回调方法中。所谓回调，我理解它与.Net中的事件类似。

饭桶精英

Sunday, January 11, 2009

DOM和SAX比较和选择

No comments:

Soyez bienvenu

Libellés

Archive de blog

Ma liste de blogs

Qui êtes-vous ?

饭桶精英

Sunday, January 11, 2009

DOM和SAX比较和选择

No comments:

Soyez bienvenu

S’abonner à

Libellés

Archive de blog

Ma liste de blogs

Qui êtes-vous ?