• DOM解析XML


    一、DOM方式的解析原理

    DOM模式解析XML,是把整个XML文档当成一个对象来处理,会先把整个文档读入到内存里。是基于树的结构,通常需要加载整文档和构造DOM树,然后才能开始工作。

    二、优缺点及适用情况

    优点:a、由于整棵树在内存中,因此可以对xml文档随机访问b、可以对xml文档进行修改操作c、较sax,dom使用也更简单。

    缺点:a、整个文档必须一次性解析完a、由于整个文档都需要载入内存,对于大文档成本高

    三、注意的问题

    四、其他

    五、程序源代码和XML源文档

    1、源代码

      1 import java.io.File;  
      2 import java.io.IOException;  
      3   
      4 import javax.xml.parsers.DocumentBuilder;  
      5 import javax.xml.parsers.DocumentBuilderFactory;  
      6 import javax.xml.parsers.ParserConfigurationException;  
      7   
      8 import org.w3c.dom.Document;  
      9 import org.w3c.dom.Element;  
     10 import org.w3c.dom.NamedNodeMap;  
     11 import org.w3c.dom.Node;  
     12 import org.w3c.dom.NodeList;  
     13 import org.xml.sax.SAXException;  
     14   
     15 public class DoXmlWithDOM {  
     16   
     17     public static void main(String[] args) {  
     18         File file = new File("F:/demo.xml");  
     19         (new DoXmlWithDOM()).readXML(file);  
     20     }  
     21   
     22     /* 
     23      * 读取XML(文档对象-根元素节点-所有的Element类型节点-Text类型节点的内容) ; 
     24      * 获取文档对象:DocumentBuilderFactory → DocumentBuilder → Document 
     25      */  
     26     public void readXML(File file) {  
     27         // ❶Ⅰ获得DocumentBuilderFactory  
     28         DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();  
     29         try {  
     30             // ❷Ⅱ获得DocumentBuilder  
     31             DocumentBuilder builder = factory.newDocumentBuilder();  
     32             // ❸Ⅲ--获得文档对象--  
     33             Document doc = builder.parse(file);  
     34             // ❹Ⅳ获得根元素  
     35             Element element = doc.getDocumentElement();  
     36             // ❺Ⅴ用方法遍历递归打印根元素下面所有的ElementNode(包括属性,TextNode非空的值),用空格分层次显示.  
     37             listAllChildNodes(element, 0);// 参数0表示设定根节点层次为0,它的前面不打印空格.  
     38         } catch (ParserConfigurationException e) {  
     39             e.printStackTrace();  
     40         } catch (SAXException e) {  
     41             e.printStackTrace();  
     42         } catch (IOException e) {  
     43             e.printStackTrace();  
     44         }  
     45     }  
     46   
     47     /* 
     48      * 递归遍历并打印所有的ElementNode(包括节点的属性和文本节点的有效内容),按一般的xml样式展示出来(空格来表示层次) 
     49      */  
     50     public void listAllChildNodes(Node node, int level) {  
     51         // 只处理ElementNode类型的节点,感觉这种类型的节点(还有有效的文本节点)才是真正有用的数据,其他注释节点,空白节点等都用不上.  
     52         if (node.getNodeType() == Node.ELEMENT_NODE) {  
     53             boolean hasTextChild = false;// 变量表示该节点的第一个子节点是否就是一个有有效内容的文本节点)  
     54             // Ⅰ❶【打印 - 空格】空格的长度 - level(n级ElementNode有n个长度的空格在前面)  
     55             String levelSpace = "";  
     56             for (int i = 0; i < level; i++) {  
     57                 levelSpace += "    ";  
     58             }  
     59             // Ⅱ❷【打印 - 开始标签】先打印ElementNode的开始标签(有属性的话也要打印)  
     60             System.out.print(levelSpace + "<" + node.getNodeName()  
     61                     + (node.hasAttributes() ? " " : ">"));// 有属性的话节点的开始标签后面的尖括号">"就留待属性打印完再打印  
     62             // Ⅲ❸【打印 - 属性】遍历打印节点的所有属性  
     63             if (node.hasAttributes()) {  
     64                 NamedNodeMap nnmap = node.getAttributes();  
     65                 for (int i = 0; i < nnmap.getLength(); i++) {  
     66                     System.out.print(nnmap.item(i).getNodeName()  
     67                             + "=""// 字符串里含双引号要用到转义字符  
     68                             + nnmap.item(i).getNodeValue() + """  
     69                             + (i == (nnmap.getLength() - 1) ? "" : " "));// 不是最后一个属性的话属性之间要留空隙  
     70                 }  
     71                 System.out.print(">");// 开始标签里的属性全部打印完加上尖括号">"  
     72             }  
     73             // Ⅳ❹【打印 - 子节点】该ElementNode包含子节点时候的处理  
     74             if (node.hasChildNodes()) {  
     75                 level++;// 有下一级子节点,层次加1,新的层次表示的是这个子节点的层次(递归调用时传给了它)  
     76                 // 获得所有的子节点列表  
     77                 NodeList nodelist = node.getChildNodes();  
     78                 // 循环遍历取到所有的子节点  
     79                 for (int i = 0; i < nodelist.getLength(); i++) {  
     80                     // Ⅳ❹❶【有效文本子节点】子节点为TextNode类型,并且包含的文本内容有效  
     81                     if (nodelist.item(i).getNodeType() == Node.TEXT_NODE  
     82                             && (!nodelist.item(i).getTextContent()  
     83                                     .matches("\s+"))) {// 用正则选取内容包含非空格的有效字符的文本节点  
     84                         hasTextChild = true;// 该ElementNode的一级子节点是存在有效字符的文本节点  
     85                         System.out.print(nodelist.item(i).getTextContent());// 在开始标签后面添加文本内容  
     86                         // Ⅳ❹❷【ElementNode子节点】子节点是正常的ElementNode的处理  
     87                     } else if (nodelist.item(i).getNodeType() == Node.ELEMENT_NODE) {  
     88                         System.out.println();  
     89                         // 递归调用方法 - 以遍历该节点下面所有的子节点  
     90                         listAllChildNodes(nodelist.item(i), level);// level表示该节点处于第几个层次(相应空格)  
     91                     }  
     92                 }  
     93                 level--;// 遍历完所有的子节点,层次变量随子节点的层数,依次递减,回归到该节点本身的层次  
     94                 // level++ 和 level--对于该节点的子节点影响的是子节点的初值  
     95             }  
     96             // Ⅴ❺【打印 - 结束标签】打印元素的结束标签.如果它的第一个一级子节点是有效文本的话,文本和结束标签添加到开始标签后面,  
     97             // 层次什么的就作废用不上了,否则,才按层次打印结束标签.  
     98             System.out.print(((hasTextChild) ? "" : "
    " + levelSpace) + "</"  
     99                     + node.getNodeName() + ">");  
    100         }  
    101     }  
    102   
    103 }

    2、xml文档

     1 <?xml version="1.0" encoding="UTF-8"?>  
     2   
     3 <employees bb="bbbbb" yy="yyyyy">  
     4       
     5     <!--An XML Note -->  
     6       
     7     <?target text?>  
     8       
     9     <employee id="11" name="xiaowang">  
    10           
    11         <sex>man</sex>  
    12           
    13         <age>25</age>  
    14       
    15     </employee>  
    16       
    17     <employee id="12" name="liyi">  
    18           
    19         <sex>woman</sex>  
    20           
    21         <age>45</age>  
    22       
    23     </employee>  
    24   
    25 </employees>

    六、解析效果图

  • 相关阅读:
    生产者—消费者模型
    使用wait/notify/notifyAll实现线程间通信的几点重要说明
    死锁
    python基础:协程详解
    python爬虫:multipart/form-data格式的POST实体封装与提交
    python爬虫:Multipart/form-data POST文件上传详解
    python爬虫:http请求头部(header)详解
    python爬虫:登录百度账户,并上传文件到百度云盘
    python爬虫:urlparse模块拆分url
    转:python爬虫:html标签(图文详解二)
  • 原文地址:https://www.cnblogs.com/liuyangv/p/7997824.html
Copyright © 2020-2023  润新知