2020年9月20日 06:09:27go评论165阅读模式

英文:

Java Stax how to get only value of specific child nodes

问题

我使用Stax来获取我的XML文件（大小为90MB）中的nodeName和nodeValue：

&lt;?xml version=&quot;1.0&quot; encoding=&quot;UTF-8&quot;?&gt;
&lt;name1&gt;
    &lt;type&gt;
        &lt;coord&gt;67&lt;/coord&gt;
        &lt;umc&gt;57657&lt;/umc&gt;
    &lt;/type&gt;
    &lt;lang&gt;
        &lt;eng&gt;989&lt;/eng&gt;
        &lt;spa&gt;123&lt;/spa&gt;
    &lt;/lang&gt;
&lt;/name1&gt;
&lt;name2&gt;
    &lt;type&gt;
        &lt;coord&gt;534&lt;/coord&gt;
        &lt;umc&gt;654654&lt;/umc&gt;
    &lt;/type&gt;
    &lt;lang&gt;
        &lt;eng&gt;354&lt;/eng&gt;
        &lt;spa&gt;2424&lt;/spa&gt;
    &lt;/lang&gt;
&lt;/name2&gt;
&lt;name3&gt;
    &lt;type&gt;
        &lt;coord&gt;23432&lt;/coord&gt;
        &lt;umc&gt;14324&lt;/umc&gt;
    &lt;/type&gt;
    &lt;lang&gt;
        &lt;eng&gt;141&lt;/eng&gt;
        &lt;spa&gt;142&lt;/spa&gt;
    &lt;/lang&gt;
&lt;/name3&gt;

我可以获取localName，但不能获取子节点的内容...如果我想获取所有不是'spa'的子节点的值，我该如何处理？

Java代码：

XMLStreamReader dataXML = factory.createXMLStreamReader(new FileReader(path));
while (dataXML.hasNext())
{
    int type = dataXML.next();
    switch(type)
    {
        case XMLStreamReader.START_ELEMENT:
             System.out.println(dataXML.getLocalName());
             break;

        case XMLStreamReader.CHARACTERS:
             System.out.println(dataXML.getText());
             break;
     }
}

英文:

I use Stax for get nodeName and nodeValue of my xml file (size 90 MB) :

&lt;?xml version=&quot;1.0&quot; encoding=&quot;UTF-8&quot;?&gt;
&lt;name1&gt;
    &lt;type&gt;
        &lt;coord&gt;67&lt;/coord&gt;
        &lt;umc&gt;57657&lt;/umc&gt;
    &lt;/type&gt;
    &lt;lang&gt;
        &lt;eng&gt;989&lt;/eng&gt;
        &lt;spa&gt;123&lt;/spa&gt;
    &lt;/lang&gt;
&lt;/name1&gt;
&lt;name2&gt;
    &lt;type&gt;
        &lt;coord&gt;534&lt;/coord&gt;
        &lt;umc&gt;654654&lt;/umc&gt;
    &lt;/type&gt;
    &lt;lang&gt;
        &lt;eng&gt;354&lt;/eng&gt;
        &lt;spa&gt;2424&lt;/spa&gt;
    &lt;/lang&gt;
&lt;/name2&gt;
&lt;name3&gt;
    &lt;type&gt;
        &lt;coord&gt;23432&lt;/coord&gt;
        &lt;umc&gt;14324&lt;/umc&gt;
    &lt;/type&gt;
    &lt;lang&gt;
        &lt;eng&gt;141&lt;/eng&gt;
        &lt;spa&gt;142&lt;/spa&gt;
    &lt;/lang&gt;
&lt;/name3&gt;

I can get localName but not child nodes... if I want to get the value for all child nodes different of 'spa' how can I process to get that ?

Java:

XMLStreamReader dataXML = factory.createXMLStreamReader(new FileReader(path));
while (dataXML.hasNext())
{
    int type = dataXML.next();
    switch(type)
    {
        case XMLStreamReader.START_ELEMENT:
             System.out.println(dataXML.getLocalName());
             break;

        case XMLStreamReader.CHARACTERS:
             System.out.println(dataXML.getText());
             break;
     }
}

答案1

得分: 0

你使用 StAX 解析。这意味着您从解析器中提取事件。StAX 解析对于文档的详细结构没有任何信息。

请查看DOM、SAX 或 StAX 之间的差异和Java StAX 解析器。

如果您想获得 XML 元素的子元素，您需要自行跟踪。

如果您真的希望以便捷的方式访问子元素 - 使用 DOM 解析策略。但正如您提到的，您的文档大小约为 90MB，这可能会导致完全加载文档变得非常繁重。

英文:

You use StAX parsing. It means You pull events from a parser. StAX parsing doesn't have any information about detail structure of Your document.
Please check Differences between DOM, SAX or StAX and Java StAX parser

If You want to get children of Your XML element, You need to track it by Yourself.

If You really want children being accessed in a convenient way - use DOM parsing strategy. But as You've mentioned, Your document is ~90MB what may be really heavy to load it fully.

答案2

得分: 0

为了跟踪被解析的元素，需要引入一个变量来保存当前标签名，以及一个保存感兴趣的标签名的变量：

String localname = null;
String tagName = "spa";

while (dataXML.hasNext()) {
    int type = dataXML.next();
    switch (type) {

        case XMLStreamReader.SPACE:
            continue;

        case XMLStreamReader.START_ELEMENT:
            localname = dataXML.getLocalName();
            System.out.println(dataXML.getLocalName());
            break;

        case XMLStreamReader.CHARACTERS:
            if (!tagName.equals(localname)) {
                System.out.println(dataXML.getText());
            }
            break;
    }
}

如果有多个要处理的标签，变量tagName可以替换为列表：

List<String> tagNames = new ArrayList<>();
tagNames.add("spa");

检查部分将如下所示：

if (!tagNames.contains(localname)) {
    System.out.println(dataXML.getText());
}

英文:

To keep track of element being parsed it's needed to introduce variable holding the current tag name as well as the variable with the tag name(s) of interest:

   String localname = null;
   String tagName = &quot;spa&quot;;

    while (dataXML.hasNext()) {
        int type = dataXML.next();
        switch (type) {

            case XMLStreamReader.SPACE:
                continue;

            case XMLStreamReader.START_ELEMENT:
                localname = dataXML.getLocalName();
                System.out.println(dataXML.getLocalName());
                break;

            case XMLStreamReader.CHARACTERS:
                if (!tagName.equals(localname)) {
                    System.out.println(dataXML.getText());
                }
                break;
        }
    }

In case there are several tags you want to handle, variable tagName could be replaced with a list:

List&lt;String&gt; tagNames = new ArrayList&lt;&gt;();
tagNames.add(&quot;spa&quot;);

And the check would be following:

if (!tagNames.contains(localname)) {
    System.out.println(dataXML.getText());
}

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

Java Stax如何获取特定子节点的值

问题

答案1

答案2

Java ASM字节码操作无法成功注入代码到方法中

在进行测试时，显示在Gradle中无法访问<classname>。

How to solve "Waiting until last debugger command completes" stuck in Android Studio?

FullCalendar在GWT中：如何刷新日历并保留事件

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

发表评论