2023年7月10日 18:08:14go评论66阅读模式

英文:

CTS Range Query vs SPARQL Query Performance

问题

我可以看到“CTS范围查询 vs SPARQL查询”所花时间的差异。

CTS范围查询 - 获取结果花费了0.8毫秒，必须创建字段索引以使字段查询正常工作。

cts:field-values(&quot;productid&quot;, (), (), cts:and-query(
              (
                cts:field-value-query(&quot;countryCode&quot;, &quot;us&quot;, (&quot;unstemmed&quot;,&quot;case-insensitive&quot;,
                 &quot;whitespace-insensitive&quot;,&quot;punctuation-insensitive&quot;,
                 &quot;diacritic-insensitive&quot;)),
                cts:field-value-query(&quot;status&quot;, &quot;published&quot;,
                 (&quot;unstemmed&quot;,&quot;case-insensitive&quot;,&quot;whitespace-insensitive&quot;,
                 &quot;punctuation-insensitive&quot;,&quot;diacritic-insensitive&quot;))
              )
          ))

SPARQL查询 - 获取结果花费了18毫秒，必须创建TDE以使SPARQL查询正常工作。

## 查询
SELECT ?productid
FROM &lt;product&gt;
WHERE {
  ?productid &lt;status&gt; &lt;Published&gt;;
             &lt;countryCode&gt; &lt;US&gt;.
}

产品的TDE-

&lt;?xml version=&quot;1.0&quot; encoding=&quot;UTF-8&quot;?&gt;
&lt;template xmlns=&quot;http://marklogic.com/xdmp/tde&quot;&gt;
	&lt;context&gt;product&lt;/context&gt;
	&lt;enabled&gt;true&lt;/enabled&gt;
	&lt;collections&gt;
		&lt;collection&gt;product&lt;/collection&gt;
	&lt;/collections&gt;
	&lt;triples&gt;
		&lt;triple&gt;
			&lt;subject&gt;
				&lt;val&gt;sem:iri(productid)&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/subject&gt;
			&lt;predicate&gt;
				&lt;val&gt;sem:iri(xs:string(&quot;languageCode&quot;))&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/predicate&gt;
			&lt;object&gt;
				&lt;val&gt;sem:iri(languageCode)&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/object&gt;
		&lt;/triple&gt;
        ...
        （此处省略了其他三元组）
	&lt;/triples&gt;
&lt;/template&gt;

请帮助我理解为什么这两种类型的查询之间存在速度/性能差异？
任何帮助都将不胜感激。

英文:

I can see the difference in time taken by CTS Range vs SPARQL Query.

CTS Range Query - took 0.8ms to get the result, required field indexes are created to make filed query work.

cts:field-values(&quot;productid&quot;, (), (), cts:and-query(
              (
                cts:field-value-query(&quot;countryCode&quot;, &quot;us&quot;, (&quot;unstemmed&quot;,&quot;case-insensitive&quot;, &quot;whitespace-insensitive&quot;, &quot;punctuation-insensitive&quot;, &quot;diacritic-insensitive&quot;)),
                cts:field-value-query(&quot;status&quot;, &quot;published&quot;, (&quot;unstemmed&quot;,&quot;case-insensitive&quot;, &quot;whitespace-insensitive&quot;, &quot;punctuation-insensitive&quot;, &quot;diacritic-insensitive&quot;))
              )
          ))

SPARQL Query - took 18ms to get the result, TDE is created to make SPARQL query work.

## query
SELECT ?productid
FROM &lt;product&gt;
WHERE {
  ?productid &lt;status&gt; &lt;Published&gt;;
             &lt;countryCode&gt; &lt;US&gt;.
}

TDE for product-

&lt;?xml version=&quot;1.0&quot; encoding=&quot;UTF-8&quot;?&gt;
&lt;template xmlns=&quot;http://marklogic.com/xdmp/tde&quot;&gt;
	&lt;context&gt;product&lt;/context&gt;
	&lt;enabled&gt;true&lt;/enabled&gt;
	&lt;collections&gt;
		&lt;collection&gt;product&lt;/collection&gt;
	&lt;/collections&gt;
	&lt;triples&gt;
		&lt;triple&gt;
			&lt;subject&gt;
				&lt;val&gt;sem:iri(productid)&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/subject&gt;
			&lt;predicate&gt;
				&lt;val&gt;sem:iri(xs:string(&quot;languageCode&quot;))&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/predicate&gt;
			&lt;object&gt;
				&lt;val&gt;sem:iri(languageCode)&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/object&gt;
		&lt;/triple&gt;
		&lt;triple&gt;
			&lt;subject&gt;
				&lt;val&gt;sem:iri(productid)&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/subject&gt;
			&lt;predicate&gt;
				&lt;val&gt;sem:iri(xs:string(&quot;countryCode&quot;))&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/predicate&gt;
			&lt;object&gt;
				&lt;val&gt;sem:iri(fn:normalize-space(xs:string(countryCode)))&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/object&gt;
		&lt;/triple&gt;
		&lt;triple&gt;
			&lt;subject&gt;
				&lt;val&gt;sem:iri(productid)&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/subject&gt;
			&lt;predicate&gt;
				&lt;val&gt;sem:iri(xs:string(&quot;status&quot;))&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/predicate&gt;
			&lt;object&gt;
				&lt;val&gt;sem:iri(fn:normalize-space(xs:string(status)))&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/object&gt;
		&lt;/triple&gt;
		&lt;triple&gt;
			&lt;subject&gt;
				&lt;val&gt;sem:iri(productid)&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/subject&gt;
			&lt;predicate&gt;
				&lt;val&gt;sem:iri(xs:string(&quot;created&quot;))&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/predicate&gt;
			&lt;object&gt;
				&lt;val&gt;sem:iri(audit/created)&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/object&gt;
		&lt;/triple&gt;
		&lt;triple&gt;
			&lt;subject&gt;
				&lt;val&gt;sem:iri(productid)&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/subject&gt;
			&lt;predicate&gt;
				&lt;val&gt;sem:iri(xs:string(&quot;createdBy&quot;))&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/predicate&gt;
			&lt;object&gt;
				&lt;val&gt;sem:iri(audit/createdBy)&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/object&gt;
		&lt;/triple&gt;
		&lt;triple&gt;
			&lt;subject&gt;
				&lt;val&gt;sem:iri(productid)&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/subject&gt;
			&lt;predicate&gt;
				&lt;val&gt;sem:iri(xs:string(&quot;updated&quot;))&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/predicate&gt;
			&lt;object&gt;
				&lt;val&gt;sem:iri(audit/updated)&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/object&gt;
		&lt;/triple&gt;
		&lt;triple&gt;
			&lt;subject&gt;
				&lt;val&gt;sem:iri(productid)&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/subject&gt;
			&lt;predicate&gt;
				&lt;val&gt;sem:iri(xs:string(&quot;updatedBy&quot;))&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/predicate&gt;
			&lt;object&gt;
				&lt;val&gt;sem:iri(audit/updatedBy)&lt;/val&gt;
				&lt;invalid-values&gt;ignore&lt;/invalid-values&gt;
			&lt;/object&gt;
		&lt;/triple&gt;
	&lt;/triples&gt;
&lt;/template&gt;

Please help me to undestand, why there is speed/perofmance difference between these two types of queries ?

Any help is appreciated.

答案1

得分: 3

以下是翻译好的部分：

基于范围索引的查询：
在这个示例中，您正在使用预定义的范围索引。这些索引是内存映射的。每个值还包括指向该值所对应文档片段的指针（文档片段ID是基于整数的词典）。此第一个查询通过两个范围查询限定了片段的范围，然后从范围索引中返回值（范围索引已经是一个唯一的词典）。

在这种情况下，可以将其视为（CountryCode=US ∩ Status=Published）片段ID的内存内交集。然后交集这些ID到productId的内存索引中。

一切都在内存中，不需要去重。以固定、预配置的索引和专用内存为代价。

SPARQL查询：
在这种情况下，您现在正在遍历数据图。查询解析完全不同，可能会根据数据和缓存机制发生去重，内存需求也不同。

范围索引没有移动部件。然而，SPARQL查询有更多可以进行调整的项目。

各种设置在这里解释：https://docs.marklogic.com/guide/semantics/indexes

另外，如果您在查询控制台的SPARQL选项卡中进行测试，则您依赖于与选项相关的选择。优化器和其他选项可以在这里查看：https://docs.marklogic.com/sem:sparql

英文:

There are many factors related to this. Including infrastructure and tuning of various indexes and caches. I will not attempt to qualify the difference in speed directly, but instead help You understand the major differences in the two approaches You show.

Under the hood, the two approaches are different implementations.

Range Index based query:
In that example, you are using pre-defined range indexes. These are memory mapped. Each value also includes a pointer to the the document fragments for which the value (and the fragment ID is an integer-based lexicon). This first query limits the fragments in scope via your two range queries and then returns the values from the range index(already a unique lexicon as well).

In this case, One can think of it as an in-memory intersection of the fragment IDs of (CountryCode=US ∩ Status=Published). Then an intersection of those ids to the in-memory index of productId

All in memory, no deduplication needed. At a cost of rigid, pre-configured indexes and dedicated memory.

SPARQL Query:
In this case, you are now traversing a graph of data. The query resolution is completely different, there may be deduplication happening depending on your data and the caching mechanism and memory needs are different.

Range Indexes have no moving parts. However, SPARQL queries have more items that can be tuned.

Various settings are explained here: https://docs.marklogic.com/guide/semantics/indexes

Also, if you are testing this in the SPARQL tab in Query console, then you are relying on choices being made for you related to options. Optimizer and other options could be looked at here: https://docs.marklogic.com/sem:sparql

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

CTS Range Query vs SPARQL Query Performance

问题

答案1

获取共享特殊值的最常见的配对。

How to update RDF graph by instantiating the variables existing in triples with values?

重构多个 cts:element-value-query 但是 SQL 请求结果

通过Wikidata的SPARQL查询获取婚姻地点

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

发表评论