大数据量下并行查询可以显著提升查询性能,通过巧妙的使用Cypher并搭配存储过程,可以实现很多实用的查询。
[A=[A1,A2,A3,…,An],B=[B1,B2,B3,…,Bm],A和B是两个节点集合。需要查询A中的每个元素分别和B中每个元素是否有一度关系,并返回有关系的实体对。并行一度关系查询问题
这个查询实现了寻找A中的每个元素分别和B中每个元素是否有一度关系的需求,实现了基本的功能。查询执行时是顺序执行,无法并行。
在查询的上半段定义了集合a和b,使用笛卡儿积的方式组合两个列表的元素传入下半段查询,即apoc.cypher.run
的部分。在apoc.cypher.run
中实现了判断两节点是否有一度关系的查询,当没有关系时查询不会下推执行。在RETURN
部分返回关系的开始与结束节点。
WITH ['Lilly Wachowski','Carrie-Anne Moss','Laurence Fishburne'] AS a, ['Taylor Hackford','Al Pacino','Charlize Theron'] AS b UNWIND a AS ale UNWIND b AS ble WITH ale,ble CALL apoc.cypher.run( 'MATCH (a:Person)-[r]-(b:Person) WHERE a.name={ale} AND b.name={ble} RETURN r LIMIT 1', {ale:ale,ble:ble} ) YIELD value WITH value.r AS r RETURN STARTNODE(r) AS sNode,ENDNODE(r) AS eNode
在
二
查询的基础上,使用apoc.cypher.parallel2
并行方式优化。默认情况下,最大并行数为CPU内核数 x 100。例如,如果数据库被分配了4个内核,那么并行的最多进程数为400。通过该语句批量查询时性能至少会有50%以上的提升。
CALL apoc.cypher.parallel2( 'WITH $a AS a,$b AS b UNWIND a AS ale UNWIND b AS ble WITH ale,ble CALL apoc.cypher.run( \'MATCH (a:Person)-[r]-()-[*..3]-(b:Person) WHERE a.name={ale} AND b.name={ble} RETURN r LIMIT 1\', {ale:ale,ble:ble} ) YIELD value WITH value.r AS r RETURN STARTNODE(r) AS sNode,ENDNODE(r) AS eNode ', {a:['Lilly Wachowski','Carrie-Anne Moss','Laurence Fishburne'],b:['Taylor Hackford','Al Pacino','Charlize Theron']}, 'a' )