网站首页  汉语字词  英语词汇  考试资料  写作素材  旧版资料

请输入您要查询的考试资料:

 

标题 oracle并行操作之并行查询实例解析
内容
    这篇文章主要介绍了oracle并行操作的并行查询技术,需要的朋友可以参考下。
    oracle数据库的并行操作特性,其本质上就是强行榨取除数据库服务器空闲资源(主要是cpu资源),对一些高负荷大数据量数据进行分治处理。并行操作是一种非确定性的优化策略,在选择的时候需要小心对待。目前,使用并行操作特性的主要有下面几个方面:
    parallel query:并行查询,使用多个操作系统级别的server process来同时完成一个sql查询;
    parallel dml:并行dml操作。类似于parallel query。当要对大数据量表进行dml操作,如insert、update和delete的时候,可以考虑使用;
    parallel ddl:并行ddl操作。如进行大容量数据表构建、索引rebuild等操作;
    parallel recovery,并行恢复。当数据库实例崩溃重新启动,或者进行存储介质恢复的时候,可以启动并行恢复技术。从而达到减少恢复时间的目的;
    procedural parallel,过程代码并行化。对我们编写的代码片段、存储过程或者函数,可以实现执行的并行化,从而加快执行效率;
    1、并行查询parallel query
    oracle数据库的并行查询是比较基础的技术,也是olap和oracle data warehouse经常使用的一种并行技术。同本系列前面一直强调的要素相同,在确定使用并行技术之前,要确定软硬件的一些先决条件:
    任务task必要条件。备选进行并行操作的任务task必须是一个大任务作业,比如,长时间的查询。任务时间通常可以以分钟、小时进行计数。只有这样的任务和需要,才值得让我们冒险使用并行操作方案;
    资源闲置条件。只有在数据库服务器资源存在闲置的时候,才可以考虑进行并行处理。如果经常性的繁忙,贸然使用并行只能加剧资源的争用。
    并行操作最大的风险在于并行争用引起的效率不升反降。所以,要在确定两个前提之后,再进行并行规划处理。
    2、环境准备
    首先,准备实验环境。由于笔者使用的一般家用pc虚拟机,所以并行度和存储量不能反映真实条件需求,见谅。
    sql> select * from v$version where rownum<2;
    banner
    --------------------------------------------------------------------------------
    oracle database 11g enterprise edition release 11.2.0.1.0 - production
    sql> select count(*) from t;
    count(*)
    ----------
    1160704
    选择11gr2服务器环境,数据表t总数据量超过一百万。
    首先,我们观察一下不使用并行的执行情况。
    //提取出使用游标信息;
    sql> select sql_text, sql_id, version_count from v$sqlarea where sql_text like 'select count(*) from t%';
    sql_text            sql_id    version_count
    ------------------------------ ------------- -------------
    select count(*) from t     2jkn7rpsbj64t       2
    sql> select * from table(dbms_xplan.display_cursor('2jkn7rpsbj64t',format => 'advanced', cursor_child_no => 0));
    plan_table_output
    --------------------------------------------------------------------------------
    sql_id 2jkn7rpsbj64t, child number 0
    -------------------------------------
    select count(*) from t
    plan hash value: 2966233522
    -------------------------------------------------------------------
    | id | operation     | name | rows | cost (%cpu)| time   |
    -------------------------------------------------------------------
    |  0 | select statement  |   |    | 4464 (100)|     |
    |  1 | sort aggregate  |   |   1 |      |     |
    |  2 |  table access full| t  | 1160k| 4464  (1)| 00:00:54 |
    -------------------------------------------------------------------
    该执行计划中没有使用并行特性,进行全表扫描。执行时间为54s。
    3、并行查询计划
    首先,我们设置相应的并行度。设置并行度有两种方式,一种是使用hint加在特定的sql语句上。另一种是对大对象设置并行度属性。
    前者的优点是带有一定的强制性和针对性。就是指定特定的sql语句进行并行处理。这样的优点是易于控制并行度,缺点是带有很强的强制力,当数据量偏小的时候,使用并行优势不大。而且如果是显示指定并行度,又会带来移植伸缩性差的缺点。
    后者通过对象的属性指定并行度。就将并行作为一种执行手段,提供给优化器进行选择。这样,cbo会根据系统中资源的情况和数据的实际,进行执行计划生成。计划中可能是并行,也可能不是并行。这样的优点是将并行与否交予优化器cbo去判断,缺点是并行的滥用风险。
    此处,笔者设置自动确定并行度的方式。
    sql> alter table t parallel;
    table altered
    sql> select count(*) from t;
     count(*)
    ----------
    1160704
    当启动查询时,oracle中的并行伺候进程池会根据系统中的负荷和实际因素,确定分配出的并行进程数量。此时,我们可以通过视图v$px_process来查看进程池中的连接信息。
    sql> select * from v$px_process;
    server_name status      pid spid       sid  serial#
    ----------- --------- ---------- ------------------------ ---------- ----------
    p000    available     25 5776               
    p001    available     26 5778
    注意,并行伺候进程是一种特殊的server process,本质上是一种可共享的slave进程。专用连接模式下,一般的server process与client process是“同生共死”的关系,终身服务于一个client process。而伺候slave进程是通过进程池进行管理的,一旦启动初始化,就会在一定时间内驻留在系统中,等待下次并行处理到来。
    此时,我们检查v$process视图,也可以找到对应的信息。
    sql> select * from v$process;
    pid spid     pname username      serial# program   
    -------- ---------- ------------------------ ----- --------------- ---------- -------------------------------
    25 5776      p000 oracle         13 oracle@oracle11g (p000)  
    26 5778      p001 oracle          6 oracle@oracle11g (p001)  
    (篇幅由于原因,予以省略……)
    32 rows selected
    对应的os中,也存在相应的真实进程伺候。
    [oracle@oracle11g ~]$ ps -ef | grep oracle
    (篇幅由于原因,予以省略……)
    oracle  5700   1 0 17:29 ?    00:00:02 oraclewilson (local=no)
    oracle  5723   1 0 17:33 ?    00:00:00 ora_smco_wilson
    oracle  5764   1 2 17:40 ?    00:00:05 oraclewilson (local=no)
    oracle  5774   1 0 17:42 ?    00:00:00 oraclewilson (local=no)
    oracle  5776   1 0 17:43 ?    00:00:00 ora_p000_wilson
    oracle  5778   1 0 17:43 ?    00:00:00 ora_p001_wilson
    oracle  5820   1 1 17:44 ?    00:00:00 ora_w000_wilson
    由于此时查询已经结束,对应的并行会话信息,已经消失不可见。
    sql> select * from v$px_session;
    saddr      sid  serial#   qcsid qcserial#
    -------- ---------- ---------- ---------- ----------
    但是,如果任务的时间长,是可以捕获到对应信息的。
    从上面的情况看,我们执行一个并行操作时,oracle会从伺候进程池中获取到对应的并行进程,来进行操作。当操作完成后,伺候进程还会等待一定时间,之后回收。
    并行操作进程的资源消耗,通过v$px_sysstat视图查看。
    sql> col statistic for a30;
    sql> select * from v$px_process_sysstat;
    statistic              value
    ------------------------------ ----------
    servers in use             0
    servers available            0
    servers started             2
    servers shutdown            2
    servers highwater            2
    servers cleaned up           0
    server sessions             6
    memory chunks allocated         4
    memory chunks freed           0
    memory chunks current          4
    memory chunks hwm            4
    buffers allocated           30
    buffers freed             30
    buffers current             0
    buffers hwm               8
    15 rows selected
    下面,我们检查一下执行计划信息。
    sql> set pagesize 10000;
    sql> select * from table(dbms_xplan.display_cursor('2jkn7rpsbj64t',format => 'advanced',cursor_child
    _no => 1));
    plan_table_output
    ----------------------------------------------------------------------------------------------------
    sql_id 2jkn7rpsbj64t, child number 1
    -------------------------------------
    select count(*) from t
    plan hash value: 3126468333
    ----------------------------------------------------------------------------------------------------
    | id | operation       | name   | rows | cost (%cpu)| time   |  tq |in-out| pq distrib
    ----------------------------------------------------------------------------------------------------
    |  0 | select statement    |     |    | 2478 (100)|     |    |   |     
    |  1 | sort aggregate    |     |   1 |      |     |    |   |     
    |  2 |  px coordinator    |     |    |      |     |    |   |     
    |  3 |  px send qc (random) | :tq10000 |   1 |      |     | q1,00 | p->s | qc (rand)
    |  4 |   sort aggregate   |     |   1 |      |     | q1,00 | pcwp |     
    |  5 |   px block iterator |     | 1160k| 2478  (1)| 00:00:30 | q1,00 | pcwc |     
    |* 6 |    table access full| t    | 1160k| 2478  (1)| 00:00:30 | q1,00 | pcwp |     
    ----------------------------------------------------------------------------------------------------
    predicate information (identified by operation id):
    ---------------------------------------------------
    6 - access(:z>=:z and :z<=:z)
    从执行计划的条件(6 - access(:z>=:z and :z<=:z))中,我们可以看到任务分配,之后分别进行全表扫描。最后排序计算count,合并结果的过程。
    4、结论
    oracle parallel query是经常使用到的一种并行操作技术。相对于ddl、dml等类型操作,并行查询更可以作为系统功能的一个步骤来进行。
    进行并行查询最大的风险就是并行滥用和失控的出现。这也是oracle一直致力解决的问题。在oracle11gr2中,引入了parallel statement queuing(psq)技术特性。通常,只要并行伺候池允许,oracle会引入尽可能多的并行进程进行操作。psq技术的出现,就是从资源角度加入了并行控制。
    当系统繁忙的时候,psq会将一些要进行的并行操作进入等待状态,防止并行环境的恶化。当环境好转之后,等待队列中的并行语句就进入执行状态。这个特性就可以有效的防止并行滥用的出现。
随便看

 

在线学习网考试资料包含高考、自考、专升本考试、人事考试、公务员考试、大学生村官考试、特岗教师招聘考试、事业单位招聘考试、企业人才招聘、银行招聘、教师招聘、农村信用社招聘、各类资格证书考试等各类考试资料。

 

Copyright © 2002-2024 cuapp.net All Rights Reserved
更新时间:2025/5/18 4:01:36