sql并行度

发布时间: 2022-12-21 05:58:36

A. sql server 2008最大并行度0什么意思

表示由几个CPU并行运算，MAXDOP=0 可以说表示由系统自动调配

MAXDOP的值不能超过CPU数，你可以用

sp_configure设置，也可以在查询语句上用with option(MAXDOP=1)指定

数据服务器的设置值也可以用ssms查看

B. SQL调用服务器核心数(oracle 多线程)

select /*+parallel(t,25)+*/

一、Parallel

1．用途

强行启用并行度来执行当前SQL。这个在Oracle 9i之后的版本可以使用，之前的版本现在没有环境进行测试。也就是说，加上这个说明，可以强行启用Oracle的多线程处理功能。举例的话，就像电脑装了多核的CPU，但大多情况下都不会完全多核同时启用（2核以上的比较明显），使用parallel说明，就会多核同时工作，来提高效率。

但本身启动这个功能，也是要消耗资源与性能的。所有，一般都会在返回记录数大于100万时使用，效果也会比较明显。

2．语法

/*+parallel(table_short_name,cash_number)*/

这个可以加到insert、delete、update、select的后面来使用（和rule的用法差不多，有机会再分享rule的用法）

开启parallel功能的语句是：

alter session enable parallel dml;

这个语句是DML语句哦，如果在程序中用，用execute的方法打开。

3．实例说明

用ERP中的transaction来说明下吧。这个table记录了所有的transaction，而且每天数据量也算相对比较大的（根据企业自身业务量而定）。假设我们现在要查看对比去年一年当中每月的进、销情况，所以，一般都会写成：

select to_char(transaction_date,'yyyymm') txn_month,

sum(

decode(

sign(transaction_quantity),1,transaction_quantity,0

)

) in_qty,

sum(

decode(

sign(transaction_quantity),-1,transaction_quantity,0

)

) out_qty

from mtl_material_transactions mmt

where transaction_date >= add_months(

to_date(

to_char(sysdate,'yyyy')||'0101','yyyymmdd'),

-12)

and transaction_date <= add_months(

to_date(

to_char(sysdate,'yyyy')||'1231','yyyymmdd'),

-12)

group by to_char(transaction_date,'yyyymm')

这个SQL执行起来，如果transaction_date上面有加index的话，效率还算过的去；但如果没有加index的话，估计就会半个小时内都执行不出来。这是就可以在select 后面加上parallel说明。例如：

select /*+parallel(mmt,10)*/

to_char(transaction_date,'yyyymm') txn_month,

...

这样的话，会大大提高执行效率。如果要将检索出来的结果insert到另一个表tmp_count_tab的话，也可以写成：

insert /*+parallel(t,10)*/

into tmp_count_tab

(

txn_month,

in_qty,

out_qty

)

select /*+parallel(mmt,10)*/

to_char(transaction_date,'yyyymm') txn_month,

...

插入的机制和检索机制差不多，所以，在insert后面加parallel也会加速的。关于insert机制，这里暂不说了。

Parallel后面的数字，越大，执行效率越高。不过，貌似跟server的配置还有oracle的配置有关，增大到一定值，效果就不明显了。所以，一般用8,10,12,16的比较常见。我试过用30，发现和16的效果一样。不过，数值越大，占用的资源也会相对增大的。如果是在一些package、function or procere中写的话，还是不要写那么大，免得占用太多资源被DBA开K。

4． Parallel也可以用于多表

多表的话，就是在第一后面，加入其他的就可以了。具体写法如下：

/*+parallel(t,10) (b,10)*/

5．小结

关于执行效率，建议还是多按照index的方法来提高效果。Oracle有自带的explan road的方法，在执行之前，先看下执行计划路线，对写好的SQL tuned之后再执行。实在没办法了，再用parallel方法。Parallel比较邪恶，对开发者而言，不是好东西，会养成不好习惯，导致很多bad SQL不会暴漏，SQL Tuning的能力得不到提升。我有见过某些人create table后，从不create index或primary key，认为写SQL时加parallel就可以了。

C. oracle设置表的并行度是什么意思

查看dba_tables数据字典时，可以发现有“DEGREE”字段，这个字段表示的就是数据表的并行度。这个参数的设置，关系着数据库的I/O，以及sql的执行效率。

并行度的优点就是能够最大限度的利用机器的多个cpu资源，是多个cpu同时工作，从而达到提高数据库工作效率的目的。在系统空闲时间，使用并行是个不错的选择，但是好东西总是相对而言，没有绝对的好坏，不当的使用，同样会引起数据库的新的问题产生。
1、此参数的大小设置
orcl@ SCOTT> select table_name,degree from user_tables;

TABLE_NAME DEGREE
------------------------------ --------------------
T1 1
TAB_REGISTER 1
EMP 1
EMP_BAK 1
SALGRADE 1
BONUS 1
DEPT 1
LETTER_USER 1
T2 1
BASE_LOG 1
T 1
通过上例的例子大家可以观察，此参数的默认值为1，这个数值，我们认为的增加，当设置表的并行度非常高的时候，sql优化器将可能对表进行全表扫描，引起 Direct Path Read 等待。
在使用并行查询前需要慎重考虑，因为并行查询尽管能提高程序的响应时间，但是会
消耗比较多的资源。对于低配置的数据库服务器需要慎重。此外，需要确认并行度的设置要与 IO 系统的配置相符（建议并行度为 2~4 * CPU 数）。
2、并行度的修改
alter table t parallel(degree 1);------直接指定表的并行度
alter table t parallel; ----------设置表的并行度为default
3、如何在sql语句中使用表的并行度，并选择合适的并行等级
示例：使用并行查询的执行计划
并行度为4
orcl@ SCOTT> SELECT /*+ PARALLEL(4) */
2 MAX(sal),
3 AVG(comm)
4 FROM emp,dept
5 WHERE emp.deptno=dept.deptno
6 GROUP BY 1

D. sql中怎样修改表的名字

1、首先在电脑中打开SQL Developer，右击要操作的数据库，选择【连接】，如下图所示。

E. 2019-03-05 SparkSQL集群性能调优 CheatSheet

0.买高性能机器，增加节点

1.设置磁盘文件预读值大小为16384，使用linux命令：

echo 16384 > /sys/block/{磁盘名}/queue/read_ahead_kb

2. Spark 任务序列化只支持JavaSerializer，数据序列化支持JavaSerializer和 KryoSerializer 。KryoSerializer能达到JavaSerializer的十倍。

3.在spark.driver.extraJavaOptions和spark.executor.extraJavaOptions配置项中添加参数：" -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps "，如果频繁出现Full GC，需要优化GC。把RDD做Cache操作，通过日志查看RDD在内存中的大小，如果数据太大，需要改变RDD的存储级别来优化。

4.一般并行度设置为集群CPU总和的2-3倍

5.大表和小表做join操作时可以把小表Broadcast到各个节点，从而就可以把join操作转变成普通的操作，减少了shuffle操作。

6. 合理设计DAG，减少shuffle //TODO

7.使用 mapPartitions 可以更灵活地操作数据，例如对一个很大的数据求TopN，当N不是很大时，可以先使用mapPartitions对每个partition求TopN，collect结果到本地之后再做排序取TopN。这样相比直接对全量数据做排序取TopN效率要高很多。

8.当之前的操作有很多filter时，使用 coalesce 减少空运行的任务数量

9.当任务数过大时候Shuffle压力太大导致程序挂住不动，或者出现linux资源受限的问题。此时需要对数据重新进行分区，使用 repartition 。

10.配置多个磁盘给 localDir ，shuffle时写入数据速度增快

11. 别collect大数据量，数据会回到driver端，容易OOM。非要collect，请配置 spark.sql.bigdata.thriftServer.useHdfsCollect 为true，会存在hdfs再读

12.尽量用receByKey，会在Map端做本地聚合

13. broadcase set/map而不是Iterator, set/map 查询效率O(1) ，iteratorO(n)

14. 数据发生倾斜,repartition大法，查出key，salt it

15.使用Hash Shuffle时，通过设置 spark.shuffle.consolidateFiles 为true，来合并shuffle中间文件，减少shuffle文件的数量，减少文件IO操作以提升性能

16.Spark SQL 小表join，把小表broadcast出去。配置 spark.sql.autoBroadcastJoinThreshold 和 spark.sql.bigdata.useExecutorBroadcast 。小表在join 右端。

17.SparkSQL数据倾斜，配置 spark.sql.planner.skewJoin 和 spark.sql.planner.skewJoin.threshold

18. SparkSQL 小文件，配置 spark.sql.small.file.combine 和 spark.sql.small.file.split.size

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：645

制作脚本网站发布：2025-10-20 08:17:34 浏览：936

python中的init方法发布：2025-10-20 08:17:33 浏览：632

图案密码什么意思发布：2025-10-20 08:16:56 浏览：821

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：731

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1066

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：299

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：160

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：850

python股票数据获取发布：2025-10-20 07:39:44 浏览：763

sql并行度

与sql并行度相关的资讯