锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

达梦数据库基础优化分享

时间:2023-02-07 13:30:01 1208tj2连接器2431tj62连接器

一、查询优化基本思路:

从数据库的角度来看,一般有以下三个方面的性能问题:
操作系统、实例、SQL

1.1.操作系统:

top查看cpu利用率等信息:
在这里插入图片描述
iostat 查看IO使用情况:
device:磁盘名称
tps:每秒发送I/O请求数.
Blk_read/s:每秒读取的block数.
Blk_wrtn/s:每秒写入的block数.
Blk_read:读入的block总数.
Blk_wrtn:写入的block总数.
通常使用:iostat -d 2 3 、 iostat -m等


dstat查看更详细的IO使用情况:
dstat命令是替换的vmstat、iostat、netstat、nfsstat和ifstat这些命令工具是一种全方位的系统信息统计工具。默认情况下-cdngy参数:

free检查内存使用情况:

nmon查看一段时间的系统使用情况:在这里,将收集到的信息下载到本地excel表格分析:

注意:这里如果发现主机的CPU、IO、内存利用率高,说明数据库已经达到瓶颈,也可能是硬件本身存在问题。

1.2、数据库架构优化:

大梦数据库产品覆盖面广,产品性能相对可观,客户选择性更强。如果是高并发业务,建议使用读写分离集群,如果是海量数据分析业务,建议使用MPP集群产品。
对于参数dm.ini:
MEMORY_POOL
BUFFER_POOLS
BUFFER
MAX_BUFFER
RECYCLE
SORT_BUF_SIZE
CACHE_POOL_SIZE
DICT_BUF_SIZE
HJ_BUF_GLOBAL_SIZE
HJ_BUF_SIZE
HAGR_BUF_GLOBAL_SIZE
HAGR_BUF_SIZE
WORKER_THREADS
ENABLE_MONITOR
OLAP_FLAG
OPTIMIZER_MODE
等,参数调整涉及面广,慎用,建议修改前备份评估,以免对公司和个人产生不利影响。
会话监控:
–查询活动会话数

select count(*) from v$sessions where state='ACTIVE'; 

–已执行2秒以上的活动SQL

select * from ( SELECT sess_id,sql_text,datediff(ss,last_send_time,sysdate) Y_EXETIME,    SF_GET_SESSION_SQL(SESS_ID) fullsql,clnt_ip FROM V$SESSIONS WHERE STATE='ACTIVE') where Y_EXETIME>=2; 

查询

select o.name,l.* from v$lock l,sysobjects o where l.table_id=o.id and blocked=1; 

–阻塞查询

with locks as( select o.name,l.*,s.sess_id,s.sql_text,s.clnt_ip,s.last_send_time  from v$lock l,sysobjects o,v$sessions s where l.table_id=o.id and l.trx_id=s.trx_id ),  lock_tr as (   select trx_id wt_trxid,row_idx blk_trxid from locks where blocked=1), res as(    select sysdate stattime,t1.name,t1.sess_id wt_sessid,s.wt_trxid,  t2.sess_id blk_sessid,s.blk_trxid,t2.clnt_ip,SF_GET_SESSION_SQL(t1.sess_id) fulsql,  datediff(ss,t1.last_send_time,sysdate) ss,t1.sql_text wt_sql  from lock_tr s,locks t1,locks t2 where t1.ltype='OBJECT'  and t1.table_id<>0   and t2.ltype='OBJECT'  and t2.table_id<>0  and s.wt_trxid=t1.trx_id  and s.blk_trxid=t2.trx_id) select distinct wt_sql,clnt_ip,ss,wt_trxid,blk_trxid  from res; 

1.3、SQL优化:

–设置SQL过滤规则只记录必要的过滤规则SQL,不要设置生产环境1
–2 只记录DML语句
–3 只记录DDL语句
–22 记录绑定参数的句子
–25 记录SQL句子及其执行时间
–28 记录SQL语句绑定的参数信息
修改 sqllog.ini ASYNC_FLUSH= 2:3:22:25:28
CALL SP_REFRESH_SVR_LOG_CONFIG(); --调用此存储过程生效
同步日志将严重影响系统效率,生产环境必须设置为异步日志:
修改 sqllog.ini

ASYNC_FLUSH= 1      CALL SP_REFRESH_SVR_LOG_CONFIG();   

以下语句设置仅记录执行时间超过2000ms的语句
修改sqllog.ini

MIN_EXEC_TIME= 200  CALL SP_REFRESH_SVR_LOG_CONFIG();   存储过程有效 

以下句子检查设置是否有效

SELECT * FROM V$DM_INI where para_name='SVR_LOG_ASYNC_FLUSH'; SELECT * FROM V$DM_INI where para_name='SQL_TRACE_MASK'; SELECT * FROM V$DM_INI where para_name='SVR_LOG_MIN_EXEC_TIME'; 

开启SQL日志:

SP_SET_PARA_VALUE(1, 'SVR_LOG', 1); 

关闭SQL日志:

SP_SET_PARA_VALUE(1, 'SVR_LOG', 0); 

sqllog.ini 配置示例
[SLOG_ALL]
FILE_PATH = …\log
PART_STOR = 0
SWITCH_MODE = 2
SWITCH_LIMIT = 512
ASYNC_FLUSH = 1
FILE_NUM = 4
ITEMS = 0
SQL_TRACE_MASK = 2:3:22:25:28
MIN_EXEC_TIME = 100
USER_MODE = 0
SQL优化汇总:
并发高优先:
通过普通索引、聚集索引、覆盖索引等;
一般SQL其次处理:
单列索引、组合索引等;
并发少但偶尔慢的最终处理:
SQL执行分散节点,优化复杂逻辑SQL、结果集缓存;
改写SQL:
隐式转换、过滤条件、等价重写、分析函数替代等;
ET工具:DM数据库分析工具(MySQL:mysqldumpslow,psercona :pt-query-diagest其它分析工具等)
ENABLE_MONITOR=1
SP_SET_PARA_VALUE(1,‘MONITOR_SQL_EXEC’,1);
SP_SET_PARA_VALUE(1,‘MONITOR_TIME’,1);
注意:ENABLE_MONITOR 这个参数可以在mount状态下,动态修改
阻塞与死锁分析:
链接地址:https://blog.csdn.net/CSDNWangJ/article/details/125196113?spm=1001.2014.3001.5501

二、执行计划:

执行计划:一SQL语句在DM描述数据库中的执行过程或访问路径。
如何查看执行计划:
explain SQL;
查看管理工具;
执行计划包括哪些重要信息:

执行计划由上图中的1、2、3等多个计划节点组成
操作符包含在每个计划节点中(CSCN2)及其成本([0, 1711, 396])等信息
成本由三元组成[成本,记录行数,字节数]
代价的单位是毫秒,记录行数表示该计划节点输出的行数,字节数表示该计划节点输出的字节数
解释第三个计划节点:操作符是CSCN2即全表扫描,成本估算为0ms,扫描记录行数为1711行,输出字节数为396行

      

收集结果集:NSET:用于结果集收集的操作符,一般是查询计划的顶层节点:

EXPLAIN SELECT * FROM T1;
1   #NSET2: [1, 10000, 156] 
2     #PRJT2: [1, 10000, 156]; exp_num(5), is_atom(FALSE) 
3       #CSCN2: [1, 10000, 156]; INDEX33556710(T1)

2.1、执行计划中常用操作符解读:

投影:PRJT:关系的“投影”(project)运算,用于选择表达式项的计算;广泛用于查询,排序,函数索引创建等

EXPLAIN SELECT * FROM T1;
1   #NSET2: [1, 10000, 156] 
2     #PRJT2: [1, 10000, 156]; exp_num(5), is_atom(FALSE) 
3       #CSCN2: [1, 10000, 156]; INDEX33556710(T1)

选择:SLCT:关系的“选择” 运算,用于查询条件的过滤。

EXPLAIN SELECT * FROM T1 WHERE C2='TEST';
1   #NSET2: [1, 250, 156] 
2     #PRJT2: [1, 250, 156]; exp_num(5), is_atom(FALSE) 
3       #SLCT2: [1, 250, 156]; T1.C2 = TEST
4         #CSCN2: [1, 10000, 156]; INDEX33556717(T1)

简单聚集:AAGR:用于没有group by的count sum age max min等聚集函数的计算

EXPLAIN SELECT COUNT(*) FROM T1 WHERE C1 = 10;
1   #NSET2: [0, 1, 4] 
2     #PRJT2: [0, 1, 4]; exp_num(1), is_atom(FALSE) 
3       #AAGR2: [0, 1, 4]; grp_num(0), sfun_num(1)
4         #SSEK2: [0, 1, 4]; scan_type(ASC), IDX_C1_T1(T1), scan_range[10,10]

快速聚集:FAGR:用于没有过滤条件时从表或索引快速获取MAX/MIN/COUNT值;DM数据库是世界上单表不带过滤条件下取COUNT值最快的数据库。

EXPLAIN  SELECT COUNT(*) FROM T1;
1   #NSET2: [1, 1, 0] 
2     #PRJT2: [1, 1, 0]; exp_num(1), is_atom(FALSE) 
3       #FAGR2: [1, 1, 0]; sfun_num(1), 

EXPLAIN  SELECT MAX(C1) FROM T1;
1   #NSET2: [1, 1, 0] 
2     #PRJT2: [1, 1, 0]; exp_num(1), is_atom(FALSE) 
 #FAGR2: [1, 1, 0]; sfun_num(1), 

HASH分组聚集:HAGR:用于分组列没有索引只能走全表扫描的分组聚集,C2列没有创建索引

EXPLAIN SELECT COUNT(*) FROM T1 GROUP BY C2;
1   #NSET2: [1, 100, 48] 
2     #PRJT2: [1, 100, 48]; exp_num(1), is_atom(FALSE) 
3       #HAGR2: [1, 100, 48]; grp_num(1), sfun_num(1)
4         #CSCN2: [1, 10000, 48]; INDEX33556717(T1)

流分组聚集:SAGR:用于分组列是有序的情况下,可以使用流分组聚集,C1上已经创建了索引,SAGR2性能优于HAGR2

EXPLAIN SELECT COUNT(*) FROM T1 GROUP BY C1;
1   #NSET2: [1, 100, 4] 
2     #PRJT2: [1, 100, 4]; exp_num(1), is_atom(FALSE) 
3       #SAGR2: [1, 100, 4]; grp_num(1), sfun_num(1)
4         #SSCN: [1, 10000, 4]; IDX_C1_T1(T1)

二次扫描:BLKUP:先使用2级别索引定位,再根据表的主键、聚集索引、rowid等信息定位数据行。

EXPLAIN SELECT * FROM T1 WHERE C1=10;
1   #NSET2: [0, 1, 156] 
2     #PRJT2: [0, 1, 156]; exp_num(5), is_atom(FALSE) 
3       #BLKUP2: [0, 1, 156]; IDX_C1_T1(T1)
4         #SSEK2: [0, 1, 156]; scan_type(ASC), IDX_C1_T1(T1), scan_range[10,10]

全表扫描:CSCN:CSCN2是CLUSTER INDEX SCAN的缩写即通过聚集索引扫描全表,全表扫描是最简单的查询,如果没有选择谓词,或者没有索引可以利用,则系统一般只能做全表扫描。在一个高并发的系统中应尽量避免全表扫描

EXPLAIN SELECT * FROM T1;
1   #NSET2: [1, 10000, 156] 
2     #PRJT2: [1, 10000, 156]; exp_num(5), is_atom(FALSE) 
3       #CSCN2: [1, 10000, 156]; INDEX33556710(T1)

索引扫描:SSEK CSEK SSCN:SSEK2是二级索引扫描即先扫描索引,再通过主键、聚集索引、ROWID等信息去扫描表,CSEK2是聚集索引扫描只需要扫描索引,不需要扫描表 SSCN是索引全扫描,不需要扫描表。

EXPLAIN SELECT * FROM T1 WHERE C1=10;
1   #NSET2: [0, 1, 156] 
2     #PRJT2: [0, 1, 156]; exp_num(5), is_atom(FALSE) 
3       #BLKUP2: [0, 1, 156]; IDX_C1_T1(T1)
 #SSEK2: [0, 1, 156]; scan_type(ASC), IDX_C1_T1(T1), scan_range[10,10]

CREATE CLUSTER INDEX IDX_C1_T2  ON T2(C1);
EXPLAIN SELECT * FROM T2 WHERE C1=10;
1   #NSET2: [0, 250, 156] 
2     #PRJT2: [0, 250, 156]; exp_num(5), is_atom(FALSE) 
#CSEK2: [0, 250, 156]; scan_type(ASC), IDX_C1_T2(T2), scan_range[10,10]

CREATE  INDEX IDX_C1_C2_T1  ON T1(C1,C2);
EXPLAIN SELECT C1,C2 FROM T1;
1   #NSET2: [1, 10000, 60] 
2     #PRJT2: [1, 10000, 60]; exp_num(3), is_atom(FALSE) 
3       #SSCN: [1, 10000, 60]; IDX_C1_C2_T1(T1)

2.2、嵌套循环连接:

NEST LOOP原理:
两层嵌套循环结构,有驱动表和被驱动表之分。
选定一张表作为驱动表,遍历驱动表中的每一行,根据连接条件去匹配第二张表中的行。驱动表的行数就是循环的次数,这个很大程度影响了执行效率。
需注意的问题:
选择小表作为驱动表。统计信息尽量准确,保证优化器选对驱动表。
大量的随机读。如果没有索引,随机读很致命,每次循环只能读一块,不能读多块。使用索引可以解决这个问题。
使用场景:
驱动表有很好的过滤条件
表连接条件能使用索引
结果集比较小
过滤列和连接列都没有索引,也可以走nest loop,但是该计划很差。右边的计划代价很大。

select /*+use_nl(t1,t2)*/* 
from t1 inner join t2 
 on t1.c1=t2.c1
where t1.c2='A';


优化:创建索引并搜集统计信息

create index idx_t1_c2 on t1(c2);
create index idx_t2_c1 on t2(c1);
dbms_stats.gather_index_stats(user,'IDX_T1_C2');
dbms_stats.gather_index_stats(user,'IDX_T2_C1'); 

2.3、HASH JOIN:

HASH JOIN的特点:
一般没索引或用不上索引时会使用该连接方式
选择小的表(或row source)做hash表
只适用等值连接中的情形
原理:
使用较小的Row source 作为Hash table和Bitmap. 而第二个row source被hashed,根据bitmap与第一个row source生成的hash table 相匹配,bitmap查找的速度极快。
Hash连接比较消耗内存,如果系统有很多这种连接时,需调整以下3个参数:

 HJ_BUF_GLOBAL_SIZE
HJ_BUF_SIZE
 HJ_BLK_SIZE

连接列没有索引

select * from t1 inner join t2 
 on t1.c1=t2.c1
where t1.c2='A';


不是等值连接,此时计划走nest loop

select *  from t1 inner join t2 
on t1.c1 > t2.c1
where t1.c2='A';

2.4、归并排序连接:

MERGE SORT的特点:
无驱动表之分,随机读很少
两个表都需要按照连接列排序,需要消耗大量的cpu和额外的内存
应用场景:
通常情况下,merge sort join需要消耗大量的cpu和内存,效率都不会太高。如果存在相关索引可以消除sort,那么CBO可能会考虑该连接方式。

select /*+use_merge(t1 t2)*/
 t1.c1,t2.c1 
from t1 inner join t2 on t1.c1=t2.c1
where t2.c2='b';

–创建如下索引,消除sort

create index idx_t1_c1c2 on t1(c1,c2);
create index idx_t2_c1 on t2(c1);

2.5、查询转换:

什么是查询转换:
查询转换是优化器自动做的,在生成执行计划之前,等价改写查询语句的形式,以便提升效率和产生更好的执行计划。它决定是否重写用户的查询,常见的转换有谓词传递、视图拆分、谓词推进、关联/非关联子查询改写等。
了解优化器查询转换的特性,会帮助我们更好的看懂执行计划,也会对我们优化sql起到指导的作用。优化器的查询转换有很多限制条件,我们可以根据类似的原理举一反三,进行手工的sql改写,从到得到更好的执行计划。
谓词传递:

--原始sql
select * from t1 inner join t2
 on t1.c2=t2.c2
where t1.c1=100 
and t2.c1=t1.c1

–CBO转换后,等价于下面的sql

select * from t1 inner join t2
  on t1.c2=t2.c2
where t1.c1=100 
and t2.c1=t1.c1
and t2.c1=100 –-谓词传递

视图拆分:
观察原始sql的执行计划,发现视图部分的子计划已经没有了。说明优化器进行等价改写,将视图的查询拆散了,和其他部分作为一个整体来生成计划。视图拆分有很多限制,如果视图查询中含有distinc、union、group by等操作,优化器就无法进行视图拆分。
Sql中使用过多的视图,会使sql变得复杂,优化器也难以生成最佳的执行计划,不能过度依赖优化器进行视图拆分。开发时应尽量减少视图的使用。

--视图定义
create or replace view v_t1 as 
select t1.c1+t2.c1 as c11,
   t2.c2,t1.c1 
from t1,t2
where t1.c2=t2.c2;

--原始sql
select a.c11,b.c2
from v_t1 a,t1 b
where a.c1=b.c1
and a.c1=100;
--原始sql,子查询x相当于一个内联视图
select * from 
(select c1,c2 from t1 where c2='C') x
where c1=100;

观察右边的执行计划,由于C2字段无索引,子查询X部分本应该走全表扫描,但是计划中却走了C1字段的索引。说明优化器对原始sql做了如下的等价改写,将条件c1=100推到子查询X中:
–查询转换

select * from 
(select c1,c2 from t1 where c2='C'  and c1=100) x;

三、DM8统计信息和索引详情:

3.1、统计信息:

两种统计方式:
**频率直方图:**适用于取值范围比较少的列,例如有些字段的取值范围非常有限,比如人类的年龄,一般不可能超过120, 因此无论表中有多少记录,年龄字段的唯一值个数都不会超过120, 我们可以采样部分记录,统计出每个年龄(0-120)的记录数,可以使用120个(V, count)二元组作为元素的数组,来表示这个频率直方图。
**等高直方图:**频率直方图虽然精确,但是它只能处理取值 范围较小的情况,如果字段的取值范围很大,那么就不可能为每一个值统计出它的出现次数,这个时候我们需要等高直方图。等高直方图是针对一个数据集合不同值 个数很多的情况,把数据集合划分为若干个记录数相同或相近的不同区间,并记录区间的不同值个数。每个区间的记录数比较接近,这就是所谓等高的含义。

--构造测试环境
CREATE TABLE TEST_TJ(ID INT,AGE INT);
BEGIN    FOR I IN 1..100000 LOOP
              INSERT INTO TEST_TJ VALUES(MOD(I,9700),TRUNC(RAND * 120));
           END LOOP;
           COMMIT;
END;

–创建系统包

SP_CREATE_SYSTEM_PACKAGES(1); 

–更新单列统计信息

DBMS_STATS.GATHER_TABLE_STATS(USER, 'TEST_TJ',null,100,false, 'FOR ALL COLUMNS SIZE AUTO'); --更新所有列
SP_COL_STAT_INIT_EX(USER,'TEST_TJ','ID',100); --更新单列

–查看统计信息:频率直方图

 DBMS_STATS.COLUMN_STATS_SHOW(USER, 'TEST_TJ','AGE');
--1.类型:频率直方图
--2.ENDPOINT_VALUE样本值: 1
--3.ENDPOINT_HEIGHT 样本值的个数:819
SELECT COUNT(*) FROM TEST_TJ WHERE AGE=1; --819


–查看统计信息:等高直方图
DBMS_STATS.COLUMN_STATS_SHOW(USER, ‘TEST_TJ’,‘ID’);
–解读统计信息
–1.类型:等高直方图
–2.ENDPOINT_VALUE样本值: 30
–3.ENDPOINT_HEIGHT小于样本值大于前一个样本值的个数:329
SELECT COUNT() FROM TEST_TJ WHERE ID<30; --329
–4.ENDPOINT_KEYGHT样本值的个数:11
SELECT COUNT(
) FROM TEST_TJ WHERE ID=30; --11
–5.ENDPOINT_DISTINCT小于样本值大于前一个样本值之间不同样本的个数: 30
SELECT COUNT(DISTINCT ID) FROM TEST_TJ WHERE ID<30; --30

3.2、索引存储结构:

最常见的索引结构为Btree索引,下图是一个B树索引存储结构图。
B*树相关概念:

  • 根节点

  • 内节点

  • 叶子节点

  • 树高度h
    聚集索引:

  • 叶子节点存储的是数据块
    非聚集索引:

  • 叶子节点存储的是主键值或聚集索引的值或rowid

    从B树中访问每个叶子节点的成本都是h次IO,索引的访问效率只跟B树的高度有关系。

      创建表 插入100万条数据
      CREATE TABLE TEST_INDEX(ID INT,AGE INT);
      BEGIN
       	FOR I IN 1..1000000 LOOP
        INSERT INTO TEST_INDEX VALUES(MOD(I,9700),TRUNC(RAND * 120));
    END LOOP;
    COMMIT;
      END;
    

–创建索引
CREATE INDEX IDX_ID_TEST_INDEX ON TEST_INDEX(ID);
–更新索引统计信息
SP_INDEX_STAT_INIT(USER,‘IDX_ID_TEST_INDEX’);
–查看索引相关信息

SELECT B.NAME,A.T_TOTAL,    --表总行数
   A.BLEVEL+1 HEIGHT,   --索引高度
   A.N_LEAF_USED_PAGES, --叶子节点数
   INDEX_USED_PAGES(B.ID)-
   A.N_LEAF_USED_PAGES-1 BRANCH_PAGES –内节点数
FROM SYSSTATS A,SYSOBJECTS B
WHERE  A.ID=B.ID
AND B.NAME IN('IDX_ID_TEST_INDEX');

在什么情况下使用B*树索引?
仅当要通过索引访问表中很少的一部分行(1%~20%)
索引用于访问表中的行(只占一个很小的百分比)
如果要处理表中的多行,而且可以使用索引而不用表
索引用于回答一个查询:索引提供了足够的信息来回答整个查询,不需要去访问表
索引可以作为一个“较瘦”版本的表
原则1:根据索引查询只返回很少一部分行
原则2:索引作为一个较瘦版本的表
组合索引列的顺序:
最优先把等值匹配的列放最前面,范围匹配的放后面
其次把过滤性好的列放前面,过滤性差的放后面
查询时组合索引只能利用一个非等值字段
不走索引的情况:
条件列不是索引的首列
条件列上有函数或计算
存在隐式类型转换
如果走索引会更慢
没有更新统计信息
注意:索引能提高查询性能,也能拖慢DML的效率。
更多达梦技术分享尽在:https://eco.dameng.com/

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章