度量快速开发平台-专业、快速的软件定制快开平台

标题: Oracle 随机数,随机抽取,按比率抽取 [打印本页]

作者: 陈晓龙    时间: 2020-7-3 20:49
标题: Oracle 随机数,随机抽取,按比率抽取

工作中有遇到这样的要求:

------1、随机提取每个县市区各3000个号码作为样本,全市10个县市区共30000个号码。
------2、样本号码提取尽量离散。

以前没有做过类似的数据抽取,网上找来一些资料,整理总结如下:


A)随机函数—dbms_random

a)基础

关于这些函数及DBMS_RANDOM包的文件都包含在SQLPlus中:

[sql] view plain copy
print?



也可以查看包体:

[sql] view plain copy
print?



源码说明一切(10g的):

[sql] view plain copy
print?




b)例子:

[sql] view plain copy
print?



默认取0.0-1.0的数

[sql] view plain copy
print?



取整数

[sql] view plain copy
print?



取某个范围内的整数


c)进阶

缺省DBMS_RANDOM.VALUE返回0到1之间的随机数

NORMAL函数返回服从正态分布的一组数。此正态分布标准偏差为1,期望值为0。这个函数返回的数值中有68%是介于-1与+1之间,95%介于-2与+2之间,99%介于-3与+3之间。
STRING函数。它返回一个长度达60个字符的随机字符串。


B)用DBMS_RANDOM生成文本和日期值
数字、文本字符串和日期都是用户会在表格里碰到的三种常见数据类型。虽然你可以用PL/SQL程序包里的DBMS_RANDOM随机生成数字——它确实能够做到这一点——它还能够随机生成文本和日期值。

a)产生随机数字
就让我们先从数字开始。VALUE函数会返回一个大于等于0但是小于1的数,精度是38位。

[sql] view plain copy
print?



对于指定范围内的整数,要加入参数low_value和high_value,并从结果中截取小数(最大值不能被作为可能的值)。所以对于0到99之间的整数,你要使用下面的代码:

[sql] view plain copy
print?



b)产生随机文本字符串
要随机生成文本字符串,就要使用STRING函数并编写代码指定字符串的类型和所希望的长度:

[sql] view plain copy
print?



类型代码在《Oracle Database 10g PL/SQL程序包和类型参考(Oracle Database 10g PL/SQL Packages and Types Reference)》有说明。
下面是一些类型的代码:
‘U’用来生成大写字符
‘L’用来生成小写字符
‘A’用来生成大小写混合的字符

c)产生随机日期
Oracle将日期作为过去某个关键日期(如果你好奇的话,我可以告诉你这个日期是公元前4712年1月1日)的整数偏移量来保存。这就意味着你可以通过寻找与你希望的起始日期相对应的整数,然后向它加入一个随机的整数来随机生成一个指定范围内的日期。
使用TO_CHAR函数和‘J’格式代码,你可以为今天的日期生成一个内部日期数:

[sql] view plain copy
print?



例如,要生成一个2003年内的任意日期,你可以首先确定2003年1月1日的日期整数;

[sql] view plain copy
print?



系统给的结果是2452641。所以要生成该年度内的任意日期,我们就要用带有low_value等于2452641和high_value等于2452641+364参数的DBMS_RANDOM.VALUE,再把它转换成日期:

[sql] view plain copy
print?




C)Oracle取随机数据
1、Oracle访问数据的基本方法:

1)、全表扫描(Full table Scan):执行全表扫描,Oracle读表中的所有记录,考查每一行是否满足WHERE条件。Oracle顺序的读分配给该表的每一个数据块,且每个数据块Oracle只读一次.这样全表扫描能够受益于多块读.
  
2)、采样表扫描(sample table scan):扫描返回表中随机采样数据,这种访问方式需要在FROM语句中包含SAMPLE选项或者SAMPLE BLOCK选项.
  
注:从Oracle8i开始Oracle提供采样表扫描特性

  
2、使用sample获得随机结果集
2.1、语法: SAMPLE [ BLOCK ](sample_percent)[ SEED (seed_value) ]  
SAMPLE选项:表示按行采样来执行一个全表扫描,Oracle从表中读取特定百分比的记录,并判断是否满足WHERE子句以返回结果。
BLOCK: 表示使用随机块例举而不是随机行例举。
sample_percent:是随机获取一张表中记录的百分比。比如值为10,那就是表中的随机的百分之10的记录。
               值必须大于等于.000001,小于100。
SEED:表示从哪条记录返回,类似于预先设定例举结果,因而每次返回的结果都是固定的。该值必须介于0和4294967295之间。
2.2、举例说明
   创建测试临时表:   

[sql] view plain copy
print?




1)、sample(sample_percent):  

[sql] view plain copy
print?




2)、sample block(sample_percent)     

[sql] view plain copy
print?




3)、sample block(sample_percent) seed(seed_value)   

[sql] view plain copy
print?



注意以下几点:

1.sample只对单表生效,不能用于表连接和远程表
2.sample会使SQL自动使用CBO  


3、使用DBMS_RANDOM包
  DBMS_RANDOM有两种主要的使用方法分别是:DBMS_RANDOM.VALUE()和DBMS_RANDOM.RANDOM


3.1、取随机数

[sql] view plain copy
print?






[sql] view plain copy
print?






3.2、举例说明

[sql] view plain copy
print?



[sql] view plain copy
print?





[sql] view plain copy
print?




4、使用内部函数sys_guid()  

[sql] view plain copy
print?



注: 在使用sys_guid() 这种方法时,有时会获取到相同的记录,即和前一次查询的结果集是一样的,查找相关资料,有些说是和操作系统有关,在windows平台下正常,获取到的数据是随机的,而在linux等平台下始终是相同不变的数据集,有些说是因为sys_guid()函数本身的问题,即sys_guid()会在查询上生成一个16字节的全局唯一标识符,这个标识符在绝大部分平台上由一个宿主标识符和进程或进程的线程标识符组成,这就是说,它很可能是随机的,但是并不表示一定是百分之百的这样。
      
       所以,为确保在不同的平台每次读取的数据都是随机的,我们大多采用使用sample函数或者DBMS_RANDOM包获得随机结果集,其中使用sample函数更常用,因为其查询时缩小了查询范围,在查询大表,且要提取数据不是很不多的情况下,会对查询速度上有明显的提高。



D)其他数据库随机取出n条记录:

1、SqlServer中随机提取数据库记录

select top n * from 表 order by newid()

--------------------------------------------------------------------------------
select top 10 * from tablename order by NEWID()   
select top 10 * from tablename order by NEWID()

2、MySQL中随机提取数据库记录

Select * From 表 order By rand() Limit n

-------------------------------------------------------------------------------
select * from tablename order by rand() limit 10
select * from tablename order by rand() limit 10

3、Access中随机提取数据库记录

Select top n * FROM 表 orDER BY Rnd(id)

-------------------------------------------------------------------------------
SELECT top 10 * FROM tablename ORDER BY Rnd(FId)   
SELECT top 10 * FROM tablename ORDER BY Rnd(FId)
FId:为你当前表的ID字段名


*************************************************end*************************************************



作者: 万望    时间: 2020-7-4 22:16
看晕了
作者: 万望    时间: 2020-7-4 22:19

作者: 陈晓龙    时间: 2020-7-5 17:40
万望 发表于 2016-9-4 22:19


作者: 陈晓龙    时间: 2020-7-5 17:41
万望 发表于 2016-9-4 22:16
看晕了






欢迎光临 度量快速开发平台-专业、快速的软件定制快开平台 (http://bbs.delit.cn/) Powered by Discuz! X3.2