大家好,我是小寒
今天给大家介绍统计学中的一个关键概念,抽样
抽样是一种从总体中选取部分个体(样本)以获得关于总体的信息的方法。
由于在大多数情况下直接研究整个总体的每一个个体并不实际,因此抽样为我们提供了在不完全观测总体的情况下推断总体特征的手段。
抽样的理论和技术被广泛用于统计学、社会科学、市场调查和其他需要分析数据的领域。
抽样的关键概念
- 总体(Population)总体是我们感兴趣的所有个体的集合。例如,在一个调查中,总体可能是一个国家的所有公民。
- 样本(Sample)样本是从总体中选取的个体集合。通过研究样本,可以推断总体的特征。
- 抽样误差(Sampling Error)由于样本仅代表总体的一部分,因此样本统计量(如样本均值)与总体参数(如总体均值)之间可能存在差异。这种差异被称为抽样误差。
- 代表性样本代表性样本是可以充分反映总体特征的样本,确保样本与总体之间的差异最小。
常见的抽样方法
简单随机抽样
简单随机抽样是一种最基本的抽样方法。
在这种方法中,每个个体都有相等的机会被选中,样本的选择是完全随机的。
复制
import pandas as pd import numpy as np # 创建一个样本数据集 np.random.seed(1) data = pd.DataFrame({ 'ID': range(1, 101), 'Age': np.random.randint(18, 65, 100), 'Gender': np.random.choice(['Male', 'Female'], 100), 'Region': np.random.choice(['North', 'South', 'East', 'West'], 100) }) print("数据集示例:\n", data.head()) # 简单随机抽样,从数据集中随机抽取 20 个样本 sample_simple_random = data.sample(n=20, random_state=1) print("简单随机抽样结果:\n", sample_simple_random)
分层抽样
分层抽样是将总体按某些特征划分成若干层(即“分层”),然后在每一层内独立地进行随机抽样。
该方法适用于总体异质性较大,但在层内相对同质的情况。
图片
优点,能确保每一层都有代表,适合于人口组成复杂的情况,能够提高样本代表性和统计效率。
缺点,要求对总体进行分层,分层的选择可能会影响结果。
复制
# 分层抽样,按“Gender”列分层,每层中抽取20%的样本 stratified_sample = data.groupby('Gender', group_keys=False).apply(lambda x: x.sample(frac=0.2, random_state=1)) print("分层抽样结果:\n", stratified_sample)
集群抽样
集群抽样是将总体划分为若干个群体(“集群”),然后随机选取一些集群,再对选中的集群内的个体进行全面或抽样。
常见于地理分布广泛、总体较大且难以获取总体列表的情况。
图片
优点,实施成本低,适合于大规模分布式总体。
缺点,如果集群间差异较大,样本可能缺乏代表性,从而影响精确性。
复制
# 集群抽样,按“Region”列分成集群,随机选取2个集群 selected_clusters = data['Region'].sample(n=2, random_state=1).values cluster_sample = data[data['Region'].isin(selected_clusters)] print("集群抽样结果:\n", cluster_sample)
系统抽样
系统抽样是在总体列表中按照某一固定间隔(例如每隔 k 个个体)抽取样本。
常用于生产线上的质量检测和大规模数据的快速抽样。
优点,易于执行,节省时间和成本,尤其适用于大规模顺序数据。
缺点,如果总体中的个体有周期性分布,可能会导致样本的系统性偏差。
复制
# 系统抽样:按每5个选取一个样本 interval = 5 systematic_sample = data.iloc[::interval, :] print("系统抽样结果:\n", systematic_sample)
便利抽样
便利抽样是基于可方便获得的样本进行抽样,往往用于初步探索性研究。
优点,成本低、快速、便于实施,适合于资源有限或时间紧迫的情况。
缺点,容易产生偏差,样本代表性较差,难以推论到总体。
复制
# 便利抽样:直接选取数据集的前15行(假设前15行是方便采集的样本) convenience_sample = data.head(15) print("便利抽样结果:\n", convenience_sample)