单选题 (共 4 题 ),每题只有一个选项正确
某学校为了解学生参加体育运动的情况,用比例分配的分层随机抽样方法作抽样调查,拟从初中部和高中部两层共抽取 60 名学生,已知该校初中部和高中部分别有 400 名和 200 名学生,则不同的抽样结果共有 .
$\text{A.}$ $\mathrm{C}_{400}^{45} \cdot \mathrm{C}_{200}^{15}$ 种
$\text{B.}$ $\mathrm{C}_{400}^{20} \cdot \mathrm{C}_{200}^{40}$ 种
$\text{C.}$ $\mathrm{C}_{400}^{30} \cdot \mathrm{C}_{200}^{30}$ 种
$\text{D.}$ $\mathrm{C}_{400}^{40} \cdot \mathrm{C}_{200}^{20}$ 种
在一组样本数据中, $1,2,3,4$ 出现的频率分别为 $p_1, p_2, p_3, p_4$ ,且 $\sum_{i=1}^4 p_i=1$ ,则下面四种情形中,对应样本的标准差最大的一组是
$\text{A.}$ $p_1=p_4=0.1, p_2=p_3=0.4$
$\text{B.}$ $p_1=p_4=0.4, p_2=p_3=0.1$
$\text{C.}$ $p_1=p_4=0.2, p_2=p_3=0.3$
$\text{D.}$ $p_1=p_4=0.3, p_2=p_3=0.2$
为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:

根据此频率分布直方图,下面结论中不正确的是
$\text{A.}$ 该地农户家庭年收入低于4.5万元的农户比率估计为6%
$\text{B.}$ 该地农户家庭年收入不低于10.5万元的农户比率估计为10%
$\text{C.}$ 估计该地农户家庭年收入的平均值不超过6.5万元
$\text{D.}$ 估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
有一组样本数据 $x_1, x_2, \cdots, x_6$ ,其中 $x_1$ 是最小值,$x_6$ 是最大值,则
$\text{A.}$ $x_2, x_3, x_4, x_5$ 的平均数等于 $x_1, x_2, \cdots, x_6$ 的平均数
$\text{B.}$ $x_2, x_3, x_4, x_5$ 的中位数等于 $x_1, x_2, \cdots, x_6$ 的中位数
$\text{C.}$ $x_2, x_3, x_4, x_5$ 的标准差不小于 $x_1, x_2, \cdots, x_6$ 的标准差
$\text{D.}$ $x_2, x_3, x_4, x_5$ 的极差不大于 $x_1, x_2, \cdots, x_6$ 的极差
多选题 (共 3 题 ),每题有多个选项正确
下列关于概率统计说法中正确的是
$\text{A.}$ 两个变量 $x, y$ 的相关系数为 $r$ ,则 $r$ 越小,$x$ 与 $y$ 之间的相关性越弱
$\text{B.}$ 设随机变量 $\xi: N(2,1)$ ,若 $p(\xi>3)=p$ ,则 $p(1 < \xi < 2)=\frac{1}{2}-p$
$\text{C.}$ 在回归分析中,$R^2$ 为 0.89 的模型比 $R^2$ 为 0.98 的模型拟合得更好
$\text{D.}$ 某人解答 10 个问题,答对题数为 $X, X \sim B(10,0.8)$ ,则 $E(X)=8$
《黄帝内经》中十二时辰养生法认为:子时的睡眠对一天至关重要(子时是指 23 点到次日凌晨 1 点).相关数据表明,入睡时间越晚,沉睡时间越少,睡眠指数也就越低.根据某次的抽样数据,对早睡群体和晚睡群体的睡眠指数统计如下图,则下列说法错误的是
$\text{A.}$ 在睡眠指数 $[60,80)$ 的人群中,早睡人数多于晚睡人数
$\text{B.}$ 早睡人群睡眠指数主要集中在 $[80,90)$
$\text{C.}$ 早睡人群睡眠指数的极差比晚睡人群睡眠指数的极差小
$\text{D.}$ 晚睡人群睡眠指数主要集中在 $[60,80)$
下列结论中,正确的是
$\text{A.}$ 数据 $0,1,2,3$ 的极差与中位数之积为 3
$\text{B.}$ 数据 $20,20,21,22,22,23,24$ 的第 80 百分位数为 23
$\text{C.}$ 若随机变量 $\xi$ 服从正态分布 $N\left(1, \sigma^2\right), P(\xi \leq 3)=0.7$ ,则 $P(\xi \leq-1)=0.3$
$\text{D.}$ 在回归分析中,用决定系数 $R^2$ 来比较两个模型拟合效果,$R^2$ 越大,表示残差平方和越小,即模型的拟合效果越好
填空题 (共 1 题 ),请把答案直接填写在答题纸上
某创新企业为了解新研发的一种产品的销售情况,从编号为 $001,002, \ldots 480$的 480 个专卖店销售数据中,采用系统抽样的方法抽取一个样本,若样本中的个体编号依次为 005,021,...则样本中的最后一个个体编号是
解答题 (共 7 题 ),解答过程应写出必要的文字说明、证明过程或演算步骤
邮件管理是一类非常常见的二元分类问题。如果将"非垃圾邮件"归类为正类邮件,"垃圾邮件"归类为负类邮件,试回答以下问题:
(1)若在邮件中正类邮件与负类邮件的占比分别为 $\frac{1}{3}$ 和 $\frac{2}{3}$ ,由于归类模型的误差,归类判断可能出错的概率均为 0.05 .若某个邮件归类为正类邮件,求它原本是正类邮件的概率;
(2)在机器学习中,利用算法进行归类,常用 $T P, T N, F P, F N$ 分别表示将正类邮件归类为正类邮件的个数,将负类邮件归类为负类邮件的个数,将负类邮件归类为正类邮件的个数,将正类邮件归类为负类邮件的个数.统计发现,收到邮件的种类可能与是否在工作日有关.为了验证此现象,在一段时间内,从数据库中随机抽取若干邮件,包含有正类邮件和负类邮件,按照机器学习的方法进行分类后,得到以下数据: $T P=60, T N=10, F P=15, F N=15$ .并给出了下表,试回答以下问题:
(i)求 $n$( $n$ 充分大)封邮件归类正确的概率;
(ii)补充上表,依据小概率值 $\alpha=0.01$ 的独立性检验,分析收到邮件的种类与是否在工作日有关?
网络直播带货作为一种新型的销售土特产的方式,受到社会各界的追捧.湖北某地盛产夏橙,为帮助当地农民销售夏橙,当地政府邀请了甲、乙两名网红在某天通过直播带货销售夏橙.现对某时间段100名观看直播后选择在甲、乙两名网红的直播间(以下简称甲直播间、乙直播间)购买夏橙的情况进行调查(假定每人只在一个直播间购买夏橙),得到如下数据
(1)依据小概率值 $\alpha=0.005$ 的独立性检验,能否认为网民选择在甲、乙直播间购买夏橙与性别有关联?
(2)网民黄蓉上午、下午均从甲、乙两个直播间中选择其中一个购买夏橙,且上午在甲直播间购买夏橙的概率为 $\frac{1}{2}$ 。若上午选择在甲直播间购买夏橙,则下午选择在甲直播间购买夏橙的概率为 $\frac{3}{5}$ ;若上午选择在乙直播间购买夏橙,则下午选择在甲直播间购买夏橙的概率为 $\frac{7}{10}$ ,求黄蓉下午选择在乙直播间购买夏橙的概率;
(3)用样本分布的频率估计总体分布的概率,若共有 50008 名网民在甲、乙直播间购买夏橙,且网民选择在甲、乙哪个直播间购买夏橙互不影响,记其中在甲直播间购买夏橙的网民人数为 $X$ ,求使事件"$X=k$"的概率取最大值的 $k$ 的值.
2022年11月20日,卡塔尔足球世界杯正式开幕,世界杯上的中国元素随处可见.从体育场建设到电力保障,从赛场内的裁判到赛场外的吉祥物都是中国制造,为卡塔尔世界杯提供了强有力的支持。国内也再次掀起足球热潮。某地足球协会组建球队参加业余比赛,该足球队教练组为了考查球员甲对球队的贡献,作出如下数据统计(甲参加过的比赛均分出了输赢):
(1)根据小概率值 $\alpha=0.005$ 的独立性检验,能否认为该球队赢球与甲球员参赛有关联;
(2)从该球队中任选一人,$A$ 表示事件"选中的球员参赛",$B$ 表示事件"球队输球"。 $\frac{P(B \mid A)}{P(\bar{B} \mid A)}$ 与 $\frac{P(B \mid \bar{A})}{P(\bar{B} \mid \bar{A})}$ 的比值是选中的球员参赛对球队贡献程度的一项度量指标,记该指标为 $R$ .
① 证明:$R=\frac{P(A \mid B)}{P(\bar{A} \mid B)} \cdot \frac{P(\bar{A} \mid \bar{B})}{P(A \mid \bar{B})}$ ;
利用球员甲数据统计,给出 $P(A \mid B), P(A \mid \bar{B})$ 的估计值,并求出 $R$ 的估计值.
为了研究学生每天整理数学错题情况,某课题组在某市中学生中随机抽取了 100 名学生调查了他们期中考试的数学成绩和平时整理数学错题情况,并绘制了下列两个统计图表,图1为学生期中考试数学成绩的频率分布直方图,图2为学生一个星期内整理数学错题天数的扇形图.若本次数学成绩在 110 分及以上视为优秀,将一个星期有 4 天及以上整理数学错题视为"经常整理",少于 4 天视为"不经常整理".已知数学成绩优秀的学生中,经常整理错题的学生占 $70 \%$ .
(1)求图 1 中 $m$ 的值以及学生期中考试数学成绩的上四分位数;
(2)根据图1、图2中的数据,补全上方 $2 \times 2$ 列联表,并根据小概率值 $\alpha=0.05$ 的独立性检验,分析数学成绩优秀与经常整理数学错题是否有关?
(3)用频率估计概率,在全市中学生中按"经常整理错题"与"不经常整理错题"进行分层抽样,随机抽取 5 名学生,再从这 5 名学生中随机抽取 2 人进行座谈.求这 2 名同学中经常整理错题且数学成绩优秀的人数 $X$ 的分布列和数学期望.
某校 20 名学生的数学成绩 $x_i(i=1,2, ..., 20)$ 和知识竞赛成绩 $y_i(i=1,2, ..., 20)$ 如下表:
计算可得数学成绩的平均值是 $\bar{x}=75$ ,知识竞赛成绩的平均值是 $\bar{y}=90$ ,并且 $\sum_{i=1}^{20}\left(x_i-\bar{x}\right)^2=6464$ , $\sum_{i=1}^{20}\left(y_i-\bar{y}\right)^2=149450, \sum_{i=1}^{20}\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)=21650$.
(1)求这组学生的数学成绩和知识竞赛成绩的样本相关系数(精确到 0.01 ).
(2)设 $N \in \mathrm{~N}^*$ ,变量 $x$ 和变量 $y$ 的一组样本数据为 $\left\{\left(x_i, y_i\right) \mid i=1,2, \mathrm{~L}, N\right\}$ ,其中 $x_i(i=1,2, \mathrm{~L}, N)$ 两两不相同, $y_i(i=1,2, \mathrm{~L}, N)$ 两两不相同。记 $x_i$ 在 $\left\{x_n \mid n=1,2, \mathrm{~L}, N\right\}$ 中的排名是第 $R_i$ 位,$y_i$ 在 $\left\{y_n \mid n=1,2, \mathrm{~L}, N\right\}$ 中的排名是第 $S_i$ 位,$i=1,2, \mathrm{~L}, N$ 。定义变量 $x$ 和变量 $y$ 的"斯皮尔曼相关系数"(记为 $\rho$ )为变量 $x$ 的排名和变量 $y$ 的排名的样本相关系数.
(i)记 $d_i=R_i-S_i, \quad i=1,2, \mathrm{~L}, N$ .证明:$\rho=1-\frac{6}{N\left(N^2-1\right)} \sum_{i=1}^N d_i^2$ .
(ii)用(i)的公式求这组学生的数学成绩和知识竞赛成绩的"斯皮尔曼相关系数"(精确到 0.01 ).
(3)比较(1)和(2)(ii)的计算结果,简述"斯皮尔曼相关系数"在分析线性相关性时的优势.
参考公式
移动物联网广泛应用于生产制造、公共服务、个人消费等领域。截至2022年底,我国移动物联网连接数达 18.45 亿户,成为全球主要经济体中首个实现"物超人"的国家.右图是 2018-2022 年移动物联网连接数 $W$ 与年份代码 $t$ 的散点图,其中年份 2018-2022 对应的 $t$ 分别为 1~5.
(1)根据散点图推断两个变量是否线性相关.计算样本相关系数(精确到 0.01 ),并推断它们的相关程度; (2)(i)假设变量 $x$ 与变量 $Y$ 的 $n$ 对观测数据为 $\left(x_1, y_1\right),\left(x_2, y_2\right), \ldots,\left(\mathrm{x}_{\mathrm{n}}, \mathrm{y}_{\mathrm{n}}\right)$ ,两个变量满足一元线性回归模型 $\left\{\begin{array}{l}Y=b x+e \\ E(e)=0, D(e)=\sigma^2\end{array}\right.$(随机误差 $e_i=y_i-b x_i$ ).请推导:当随机误差平方和 $Q=\sum_{i=1}^n e_i^2$ 取得最小值时,参数 $b$ 的最小二乘估计。
(ii)令变量 $x=t-\bar{t}, y=w-\bar{w}$ ,则变量 $x$ 与变量 $Y$ 满足一元线性回归模型 $\left\{\begin{array}{l}Y=b x+e \\ E(e)=0, D(e)=\sigma^2\end{array}\right.$ 利用(i)中结论求 $y$ 关于 $x$ 的经验回归方程,并预测 2024 年移动物联网连接数.
随着网络技术的迅速发展,直播带货成为网络销售的新梁道.某服装品牌为了给所有带货网络平台分配合理的服装量,随机抽查了 100 个带货平台的销售情况,销售每件服装平均所需时间情况如下频率分布直方图.
(1)求 $m$ 的值,并估计出这 100 个带货平台销售每件服装所用时间的平均数 $a$ 和中位数;
(2)假设该服装品牌所有带货平台销售每件服装平均所需时间 $X$ 服从正态分布 $N\left(\mu, \sigma^2\right)$ ,其中 $\mu$ 近似为 $a$ , $\sigma^2=100$ .若该服装品牌所有带货平台约有 10000 个,销售每件服装平均所需时间在 $(14.4,44.4)$ 范围内的平台属于"合格平台".为了提升平台销售业务,该服装品牌总公司对平台进行奖罚制度,在时间大于 44.4 分钟的平台中,每个平台每卖一件扣除 $\frac{100 s}{317}(0 < s < 10)$ ;在时间小于 14.4 分钟的平台中,每卖一件服装进行奖励 $\frac{s^3}{23}$ 元,以资鼓励;对于"合格平台"每卖一件服装奖励 1 元。求该服装品牌总公司在所有平台均销售一件服装时总共需要准备多少资金作为本次平台销售业务提升。(结果保留整数)
附:若 $X$ 服从正态分布 $X \sim N\left(\mu, \sigma^2\right)$ ,则 $P(\mu-\sigma < X < \mu+\sigma)=0.683, P(\mu-2 \sigma < X < \mu+2 \sigma)=0.954$ , $P(\mu-3 \sigma < X < \mu+3 \sigma)=0.997$ .参考数据:$\sqrt{6} \approx 2.45$ .