课后作业:NaiveBayes

作者:欧新宇(Xinyu OU)

【作业提交】

将分类结果保存到文本文档进行提交(写上每一题的题号和题目,然后再贴答案),同时提交源代码。

  1. 测试结果命名为: ex05-结果-你的学号-你的姓名.txt
  2. 源代码命名为: ex05-01-你的学号-你的姓名.py, ex05-02-你的学号-你的姓名.py, ex05-03-你的学号-你的姓名.py

*结果文件,要求每小题标注题号,两题之间要求空一行*


要求在 “糖尿病预测” 数据集上使用高斯 (Gaussian) 朴素贝叶斯完成以下任务,要求如下:

  1. 要求训练集和测试集的分割比例为80%:20%, 给出KNN在训练集和测试集上的分类精度(ex05-01, ex05-结果)
  2. 对于第79个测试样本,输出对于该样本的类别预测值,以及每个类别的预测概率(ex05-02, ex05-结果)
  3. 给定新样本,给出该样本的类别,以及每个类别的预测概率。(ex05-03, ex05-结果)

样本中各个参数的值为:

  • Pregnancies: 【学号//6】
  • Glucose:【学号*3】
  • BloodPressure:【学号*2】
  • SkinThickness:【学号】
  • Insulin:【学号*4】
  • BMI:30+【学号/7】
  • DiabetesPedigreeFunction:【学号/6】
  • Age:【学号】

【学号】 = 你的学号的后两位

提示:由于糖尿病数据集时通过pandas进行输入的,所以在进行数据操作和处理的时候,需要转换为numpy数据组,实现方法参考如下:</blue>

X_test = np.array(X_test)[data_id]