当前位置:主页 > python教程 > Python scikit-learn近邻算法分类

Python利用scikit-learn实现近邻算法分类的示例详解

发布:2023-03-22 08:25:02 59


本站收集了一篇相关的编程文章,网友牛曹文根据主题投稿了本篇教程内容,涉及到Python、scikit-learn近邻算法分类、Python、近邻算法分类、Python、scikit-learn、Python scikit-learn近邻算法分类相关内容,已被972网友关注,相关难点技巧可以阅读下方的电子资料。

Python scikit-learn近邻算法分类

scikit-learn库

scikit-learn已经封装好很多数据挖掘的算法

现介绍数据挖掘框架的搭建方法

1.转换器(Transformer)用于数据预处理,数据转换

2.流水线(Pipeline)组合数据挖掘流程,方便再次使用(封装)

3.估计器(Estimator)用于分类,聚类,回归分析(各种算法对象)

所有的估计器都有下面2个函数

fit() 训练

用法:estimator.fit(X_train, y_train)

estimator = KNeighborsClassifier() 是scikit-learn算法对象

X_train = dataset.data 是numpy数组

y_train = dataset.target 是numpy数组

predict() 预测

用法:estimator.predict(X_test)

estimator = KNeighborsClassifier() 是scikit-learn算法对象

X_test = dataset.data 是numpy数组

示例

%matplotlib inline
# Ionosphere数据集
# https://archive.ics.uci.edu/ml/machine-learning-databases/ionosphere/
# 下载ionosphere.data和ionosphere.names文件,放在 ./data/Ionosphere/ 目录下
import os
home_folder = os.path.expanduser("~")
print(home_folder) # home目录
# Change this to the location of your dataset
home_folder = "." # 改为当前目录
data_folder = os.path.join(home_folder, "data")
print(data_folder)
data_filename = os.path.join(data_folder, "ionosphere.data")
print(data_filename)
import csv
import numpy as np
# Size taken from the dataset and is known已知数据集形状
X = np.zeros((351, 34), dtype='float')
y = np.zeros((351,), dtype='bool')


with open(data_filename, 'r') as input_file:
    reader = csv.reader(input_file)
    for i, row in enumerate(reader):
        # Get the data, converting each item to a float
        data = [float(datum) for datum in row[:-1]]
        # Set the appropriate row in our dataset用真实数据覆盖掉初始化的0
        X[i] = data
        # 1 if the class is 'g', 0 otherwise
        y[i] = row[-1] == 'g' # 相当于if row[-1]=='g': y[i]=1 else: y[i]=0
# 数据预处理
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=14)
print("训练集数据有 {} 条".format(X_train.shape[0]))
print("测试集数据有 {} 条".format(X_test.shape[0]))
print("每条数据有 {} 个features".format(X_train.shape[1]))

输出:

训练集数据有 263 条
测试集数据有 88 条
每条数据有 34 个features

# 实例化算法对象->训练->预测->评价
from sklearn.neighbors import KNeighborsClassifier

estimator = KNeighborsClassifier()
estimator.fit(X_train, y_train)
y_predicted = estimator.predict(X_test)
accuracy = np.mean(y_test == y_predicted) * 100
print("准确率 {0:.1f}%".format(accuracy))

# 其他评价方式
from sklearn.cross_validation import cross_val_score
scores = cross_val_score(estimator, X, y, scoring='accuracy')
average_accuracy = np.mean(scores) * 100
print("平均准确率 {0:.1f}%".format(average_accuracy))

avg_scores = []
all_scores = []
parameter_values = list(range(1, 21))  # Including 20
for n_neighbors in parameter_values:
    estimator = KNeighborsClassifier(n_neighbors=n_neighbors)
    scores = cross_val_score(estimator, X, y, scoring='accuracy')
    avg_scores.append(np.mean(scores))
    all_scores.append(scores)

输出:

准确率 86.4%
平均准确率 82.3%

from matplotlib import pyplot as plt
plt.figure(figsize=(32,20))
plt.plot(parameter_values, avg_scores, '-o', linewidth=5, markersize=24)
#plt.axis([0, max(parameter_values), 0, 1.0])

for parameter, scores in zip(parameter_values, all_scores):
    n_scores = len(scores)
    plt.plot([parameter] * n_scores, scores, '-o')

plt.plot(parameter_values, all_scores, 'bx')

from collections import defaultdict
all_scores = defaultdict(list)
parameter_values = list(range(1, 21))  # Including 20
for n_neighbors in parameter_values:
    for i in range(100):
        estimator = KNeighborsClassifier(n_neighbors=n_neighbors)
        scores = cross_val_score(estimator, X, y, scoring='accuracy', cv=10)
        all_scores[n_neighbors].append(scores)
for parameter in parameter_values:
    scores = all_scores[parameter]
    n_scores = len(scores)
    plt.plot([parameter] * n_scores, scores, '-o')

plt.plot(parameter_values, avg_scores, '-o')

以上就是Python利用scikit-learn实现近邻算法分类的示例详解的详细内容,更多关于Python scikit-learn近邻算法分类的资料请关注码农之家其它相关文章!


参考资料

相关文章

  • Python 获取指定开头指定结尾所夹中间内容(推荐)

    发布:2023-04-02

    获取文章中指定开头、指定结尾中所夹的内容。其中,开头和结尾均有多种,但最多也就十几种,所以代码还是具有可行性的,今天小编给大家介绍通过Python 获取指定开头指定结尾所夹中间内容,感兴趣的朋友一起看看吧


  • ChatGPT教你用Python实现BinarySearchTree详解

    发布:2023-04-03

    这篇文章主要为大家介绍了ChatGPT教你用Python实现BinarySearchTree详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪


  • Python学习笔记之文件的读写操作实例分析

    发布:2022-10-19

    为网友们分享了关于Python的教程,这篇文章主要介绍了Python学习笔记之文件的读写操作,结合实例形式详细分析了Python常见的文件读写操作实现技巧及相关注意事项,需要的朋友可以参考下


  • Python从Excel读取数据并使用Matplotlib绘制成二维图像

    发布:2023-04-12

    本课程实现使用 Python 从 Excel 读取数据,并使用 Matplotlib 绘制成二维图像。这一过程中,将通过一系列操作来美化图像,最终得到一个可以出版级别的图像。本课程对于需要书写实验报告,学位论文,发表文章,做报告的学员具有较大价值


  • python中的中括号是什么意思

    发布:2021-05-07

    python语言最常见的括号有三种,分别是:小括号( )、中括号[ ]和大括号,也叫大括号花括号{ },分别用来代表不同的python基本内置数据类型。


  • python编写时怎么换行

    python编写时怎么换行

    发布:2022-06-17

    给大家整理了关于python的教程,Python中换行编写时,有三种方法:1、代码中加入\,2、放在小括号、中括号、或大括号中,此时不加换行符,3、使用三引号''' '''或 (单/双均可)。


  • Python实现的简单排列组合算法的实例讲解

    发布:2019-07-29

    这篇文章主要介绍了Python实现的简单排列组合算法,涉及Python使用itertools库进行排列组合运算相关操作技巧,需要的朋友可以参考下


  • Python二元算术运算常用方法解析

    发布:2021-04-18

    这篇文章主要介绍了Python二元算术运算常用方法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下


网友讨论