当前位置：首页 > news >正文

哪个网站可以做简历网站代码需要注意什么

news 2026/2/17 8:52:02

哪个网站可以做简历,网站代码需要注意什么,公司网站定制开发,做全国性的app网站推广多少机器学习 1.机器学习概述1.1 人工智能概述1.1.1 机器学习与人工智能、深度学习的关系1.1.2 人工智能的起点1.1.3 机器学习、深度学习能做什么#xff1f; 1.2 什么是机器学习#xff1f;1.2.1 定义1.2.2 数据集的构成 1.3 机器学习算法1.4 机器学习开发流程 2.特征工程2.1 数… 机器学习 1.机器学习概述1.1 人工智能概述1.1.1 机器学习与人工智能、深度学习的关系1.1.2 人工智能的起点1.1.3 机器学习、深度学习能做什么 1.2 什么是机器学习1.2.1 定义1.2.2 数据集的构成 1.3 机器学习算法1.4 机器学习开发流程 2.特征工程2.1 数据集2.1.1 可用数据集2.1.2 Sklearn数据集2.1.3 数据集的划分 2.2 特征工程介绍2.2.1 为什么要做特征工程2.2.2 什么是特征工程 2.3 特征提取2.3.1 概念2.3.2 特征提取API2.3.3 字典特征提取2.3.4 文本特征提取2.3.5 TF-IDF文本特征提取 2.4 特征预处理2.4.1 特征预处理API2.4.2 归一化2.4.3 API2.4.4 标准化2.4.5 API2.4.6 总结 2.5特征降维2.5.1 标量、向量、矩阵、张量的关系2.5.2 降维概念2.5.3 降维的两种方式2.5.4 特征选择 1.机器学习概述 1.1 人工智能概述 1.1.1 机器学习与人工智能、深度学习的关系机器学习是人工智能的一个实现途径而深度学习是机器学习的一个方法发展而来。 1.1.2 人工智能的起点 1.1.3 机器学习、深度学习能做什么应用领域网络搜索、识别人类语言、自动驾驶、计算机视觉、传统预测、图形识别、自然语言处理。 AGI为Artificial General Intelligence的首字母缩写意为人工通用智能。它是一种可以执行复杂任务的人工智能能够完全模仿人类智能的行为。 1.2 什么是机器学习 1.2.1 定义机器学习是从数据中自动分析获取模型并利用模型对未知数据进行预测。 1.2.2 数据集的构成结构特征值目标值注对于每一行数据可以称为样本。有些数据集可以没有目标值。(需要采用聚类算法这些进行分类。) 1.3 机器学习算法 1.4 机器学习开发流程获取数据数据处理(缺失值、坏点等等)特征工程(让数据变得更容易被机器学习算法使用的数据)机器学习算法训练之后得到模型模型评估应用 2.特征工程 2.1 数据集 2.1.1 可用数据集 Kaggle网址Find Open Datasets and Machine Learning Projects | Kaggle UCI网址UCI 机器学习存储库 scikit-learn网址scikit-learn: machine learning in Python — scikit-learn 1.5.0 documentation 2.1.2 Scikit-learn工具介绍 python语言的机器学习的工具Scikit-learn包含许多机器学习算法的实现 2.1.3 安装 pip install Scikit-learn# 如果有多个python版本的话,需要指定,以3.12为例 pip3.12 install Scikit-learn完了之后可以查看自己是否安装成功。 pip list2.1.2 Sklearn数据集 # * 表示的是数据集的名字# 获取小规模数据集数据包含在datasets里 sklearn.datasets.load_*()# 获取大型数据集,需要从网络下载默认是 ~/scikit_learn_data/ # datahome : 标识数据集下载的目录 # subsettrain 或 test 或 all 可选选择要加载的数据集 sklearn.datasets.fetch_*(datahome None,subset train)# 两种方法的返回的数据值 # load和fetch返回的数据类型datasets.base.Bunch(字典格式)这个是继承自字典# data: 特征值数据数组是[n_samples * n_features]的二维numpy*ndarray数组# target: 标签数组是n_samples 的一维numpy * ndarray数组# DESCR: 数据描述# feature_names: 特征名# target_names: 标签名示例 from sklearn.datasets import load_irisdef datasets_demo():sklearn数据集使用:return:# 获取数据集iris load_iris()print(鸢尾花数据集\n, iris)print(鸢尾花数据集描述\n, iris[DESCR])print(鸢尾花数据集特征值的名字\n, iris.feature_names)print(鸢尾花数据集特征值的形状\n, iris.data, iris.data.shape)return Noneif __name__ __main__:datasets_demo() 2.1.3 数据集的划分机器学习数据集会划分为两个部分训练数据用于训练 , 构建模型测试数据在模型检验中使用评估模型是否有效数据集划分API sklearn.model_selection.train_test_split(arrays,*options) x 数据集的特征值y 数据集的标签值test_size 测试集的大小一般为floatrandom_state 随机数种子不同的种子会造成不同的随机采样结果。return 训练集特征值测试集特征值、训练集目标值、测试集目标值 from sklearn.datasets import load_iris from sklearn.model_selection import train_test_splitdef datasets_demo():sklearn数据集使用:return:# 获取数据集iris load_iris()# 数据集划分x_train, x_test, y_train, y_test train_test_split(iris.data, iris.target, test_size0.2)print(训练集特征值\n, x_train, x_train.shape)print(训练集目标值\n, y_train, y_train.shape)print(测试集特征值\n, x_test, x_test.shape)print(测试集目标值\n, y_test, y_test.shape)return Noneif __name__ __main__:datasets_demo() 2.2 特征工程介绍 2.2.1 为什么要做特征工程数据和特征决定了机器学习的上限而模型和算法只是逼近这个上限。 2.2.2 什么是特征工程特征工程是使用专业背景知识和技巧处理数据使得特征能在机器学习算法上发挥更好的作用的过程。意义会直接影响机器学习的效果。在特征工程里面我们使用的是sklearn,而不是pandas数据清洗、数据处理。 2.3 特征提取 2.3.1 概念将任意数据(如文本或图像)转换为可用于机器学习的数字特征字典特征提取特征离散化文本特征提取图像特征提取 2.3.2 特征提取API sklearn.feature_extraction2.3.3 字典特征提取类别 - one-hot编码向量用一维数组进行表示 sklearn.feature_extraction.DictVetorizer(sparse True,...) # sparse(稀疏) True: 会把该矩阵采用三元组进行存储只存储不为零的元素按照(行列值)存储目的是为了节约空间 # sparse(稀疏) False: 按照正常矩阵存储Dictverorizer.fit_transform(x) x:字典或包含字典的迭代器返回值返回sparse矩阵应用场景当数据集中类别特征比较多如果不是字典则将数据集特征 -- 字典类型否则不用利用DictVetorizer进行转换示例 from sklearn.feature_extraction import DictVectorizerdef dict_demo():city_dict [{city: 北京, temperature: 100}, {city: 上海, temperature: 60},{city: 深圳, temperature: 30}, ]# 1. 实例化对象transformer DictVectorizer(sparseFalse)# 2. 调用fit_transform方法city_dict transformer.fit_transform(city_dict)# 3. 打印矩阵特征值名称print(city_dict_feature:\n, transformer.get_feature_names_out())# 4. 打印矩阵内容print(city_dict:\n, city_dict)return Noneif __name__ __main__:dict_demo() 2.3.4 文本特征提取作用对文本数据进行特征值化 sklearn.feature_extraction.text.CountVectorizer(stop_words[]) # stop_words 里面可以写不需要分类的词返回值为词频矩阵CountVectorizer.fit_transform(X) # X : 文本或包含文本字符串的可迭代对象返回值返回sparse矩阵CountVectorizer.inverse_transform(X) # X : array数组或sparse矩阵返回值转换之前的数据格式CountVectorizer.get_feature_names() # 返回值单词列表示例英文句子 from sklearn.feature_extraction.text import CountVectorizerdef count_demo():dict_list [life is short,I like python, life is too long,I dislike python]# 1. 实例化对象transfer CountVectorizer()# 2. 调用fit_transform方法dict_list transfer.fit_transform(dict_list)# 3. 打印特征名称print(feature_names:\n, transfer.get_feature_names_out())# 4. 打印结果print(dict_list:\n, dict_list)# 5. 换行为数组print(dict_list:\n, dict_list.toarray())# 6. 把特征名按照顺序排序print(vocabulary:\n, transfer.vocabulary_)# 7. 调用inverse_transform方法print(inverse_transform:\n, transfer.inverse_transform(dict_list))returnif __name__ __main__:count_demo() 示例中文句子 from sklearn.feature_extraction.text import CountVectorizerdef count_demo():dict_list [生活不能等待别人来安排要自己去争取和奋斗,而不论其结果是喜是悲但可以慰藉的是你总不枉在这世界上活了一场。,有了这样的认识你就会珍重生活而不会玩世不恭同时也会给人自身注入一种强大的内在力量。]# 1. 实例化对象transfer CountVectorizer()# 2. 调用fit_transform方法dict_list transfer.fit_transform(dict_list)# 3. 打印特征名称print(feature_names:\n, transfer.get_feature_names_out())# 4. 打印结果print(dict_list:\n, dict_list)# 5. 换行为数组print(dict_list:\n, dict_list.toarray())# 6. 把特征名按照顺序排序print(vocabulary:\n, transfer.vocabulary_)# 7. 调用inverse_transform方法print(inverse_transform:\n, transfer.inverse_transform(dict_list))returnif __name__ __main__:count_demo() 由于中文没有空格采用上面的方法处理不好我们使用空格进行分割如果句子多的话太麻烦所以我们使用jieba库来处理。 # 利用pip下载 pip install jieba# 查看 pip list示例中文(使用jieba) from sklearn.feature_extraction.text import CountVectorizer import jiebadef cut_word(text):中文分词,text为字符串:param text::return:return .join(list(jieba.cut(text)))def count_chinese_demo():中文文本特征抽取,自动分词:return:data [生活不能等待别人来安排要自己去争取和奋斗,而不论其结果是喜是悲但可以慰藉的是你总不枉在这世界上活了一场。,有了这样的认识你就会珍重生活而不会玩世不恭同时也会给人自身注入一种强大的内在力量。]data_new []# 1. 遍历data列表for sent in data:# 2. 中文分词data_new.append(cut_word(sent))print(data_new)# 3. 实例化对象transfer CountVectorizer()# 4. 提取特征data_list transfer.fit_transform(data_new)# 5. 打印特征名称print(特征名称\n, transfer.get_feature_names_out())# 6. 打印结果print(data_list\n, data_list)# 7. 转换为数组print(data_list.toarray())# 8. 把特征名称按照顺序排序print(特征名称排序\n, transfer.vocabulary_)# 9. 调用inverse_transform方法print(还原\n, transfer.inverse_transform(data_list))return Noneif __name__ __main__:count_chinese_demo() 前面的我们使用是根据单词出现的次数进行分类但是有的单词在每篇文章中都出现很高没有区分度。我们希望找到在一个类别的文章出现的次数很多但是在其他类别的文章中出现很少。 2.3.5 TF-IDF文本特征提取 TF-IDF的主要思想是如果某个词或短语在一篇文章中出现的概率高并且在其他文章中很少出现则认为此词或者短语具有很好的类别区分能力适合来分类。TF-IDF作用用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。利用下面公式进行计算 # TF(词频)指的是某一个给定的词语在该文件中出现的频率 # IDF(逆向文档频率)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目把其取以10为底的对数就可以得到 TF-IDF TF(词频) * IDF(逆向文档频率)API sklearn.feature_extraction.text.TfidfVectorizer(stop_wordsNone) # 返回词的权重矩阵TfidfVectorizer.fit_transform(X) # X : 文本或包含文本字符串的可迭代对象返回值返回sparse矩阵TfidfVectorizer.inverse_transform(X) # X : array数组或sparse矩阵返回值转换之前的数据格式TfidfVectorizer.get_feature_names() # 返回值单词列表示例 from sklearn.feature_extraction.text import TfidfVectorizer import jiebadef cut_word(text):中文分词,text为字符串:param text::return:return .join(list(jieba.cut(text)))def count_chinese_demo():中文文本特征抽取,自动分词:return:data [生活不能等待别人来安排要自己去争取和奋斗,而不论其结果是喜是悲但可以慰藉的是你总不枉在这世界上活了一场。,有了这样的认识你就会珍重生活而不会玩世不恭同时也会给人自身注入一种强大的内在力量。]data_new []# 1. 遍历data列表for sent in data:# 2. 中文分词data_new.append(cut_word(sent))print(data_new)# 3. 实例化对象transfer TfidfVectorizer()# 4. 提取特征data_list transfer.fit_transform(data_new)# 5. 打印特征名称print(特征名称\n, transfer.get_feature_names_out())# 6. 打印结果print(data_list\n, data_list)# 7. 转换为数组print(data_list.toarray())# 8. 把特征名称按照顺序排序print(特征名称排序\n, transfer.vocabulary_)# 9. 调用inverse_transform方法print(还原\n, transfer.inverse_transform(data_list))return Noneif __name__ __main__:count_chinese_demo() 2.4 特征预处理通过一些转换函数将特征数据转换成更合适算法模型的特征数据过程。数值型数据的无量纲化归一化标准化进行归一化/标准化是因为特征的单位或者大小相差较大或者某特征的方差相比其他的特征要大出几个数量级容易影响支配目标结果使得一些算法无法学习到其他的特征。 2.4.1 特征预处理API sklearn.preprocessing2.4.2 归一化定义通过对原始数据进行变换把数据映射到默认[0,1]之间。公式 2.4.3 API sklearn.preprocessing.MinMaxScaler(feature_range(0,1))MinMaxScalar.fit_transform(X)X: numpy arrayg格式的数据[n_samples,n_features] # n_samples(样本数即一行的数据) * n_features(有几个特征)返回值转换后的形状相同的array示例 from sklearn.datasets import load_iris from sklearn.preprocessing import MinMaxScalerdef minmax_demo():归一化:return:# 1. 获取数据iris load_iris()# 2. 实例化转换器类minmax MinMaxScaler()# 3. 调用fit_transform()方法iris.data minmax.fit_transform(iris.data)# 4. 打印print(iris.data)return Noneif __name__ __main__:minmax_demo() 使用归一化的时候里面需要借助min/max如果这两个值是异常值则最后计算的结果会受到影响。所以这种方法鲁棒性比较差只适合于传统精确小数据的场景。 2.4.4 标准化定义通过对原始数据进行变换把数据变换到均值为0标准差为1范围内。公式 2.4.5 API sklearn.preprocessing.StandardScaler()处理之后对每列来说所有数据聚集再均值为0、标准差为1附近StandardScaler.fit_transform(X)X : numpy array格式的数据[n_samples,n_features]返回值转换后形状相同的array示例 from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScalerdef standard_demo():标准化:return:# 1. 获取数据iris load_iris()# 2. 实例化转换器类minmax StandardScaler()# 3. 调用fit_transform()方法iris.data minmax.fit_transform(iris.data)# 4. 打印print(iris.data)return Noneif __name__ __main__:standard_demo() 在已有样本足够多的情况下比较稳定适合去处理现代嘈杂大数据场景。 2.4.6 总结对于归一化来说如果出现异常点影响了最大值和最小值那么结果显示会发生变化对于标准化来说如果出现异常点由于具有一定数据量少量的异常点对于平均值的影响并不大从而标准差改变较小 2.5特征降维 2.5.1 标量、向量、矩阵、张量的关系 2.5.2 降维概念指的某些限定条件下降低随机变量特征个数得到一组“不相关”主变量的过程。也就是线代里面的极大无关组补充我们在进行训练的时候使用的是特征进行学习。如果特征本身存在问题或特征之间相关性较强对于算法学习预测会影响比较大。 2.5.3 降维的两种方式特征选择主成分分析 2.5.4 特征选择定义数据中包含冗余或者是相关变量(或称特征、属性、指标等)旨在从原有特征中找出主要特征。方法 Filter(过滤式):主要探究特征本身特点、特征与特征和目标值之间关系方差选择法低方差特征过滤相关系数衡量特征与特征之间的相关程度皮尔森相关系数反映变量之间相关关系密切程度的统计指标相关系统的值介于-1 到 1 之间即-1 r 1其性质如下当 r 0 时,表示两变量正相关r 0 时两变量为负相关。当 |r| 1 时表示两变量为完全相关当 r 0 时表示两变量间不相关。当 0 |r| 1时表示两变量存在一定程度的相关。且 |r|越接近 1两变量间线性程度越密切|r|越接近0表示两变量的线性相关越弱。一般可划分为三级|r| 0.4为低度相关0.4 |r| 0.7 为显著性相关0.7 |r| 1为高度线性相关 API from scipy.stats import pearsonr# x:(N,) array_like# y:(N,) array_like # Returns:(statistic,value)API sklearn.feature_selection.VarianceThreshold(threshold 0.0) # 删除所有低方差特征Variable.fit_transform(X)X: numpy array格式的数据[n_samples,n_features]# 返回值训练集差异低于threshold的特征将被删除默认保留所有非零方差特征。示例 from sklearn.datasets import load_iris from sklearn.feature_selection import VarianceThresholddef variance_demo():低方差过滤就是过滤掉方差小的特征,默认为 0:return:# 1. 获取数据iris load_iris()# 2. 实例化转换器类variance VarianceThreshold()# 3. 调用fit_transform()方法iris.data variance.fit_transform(iris.data)# 4. 打印print(iris.data)return Noneif __name__ __main__:variance_demo()Embedded(嵌入式)算法自动选择特征决策树正则化深度学习

查看全文

http://www.dnsts.com.cn/news/139363.html