自然语言处理技术
你将获得
- 以Python编程语言为基础,进行编程
- 掌握传统的机器学习算法
课程介绍
一、课程简介
本课程包括自然语言处理概述、Python语言简述、Python数据类型、Python流程控制、Python函数、Python数据分析、Sklearn和NLTK、语料清洗、特征工程、中文分词、文本分类、文本聚类、指标评价、信息提取和情感分析。
二、课程目标
通过课程学习,学生能够以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下逐步熟悉并掌握传统的机器学习算法。
三、课程内容及要求
第1章 自然语言处理概述
1、人工智能发展历程
2、自然语言处理
3、机器学习算法
4、自然语言处理相关库
5、语料库
第2章Python语言简介
1、python简介
2、Python解释器
3、python编辑器
4、代码书写规则
第3章 Python数据类型
1、常量、变量和表达式
2、基本数据类型
3、运算符与表达式
4、列表
5、元组
6、字符串
7、字典
8、集合
第4章 Python流程控制
1、数据输入与输出
2、顺序结构
3、单分支选择结构
4、双分支选择结构
5、多分支选择结构
6、while循环结构
7、for语句结构
8、循环的嵌套
第5章 Python函数
1、函数声明与调用
2、函数传参
3、lambda函数
4、递归函数
第6章 Python数据分析
1、科学计算
2、Numpy
3、Scipy
4、matplotlib
5、Pandas
6、Seaborn
第7章 Sklearn和NLTK
1、Sklearn
2、基于Sklearn机器学习
3、NLTK
4、NlTK语料库
5、NlTK 文本分类
第8章 语料清洗
1、数据清洗方法
1.1 缺失值清洗
1.2 异常值清洗
1.3 重复值清洗
2、数据转换
3、missingno
4、词云
第9章 特征工程
1、特征预处理
1.1 规范化
1.2 标准化
1.3 鲁棒化
1.4 正则化
2、独热编码
3、CountVectorizer
4、TF-IDF
第10章 中文分词
1、常见中文分词方法
1.1 基于规则和词表方法
1.2 基于统计方法
2、Jieba分词库
3、HanLP分词库
第11章 文本分类
1、历史回顾
2、贝叶斯定理
3、朴素贝叶斯分类
3.1 GaussianNB类
3.2 MultinomialNB类
3.3 BernoulliNB类
4、支持向量机
4.1 线性核函数
4.2 多项式核函数
4.3 高斯核函数
5、贝叶斯进行垃圾邮件分类
第12章 文本聚类
1、文本聚类步骤
2、主成分分析
3、Kmeans算法步骤
4、Kmeans评估指标
4.1 调整兰德系数
4.2 轮廓系数
5、掌握Kmeans进行英文和中文聚类
第13章 指标评价
1、混淆矩阵
2、准确率
3、精确率
4、召回率
5、F1 score
6、ROC 曲线
7、AUC面积
8、分类评估报告
9、中文分词的指标
10、未登录词和登录词召回率
第14章 信息提取
1、相关概念
1.1 信息
1.2 信息熵
1.3 互信息
2、正则表达式
2.1 基本语法
2.2 re模块
3、命名实体
4、马尔可夫模型
第15章 情感分析
1、情感分析概述
2、基于情感词典方法
3、textblob
3.1 分句和分词
3.2 词性标注
3.3 情感分析
4、snownlp
4.1 分词
4.2 词性标注
4.3 断句
4.4 情绪判断
5、小说人物情感分析
6、电影影评情感分析
四、建议教材及参考资料
建议教材:
周元哲. Python与自然语言处理. 北京:清华大学出版社, 2021
技术储备
订阅须知
2、课程自购买后,有效期为:365天
3、苹果手机由于系统原因,无法直接支付,请前往 职前通 官网 或 微信端 进行购买。
4、若您需要发票,可在付款成功后联系我们的客服微信:ICT8091开具发票。
5、特殊说明:
(1)如果需要报名考试或参与线下培训学习,请添加客服微信:ICT8091咨询。
(2)购买后,如果视频无法正常观看,请扫描下方二维码,添加老师微信:ICT8091进行反馈。
(3)商品具体成交价格根据商品或服务参加优惠活动,或使用优惠券、礼券、通宝等不同情形发生变化,最终实际成交价格以订单结算页的价格为准。