中文分词与特征提取
使用中文分词工具对文本数据进行分词,并提取新的特征。
使用第三方库“结巴”进行中文分词,分为精确模式、全模式和搜索引擎模式。
精确模式:词语精确分开,无冗余。
全模式:扫描所有可能的词语,有冗余。
搜索引擎模式:在精确模式基础上进一步细分。
数据分类与标签
创建了主类别和子类别,基于数据集中的关键词进行分类。
举例说明了如何通过关键词将商品分类到护肤品、化妆品等主类别及其子类别。
通过for循环和条件判断,将商品标记为主类别和子类别。
性别专用商品分析
增加了“是否为男士专用”列,通过检测关键词(如“男士”、“男生”)来判断商品是否为男性专用。
统计了男士专用商品的数量,并与其他商品进行对比。
销售额计算与分析
讨论了销售额的计算方法,即销售单价乘以销售量。
新增了销售额列,并展示了前五行的数据。
数据可视化
使用Matplotlib绘制了多个图表,包括各店铺商品数量、销量、总销售额和平均单价的柱形图。
绘制了商品类别销售量和销售额的饼图,分析了各大类别和小类的销售情况。
通过颜色区分不同价格区间的商品销售额占比。
总结
中文分词与特征提取:使用中文分词工具对数据进行预处理,提取出有用的特征,并区分第三方库和标准库的概念。
数据处理与分类:详细介绍了如何对数据进行分类,包括创建主类别和子类别,以及如何通过关键词进行数据标记。
数据可视化:展示了如何使用编程语言进行数据可视化,包括绘制柱形图、饼图等,以及如何根据数据集的特点进行适当的图表调整。
销售额计算与分析:讨论了如何计算销售额,并将其作为新列添加到数据集中,进一步分析了销售额与销售量的关系。
商品类别与销售分析:分析了不同商品类别的销售情况,包括护肤品、化妆品等大类别的销售量和销售额占比。