数据处理 – Malcolm`s Blog

标签：数据处理

2 篇文章

LDA主题模型工程化优化策略与实验分析

2025-11-10 21:27

工程实践,机器学习

5856 字

23 分钟

本文以 THUCNews 中文新闻语料库为基准，采用严格的控制变量法与分层随机抽样技术，系统评估了 N-gram 特征提取、TF-IDF 词权重变换、先验知识注入及停用词过滤序列对模型一致性指标（$C_V$）的影响。

NLP Python 数据处理机器学习算法优化

基于Python的LDA文档主题分布处理

2018-5-12 8:19

251

Python,机器学习

1340 字

11 分钟

本文详细介绍了如何利用 Python 及其强大的自然语言处理库实现 LDA（Latent Dirichlet Allocation）隐狄利克雷分配模型，并深入探讨了如何提取与处理文档的主题分布。 LDA是一种用于文本分析的主题模型，作为一种‌无监督的主题模型‌，它适合需要‌主题发现‌和‌可解释性‌的场景，从文本数据中自动发现隐藏的主题结构‌。而且LDA模型简单、可解释性强，参数量可控，不容易过拟合‌。

NLP Python 数据处理机器学习算法

标签： 数据处理

标签：数据处理