机器学习 – Malcolm`s Blog

标签：机器学习

2 篇文章

2025-9-20 5:29

2672 字

15 分钟

针对现代网络钓鱼攻击的高频与隐蔽特性，本文提出了一种基于高斯朴素贝叶斯（Gaussian Naive Bayes）的自动化识别模型，并引入特征标准化流水线（Standardization Pipeline）解决了多量纲数值特征导致的预测偏差问题。实验采用包含 23.5 万样本的 PhiUSIIL 数据集，通过对 54 项 URL 维度特征的深度挖掘与预处理优化，模型在测试集上表现卓越。结果显示，优化后的流水线模型召回率（Recall）保持在 99.96%，误报数（False Positives）从原始数据的 687 例锐减至 17 例，ROC-AUC 达到 0.9998。该研究证明了轻量级生成式模型在经过严格特征工程处理后，能够在大规模实时检测场景中兼顾高精度与低延迟。

Naive Bayes Python Scikit-learn 机器学习算法优化

基于Python的LDA文档主题分布处理

2018-5-12 8:19

169

Python,机器学习

1340 字

11 分钟

本文详细介绍了如何利用 Python 及其强大的自然语言处理库实现 LDA（Latent Dirichlet Allocation）隐狄利克雷分配模型，并深入探讨了如何提取与处理文档的主题分布。 LDA是一种用于文本分析的主题模型，作为一种‌无监督的主题模型‌，它适合需要‌主题发现‌和‌可解释性‌的场景，从文本数据中自动发现隐藏的主题结构‌。而且LDA模型简单、可解释性强，参数量可控，不容易过拟合‌。

NLP Python 数据处理机器学习算法

标签： 机器学习

标签：机器学习