文字探勘简介 (Text Mining Introduction)
定义 (Definition)
文字探勘是一种从大量的非结构化文本数据中提取高质量、有价值信息和模式的过程。
- 它结合了自然语言处理 (NLP)、机器学习 (Machine Learning) 和统计学 (Statistics) 的技术。
- 目标是将人类可读的文本转换成机器可处理的格式,从中发现知识。
主要应用 (Key Applications)
文字探勘被广泛应用于各种领域,例如:
- 商业智能 (Business Intelligence):
- 情感分析/情绪分析 (Sentiment Analysis): 分析用户评论、社交媒体帖子等,了解公众对产品或品牌的态度。
- 客户反馈分析: 从客户服务记录或调查问卷中提取常见问题和痛点。
- 科学研究与医疗:
- 从大量的学术论文或病历中提取新的知识、药物相互作用或疾病关联性。
- 法律与安全:
- 文档分类和检索,例如电子发现 (e-Discovery)。
- 媒体与内容管理:
- 自动摘要生成、主题建模 (Topic Modeling)、新闻分类。
文字探勘基本流程 (Basic Text Mining Workflow)
文字探勘通常遵循一个多步骤的流程,其中您提到的三个核心阶段是:清理 (Cleaning)、表示 (Representation) 和分析 (Analysis)。
清理/预处理 (Cleaning / Pre-processing)
这是将原始文本转换为可用格式的关键步骤。
| 步骤 | 目的 | 示例操作 |
|---|---|---|
| 文本分段/分词 | 将连续文本切分成有意义的单元。 | 中文:切分成词语(例如:文字 / 探勘) |
| 去除停用词 | 移除对意义贡献小的常见词。 | 移除“的”、“是”、“一个”等。 |
| 词形还原/词干提取 | 将词语简化为基本形式。 | 将 “running” 还原为 “run”。 |
| 处理特殊字符 | 移除标点符号、数字、HTML标签等。 | 移除句号、问号、$ \% $ 符号。 |
表示/特征提取 (Representation / Feature Extraction)
将清理后的文本数据转换为机器可理解的数值格式(通常是向量或矩阵),这是从文本到数学模型的桥梁。
| 模型/技术 | 描述 | 示例 |
|---|---|---|
| 词袋模型 (Bag-of-Words, BoW) | 忽略词序,只统计词语出现的频率。 | ** |
| TF-IDF | 衡量一个词语对一个文档的重要性(词频 × 逆文档频率)。 | 用于识别某个文档的独特关键词。 |
| 词嵌入 (Word Embeddings) | 将词语表示为密集向量,捕捉词语之间的语义关系。 | Word2Vec, GloVe, BERT 等。 |
分析/建模 (Analysis / Modeling)
使用各种算法对数值表示的数据进行处理,以提取知识和模式。
| 分析类型 | 目标 | 常用算法 |
|---|---|---|
| 分类 (Classification) | 将文本划分到预定义的类别。 | 朴素贝叶斯、支持向量机 (SVM)、深度学习。 |
| 聚类 (Clustering) | 自动将相似的文本分组成簇,无需预设标签。 | K-means、层次聚类。 |
| 主题建模 (Topic Modeling) | 发现文档集合中潜在的抽象主题。 | 潜在狄利克雷分配 (LDA)。 |
| 信息提取 (IE) | 识别并提取命名实体(人名、地名等)或关系。 | 条件随机场 (CRF)。 |