如何用Python从海量文本抽取主题_[#第一枪]

发布时间：2021-06-07 18:56:48 阅读：次来源：网眼布厂家

按：本文作者王树义，原载于微信公众号玉树芝兰（nkwangshuyi），雷锋网经授权发布。

你在工作、学习中是否曾因信息过载叫苦不迭？有一种方法能够替你读海量文章，并将不同的主题和对应的关键词抽取出来，让你谈笑间观其大略。本文使用Python对超过1000条文本做主题抽取，一步步带你体会非监督机器学习LDA方法的魅力。想不想试试呢？

淹没

每个现代人，几乎都体会过信息过载的痛苦。文章读不过来，音乐听不过来，视频看不过来。可是现实的压力，使你又不能轻易放弃掉。

假如你是个研究生，教科书和论文就是你不得不读的内容。现在有了各种其他的阅读渠道，微信、微博、得到App、多看阅读、豆瓣阅读、Kindle，还有你在RSS上订阅的一大堆博客……情况就变得更严重了。

因为对数据科学很感兴趣，你订阅了大量的数据科学类微信公众号。虽然你很勤奋，但你知道自己依然遗漏了很多文章。

学习了 Python爬虫课以后，你决定尝试一下自己的屠龙之术。依仗着爬虫的威力，你打算采集到所有数据科学公众号文章。

你仔细分析了微信公众号文章的检索方式，制定了关键词列表。巧妙利用搜狗搜索引擎的特性，你编写了自己的爬虫，并且成功地于午夜放到了云端运行。

开心啊，激动啊……

第二天一早，天光刚亮，睡眠不足的你就兴冲冲地爬起来去看爬取结果。居然已经有了1000多条！你欣喜若狂，导出成为csv格式，存储到了本地机器，并且打开浏览。

兴奋了10几分钟之后，你冷却了下来，给自己提出了2个重要的问题。

这些文章都值得读吗？

这些文章我读得过来吗？

一篇数据科学类公众号，你平均需要5分钟阅读。这1000多篇……你拿出计算器认真算了一下。

读完这一宿采集到的文章，你不眠不休的话，也需要85个小时。

在你阅读的这85个小时里面，许许多多的数据科学类公众号新文章还会源源不断涌现出来。

你感觉自己快被文本内容淹没了，根本透不过气……

学了这么长时间Python，你应该想到——我能否用自动化工具来分析它？

好消息，答案是可以的。

但是用什么样的工具呢？

翻了翻你自己的武器库，你发现了词云、情感分析和决策树。

然而，在帮你应对信息过载这件事儿上，上述武器好像都不大合适。

词云你打算做几个？全部文章只做一个的话，就会把所有文章的内容混杂起来，没有意义——因为你知道这些文章谈的就是数据科学啊！如果每一篇文章都分别做词云，1000多张图浏览起来，好像也没有什么益处。

你阅读数据科学类公众号文章是为了获得知识和技能，分析文字中蕴含的情感似乎于事无补。

决策树是可以用来做分类的，没错。可是它要求的输入信息是结构化的有标记数据，你手里握着的这一大堆文本，却刚好是非结构化的无标记数据。

全部武器都哑火了。

没关系。本文帮助你在数据科学武器库中放上一件新式兵器。它能够处理的，就是大批量的非结构无标记数据。在机器学习的分类里，它属于非监督学习(unsupervised machine learning)范畴。具体而言，我们需要用到的方法叫主题建模(topic model)或者主题抽取(topic extraction)。

主题

既然要建模，我们就需要弄明白建立什么样的模型。

根据维基百科的定义，主题模型是指：

在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。

这个定义本身好像就有点儿抽象，咱们举个例子吧。

还是维基百科上，对一条可爱的小狗有这样一段叙述。

阿博（Bo；2008年10月9日－）是美国第44任总统巴拉克·奥巴马的宠物狗，也是奥巴马家族的成员之一。阿博是一只已阉割的雄性黑色长毛葡萄牙水犬。奥巴马一家本来没有养狗，因为他的大女儿玛丽亚对狗过敏。但为了延续白宫主人历年均有养狗的传统，第一家庭在入主白宫后，花了多个月去观察各种犬种，并特地选择了葡萄牙水犬这一种掉毛少的低敏狗。

我们来看看这条可爱的小狗照片：

问题来了，这篇文章的主题(topic)是什么？

你可能脱口而出，“狗啊！”

且慢，换个问法。假设一个用户读了这篇文章，很感兴趣。你想推荐更多他可能感兴趣的文章给他，以下2段文字，哪个选项更合适呢？

选项1：

阿富汗猎狗（Afghan Hound）是一种猎犬，也是最古老的狗品种。阿富汗猎狗外表厚实，细腻，柔滑，它的尾巴在最后一环卷曲。阿富汗猎狗生存于伊朗，阿富汗东部的寒冷山上，阿富汗猎狗最初是用来狩猎野兔和瞪羚。阿富汗猎狗其他名称包含巴尔赫塔子库奇猎犬，猎犬，俾路支猎犬，喀布尔猎犬，或非洲猎犬。

选项2：

1989年夏天，奥巴马在西德利·奥斯汀律师事务所担任暑期工读生期间，结识当时已是律师的米歇尔·鲁滨逊。两人于1992年结婚，现有两个女儿——大女儿玛丽亚在1999年于芝加哥芝加哥大学医疗中心出生，而小女儿萨沙在2001年于芝加哥大学医疗中心出生。

给你30秒，思考一下。

你的答案是什么？

我的答案是——不确定。

人类天生喜欢把复杂问题简单化。我们恨不得把所有东西划分成具体的、互不干扰的分类，就如同药铺的一个个抽屉一样。然后需要的时候，从对应的抽屉里面取东西就可以了。

这就像是职业。从前我们说“三百六十行”。随便拿出某个人来，我们就把他归入其中某一行。

现在不行了，反例就是所谓的“斜杠青年”。

主题这个事情，也同样不那么泾渭分明。介绍小狗Bo的文章虽然不长，但是任何单一主题都无法完全涵盖它。

如果用户是因为对小狗的喜爱，阅读了这篇文章，那么显然你给他推荐选项1会更理想；但是如果用户关注的是奥巴马的家庭，那么比起选项2来，选项1就显得不是那么合适了。

我们必须放弃用一个词来描述主题的尝试，转而用一系列关键词来刻画某个主题（例如“奥巴马”+“宠物“+”狗“+”第一家庭“）。

在这种模式下，以下的选项3可能会脱颖而出：

据英国《每日邮报》报道，美国一名男子近日试图绑架总统奥巴马夫妇的宠物狗博（Bo），不惜由二千多公里远的北达科他州驱车往华盛顿，但因为走漏风声，被特勤局人员逮捕。奥巴马夫妇目前养有博和阳光（Sunny）两只葡萄牙水犬。

讲到这里，你大概弄明白了主题抽取的目标了。可是面对浩如烟海的文章，我们怎么能够把相似的文章聚合起来，并且提取描述聚合后主题的重要关键词呢？

主题抽取有若干方法。目前最为流行的叫做隐含狄利克雷分布(Latent Dirichlet allocation)，简称LDA。

LDA相关原理部分，置于本文最后。下面我们先用Python来尝试实践一次主题抽取。如果你对原理感兴趣，不妨再做延伸阅读。

准备

准备工作的第一步，还是先安装Anaconda套装。详细的流程步骤请参考《如何用Python做词云》一文。文章

气动打号机价格

木材成形设备价格

实木浴室柜