如何用简单易懂的例子解释隐马尔可夫模型？

来，咱聊聊一个叫“隐马尔可夫模型”（Hidden Markov Model，简称HMM）的东西。听名字可能觉得挺玄乎，但其实它就像一个侦探在破案，只不过这个侦探面对的是一些“看不见”的线索，然后根据这些线索去推测“看得见”的真相。

想象一个天气侦探的故事

咱们就拿天气来举例，这个例子非常直观。

假设你是一个在山里的小村庄里的侦探。你的任务是判断今天的天气到底是“晴天”还是“下雨天”。然而，你被限制在一个房间里，你看不到窗外的真实天气。你唯一能得到的信息，是你村里那只叫“小黄”的狗狗的行为。

“看不见”的状态（隐藏状态）：真实的天气，也就是“晴天”和“下雨天”。你不知道它们是什么。
“看得见”的观察（观测值）：小黄的行为。比如，小黄今天是在“摇尾巴”还是在“打呼噜”。

HMM怎么工作？就像小黄的“天气预报”

HMM就是用小黄的行为来推测天气，它基于两个核心的想法：

1. “状态转移”：今天的天气怎么影响明天？
如果今天是晴天，那么明天是晴天的可能性有多大？明天是下雨天的可能性有多大？
如果今天是下雨天，那么明天是晴天的可能性有多大？明天是下雨天的可能性有多大？

这就像是在说，天气之间是有联系的。晴天后，很可能还是晴天；下雨天后，也可能继续下雨，但也有转晴的可能。这些概率，我们称之为状态转移概率。

例子：
今天晴天 > 明天晴天：90%
今天晴天 > 明天雨天：10%
今天雨天 > 明天晴天：30%
今天雨天 > 明天雨天：70%

2. “发射概率”：天气怎么影响小黄的行为？
如果是晴天，小黄“摇尾巴”的可能性有多大？“打呼噜”的可能性有多大？
如果是下雨天，小黄“摇尾巴”的可能性有多大？“打呼噜”的可能性有多大？

这就像是在说，不同的天气会影响小黄的“心情”和“行为”。晴天的时候，小黄可能更活跃，喜欢摇尾巴；下雨天的时候，小黄可能懒洋洋的，喜欢打呼噜。这些概率，我们称之为观测概率（或者发射概率）。

例子：
晴天 > 小黄摇尾巴：80%
晴天 > 小黄打呼噜：20%
雨天 > 小黄摇尾巴：30%
雨天 > 小黄打呼噜：70%

把模型搭建起来，开始“破案”

现在，我们有了这些概率（状态转移概率和观测概率），以及我们“看得见”的线索——小黄连续几天的行为。

比如，我们观察到小黄第一天摇尾巴，第二天打呼噜。

我们就可以利用HMM来推测：第一天最可能是晴天还是雨天？第二天最可能是晴天还是雨天？

思考过程（有点像侦探在脑子里过一遍）：

第一天：小黄摇尾巴
如果第一天是晴天（概率很高），小黄摇尾巴的概率是80%。
如果第一天是雨天（概率低），小黄摇尾巴的概率是30%。
所以，第一天是晴天的可能性更大。

第二天：小黄打呼噜
现在要考虑从第一天到第二天的天气转移。
情景1：第一天是晴天（可能性高）
晴天 > 明天晴天 (90%) > 小黄打呼噜 (20%)
晴天 > 明天雨天 (10%) > 小黄打呼噜 (70%)
那么，从“第一天晴天”出发，到“第二天打呼噜”的概率是：(晴天>晴天概率晴天打呼噜概率) + (晴天>雨天概率雨天打呼噜概率) = (0.9 0.2) + (0.1 0.7) = 0.18 + 0.07 = 0.25

情景2：第一天是雨天（可能性低）
雨天 > 明天晴天 (30%) > 小黄打呼噜 (20%)
雨天 > 明天雨天 (70%) > 小黄打呼噜 (70%)
那么，从“第一天雨天”出发，到“第二天打呼噜”的概率是：(雨天>晴天概率晴天打呼噜概率) + (雨天>雨天概率雨天打呼噜概率) = (0.3 0.2) + (0.7 0.7) = 0.06 + 0.49 = 0.55

看到区别了吗？

虽然我们不知道第一天的真实天气，但结合了“小黄第一天摇尾巴”和“第二天打呼噜”这两条线索，我们发现，从“第一天是雨天”推导出的“第二天打呼噜”的整体可能性（0.55）比从“第一天是晴天”推导出的可能性（0.25）要高。

结论：

通过HMM这个模型，我们能更准确地推断出，第一天最可能是雨天，第二天最可能是雨天。

HMM能解决的三类问题

就像我们刚才做的，HMM主要能回答三个基本问题：

1. 评估（Likelihood）：给定一个模型（所有概率都已知）和一个观测序列（小黄的行为），这个观测序列出现的概率有多大？（我们刚才的计算就是这个思路的雏形）。
2. 解码（Decoding）：给定一个模型和一个观测序列，最有可能的隐藏状态序列是什么？（也就是我们刚才推断出“第一天雨天，第二天雨天”）。这是最常用的问题。
3. 学习（Learning）：给定一组观测序列，如何估计出模型中的所有概率参数（状态转移概率和观测概率）？（比如，我们怎么知道那90%的转移概率？这需要大量的数据来训练模型）。

HMM到底有什么用？

这个模型听起来有点像天气预报，但它其实应用非常广泛，很多地方都用得上：

语音识别：我们的声音（观测序列）是怎么发出来的？背后是声带的振动、空气流等等（隐藏状态）。HMM可以帮助我们识别说出的词语。
中文分词：一个汉字（观测）是属于一个词的开头、中间还是结尾？这背后隐藏着词的结构（隐藏状态）。
手写识别：写字（观测）时，笔画的运动轨迹背后隐藏着字母或汉字的结构（隐藏状态）。
生物信息学： DNA序列（观测）背后隐藏着基因的结构、功能区域（隐藏状态）。
金融：股票价格的涨跌（观测）背后，可能隐藏着市场情绪、经济指标等（隐藏状态）。

总结一下

隐马尔可夫模型，就像一个聪明的侦探，虽然看不到事件的本质（隐藏状态），但通过观察一系列间接的线索（观测值），并结合“事物的发展规律”（状态转移概率）和“事物表现方式”（观测概率），就能推断出最可能发生的本质情况。它将“看不见”和“看得见”的联系起来，帮我们揭示背后的规律。

希望这个小黄侦探的故事，能让你对HMM有个更直观的理解！它不是什么高不可攀的神奇算法，而是将概率和逻辑巧妙结合的强大工具。

网友意见

摘自我的博客http://blog.csdn.net/ppn029012

1. 赌场风云(背景介绍)

最近一个赌场的老板发现生意不畅，于是派出手下去赌场张望。经探子回报，有位大叔在赌场中总能赢到钱，玩得一手好骰子，几乎是战无不胜。而且每次玩骰子的时候周围都有几个保镖站在身边，让人不明就里，只能看到每次开局，骰子飞出，沉稳落地。老板根据多年的经验，推测这位不善之客使用的正是江湖失传多年的"偷换骰子大法”(编者注:偷换骰子大法，用兜里自带的骰子偷偷换掉均匀的骰子)。老板是个冷静的人，看这位大叔也不是善者，不想轻易得罪他，又不想让他坏了规矩。正愁上心头，这时候进来一位名叫HMM帅哥，告诉老板他有一个很好的解决方案。

不用近其身，只要在远处装个摄像头，把每局的骰子的点数都记录下来。

然后HMM帅哥将会运用其强大的数学内力，用这些数据推导出

1. 该大叔是不是在出千?

2. 如果是在出千，那么他用了几个作弊的骰子?　还有当前是不是在用作弊的骰子。

3. 这几个作弊骰子出现各点的概率是多少?

天呐，老板一听，这位叫HMM的甚至都不用近身，就能算出是不是在作弊，甚至都能算出别人作弊的骰子是什么样的。那么，只要再当他作弊时，派人围捕他，当场验证骰子就能让他哑口无言。

2. HMM是何许人也?

在让HMM开展调查活动之前，该赌场老板也对HMM作了一番调查。

HMM(Hidden Markov Model), 也称隐性马尔可夫模型，是一个概率模型，用来描述一个系统隐性状态的转移和隐性状态的表现概率。

系统的隐性状态指的就是一些外界不便观察(或观察不到)的状态, 比如在当前的例子里面, 系统的状态指的是大叔使用骰子的状态，即

{正常骰子, 作弊骰子1, 作弊骰子2,...}

隐性状态的表现也就是, 可以观察到的，由隐性状态产生的外在表现特点。这里就是说, 骰子掷出的点数.

{1,2,3,4,5,6}

HMM模型将会描述，系统隐性状态的转移概率。也就是大叔切换骰子的概率,下图是一个例子，这时候大叔切换骰子的可能性被描述得淋漓尽致。

很幸运的，这么复杂的概率转移图，竟然能用简单的矩阵表达, 其中a_{ij}代表的是从i状态到j状态发生的概率

当然同时也会有，隐性状态表现转移概率。也就是骰子出现各点的概率分布, (e.g. 作弊骰子1能有90%的机会掷到六，作弊骰子2有85%的机会掷到'小’). 给个图如下,

隐性状态的表现分布概率也可以用矩阵表示出来，

把这两个东西总结起来，就是整个HMM模型。

这个模型描述了隐性状态的转换的概率，同时也描述了每个状态外在表现的概率的分布。总之，HMM模型就能够描述扔骰子大叔作弊的频率(骰子更换的概率)，和大叔用的骰子的概率分布。有了大叔的HMM模型，就能把大叔看透，让他完全在阳光下现形。

3. HMM能干什么!

总结起来HMM能处理三个问题，

3.1 解码(Decoding)

解码就是需要从一连串的骰子中，看出来哪一些骰子是用了作弊的骰子，哪些是用的正常的骰子。

比如上图中，给出一串骰子序列(3,6,1,2..)和大叔的HMM模型, 我们想要计算哪一些骰子的结果(隐性状态表现)可能对是哪种骰子的结果(隐性状态).

3.2学习(Learning)

学习就是，从一连串的骰子中，学习到大叔切换骰子的概率，当然也有这些骰子的点数的分布概率。这是HMM最为恐怖也最为复杂的招数！！

3.3 估计(Evaluation)

估计说的是，在我们已经知道了该大叔的HMM模型的情况下，估测某串骰子出现的可能性概率。比如说，在我们已经知道大叔的HMM模型的情况下，我们就能直接估测到大叔扔到10个6或者8个1的概率。

4. HMM是怎么做到的?

4.1 估计

估计是最容易的一招，在完全知道了大叔的HMM模型的情况下，我们很容易就能对其做出估计。

现在我们有了大叔的状态转移概率矩阵A,B就能够进行估计。比如我们想知道这位大叔下一局连续掷出10个6的概率是多少? 如下

这表示的是，在一开始隐性状态(s0)为1，也就是一开始拿着的是正常的骰子的情况下，这位大叔连续掷出10个6的概率。

现在问题难就难在，我们虽然知道了HMM的转换概率，和观察到的状态V{1:T}, 但是我们却不知道实际的隐性的状态变化。

好吧，我们不知道隐性状态的变化，那好吧，我们就先假设一个隐性状态序列, 假设大叔前5个用的是正常骰子, 后5个用的是作弊骰子1.

好了，那么我们可以计算，在这种隐性序列假设下掷出10个6的概率.

这个概率其实就是，隐性状态表现概率B的乘积.

但是问题又出现了，刚才那个隐性状态序列是我假设的，而实际的序列我不知道，这该怎么办。好办，把所有可能出现的隐状态序列组合全都试一遍就可以了。于是,

R就是所有可能的隐性状态序列的集合。的嗯，现在问题好像解决了，我们已经能够通过尝试所有组合来获得出现的概率值，并且可以通过A,B矩阵来计算出现的总概率。

但是问题又出现了，可能的集合太大了, 比如有三种骰子，有10次选择机会, 那么总共的组合会有3^10次...这个量级O(c^T)太大了，当问题再大一点时候，组合的数目就会大得超出了计算的可能。所以我们需要一种更有效的计算P(V(1:T)概率的方法。

比如说如下图的算法可以将计算P(V1:T)的计算复杂度降低至O(cT).

有了这个方程，我们就能从t=0的情况往前推导，一直推导出P(V1:T)的概率。下面让我们算一算，大叔掷出3,2,1这个骰子序列的可能性有多大(假设初始状态为1, 也就是大叔前一次拿着的是正常的骰子)?

4.2 解码(Decoding)

解码的过程就是在给出一串序列的情况下和已知HMM模型的情况下，找到最可能的隐性状态序列。

用数学公式表示就是, (V是Visible可见序列, w是隐性状态序列, A,B是HMM状态转移概率矩阵)

(公式太多，请具体看我博客中的推导

机器学习 --- 4. 大内密探HMM(隐马尔可夫)围捕赌场老千

)

然后又可以使用估计(4.1)中的前向推导法，计算出最大的P(w(1:T), V(1:T)).

在完成前向推导法之后，再使用后向追踪法(Back Tracking)，对求解出能令这个P(w(1:T), V(1:T))最大的隐性序列.这个算法被称为维特比算法(Viterbi Algorithm).

4.3 学习(Learning)

学习是在给出HMM的结构的情况下(比如说假设已经知道该大叔有3只骰子，每只骰子有6面),计算出最有可能的模型参数.

(公式太多，请具体看我博客中的推导

机器学习 --- 4. 大内密探HMM(隐马尔可夫)围捕赌场老千

)

5. HMM 的应用

以上举的例子是用HMM对掷骰子进行建模与分析。当然还有很多HMM经典的应用，能根据不同的应用需求，对问题进行建模。

但是使用HMM进行建模的问题，必须满足以下条件,

1.隐性状态的转移必须满足马尔可夫性。(状态转移的马尔可夫性:一个状态只与前一个状态有关)

2. 隐性状态必须能够大概被估计。

在满足条件的情况下,确定问题中的隐性状态是什么,隐性状态的表现可能又有哪些.

HMM适用于的问题在于，真正的状态(隐态)难以被估计，而状态与状态之间又存在联系。

5.1 语音识别

语音识别问题就是将一段语音信号转换为文字序列的过程. 在个问题里面

隐性状态就是: 语音信号对应的文字序列

而显性的状态就是: 语音信号.

HMM模型的学习(Learning): 语音识别的模型学习和上文中通过观察骰子序列建立起一个最有可能的模型不同.　语音识别的HMM模型学习有两个步骤:

1. 统计文字的发音概率,建立隐性表现概率矩阵Ｂ

2. 统计字词之间的转换概率(这个步骤并不需要考虑到语音,可以直接统计字词之间的转移概率即可)

语音模型的估计(Evaluation): 计算"是十四”,"四十四"等等的概率,比较得出最有可能出现的文字序列.

5.2 手写识别

这是一个和语音差不多,只不过手写识别的过程是将字的图像当成了显性序列.

5.3 中文分词

“总所周知，在汉语中，词与词之间不存在分隔符（英文中，词与词之间用空格分隔，这是天然的分词标记），词本身也缺乏明显的形态标记，因此，中文信息处理的特有问题就是如何将汉语的字串分割为合理的词语序。例如，英文句子：you should go to kindergarten now 天然的空格已然将词分好，只需要去除其中的介词“to”即可；而“你现在应该去幼儿园了”这句表达同样意思的话没有明显的分隔符，中文分词的目的是，得到“你/现在/应该/去/幼儿园/了”。那么如何进行分词呢？主流的方法有三种：第1类是基于语言学知识的规则方法，如：各种形态的最大匹配、最少切分方法；第2类是基于大规模语料库的机器学习方法，这是目前应用比较广泛、效果较好的解决方案．用到的统计模型有N元语言模型、信道—噪声模型、最大期望、HMM等。第3类也是实际的分词系统中用到的，即规则与统计等多类方法的综合。”[1]使用HMM进行中文分词.

5.4 HMM实现拼音输入法

拼音输入法,是一个估测拼音字母对应想要输入的文字(隐性状态)的过程(比如, ‘pingyin’ -> 拼音)

使用HMM实现简单拼音输入法

参考:

http:// ai.stanford.edu/~serafi m/CS262_2007/notes/lecture5.pdf

类似的话题

如何用简单易懂的例子解释隐马尔可夫模型？

来，咱聊聊一个叫“隐马尔可夫模型”（Hidden Markov Model，简称HMM）的东西。听名字可能觉得挺玄乎，但其实它就像一个侦探在破案，只不过这个侦探面对的是一些“看不见”的线索，然后根据这些线索去推测“看得见”的真相。想象一个天气侦探的故事咱们就拿天气来举例，这个例子非常直观。假设你是一.............
如何用简单易懂的例子解释条件随机场（CRF）模型？它和HMM有什么区别？

想象一下，你正在做一个填空游戏。给你一句话，里面有一些词被挖空了，你需要根据上下文把这些词填回去。比如：“小明今天很高兴，因为他收到了一个_______的礼物。”你可能会填“惊喜”、“心仪”、“特别”等等。条件随机场（CRF）就像一个非常聪明的填空助手。它不仅仅看被挖空的那个地方，还会同时考虑整个.............
如何用简单易懂的语言来介绍量子物理？

好的，我们来聊聊量子物理，尽量用简单易懂的方式，并且讲得详细一些！想象一下，我们一直以来所理解的世界，是像台球一样，球在桌子上滚动，我们可以预测它的轨迹，知道它的大小、位置和速度。这就是我们熟悉的经典物理。但是，当科学家们开始研究非常非常小的东西，比如原子、电子、光子（光的最小单位）的时候，他们发现.............
如何用简单易懂的话语阐释康德的哲学观点？

好的，咱们试着用大白话聊聊康德老先生的那些“大道理”，尽量讲得细致点，也别弄得跟机器报告似的。想象一下，康德他老人家呀，就好比一个特别爱琢磨、又特别喜欢把东西弄清楚的“思想侦探”。他生活的那个年代，大家对“什么才是真的”、“我们怎么知道事情”、“对错到底是怎么回事”这些问题，争论得不亦乐乎。康德就想.............
程序员如何简单易懂的向老板解释架构的重要性？

老板你好，咱们聊聊这个“架构”的事儿，我尽量用大白话给你讲明白，让你心里有数，咱们也少走弯路。你想啊，咱们盖房子，要是没个靠谱的设计图纸，就凭着感觉一砖一瓦垒上去，会怎么样？盖出来肯定歪七扭八：结构不稳，后期稍微加个窗户，弄不好墙就塌了。住起来肯定不舒服：哪里放厨房？哪里放厕所？动线乱七.............
面包烘烤箱如何做面包给大家传授简单易懂的方法

.......
区块链是什么，如何简单易懂地介绍区块链？

想象一下，你和一群朋友一起玩一个记账游戏。你们每个人都有一个账本，记录着谁给了谁多少钱。传统的记账方式：一般情况下，可能有一个中心化的机构，比如银行，来保管所有人的账本。每次交易发生，你告诉银行，银行在自己的总账本上记一笔，然后通知大家。这样一来，银行就掌握了所有信息，也意味着银行是这个系统的“权威.............
比特币（Bitcoin）是什么，如何简单易懂地介绍比特币？

你好！很高兴能为你详细又通俗易懂地介绍比特币。咱们就把它当成一种很有趣的新鲜事物来聊，争取让你听完之后，对它有个清晰的认识，好像手里拿着个实实在在的东西一样。想象一下，在很久很久以前，人们开始用贝壳、金银来交易。后来，有了纸币，政府发行，大家觉得方便，就用纸币买东西。但纸币也有个问题，就是政府可以.............
如何简明易懂地说明数据包络线分析法（DEA）?

你是不是想了解一种评估效率的方法，而且听起来有点学术，但其实用起来挺直观的？我来跟你好好说道说道这个“数据包络线分析法”，或者叫DEA。想象一下，你有很多家公司、很多个部门、甚至很多个国家，你想知道它们谁更“厉害”，谁更“有效率”。你可能会想，怎么定义“厉害”呢？简单来说，就是用最少的资源，产出最多.............
如何用简单的例子解释什么是 Generalized Method of Moments (GMM)？

说到数据分析里的那些高级方法，很多人听到“矩”这个词就觉得云里雾里。但其实，广义矩估计法（Generalized Method of Moments，简称GMM）没那么神秘，它就像我们在生活中遇到的一个常见问题，只不过用数学的方式给它套上了一个更严谨的框架。咱们先抛开那些复杂的公式，用一个大家都能理.............
如何用简单的方法证明「在周长一定时，圆的面积最大」？

好的，我们来用一种相对简单直观的方法来证明“在周长一定时，圆的面积最大”。这个证明不需要高深的微积分知识，但会用到一些几何上的思想和代数上的推导。核心思想：我们的目标是比较一个固定周长的封闭图形，看看哪种图形能围出最大的面积。直觉告诉我们，越“圆润”的图形，面积可能越大。我们将通过尝试一些“非圆”的.............
如何用简单的语言介绍「光镊」的原理？

想象一下，你手里拿着一个非常非常精细的吸尘器，但它不是吸走灰尘，而是能“抓住”那些微小的、你肉眼几乎看不见的东西，比如单个的细菌、细胞，甚至比它们更小的分子。这就是“光镊”大致的工作方式。核心原理：光有“推力”和“拉力”你可能觉得光就是来照亮的，是给我们看见东西的，但实际上，光也是有能量的，而且它还.............
如何用简单的语言解释「薛定谔的猫」？

想象一下，咱们来玩一个脑筋急转弯，就叫“薛定谔的猫”吧。这名字听起来挺玄乎的，但其实是想说明一个有点颠覆我们日常认知的东西。咱们先来准备一个特别的箱子，这个箱子是完全封闭的，外面一点儿也看不到里面。然后，咱们往箱子里放一样东西，那就是一只猫。除了猫，箱子里还有一个小机关。这个机关有点意思，它包含一个.............
如何用简单的方法治疗由于吸烟引起的咳嗽？（排除戒烟法）

.......
如何用最简单的语言统一描述多元函数求导（对向量求导、对矩阵求导等）？

要统一描述多元函数求导，核心在于理解我们究竟在“导”什么，以及导出来之后“是”什么。这就像我们测量一个东西的“变化速度”。最基础的点：导数是“变化率”回想一下我们学过的单变量函数求导，比如 $f(x) = x^2$。它的导数是 $f'(x) = 2x$。这个 $2x$ 告诉我们，当 $x$ 发生一点.............
如何用最简单的方式解释依赖注入？依赖注入是如何实现解耦的?

说实话，要完全去除 AI 的痕迹，得看你对“痕迹”的定义了。但我会尽量用一种非常自然、口语化的方式来和你聊聊依赖注入（DI）这个事儿，就好像我们在咖啡馆里随便扯淡一样。依赖注入，就是“你想要啥，我给你送啥”想象一下，你现在要写一段代码，做点什么事儿。比如，你写了一个 `UserService`，这.............
如何用一段简单的代码讲述一个悲伤的故事？

```python 这是一个关于等待的故事。from datetime import datetime, timedeltaimport timedef simulate_waiting_story(): """ 模拟一段关于等待的悲伤故事。 """ 设定一个重要的日期，也.............
如何用最简单方法去除蟑螂

.......
什么是形式逻辑和辩证逻辑，如何用最简单的例子解释下？

咱们聊聊形式逻辑和辩证逻辑，这俩名字听起来有点拗口，但其实它们是我们思考问题、分析情况的两种重要方式，就像咱们手里拿着的不同工具，解决不同问题。形式逻辑：精确严谨的“数学公式”你可以把形式逻辑想象成一套严谨的数学公式，它关注的是“说什么”以及“如何说”才能保证意思的清晰和准确。它不关心具体的内容是什.............
如何用一个最简单的比喻告诉周围不懂物理的人,什么是低温等离子体？

你想知道低温等离子体是啥？嗯，别想太复杂，就把它想象成一锅“不太热但很活跃”的汤。你想啊，平常咱们喝汤，得烧热了，水是水，食材是食材，它们各自乖乖的。但如果这锅汤“有点不寻常”，它不是滚烫的那种，温度其实跟咱们摸着也不会烫伤的那种差不多，甚至可能比温水还凉一点点。但这锅汤里，它不再是单纯的水和食.............