在概率论中,马尔可夫模型是用来对随机变化系统建模的随机模型。[1] 其假设未来状态只取决于当前状态,而不取决于之前发生的事件(也就是说,其假设了马尔可夫性)。一般来说,这一假设使得采用模型进行推理和计算成为可能,否则这将是难以处理的。因此,在预测建模和概率预测领域,人们期望给定的模型是满足马尔可夫性的。
有四种常见的马尔可夫模型用于不同的情况,这取决于是否每个连续状态都是可观测的,以及系统是否要根据观测结果进行调整:
系统状态是完全可见的 | 系统状态是部分可见的 | |
---|---|---|
系统是自主的 | 马尔可夫链 | 隐马尔可夫模型 |
系统是受控的 | 马尔可夫决策过程 | 部分可观测马尔可夫决策过程 |
最简单的马尔可夫模型是马尔可夫链。它用随时间变化的随机变量来模拟系统的状态。[1] 在这种情况下,马尔可夫性表明,这个变量的分布只取决于先前的状态分布。马尔可夫链的一个例子是马尔可夫链蒙特卡罗(Markov chain Monte Carlo),它使用马尔可夫性证明了用于实现随机行走的特定方法将从联合分布中进行采样。
隐马尔可夫模型是一种状态只能被部分观测的马尔可夫链。换句话说,观测值与系统的状态相关,但是它们通常不足以精确地描述状态。隐马尔可夫模型有几种众所周知的算法。例如,给定一个观察序列,维特比算法(Viterbi algorithm)可计算最有可能的对应状态序列,前向算法(forward algorithm)可计算观测序列的概率,鲍姆-韦尔奇算法(Baum–Welch algorithm)可估计隐马尔可夫模型的开始概率、转移函数和观察函数。
隐马尔科夫模型的一种常见的用途是语音识别,其中观测数据是语音音频波形,隐藏状态是口语文本。在这个例子中,维特比算法将给出对应给定语音音频最有可能的口语单词序列。
马尔可夫决策过程是马尔可夫链,其状态转移取决于当前状态和作用于系统的动作向量。通常,马尔可夫决策过程被用来计算一个行动策略,该策略将使预期回报的效用最大化。它与强化学习密切相关,可以用数值迭代和相关方法求解。
部分可观测的马尔可夫决策过程(POMDP)是系统状态仅被部分观测的马尔可夫决策过程。POMDPs已知是NP完全的,但是最近的近似技术已使它们用于各种应用之中,例如用于控制简单的媒介或机器人。[2]
马尔可夫随机场或马尔可夫网络可以认为是马尔可夫链在多维度上的推广。在马尔可夫链中,状态只依赖于时间上的前一个状态,而在马尔可夫随机场中,每个状态都依赖于它在多个方向上的邻态。马尔可夫随机场可以被可视化为随机变量的场或图,其中每个随机变量的分布取决于与其相连的相邻变量。更具体地说,图中任意随机变量的联合分布可以计算为图中所有包含该随机变量的团(Clique)的“团势(clique potentials)势”的乘积。将问题建模为马尔可夫随机场是有用的,因为这意味着可以用这种方式计算图中每个顶点的联合分布。
^Gagniuc, Paul A. (2017). Markov Chains: From Theory to Implementation and Experimentation. USA, NJ: John Wiley & Sons. pp. 1–256. ISBN 978-1-119-38755-8..
^Kaelbling, L. P.; Littman, M. L.; Cassandra, A. R. (1998). "Planning and acting in partially observable stochastic domains" (Abstract + full article). Artificial Intelligence. 101 (1–2): 99–134. doi:10.1016/S0004-3702(98)00023-X. ISSN 0004-3702. Retrieved 26 3月 2013. Check date values in: |accessdate= (help).
^Fine, S.; Singer, Y. (1998). "The hierarchical hidden markov model: Analysis and applications". Machine Learning. 32 (1): 41–62. doi:10.1023/A:1007469218079..
^Bui, H. H.; Venkatesh, S.; West, G. (2002). "Policy recognition in the abstract hidden markov model". Journal of Artificial Intelligence Research. 17: 451–499. doi:10.1613/jair.839..
^Theocharous, G. (2002). Hierarchical Learning and Planning in Partially Observable Markov Decision Processes (PhD). Michigan State University..
^Luhr, S.; Bui, H. H.; Venkatesh, S.; West, G. A. W. (2003). "Recognition of Human Activity through Hierarchical Stochastic Learning". PERCOM '03 Proceedings of the First IEEE International Conference on Pervasive Computing and Communications. pp. 416–422. CiteSeerX 10.1.1.323.928. doi:10.1109/PERCOM.2003.1192766. ISBN 978-0-7695-1893-0..
^Pratas, D.; Hosseini, M.; Pinho, A. J. (2017). "Substitutional tolerant Markov models for relative compression of DNA sequences". PACBB 2017 – 11th International Conference on Practical Applications of Computational Biology & Bioinformatics, Porto, Portugal. pp. 265–272. doi:10.1007/978-3-319-60816-7_32. ISBN 978-3-319-60815-0..
^Pratas, D.; Pinho, A. J.; Ferreira, P. J. S. G. (2016). "Efficient compression of genomic sequences". Data Compression Conference (DCC), 2016. IEEE. pp. 231–240. doi:10.1109/DCC.2016.60. ISBN 978-1-5090-1853-6..
暂无