VMware Hands-on Labs - HOL-1701-USE-3-ZH


练习概述 - HOL-1701-USE-3 - vRealize Operations 和 vRealize Log Insight:确保性能和可用性

练习概述


在本练习中,我们将讨论如何使用 vRealize Operations 和 vRealize Log Insight 对计算、网络、存储和应用进行集成式性能和运行状况监控,以提高性能、避免中断并主动管理软件定义的数据中心 (SDDC)。 

桌面上有一个 Readme.txt文件,其中列出了身份验证信息。

练习单元列表:

练习负责人:

本练习手册可以从动手练习文档站点下载,网址为:

http://docs.hol.vmware.com/

本练习可能会提供其他语言版本。要设置语言首选项并在练习中部署本地化手册,可以在本文档的帮助指导下完成:

http://docs.hol.vmware.com/announcements/nee-default-language.pdf


练习指导


注意:完成本练习需要 90 多分钟。这些单元彼此相互独立,因此您可以选择任一单元从头学起。您可以使用目录访问所选择的任何单元。

目录可以从练习手册的右上角访问。


 

主控制台的位置

 

  1. 红框区域包含主控制台。练习手册位于主控制台右侧的选项卡上。
  2. 个别练习可能会用到其他控制台,分别位于左上角的不同选项卡上。如有需要,系统将引导您打开另一特定控制台。
  3. 练习时间为 90 分钟,由计时器计时。练习结果无法保存。所有工作必须在练习课程中完成。但是您可以单击“EXTEND”(延长)延长时间。在 VMware 活动期间,您可以将练习时间延长两次,最多可延长 30 分钟。每单击一次可延长 15 分钟。非 VMware 活动期间,最多可将练习时间延长至 9 小时 30 分钟。每单击一次可延长一小时。

 

 

激活提示或水印

 

首次开始练习时,您可能会注意到桌面上有一个水印,提示 Windows 尚未激活。 

虚拟化的一个主要优势在于,可以在任意平台上移动和运行虚拟机。本动手练习利用了这一优势,我们可以运行多个数据中心内的练习。但是,这些数据中心的处理器可能不同,这就需要通过 Internet 进行 Microsoft 激活检查。

请放心,VMware 和这些动手练习完全符合 Microsoft 的许可要求。您使用的练习是一个独立的单元,没有对 Internet 的完全访问权限,而 Windows 需要该权限才能验证激活。如果没有对 Internet 的完全访问权限,此自动化过程会失败,并且显示此水印。

这一表面问题不会影响到您的练习。 

 

 

键盘式数据输入的替代方法

在本单元中,您将向主控制台中输入文本。除直接输入外,还有两种非常有用的数据输入方法,可简化输入复杂数据的过程。

 

 

单击,将练习手册内容拖放到控制台的活动窗口

也可以单击,将文本和命令行界面 (CLI) 命令直接从练习手册拖放到主控制台中的活动窗口。 

 

 

使用在线国际键盘

 

您还可以使用主控制台中的在线国际键盘。

  1. 单击 Windows 快速启动任务栏上的键盘图标。

 

 

在活动的控制台窗口中单击一下

 

在本例中,您将使用在线键盘输入电子邮件地址中所使用的“@”符号。在美式键盘布局中,输入“@”符号需要按住 Shift 并按 2。

  1. 在活动的控制台窗口中单击一下。
  2. 单击 Shift键。

 

 

单击 @ 键

 

  1. 单击 @键

您会看到活动控制台窗口中输入了 @ 符号。

 

 

查看屏幕右下部分

 

请检查练习的所有启动例程是否都已结束,并已准备就绪。如果您看到“Ready”(准备就绪)以外的内容,请等待几分钟。如果 5 分钟后,您的练习仍未变为“Ready”(准备就绪)状态,请寻求帮助。

 

第 1 单元 - 跨 SDDC 的集成式运行状况和性能监控(15 分钟)

跨 SDDC 的集成式运行状况和性能监控简介


自学式算法和预测性分析功能可以关联监控数据,提供关于底层性能问题的智能警报,同时提出明确的纠正措施建议,从而促使问题更快解决。动态阈值可适应您的环境,从而大幅减少误报。


智能警报和引导式修复概述


在本单元中,我们将使用 vRealize Operations Manager 查看警报并使用引导式修复主动解决性能问题。


 

如果已登录 vRealize Operations - 历史实例 (HVM)

 

  1. 如果您已登录 vRealize Operations - 历史实例 (HVM),请单击“Home”(主页)图标并跳至本单元的步骤虚拟机摘要。否则,请继续执行下一步。

 

 

从 Windows 快速启动任务栏打开 Firefox 浏览器

 

  1. 在 Windows 快速启动任务栏上,单击 Firefox图标。

 

 

设置浏览器缩放级别

 

练习环境的默认分辨率是 1024x768。为了最大限度减少在 vRealize Operations 用户界面中执行大量滚动操作的需要,请调整 Firefox 中的缩放级别。   

  1. 打开 Firefox 菜单下拉列表。
  2. 设置所需的缩放级别。通常,80-90% 的缩放级别就足以在练习环境中为 vRealize Operations 提供充足的屏幕空间。另外,建议使用全屏选项。

 

 

选择 vRealize Operations Manager - 历史实例 (HVM)

 

  1. 从“Lab Links”(练习链接)菜单中选择“vRealize Operations Manager - Historical Instance”(vRealize Operations Manager - 历史实例)。

历史实例也称为历史视图模式 (HVM),相对于使用 vRealize Operations Manager 实时实例,用这种模式可以显示更全面的练习数据。但是,我们不能对历史实例环境进行永久性更改(如调整虚拟机大小)。

 

 

按照提示登录 vRealize Operations Manager

 

  1. 如果出现提示,则使用以下凭证登录 vRealize Operations Manager:
用户名:Admin
		密码:VMware1!

2.      单击“Login”(登录)按钮。

 

 

灰色运行状况

 

有时,vRealize Operations 历史实例 (HVM) 无法在练习环境中正确初始化。如果您在主仪表盘中看到一个灰色圆圈,请导航至桌面。否则,请跳过重新启动 HVM 服务脚本步骤。

 

 

重新启动 HVM 服务脚本

 

  1. 双击桌面上的“Restart HVM Services”(重新启动 HVM 服务)脚本。
  2. 此时将重新启动所需服务。
  3. 脚本完成时,您需要按 Enter 键以退出(未显示)。

脚本完成后,您大约有 4-6 分钟的时间无法登录 vRealize Operations - 历史实例 (HVM)。

 

 

虚拟机视图摘要

 

为了开始练习,我们需要选择虚拟机视图。

1. 单击“Recommended Actions”(建议操作)仪表盘中的“Virtual Machine (306)”(虚拟机 (306))视图。

 

 

查看“Health”(运行状况)徽标

 

我们首先查看整个环境的“Health”(运行状况)、“Risk”(风险)和“Efficiency”(能效)徽标。

利用自学式分析、动态阈值以及应用和基础架构性能的自动化关联,vRealize Operations 实现了运维可见性,并可立即确定正在显现的容量、性能和合规性问题。 

动态阈值可自动适应环境,以减少有关运行状况降级、性能瓶颈和容量短缺的警报数量,并且使警报更加具体。

智能警报还能对问题做出有意义的深度剖析并减少总体警报量,进而加快故障排除和根本原因分析。

  1. 通过最小化导航面板,留出更多空间。单击箭头图标
  2. 请注意,“Health”(运行状况)徽标已选中,显示的信息表示环境的运行状况相对良好。
  3. 向下滚动,查看与所选对象(在本例中为整个环境)相关的级别最高的运行状况警报的“Alerts”(警报)和“Suggested Fixes”(建议修复)。

 

 

查看“Risk”(风险)徽标

 

  1. 单击“Risk”(风险)徽标。
  2. 向下滚动,以查看与所选对象(在本例中为整个环境)相关的级别最高的风险警报的“Alerts”(警报)和“Suggested Fixes”(建议修复)。

 

 

查看“Efficiency”(能效)徽标

 

  1. 单击“Efficiency”(能效)徽标。
  2. 向下滚动,查看与所选对象(在本例中为整个环境)相关的级别最高的能效警报的“Alerts”(警报)和“Suggested Fixes”(建议修复)。
  3. 让我们返回“Health”(运行状况)徽标,单击“Health”(运行状况)徽标。

 

 

选择对象以查看详情

 

下面,我们来进一步分析报告的一些运行状况警报。 

  1. 使用滚动条查看警报
  2. 我们注意到为我们公司的关键任务应用提供支持的 win-apptier4存在一些性能问题。单击名称 win-apptier4,深入了解关于此虚拟机的具体详情。

 

 

查看虚拟机的详细信息

 

  1. 在“Summary”(摘要)选项卡中,我们可以通过单击浏览各个徽标图标确定此对象当前的运行状况、风险和能效状态,并查看“Recommended Actions”(建议操作)。
  2. 查看此对象的详细信息和配置
  3. 查看所有相关策略
  4. 深入了解性能指标。
  5. 查看此摘要中其他可用的小组件。
  6. 让我们再深入讨论一些警报和建议修复。单击“Virtual machine has unexpected high CPU workload”(虚拟机的 CPU 工作负载过高)警报。

 

 

了解智能警报

 

智能警报能够结合多种症状,生成侧重于基本问题的单个警报,同时还能为用户提供明确的建议,还可能包含修复选项。

智能警报可以告诉我们:

智能警报可提供以下信息:

  1. 在此警报中,我们看到警报摘要显示“Virtual machine is running applications that are unexpectedly consuming a significant amount of the configured CPU capacity”(虚拟机运行的应用正在意外使用大量已配置的 CPU 容量)。
  2. 警报还为我们提供了修复建议
  3. 此外,我们还可以看到“What is Causing the Issue”(出现此问题的原因),或者更通俗地说,就是触发警报的症状
  4. 单击“Non-Triggered Symptoms”(非触发症状)旁的箭头

 

 

 

了解非触发症状

 

  1. 在“Non-Triggered Symptoms”(非触发症状)下,请注意之前达到了动态阈值:CPU 需求达到警告紧急级别
  2. 我们目前处于严重级别,这导致了问题的出现。单击“Virtual machine CPU demand at Critical level”(虚拟机 CPU 的需求处于严重级别)症状对应的箭头,以展开相关内容并查看有关此症状及其触发因素的更多详情。

 

 

 

查看症状

 

  1. 在本症状中,我们看到 win-apptier4已超过 95% 的 CPU 需求阈值。
  2. 查看时间表,了解过去 6 个小时的 CPU 需求。
  3. 注意动态阈值。这些浅灰色线条分别表示警告、紧急和严重级别的阈值。您还可以将光标悬停在线条上,以查看捕获指标的时间以及确切的值(未显示)。
  4. 选择向下箭头,关闭该症状的展开视图。

 

 

修复建议

 

  1. 滚动至警报摘要顶部。

建议是针对 vRealize Operations 中生成警报的可能解决方案。我们可以创建一个建议库,对可用以解决警报的操作加以说明。

  1. 第一条建议是检查客户机应用,以确定高 CPU 是否为正常情况。如果确定高 CPU 是意外情况,我们就需要了解能够帮助解决问题的其他选项。
  2. 有些警报列出的建议不止一条。更多的建议会列在“Other Recommendations”(其他建议)下。
  3. 单击“Other Recommendations”(其他建议)旁的箭头,找到关于我们可以采取的其他操作的更多详情。

 

 

查看其他建议

 

  1. 第二条建议是“Add more CPU capacity for this virtual machine”(为该虚拟机添加更多 CPU 容量)。
  2. 此外,vRealize Operations 可指引您完成这个过程。单击“Set CPU Count for VM”(设置虚拟机的 CPU 数量)按钮。

 

 

引导式修复

 

  1. 在本操作中,vRealize Operations 自动建议将虚拟 CPU 的数量增加到 3个。
  2. 由于该客户操作系统不允许热添加 CPU,我们需要重启虚拟机才能进行更改,请单击“Power Off Allowed”(允许关闭)。
  3. 在更改之前我们还希望创建快照,以便在出现任何问题时提供恢复点,请单击“Snapshot”(快照)。
  4. 在本单元中,由于我们使用的是历史视图模式 (HVM),因此无法执行这些操作,在实时实例中便不会这样。在实时实例中,您需要单击“Begin Action”(开始操作)以继续,并在“Recent Task”(近期任务)部分跟踪进度,而不是单击“Cancel”(取消)。实时实例中的更改完成且症状不再生成错误后,警报将清除并相应地更新徽标。

注意:如果您单击“Begin Action”(开始操作),会收到“Collector not responding”(收集器未响应)错误,对此,我们将在下一页中予以说明。

注意:在本单元中,由于我们使用的是历史视图模式 (HVM),因此无法执行这些操作,在实时实例中便不会这样。

在本例中,如果是在实时实例中,vRealize Operations Manager 将与 vCenter Server 通信以完成以下任务:

CPU 需求问题将得以解决,警报也会清除。

 

 

如果选择“Begin Action”(开始操作)会出现的错误

 

在本单元中,由于我们使用的是历史视图模式 (HVM),因此无法执行这些操作

如果您在上一步单击“Begin Action”(开始操作),会收到“Collector not responding”(收集器未响应)错误。

请忽略并继续操作。

 

 

展开导航面板

 

  1. 单击箭头以展开左侧导航面板。

 

 

显示受影响的对象

 

  1. 从导航面板的“Impacted Object”(受影响的对象)部分选择 win-apptier4
  2. 在实时实例中,引导式修复更改完成且症状不再生成错误后,警报将清除并相应地更新徽标。 
  3. 附加部分:单击“All Metrics”(所有指标)旁的双箭头,查看有关所选对象更深入的详细信息。

 

 

全面的对象分析

 

  1. 选择“Analysis”(分析)选项卡。
  2. 单击可用的其他徽标,查看用于分析所选对象的更深入详细信息,其中包括“Workload”(工作负载)、“Anomalies”(异常)、“Faults”(故障)、“Capacity Remaining”(剩余容量)、“Time Remaining”(剩余时间)、“Stress”(压力)、“Reclaimable Capacity”(可回收容量)、“Density”(密度)(如果适用)和“Compliance”(合规性)。

在本单元中,我们学习了如何使用 vRealize Operations Manager 查看警报以及使用引导式修复主动解决性能问题。

请关闭所有打开的浏览器。

 

单元小结


您已完成 vRealize Operations 和 vRealize Log Insight:确保整个 SDDC 的性能和可用性练习的第 1 单元:跨 SDDC 的集成式运行状况和性能监控

您现在应该已经了解了以下内容:

您可以继续学习以下您最感兴趣的任意单元:

第 1 单元 - 跨 SDDC 的集成式运行状况和性能监控(15 分钟)

第 2 单元 - 通过日志分析进行故障排除(15 分钟)

第 3 单元 - 结合结构化数据与日志数据加快故障排除速度(30 分钟)

第 4 单元 - 存储故障排除(15 分钟)

第 5 单元 - 应用监控(15 分钟)


第 2 单元 - 通过日志分析进行故障排除(15 分钟)

vRealize Log Insight 概述


vRealize Log Insight 可跨物理、虚拟和云计算环境执行基于机器学习的智能分组、高性能搜索和更出色的故障排除,从而为 VMware 环境提供实时日志管理功能。

本单元将研究如何利用 vRealize Log Insight 仪表盘和交互式分析,基于非结构化日志信息发现进行故障排除和执行根本原因分析的最佳方式。此练习还将讲解示范如何配置 vRealize Log Insight,以识别字段、生成警报并与 vRealize Operations 集成。

仪表盘

您可以创建仪表盘并将想要密切监控的有用日志指标包含在仪表盘中。任何查询都可以转变成仪表盘小组件,并针对任何时间范围进行汇总。您可以查看过去五分钟、一小时或一天的错误明细,并观察日志事件的趋势。

内容包

内容包中含有适用于特定系统或应用的预定义字段、查询、仪表盘和警报,不过本练习不会深入介绍。典型示例有 Brocade 内容包或 Microsoft SQL Server 内容包。两种内容包均包含其各自关注领域的主题特定定义。Brocade 内容包将包含特定于 Brocade 的字段、仪表盘和警报,而 Microsoft SQL Server 内容包将包含特定于 Microsoft SQL 的相应内容。这样,您便可以从这些系统引入日志信息,而无需从头开始创建字段、查询、仪表盘或警报。vRealize Log Insight 内容包是免费的,可在初始配置完成后安装到 vRealize Log Insight 中。要查看管理包的完整列表,请在本练习之后访问 https://solutionexchange.vmware.com/store


 

仪表盘概述

 

仪表盘 -“Dashboards”(仪表盘)页面就像一个信息汇总区。仪表盘能够快速直观地呈现日志数据并确定环境中的潜在问题。vRealize Log Insight 在仪表盘内提供两种不同类型的小组件:图表和查询。图表是数据的图形表示形式,也是最常使用的小组件。查询则是保存的信息片段,能够在“Interactive Analytics”(交互式分析)页面上提供数据的图形和文本表示形式,但查询在“Dashboards”(仪表盘)页面上仅按既定的名称列出。查询小组件通常在图表小组件没有提供足够的有用信息时使用。

 

 

交互式分析概述

 

交互式分析 - 允许管理员和工程师使用通俗易懂的语言或 REGEX 字符串执行搜索,以及查看详细的日志消息以确定问题区域并执行根本原因分析。

在页面顶部,导航栏的正下方,您将看到一个具有黑色背景的部分。该部分提供了您的日志数据的图形表示形式。

该部分中的图表看起来应该与您在“Dashboards”(仪表盘)页面上看到的图表小组件类似。默认情况下,概览图表是柱状图,可显示一段时间内的事件总数(就过去五分钟内看到的日志消息而言)。vRealize Log Insight 将已接收的数据视为事件。对于概览图表上直观显示的事件,可采用各种不同的方法进行操作,但最常用的方式是利用各种功能和分组进行更改。

在“Interactive Analytics”(交互式分析)页面中创建自定义查询后,系统将提供许多选项:

 

 

内容包概述

 

内容包是一种强大的方法,可以通过有关特定事件的预定义知识延展 vRealize Log Insight。要浏览至“Content Packs”(内容包)部分,请在登录 vRealize Log Insight 用户界面后(本练习的后面部分),选择导航栏中的三道杠图标,然后选择“Content Packs”(内容包)。

另外,您还可以通过任意浏览器(不在练习中时)访问 https://solutionexchange.vmware.com/store/loginsight,获得 vRealize Log Insight 可用的所有内容包的列表。以上为该网页的一个示例。

内容包由各种组件组成。这些组件可能包括:

 

使用 vRealize Log Insight


在此部分,我们将使用 vRealize Log Insight 探索 vSphere 环境的日志。通常情况下,如果没有 vRealize Log Insight 等日志分析工具,就只有在生产工作负载降级或发生故障且影响到业务的情况下,才可以查看日志错误。借助 vRealize Log Insight,我们可以发现最终可能会导致问题发生的日志事件和模式,这样我们就能提前采取措施预防。在此部分,我们将重点了解日志分析和仪表盘,但您可以使用这些相同的原则或通过 SMTP 创建警报并将其转发至 vRealize Operations。


 

从 Windows 快速启动任务栏打开 Firefox 浏览器

 

  1. 在 Windows 快速启动任务栏上,单击 Firefox图标。

 

 

Log Insight 书签

 

  1. 如果您尚未登录 vRealize Log Insight,请单击“vRealize Log Insight”超链接。

 

 

登录 log-01a

 

使用以下凭证登录 vRealize Log Insight 服务器:

  1. 用户:admin
  2. 密码:VMware1!
  3. 单击“Login”(登录)或按 Enter

 

 

vRealize Log Insight 通用仪表盘

 

  1. 忽略消息“Warning: Evaluation License”(警告:评估许可证)。
  2. 单击“Dashboards”(仪表盘)按钮转到仪表盘。
  3. 显示的默认仪表盘是通用仪表盘。单击“General”(通用)。此时将显示仪表盘列表。这是仪表盘类别磁贴,为您显示此 vRealize Log Insight 中可用的各个仪表盘。仪表盘是在 vRealize Log Insight 中创建的或者是作为内容包的一部分提供的。默认情况下,vSphere 内容包已预先安装。
  4. 单击 VMware - vSphere仪表盘。

注意:您可能会看到一则有关评估许可证的消息。此消息可以忽略,因为运行评估许可证密钥时没有特性和功能限制。

 

 

vRealize Log Insight 的 VMware - vSphere 仪表盘

 

此时应显示 VMware - vSphere 仪表盘。仪表盘的其他重要区域有:

  1. 屏幕的第 1 部分,通过这一部分可以应用日期/时间范围筛选条件,以限制您在仪表盘中查看的数据。请最小化筛选范围,这样系统只需对有限数据集进行查询,从而提高用户界面性能。选择“Latest hour of data”(最近一小时的数据)
  2. 选择“Update”(更新)图标。
  3. 第 2 部分,这一部分显示了作为此仪表盘的一部分提供的筛选条件,并且还能应用筛选条件。利用筛选条件,您可以在仪表盘中快速找到所关注的特定对象/事项。
  4. 第 3 部分显示了 vRealize Log Insight 中的小组件,这些小组件经过配置,可查询整合的日志数据库并显示经常关注的具体方面。在本例中,小组件将以图形表示形式显示 vSphere 日志消息及其生成时间。您可以使用多种方式排列小组件,小组件的大小也可以有多种。

 

 

交互式分析

 

  1. 单击“Interactive Analytics”(交互式分析)。

 

 

Interactive Analytics(交互式分析)屏幕

 

下文介绍了“Interactive Analytics”(交互式分析)屏幕的不同部分:

  1. 该区域显示了当前查询的图形表示形式。由于我们未指定任何查询内容或筛选条件,因此系统显示了所有事件。
  2. “Filter”(筛选)字段用于搜索日志中的数据。例如,主机名、错误消息或数字。
  3. vRealize Log Insight 可自动关联所有日志数据。在该字段中,您可以根据需要指定特定时间范围来搜索日志条目。默认情况下,时间范围字段设为搜索过去 5 分钟的数据。请注意:如果日期范围较大,则将需要较长的时间才能返回完整的数据集,但在系统返回查询结果时,这些数据将会蜂拥而入。在本练习中,我们仅连接到 vCenter,因此,搜索的数据所在的时间范围有限。
  4. 事件是与查询相匹配的日志条目,将在此处显示。对于每条日志消息中的关键词(字段),将在日志消息下方用蓝色标注出来。默认情况下,vRealize Log Insight 了解 Syslog 定义的所有字段。字段是内容包的一部分,特定于所在的域,系统会添加它们。在此示例中,所有 vSphere 和 Syslog 字段均可用。
  5. 这里列示了日志消息(查询结果集的一部分)中的所有已定义的字段。您可以单击其中的任意一个字段,此操作将以图形表示形式显示与该字段相关联的日志消息数量。默认的已定义字段来自 vSphere 和 Syslog。其他字段会在添加内容包时(本练习后面部分)添加,或者由用户定义并保存(本练习后面部分)。 

 

 

搜索日志事件

 

您可以在查询行输入关注的字词来查询日志事件。

  1. 在查询行中输入 firewall
  2. 从时间范围下拉菜单中选择“Last 6 Hours”(过去 6 小时)。
  3. 单击“Search”(搜索)按钮。
  4. 单击“Event Types”(事件类型)选项卡,按消息类型分类日志条目。
  5. vRealize Log Insight 随后会对日志条目分类,并创建多个类别(如图所示)。 

注意:日志事件动态性很强。显示的实际事件或分类数量可能与您的环境有所不同

 

 

信息越多,得到的回复越具体

 

  1. 将查询行更改为 firewalledresponse
  2. 单击“Search”(搜索)按钮。
  3. 请注意,事件类型数量减少了,事件数量也大幅减少了。现在检查结果仅显示了与防火墙响应直接相关的事件。

 

 

搜索日志事件和提取字段

 

当您在搜索框中输入搜索关键字时,vRealize Log Insight 将在您输入时自动填写选项。

  1. 在搜索字段类型中移除“firewall configuration”并输入 scsi*(注意,切记输入星号,因为我们要查找的是 scsi 条目或消息中含有 scsi 的所有条目)。在本例中,我们要查询与 scsi 相关的所有消息。
  2. 如果尚未显示 6 小时的数据,请单击向下箭头以打开数据范围下拉菜单。在本例中,请选择“Latest 6 hours of data”(最近 6 小时的数据)。
  3. Enter键或单击“search”(搜索)图标
  4. 本例中显示有 6 种事件类型。

 

 

减少事件类型

 

在故障排除时使用事件类型,能够快速地将所得到的日志消息集的范围缩小为与模式相匹配的集群。利用此功能,可以快速消除不相关的日志消息。可使用多种方式减少事件类型的数量。第一种方法如下所示。

  1. 当您将光标悬停在消息数目上时,系统会显示删除 (x) 和设置 (*) 按钮。将光标悬停在任意事件类型消息上(如上方亮显的文本所示),并单击“x”即可将该消息类型从结果集中移除。
  2. vRealize Log Insight 会针对该消息类型添加一个筛选条件。注意:这些日志消息并未从 vRealize Log Insight 中删除,系统只是创建了一个筛选条件,用以为此交互式分析会话排除该消息类型。有关筛选条件的更多信息,请参阅后续步骤。
  3. 在屏幕截图所示的示例中,事件数量为 6,现在减少到了 5。 

注意:您的练习环境为实时的动态环境。您所看到的内容可能与屏幕截图中捕获的内容不同。请在窗口中选择任一事件,然后继续进行下一步。

 

 

创建筛选条件

 

另一种筛选信息的方法是添加筛选条件。现在,我们将创建新的筛选条件,只将与“Failed”(失败)文本有关的日志消息包含在内。

  1. 单击“Add Filter”(添加筛选条件)。

 

 

设置筛选限制条件

 

  1. 您可以针对日志消息中任何已定义字段或纯文本运行筛选条件。在本例中,我们将在该筛选条件中使用文本。如果您单击文本字段中的向下箭头,会看到还有许多其他可用的筛选条件类型。
  2. 单击向下箭头,将“Operator”(运算符)字段设置为“contains”。
  3. 输入 failed
  4. 单击“Search”(搜索)按钮。

现在,我们已将结果范围缩小至 1 种事件类型(在添加筛选条件之前,有很多不同的事件类型)。

注意:您的练习环境为实时的动态环境,所以您的实际结果可能有所不同。

 

 

动态字段提取

 

动态字段为在 vRealize Log Insight 中分类和构建查询提供了行之有效的方法。用于检测数据的自定义字段已经存在,我们可以使用该字段进一步筛选消息。

  1. 系统列出了各个可用的字段,我们需要使用的就是“vmw_esxi_sense_data”。
  2. 单击“vmw_esxi_sense_data”前面的小 +号,展开字段。
  3. 此时将显示搜索后得到的、完全满足该字段条件的日志消息的数量。
  4. 单击第一栏,查看与该字段相关的消息。

 

 

动态字段筛选条件

 

  1. 请注意,在选择动态字段图表后,我们有了一个新的筛选条件“vmw_esxi_sense_data”,得出了 66 条消息。 
  2. 如图所示选择“Expand”(展开),以查看具体消息。

注意:您的练习环境为实时的动态环境。返回的消息数量可能与您的结果不同。

 

 

展开的消息

 

  1. 选择“Expand”(展开)将显示每条消息的详细信息。这种级别的详细信息可以帮助您了解涉及的主机、消息日期以及用于确定根本原因的更多信息。

 

 

清除查询和筛选条件

 

鉴于 scsi 已经有针对其定义的已提取字段,我们将使用其他示例来说明如何创建提取字段。不过首先,我们需要清除查询和筛选条件;

  1. 单击“Clear All Filters”(清除全部筛选条件)删除筛选条件。
  2. 将“scsi*”从查询行中删除。
  3. 将“Custom time range”(自定义时间范围)改回“6 hours”(6 小时)。
  4. 单击“search”(搜索)图标或单击“return”(返回)。

此时,我们会在 vRealize Log Insight 系统中看到所有日志消息。

 

 

创建动态字段提取

 

提取的字段为在 vRealize Log Insight 中构建查询提供了行之有效的方法。您还可以自行创建自定义的提取字段。鉴于 scsi 延迟已经有提取的字段,我们将使用其他示例来说明如何创建提取字段。

  1. 在查询行中输入 api invocations
  2. 单击“Search”(搜索)按钮。
  3. 单击“Events”(事件)选项卡。
  4. 将光标悬停在数字上,并突出显示“API invocations:”(API 调用次数:)旁的值。在上面的示例中,所显示的值为 2,但您在实际操作时得到的值可能会有所不同。
  5. 在出现的弹出窗口中,选择“Extract field”(提取字段)。

 

 

 

“Fields”(字段)窗格

 

  1. 系统也将用提取的值为您预填充数据类型,并用正则表达式验证数据。
  2. 一键式动态字段提取将使用前后语境的正则表达式自动填充“Fields”(字段)窗格。

 

 

“Fields”(字段)窗格配置

 

字段配置将显示在屏幕的右侧。现在我们需要对已提取字段进行命名,确定可以使用该字段的人员,然后保存该字段以备将来使用。在此单元中的后面部分,当与 vRealize Operations Manager 进行集成时将用到这一提取的字段。 

1. 在“Field Name”(字段名称)输入框中,输入 vmw_vc_api

2. 在“Available for”(适用于)下拉列表下方,可以选择将这一提取的字段设为可供您自己或所有用户使用。将此项保留为“Me Only”(仅限我自己)。

3. 单击“Save”(保存)。

 

 

已完成提取字段

 

请注意,我们现在已拥有一个名为 vmw_vc_api的新字段。

 

 

对事件进行分组

 

截至目前,我们主要在介绍交互式分析的查询部分。接下来,我们将重点介绍图表制作。我们要对会向图中添加额外数据的事件进行分组。

1. 选择“over time”(按时间)下拉列表。

2. 选中“vmw_vc_auth_source (VMware - vSphere)”和“vmw_vc_auth_user (VMware - vSphere)”旁边的复选框。

3. 选择“Apply”(应用)。

 

 

已创建图例

 

  1. 请注意,已在图的右侧创建了图例来显示连接到 vCenter 设备的用户的 IP 地址用户名
  2. 单击“Add to Dashboard”(添加到仪表盘)。

 

 

将图表添加到仪表盘

 

  1. 在“Name”(名称)字段中,输入 API Invocation Events
  2. 确保选中“Dashboard 1”(仪表盘 1)。您可以将此查询添加到新仪表盘或您有权修改的仪表盘。
  3. 单击“Add”(添加)。

 

 

导航至“Dashboards”(仪表盘)页面

 

  1. 单击“Dashboards”(仪表盘)。

 

 

选择“My Dashboards”(我的仪表盘)

 

  1. 单击下拉箭头以获取仪表盘列表。
  2. 选择“My Dashboards”(我的仪表盘)。

 

 

观察修改后的仪表盘

 

  1. 请观察“Dashboard 1”(仪表盘 1)现在是否随附一个名为 API Invocation Events的全新小组件。
  2. 请关闭所有打开的浏览器。

 

单元小结


您已完成 vRealize Operations 和 vRealize Log Insight:确保整个 SDDC 的性能和可用性练习的第 2 单元:通过 vRealize Log 日志分析进行故障排除

您现在应该已经了解了以下内容:

您可以继续学习以下您最感兴趣的任意单元:

第 1 单元 - 跨 SDDC 的集成式运行状况和性能监控(15 分钟)

第 2 单元 - 通过 vRealize 日志分析进行故障排除(15 分钟)

第 3 单元 - 结合结构化数据与日志数据加快故障排除速度(30 分钟)

第 4 单元 - 存储故障排除(15 分钟)

第 5 单元 - 应用监控(15 分钟)


第 3 单元 - 结合结构化数据与日志数据加快故障排除速度(30 分钟)

“结合结构化数据与日志数据加快故障排除速度”简介


在本单元中,我们将对经历高 GET 请求的 Web 服务器的性能问题进行故障排除。vRealize Operations 和 vRealize Log Insight 集成后,您可以使用多种工具来探索性能指标和日志数据。


vRealize Log Insight 和 vRealize Operations 搭配使用


我们将在本单元中使用实时版 vRealize Operations。 


 

单元准备

 

由于练习环境中存在限制,在开始本单元之前必须先采取一些步骤。我们将使用一个名为“UrlStress”的程序,该程序将创建一些 HTTP Get 请求,以生成一些 IIS 日志条目,然后重新启动 Loginsight 服务。 

  1. 单击桌面图标启动 URLStress 程序。 

 

 

URL Stress 参数

 

URL Stress 应用运行之后,请对参数执行以下更改:

  1. 输入 http://base-w12-01作为 URL 路径。
  2. 将“#Threads”(线程数量)更改为 10
  3. 将“Iterations/Thread”(迭代/线程)更改为 10
  4. 选择“Start”(启动)按钮。该进程开始后,“Start”(启动)按钮将灰显。

 

 

打开 PuTTY

 

  1. 在 Windows 快速启动任务栏上,单击 PuTTY 图标。

 

 

通过 SSH 连接到 Log Insight 服务器

 

  1. 双击已保存的会话 log-01a.corp.local,启动连接到 vRealize Log Insight 服务器的 SSH 会话。

本练习使用基于证书的身份认证,所以您应该会自动登录到 SSH 会话。

 

 

重新启动 loginsight 服务

 

  1. 在命令行中输入:
service loginsight restart

(或选择此处的文本并拖到控制台窗口),然后按 Enter 键以执行该命令。

 

 

从 Windows 快速启动任务栏打开 Firefox 浏览器

 

现在,让我们开始本练习单元。

  1. 在 Windows 快速启动任务栏上,单击 Firefox图标。

 

 

打开“vRealize Operations Manager”选项卡

 

1. 选择“vRealize Operations Manager - Live Instance”(vRealize Operations Manager - 实时实例)

 

 

设置浏览器缩放级别

 

练习环境的默认分辨率是 1024x768。为了最大限度减少在 vRealize Operations 用户界面中执行大量滚动操作的需要,请调整 Firefox 中的缩放级别。   

  1. 打开 Firefox 菜单下拉列表。
  2. 设置所需的缩放级别。通常,80-90% 的缩放级别就足以在练习环境中为 vRealize Operations 提供充足的屏幕空间。另外,建议使用全屏选项。

 

 

登录 vRealize Operations Manager

 

1. 使用以下凭证登录 vRealize Operations Manager:

用户名:Admin
密码:VMware1!

2. 单击“Login”(登录)按钮。

 

 

vRealize Operations Manager 实时实例

 

  1. 如果不在“Home”(主页)屏幕中(如图所示),请单击“Home”(主页)图标。仪表盘中将显示练习环境的当前运行状况。

 

 

查看历史 IIS GET 请求

 

  1. 在右上角的搜索栏中,输入 IIS WWW。vRealize Operations 将显示环境中包含 IIS WWW 的对象列表。
  2. 选择“IIS WWW Service - base-w12-01.corp.local”。此时将显示 WWW 服务的摘要页面。

 

 

摘要仪表盘

 

  1. 如果系统未显示 IIS WWW 服务对象的摘要仪表盘,请选择“Summary”(摘要)选项卡。在“Summary”(摘要)屏幕上,您会看到 IIS WWW 服务的当前状态,表明服务没有问题,也没有需要处理的警报。下一步是查看一些指标图表。
  2. 单击“>>”展开选项卡菜单。

 

 

URL Stress 参数

 

切换回 URL Stress 应用,该应用应该仍保持打开状态。

  1. 如果仍在运行,单击“Stop”(停止)按钮。
  2. 将“Iterations/Thread”(迭代/线程)更改为 50000。
  3. 将“#Threads”(线程数量)更改为 20
  4. 选择“Start”(启动)按钮。该进程开始后,“Start”(启动)按钮将灰显。

这将开始生成大量针对 IIS 服务器的 HTTP GET 请求。

 

 

查看指标图表历史记录

 

要显示历史 GET 请求的指标图表,请执行以下操作:

  1. 选择“All Metrics”(所有指标)选项卡。
  2. 单击“+”以展开“All Metrics”(所有指标)
  3. 单击“+”以展开“Utilization”(利用率)。
  4. 双击“Total Get Requests per Minute”(每分钟 GET 请求总数)指标。系统将针对该指标创建图表,图表显示 7 天(默认值)的数据。
  5. 选择看起来像日历的图标。
  6. 选择“Last hour”(最近一小时)作为时间段。
  7. 选择“Go”(开始)以更新图表。
  8. 选择日历图标以关闭时间段选择。
  9. 选择图中所示的符号以展开关系窗口。

 

 

刷新指标图表

 

  1. 大约 5 分钟后,该图表应显示 GET 请求数量的增加。如果您未看到 GET 请求数量增加,请选择“Refresh”(刷新)图标。
  2. 如图所示,图表上显示的 GET 请求数量正在增加。您还将看到 WWW 服务的“Health”(运行状况)已变成红色。
  3. 如果 WWW 服务未变成红色,请选择操作屏幕顶部的“Refresh”(刷新)屏幕图标。
  4. 我们来看看这是否触发了警报。选择“Alerts”(警报)选项卡。

 

 

IIS WWW 警报

 

运行 URLStress 程序创建了一条警报。我们来查看一下该警报的详细信息。

  1. 单击“IIS GET Requests”(IIS GET 请求)链接。这样便可转至警报,以便我们查看警报的详细信息。

 

 

查看 Web 服务器问题

 

要进一步查看此警报的详细信息:

  1. 选择图中所示的向下符号以展开其他详细信息。与指标图表类似,您在此可以看到显示事件发生了多久的时间表。我们来查看一下受影响系统的其他信息。
  2. 双击“IIS WWW Service - base-w12-01.corp.local”链接。这样便可转至“Summary”(摘要)页面,并显示与 IIS 服务相关的对象。

 

 

检查运行 IIS 服务的虚拟机的运行状况

 

  1. 您可能必须向下滚动才能看到虚拟机对象类型。
  2. 选择与对象相关的“Virtual Machine”(虚拟机)以显示运行 IIS 服务的虚拟机。
  3. 选择虚拟机“base-w12-01”。这将进一步显示与虚拟机的属性相关的详细信息。
  4. 如果需要额外的屏幕空间,请单击图中所示的符号以关闭左侧面板

 

 

内存不足导致虚拟机面临压力

 

  1. 为了检查压力,请将摘要屏幕切换到“Risk”(风险)徽标。
  2. 虚拟机显示存在一定压力,但到目前为止虚拟机的运行状况良好。
  3. 右侧有一个滚动条,可用于查看关于仪表盘的更多信息。

查看虚拟机 base-w12-01的详细信息时,根据 URLStress 程序仍在持续运行的时间,您还可以查看虚拟机是否由于高 CPU 使用率而面临中等压力。如果 GET 请求出现异常增加情况,则应查看相应日志。我们来看看关于虚拟机 base-w12-01的日志。

 

 

vRealize Log Insight 日志

 

  1. 选择“Action”(操作)菜单。
  2. 选择“Search for VM logs in vRealize Log Insight”(在 vRealize Log Insight 中搜索虚拟机日志)。这将在浏览器中打开一个新的 vRealize Log Insight 选项卡。

 

 

登录 log-01a

 

使用以下凭证登录 vRealize Log Insight 服务器:

  1. 用户:admin
  2. 密码:VMware1!
  3. 单击“Login”(登录)或按 Enter键。

 

 

交互式分析

 

除了顶部的时间表图表之外,还列出了虚拟机 base-w12-01的日志条目。本例中有超过 1,000,000 个条目。我们来看看有多少条目来自同一个源 IP。

  1. 查询中的日志条目数量现已超过 1,000,000。您的数量可能有所不同。
  2. 注意:如果您看不到日志条目,请单击下拉箭头,并将时间范围更改为“Last hour of data”(过去一小时的数据)

 

 

设置浏览器缩放级别(复制)

 

练习环境的默认分辨率是 1024x768。为了最大限度减少在 vRealize Operations 用户界面中执行大量滚动操作的需要,请调整 Firefox 中的缩放级别。   

  1. 打开 Firefox 菜单下拉列表。
  2. 设置所需的缩放级别。通常,80-90% 的缩放级别就足以在练习环境中为 vRealize Operations 提供充足的屏幕空间。另外,建议使用全屏选项。

 

 

IIS 日志条目

 

要了解与 IIS 服务相关的条目数量,我们需要添加新的筛选条件。

  1. 如果需要,您可以向下滚动以查看“ms_product”字段。
  2. 在“ms_product”字段前,选择“+”。
  3. 单击图中所示的条形图。 
  4. 此操作将为 IIS 日志条目添加新的筛选条件。
  5. 选择“Search”(搜索)图标。如本例所示,新的筛选条件并未减少条目的数量。我们来看看有多少条目来自同一个源。

 

 

筛选结果

 

  1. 验证是否已选择图中所示的“Field Table”(域表)。
  2. 要添加其他筛选条件,请单击“Source”(源)字段,也就是图中所示的 IP 地址。在本示例中,我们将添加一个源筛选条件。
  3. 选择“Value is 192.168.100.139”
  4. 选择“Search”(搜索)按钮,其图标看起来像放大镜。

结果显示所有条目均来自同一个源。这需要我们的安全团队进行进一步调查。让我们将此信息添加到仪表盘,以便其他团队成员可以查看此内容。

 

 

将结果添加至仪表盘

 

  1. 选择“Add to Dashboard”(添加到仪表盘)按钮。
  2. 输入“Excessive IIS GET Requests”(过多 IIS GET 请求)之类的名称。
  3. 选择“Add”(添加)按钮,以将此图表添加至仪表盘。
  4. 现在,选择图中所示的图标,以切换至“Dashboards”(仪表盘)视图。

 

 

仪表盘

 

切换至“Dashboards”(仪表盘)屏幕后,我们需要将当前仪表盘更改为“My Dashboards”(我的仪表盘)。在本例中,我们将从“General”(通用)仪表盘转至“My Dashboards”(我的仪表盘)

  1. 选择“General”(通用)图标以显示可用的仪表盘列表。
  2. 选择“My Dashboards”(我的仪表盘)以显示刚刚创建的仪表盘。

 

 

IIS Get 请求仪表盘

 

  1. 如果“Excessive IIS Get Requests”(过多 IIS GET 请求)小组件中没有数据,就将时间更改为“Latest hour of data”(最近一小时的数据)。

 

 

我的仪表盘

 

除了“Excessive IIS GET Requests”(过多 IIS GET 请求)图表以外,可能还存在其他默认图表。我们来查看一下 IIS 仪表盘。

  1. 要切换仪表盘,请选择“My Dashboards”(我的仪表盘)以显示仪表盘列表。
  2. 选择“Microsoft - IIS”仪表盘。

至此,本单元全部结束。请关闭所有打开的浏览器。

 

 

单元清理

关闭 Firefox 浏览器、URL Stress 窗口和 PuTTY 会话(如果仍处于打开状态)。

 

单元小结


您已完成vRealize Operations 和 vRealize Log Insight:确保整个 SDDC 的性能和可用性练习的第 3 单元:通过结合结构化数据与日志数据加快故障排除速度

您现在应该已经了解了以下内容:

您可以继续学习以下您最感兴趣的任意单元:

第 1 单元 - 跨 SDDC 的集成式运行状况和性能监控(15 分钟)

第 2 单元 - 通过日志分析进行故障排除(15 分钟)

第 3 单元 - 结合结构化数据与日志数据加快故障排除速度(30 分钟)

第 4 单元 - 存储故障排除(15 分钟)

第 5 单元 - 应用监控(15 分钟)


第 4 单元 - 存储故障排除(15 分钟)

存储/vSAN 故障排除仪表盘简介


在本单元中,我们将讲解示范一些用以确定是否存在与存储相关的问题的技巧,以及用以提供问题解决办法的选项。我们将使用已安装 Management Pack for Storage Devices 的 vRealize Operations Manager。您将使用在历史视图模式下运行的 vRealize Operations 版本。这表示本实例中的数据已进行了记录,不是实时的。这不仅可让我们捕获数据中的特定场景并回放数据以进行练习,还能减少 HOL 练习环境中所需的实时资源数量。


 

如果您已处于 vRealize Operations HVM,则继续执行下一步

 

  1. 如果您已登录 vRealize Operations Manager - HVM,请单击“Home”(主页)图标。否则,请继续执行下一步。

 

 

从 Windows 快速启动任务栏打开 Firefox 浏览器

 

  1. 在 Windows 快速启动任务栏上,单击 Firefox图标。

 

 

打开 HVM vRealize Operations Manager

 

1. 从快捷工具栏中选择“HVMvROps”。HVM 表示“历史视图模式”,相对于使用 vRealize Operations Manager 实时实例,用这种模式可以显示更全面的练习数据。但是,我们不能对 HVM 环境进行永久性更改(如调整虚拟机大小)。

 

 

登录 vRealize Operations Manager

 

1. 使用以下凭证登录 vRealize Operations Manager:

用户名:Admin
密码:VMware1!

2. 单击“Login”(登录)按钮。

 

 

查看整个屏幕或窗口

 

如果在任何时候,您无法查看整个屏幕或窗口底部的按钮(即“Next”(下一步)或“Cancel”(取消)按钮)

  1. 单击“Settings”(设置)图标(Firefox 右上角的 3 条水平线)
  2. 根据需要使用加号 (+) 放大或
  3. 使用减号 (-) 缩小以查看整个窗口。

注意:通常情况下,缩小到 90% 就足以查看整个窗口以及底部的所有按钮

 

第 4 单元 - 存储故障排除(15 分钟)



 

导航到 vSAN 仪表盘

 

1. 选择“Dashboard List”(仪表盘列表)

2. 选择“vSAN”

 

 

 

vSAN 仪表盘视图

 

1. 选择“vSAN Environment Overview”(vSAN 环境概述),查看该仪表盘。

2. 选择“vSAN Performance”(vSAN 性能),查看该仪表盘。

3. 选择“Optimize vSAN Deployments”(优化 vSAN 部署),查看该仪表盘。

您应该注意到此环境中的 vSAN 运行状况良好。

 

 

 

存储故障排除场景

您是一位虚拟管理员,收到了关于应用性能下降的故障单。在本单元中,我们将完成这些步骤,以了解应用运行状况下降的原因,以及如何使用视图、仪表盘和指标来排除存储故障。

注意:如果在任何时候,您无法查看整个屏幕或窗口底部的按钮(即“Next”(下一步)或“Cancel”(取消)按钮),请单击“Settings”(设置)图标(Firefox 右上角的 3 条水平线)。根据需要使用加号 (+) 或减号 (-) 来放大或缩小,以查看整个窗口。通常情况下,缩小到 90% 就可以看全整个窗口以及所有按钮。

 

 

搜索虚拟机

 

1. 在“Search”(搜索)框中,输入 vRNI

2. 包含该字符串的对象列表将显示在下拉列表中。单击“vRNI02”虚拟机。

 

 

虚拟机摘要屏幕

 

vRNI02的“Summary”(摘要)屏幕出现后,我们就可以立刻看到虚拟机出现了紧急的运行状况,并且这是由虚拟机的紧急警报直接导致的

  1. 单击“Virtual machine has unexpected disk I/O read latency”(虚拟机出现异常的磁盘 I/O 读取延迟),以深入了解该警报。

 

 

警报消息

 

 

  1. 此警报通常是紧急的,表明该虚拟机出现了异常的磁盘 I/O 读取延迟。(注意,“removed DT Symptom”[已删除动态症状] 会显示在警报之后。这意味着未计算动态阈值。要进行验证,您可以导航到左侧的管理窗格,依次选择“Administration”[管理] >“Support”[支持] >“Dynamic Thresholds”[动态阈值],然后验证计算是否停止。这是练习配置的一部分。)
  2. 针对此警报的主要建议是检查以确保您已经打开了 Storage I/O Control。这是您在故障排除流程中应执行的第一步。由于这是 HVM(vROps 的历史视图实例),我们不会进入 vCenter 进行检查并执行可能的更正。查看 Storage I/O Control 上的备注。最有可能的建议始终显示在“Recommendation”(建议)部分。我们将在接下来的几个步骤中讨论其他建议。
  3. 这次数据存储的读取延迟指标在其动态阈值之外,因此触发了该警报。如果计算动态阈值,则会显示 vRNI02 拥有“Virtual machine disk read latency above DT”(虚拟机磁盘读取延迟高于动态阈值)的症状。

注意:动态阈值说明 - 阈值标志着指标正常行为与异常行为的分界线。除了固定阈值以外,vRealize Operations Manager 还支持基于历史和传入数据计算的指标动态阈值。可安排时间定期刷新动态阈值,但如果您希望捕获最近的数据,则可以在刷新时间之外重新计算动态阈值。

 

 

关于 Storage I/O Control 的备注

Storage I/O Control (SIOC) 基本上会持续监控数据存储的端到端延迟。发生拥堵时(延迟高于配置值),SIOC 将调减正在使用过多 I/O 的虚拟机以减少延迟。现在,您也许会说:“我希望这台虚拟机拥有所有 I/O”,而在许多情况下,这可以实现;您只需为该虚拟机的 VMDK 分配更高的份额值。SIOC 将使用分配给虚拟机 VMDK 的份额值来确定访问数据存储的优先次序。

只需打开 SIOC,即可保证每个 VMDK 都能平等地访问数据存储;微调份额值则能让您在争用期间为 VMDK 提供更多或更少的优先级。

此外,如果已打开 Storage I/O Control,而虚拟机无法平等访问数据存储,这可能是因为其他拥有更高份额值的 VMDK 获得了优先级。在这种情况下,应进行查看并将该虚拟机的存储移至另一数据存储

 

 

其他建议

 

单击“Other Recommendations”(其他建议)旁箭头

针对本例中的 I/O 延迟,可以使用这些其他建议来解决问题,但其成功的可能性要低于主要建议。主要建议确实可以解决该问题时列出这些建议。我们来看看“Other Recommendations”(其他建议),从最后一个建议开始。

如果虚拟机拥有多个快照,则其解决方案是“Delete Unused Snapshots for VM”(删除未使用的虚拟机快照)操作。单击“Delete Unused Snapshots for VM”(删除未使用的虚拟机快照)按钮。

 

 

检索快照:删除未使用的虚拟机快照的操作向导

 

  1. 您可以在此处输入想要搜索的天数或更早的天数,以找到要删除的快照。默认设置为 180 天。请注意,其他人可能仍然需要最近的快照,因此请在删除之前进行检查。系统将运行搜索,并返回超过 180 天的虚拟机快照列表。系统将提示您选择要删除的快照。
  2. 单击“Cancel”(取消)。注意:为了避免练习的资源使用率过高,我们在此练习中不删除快照。

注意:如果您看不到底部的“Next”(下一步)或“Cancel”(取消)按钮,请单击“Settings”(设置)图标(Firefox 右上角的 3 条水平线)。根据需要使用加号 (+) 或减号 (-) 进行放大或缩小以查看整个窗口。通常情况下,缩小到 90% 就可以看到整个窗口以及所有按钮。

 

 

警报菜单栏

 

  1. “Impacted Object Symptoms”(受影响的对象症状)选项卡将返回影响您正在处理的对象的所有警报的所有症状列表。
  2. “Timeline”(时间表)选项卡按时间顺序显示所有症状。有时,这有助于确定是否有其他警报的其他症状可能导致当前的问题。
  3. “Relationship”(关系)选项卡将返回与中心对象相关的对象的分层视图。这样,您就可以查看是否有其他对象与问题相关或导致了问题。
  4. “Metric Charts”(指标图表)选项卡显示了出现警报时相应对象的指标。
  5. 在“Notes”(备注)选项卡中,您可以输入关于警报的备注,这些内容将始终与警报相关联
  6. 单击“vRNI02”返回按钮以关闭“Alert”(警报)窗口。

 

 

查看选项卡

 

1. 单击选项卡菜单中的“>>”。

 

 

“Troubleshooting”(故障排除)选项卡

 

  1. 单击“Troubleshooting”(故障排除)选项卡

“Troubleshooting”(故障排除)选项卡拥有一系列子选项卡,可帮助解决故障排除问题。我们将在接下来的步骤中探索其中 2 个选项卡。

 

 

“Events”(事件)子选项卡

 

“Events”(事件)子选项卡显示了与所选徽标的状态相关的事件时间表。在上图中,显示了与 vRNI02服务器工作负载相关的事件。我们可以看到,“Unexpected I/O Read Latency”(异常的 I/O 读取延迟)事件是持久性的。

  1. 单击“Events”(事件)子选项卡
  2. 将鼠标悬停在其中一个“Events”(事件)图标上,以查看事件类型。
  3. 单击“Health”(运行状况)徽标,以查看时间表中的更改。
  4. 单击“All Metrics”(所有指标)选项卡。

 

 

所有指标/显示对象关系

 

1. 展开“Show Object Relationship”(显示对象关系)

 

 

选择指标 - -虚拟机

 

  1. 单击“Virtual Disk”(虚拟磁盘)指标类别旁的加号,以打开各个类别及其指标。
  2. 单击“Aggregate of all instances”(汇总所有实例)旁的加号
  3. 双击指标“Read Latency (ms)”(读取延迟 [毫秒]),这会将指标加载到指标选择器右侧的指标图表区域。
  4. 选择“Date Range”(日期范围)图标

 

 

选择日期范围

 

1. 选择从 12/05/16 到 12/16/16 的日期范围。

2. 将光标悬停在读取延迟峰值上,请注意,该峰值超过了 100 毫秒。

 

 

选择指标 - 主机

 

现在,我们将添加存储性能的主机视图,以便可以在同一视图中比较虚拟机和主机。

  1. 如果您还没有执行操作,请单击细箭头以再次显示分层视图。
  2. 单击主机 w2-sm-c2b1.mgmt.local,这会将指标选择器更改为主机级别可用的指标。
  3. 单击“Storage”(存储)指标类别旁的加号,以将其展开。
  4. 双击“Aggregate of all instances[Read Latency] (ms)”(汇总所有实例 [读取延迟] [毫秒])指标,将该指标加载到指标图表显示区域。注意:由于我们在 步骤 1 中更改了关注的内容,所以这是针对主机的。同样,当您将指标添加到指标图表区域时,它会向上滚动至之前选择的指标,并将最新的指标添加到底部。
  5. 单击 c1b1_raid(数据存储)以更改指标选择器中心。

 

 

选择指标 - 存储设备

 

1. 最小化“Show Object Relationship”(显示对象关系)

2. 单击“Datastore I/O”(数据存储 I/O)指标类别旁的加号,以将其打开。

3. 使用滑块(上图显示较大部分)向下滚动,直到看到“Read Latency (ms)”(读取延迟 [毫秒])指标。

4. 双击“Read Latency (ms)”(读取延迟 [毫秒])指标。

5. 如有必要,向上滚动至“demand”(需求)指标并双击

6. 当您不断将指标添加到指标图表区域时,它会向上滚动至之前选择的指标,并将最新的指标添加到底部。

 

 

摘要

在本练习中,我们看到,存储 I/O 延迟上的错误影响了 vRNI02 虚拟机的性能。我们了解到了用于解决该问题的一些建议和可以采取的操作。我们还详细分析了“All Metrics”(所有指标)选项卡中针对虚拟机、主机和数据存储的存储指标,并使用分层视图进行浏览与对比。

 

单元小结


您已完成第 4 单元:vRealize Operations 和 vRealize Log Insight 的存储故障排除:确保整个 SDDC 的性能和可用性练习。

您现在应该已经了解了以下内容:

您可以继续学习以下您最感兴趣的任意单元:

第 1 单元 - 跨 SDDC 的集成式运行状况和性能监控(15 分钟)

第 2 单元 - 通过日志分析进行故障排除(15 分钟)

第 3 单元 - 结合结构化数据与日志数据加快故障排除速度(30 分钟)

第 4 单元 - 存储故障排除(15 分钟)

第 5 单元 - 应用监控(15 分钟)


第 5 单元 - 应用监控(15 分钟)

应用监控简介


在本单元中,我们将探讨 vRealize Operations 如何将监控功能扩展至应用层,如 MS SQL Server、Oracle 应用和 SAP HANA。


应用监控


智能运维最主要的一个方面就是能够管理多个应用,如 MS SQL Server、Oracle 和 SAP 等。 

在本单元中,我们会了解如何连接 MS SQL Server、Oracle 数据库和 SAP 以便进行资源监控。我们将了解通过 vRealize Operations 管理包安装的各种仪表盘和指标。


 

管理包

 

管理包可以扩展 vRealize Operations 的功能,用于管理 MS SQL Server、Oracle 和 SAP 等外部对象。vRealize Operations 管理包的安装和配置都非常简单。基本步骤如下文所述。为了进行本练习,我们已下载并安装了该管理包。

1. 从 vmware.solutionexchange.com下载

2. 登录管理控制台,使用下载的 .PAK 文件更新 vRealize Operations

3. 在本练习中创建并配置解决方案(本项工作已完成)。

现在,我们先了解一下针对 SQL Server 的管理包,以及它如何为 MS SQL Server 应用提供更好的可见性和控制力。

 

 

访问 vRealize Operations Blue Medora HVM

 

在本单元中,我们将使用 vRealize Operations HVM(历史虚拟机)。如果您目前不在 vRealize Operations HVM 中,请执行以下步骤,否则请继续:

  1. 打开 Chrome
  2. 单击“vRealize Operation - Blue Medora”链接

 

 

验证 vRealize Operations Manager

 

  1. 输入 admin作为用户名
  2. 输入 VMware1!作为密码
  3. 单击“Login”(登录)按钮

 

 

查看针对 Microsoft SQL Server 解决方案的管理包的属性

 

为进行本单元,我们已安装了该管理包。如果您有任何关于如何安装管理包的问题,请参阅 VMware vRealize Operations Manager 6.2 信息中心网站,然后搜索“Configuring Additional Solutions and Adapters in vRealize Operations Manager”(在 vRealize Operations Manager 中配置其他解决方案和适配器)以进一步了解详细信息。

本练习已配置所有内容。您不需要进行任何更改

本步骤的目的是让您了解如何插入 MSSQL Server 凭证以及 vRealize Operations 的监控设置。

  1. 导航至“Administration”(管理)。
  2. 单击“Solutions”(解决方案)。
  3. 向下滚动解决方案列表。
  4. 通过拖动分割条,可以增加解决方案窗口的大小。
  5. 单击“Microsoft SQL Server”
  6. 单击“Configure”(配置)图标。本练习无需进行任何更改。查看可用的配置选项后,您可以选择“Close”(关闭)
  7. 单击“Home”(主页)图标返回主屏幕。

 

 

应用监控仪表盘

 

应用管理包带有即时可用的仪表盘,可以为您提供更多可见性和控制力。

  1. 单击“Home”(主页)图标。
  2. 单击“Dashboard List”(仪表盘列表)。

注意:为了方便参考,对 Microsoft SQL Server 的操作分为两步。这是因为列表打开时会隐藏“Dashboard List”(仪表盘列表)按钮。

 

 

应用监控仪表盘 - Microsoft SQL Server

 

在仪表盘列表中,可以看到管理包安装的多个应用仪表盘。

让我们首先了解 Microsoft SQL Server 仪表盘和指标。

  1. 从菜单中依次单击“MS SQL”、“MS SQL Server Overview”(MS SQL Server 概述)仪表盘。

 

 

应用监控仪表盘 - Microsoft SQL Server

 

您可以在此仪表盘中看到两个 SQL Server 实例及其各自的数据库。单击右侧的 MS SQL Server 对象可以了解更多详细信息。

  1. 双击MS SQL Server

 

 

了解 MS SQL Server 应用对象

 

  1. 可在左侧窗格中看到与 MS SQL Server 对象相关的所有对象。
  2. 可在主窗格中看到 MS SQL Server 对象摘要。

让我们继续了解 MS SQL Server 指标和层次结构。

 

 

MS SQL Server 指标和对象层次结构

 

  1. 单击“Troubleshooting”(故障排除)选项卡
  2. 单击“All Metrics”(所有指标)按钮

现在,您可以看到 MS SQL Server 对象层次结构树以及与 MSSQL Server 数据库相关的所有指标。

 

 

MS SQL Server 指标和对象层次结构

 

在此步骤中,我们将单击“Connections”(连接)这一指标组,并查看“Logins (per Second)”(登录 [每秒])指标。

您将在次数仪表盘(右侧)上看到 MS SQL Server 每秒的登录情况。 

  1. 展开“Connections”(连接)树
  2. 双击“Logins (per Second)”(登录 [每秒])
  3. 单击菜单下拉列表
  4. 单击“Close”(关闭)以关闭图形。

所有指标对于故障排除和预测性能分析都非常有用,而且还可用于仪表盘和视图。

我们将在后续步骤中继续了解更多指标。

 

 

MS SQL Server 指标和对象层次结构

 

层次结构对于对象关联性的故障排除非常重要。您可以在对象的层次结构中上下移动,以便分析子对象(如数据库)或父对象(如虚拟机、主机和其他高级别关系)。

现在,我们将了解层次结构中与子对象相关的指标。

  1. 要加载与此对象相关的所有指标,请选择“msdb MSSQL-AG1-A”数据库。
  2. 展开“Performance”(性能)指标。
  3. 双击“Transactions (per second)”(每秒完成事务数)以查看图形。

您可以向下滚动指标列表,查看与 MS SQL Server 数据库相关的其他指标。

好的...现在我们了解到指标和层级结构对应用监控非常有用。

让我们回到仪表盘,查看其他指标和对象示例。

 

 

MS SQL Server 详细信息仪表盘

 

  1. 单击“Home”(主页)图标。
  2. 单击“Dashboard List”(仪表盘列表)菜单。

 

 

MS SQL Server 详细信息仪表盘

 

  1. 依次单击“MS SQL”、“Details”(详细信息)、“MS SQL Top-N SQL Database Usage”(MS SQL 前 N 个 SQL 数据库使用情况)。

 

 

MS SQL Server 详细信息仪表盘 - 前 N 个 SQL 使用情况

 

您在此还可以看到适用于仪表盘的指标。

 

 

应用监控仪表盘 - Oracle 应用

 

因为我们已了解了 MSSQL Server 的应用监控,所以可对 Oracle 应用进行同样的操作。

  1. 单击“Home”(主页)图标。
  2. 单击“Dashboard List”(仪表盘列表)菜单。

 

 

应用监控仪表盘 - Oracle 应用

 

  1. 依次单击“Oracle”、“Oracle Overview”(Oracle 概述)

 

 

应用监控仪表盘 - Oracle 应用

 

对于 Oracle 应用,您可以在所选仪表盘中看到 Oracle 数据库实例和表空间可用空间。

  1. 单击下拉箭头,以选择一种其他视图。
  2. 单击“Database File Average I/O Time (milliseconds)”(数据库文件平均 I/O 时间 [毫秒])

您可按照我们对 MS SQL Server 所做的步骤来了解指标和对象的层级结构。

 

 

应用监控仪表盘 - I/O 平均时间

 

视图目前以毫秒显示了每个数据库的 I/O。

 

 

应用监控仪表盘 - Oracle WebLogic

 

我们还可以查看详细的 Oracle WebLogic 仪表盘。

  1. 单击“Home”(主页)图标。
  2. 单击“Dashboard List”(仪表盘列表)菜单。

 

 

应用监控仪表盘 - Oracle WebLogic

 

  1. 依次单击“Oracle”、“Details”(详细信息)、“Oracle WebLogic”。

 

 

应用监控仪表盘 - Oracle WebLogic

 

在此仪表盘中,您可以看到能帮助您监控 Oracle WebLogic 实例的若干指标和 KPI。

  1. 您可以单击“Select Oracle WebLogic J2EE Server”(选择 Oracle WebLogic J2EE Server)小组件,逐个查看这些内容。

 

 

应用监控 SAP

 

您可以对“SAP”执行相同的操作。

  1. 在仪表盘中,依次单击“SAP”、“SAP Relationship”(SAP 关系)

至此,本单元全部结束。

 

单元小结


您已完成第 5 单元:vRealize Operations 和 vRealize Log Insight 应用监控:确保整个 SDDC 的性能和可用性练习。

您现在应该已经了解了以下内容:

您可以继续学习以下您最感兴趣的任意单元:

第 1 单元 - 跨 SDDC 的集成式运行状况和性能监控(15 分钟)

第 2 单元 - 通过日志分析进行故障排除(15 分钟)

第 3 单元 - 结合结构化数据与日志数据加快故障排除速度(30 分钟)

第 4 单元 - 存储故障排除(15 分钟)

第 5 单元 - 应用监控(15 分钟)


 

如何结束练习

 

要结束练习,请单击“END”(结束)按钮。

 

Conclusion

Thank you for participating in the VMware Hands-on Labs. Be sure to visit http://hol.vmware.com/ to continue your lab experience online.

Lab SKU: HOL-1701-USE-3-ZH

Version: 20170502-054617