В настоящее время вы работаете в автономном режиме; ожидается повторное подключение к Интернету

Устранение неполадок агента серого состояний в System Center Operations Manager

ВНИМАНИЕ! Данная статья переведена с использованием программного обеспечения Майкрософт для машинного перевода и, возможно, отредактирована посредством технологии Community Translation Framework (CTF). Корпорация Майкрософт предлагает вам статьи, обработанные средствами машинного перевода, отредактированные членами сообщества Майкрософт и переведенные профессиональными переводчиками, чтобы вы могли ознакомиться со всеми статьями нашей базы знаний на нескольких языках. Статьи, переведенные с использованием средств машинного перевода и отредактированные сообществом, могут содержать смысловое, синтаксические и (или) грамматические ошибки. Корпорация Майкрософт не несет ответственности за любые неточности, ошибки или ущерб, вызванные неправильным переводом контента или его использованием нашими клиентами. Подробнее об CTF можно узнать по адресу http://support.microsoft.com/gp/machine-translation-corrections/ru.

Эта статья на английском языке: 2288515
Аннотация
В этой статье описывается устранение неполадок, в которых агент, шлюза или сервера управления недоступен или «блеклыми» в System Center Operations Manager.
Дополнительная информация
Шлюз, сервер управления или агент может иметь одно из следующих состояний, выделяется цветом имя агента и значок в панели мониторинга.
СостояниеВнешний видОписание
ИсправенЗеленый флажокСервер управления или агент работает нормально.
КритическийКрасный флажокИмеется проблема на сервере управления или агента.
НеизвестныйСерый агента имя, серый флажок.Наблюдатель службы работоспособности на корневой сервер управления (RMS), смотрит на наблюдаемом компьютере службы работоспособности больше не получает тактовые импульсы от агента. Наблюдатель службы работоспособности был получение пульсами ранее и работоспособности службы было сообщено как Исправен). Это также означает, что серверы управления, больше не получают никакой информации от агента.

Эта проблема может возникать на компьютере, на котором выполняется агент не работает, или существуют проблемы с подключением. Можно найти дополнительные сведения о представлении наблюдателя службы работоспособности.
НеизвестныйЗеленый кружок, не установлен флажокСостояние обнаруженного элемента неизвестен. Монитор не доступна для этой конкретной обнаруженного элемента.

Причины серого состояния

Шлюз, сервер управления или агент может стать недоступным по одной из следующих причин:
  • Ошибка подтверждения соединения
  • Недопустимая конфигурация
  • Сбой системы рабочих процессов
  • OpsMgr базы данных или данных проблем производительности склада
  • RMS или основной MS или проблемы производительности шлюза
  • Проблемы сети или проверки подлинности
  • (Служба не запущена) проблемы службы работоспособности

Проблемы области

Перед началом устранения неполадок агента «блеклыми», следует сначала понять топологии Operations Manager и затем определить области проблемы. Следующие вопросы помогут определить область проблемы:
  • Сколько агенты будут затронуты?
  • Агенты возникают проблемы в том же сегменте сети?
  • Предоставляют отчет, агенты на тот же сервер управления?
  • Как часто агентов ввод и остаются в состоянии серый?
  • Как вы обычно исправить ошибку (например, перезапустите службу агента работоспособности, очистите кэш, зависят от автоматического восстановления)?
  • Оповещения о сбоях пульса создаются для этих агентов?
  • Данная проблема наблюдается в течение определенного времени дня?
  • Проблема сохранения Если отказоустойчивости этих агентов на другой сервер управления или шлюза?
  • Когда была запущена эта проблема?
  • Вносились ли изменения агенты, серверы управления или группе шлюза или управления?
  • Являются уязвимой агентов кластерных системах Windows?
  • Папку службы работоспособности, исключены из антивирусного сканирования?
  • Что такое среде, это происходит в OpsMgr с пакетом обновления 1, R2, 2012 г.

Стратегии устранения неполадок

Стратегии устранения неполадок будет зависит, какой компонент неактивен, где этот компонент находится в топологии и — как распространенные проблемы. Рассмотрим следующие условия:
  • При отсутствии необходимых отчетов для определенного сервера или шлюза агентами Устранение неполадок следует начать на уровне управления сервер или шлюз.
  • Если шлюзы, отчеты на сервере управления конкретного недоступны, устранение неполадок следует начать на уровне сервера управления.
  • Для систем без использования агента для сетевых устройств и серверов Unix/Linux Устранение неполадок следует начать на агента, сервера управления или шлюза, который наблюдает за этими объектами.
  • Если недоступны все системы, устранение неполадок следует начать с корневой сервер управления.
  • Устранение неполадок обычно начинается на уровень выше компонент недоступен.

Проблема сценариев

Рассмотрим следующие сценарии.

Сценарий 1

Только несколько агентов подвержены уязвимости. Для управления серверами отчетов этих агентов. Агенты оставлен на регулярной основе. Хотя очистить кэш агента для временного решения проблемы, проблема повторяется через несколько дней.

Решение 1

Для решения проблемы в данной ситуации, выполните следующие действия.
  1. Установите соответствующее исправление для уязвимых операционных систем.
    • Windows 7 и Windows 2008 R2

      Это исправление включено в Пакет обновления 1 (SP1).
    • Windows Vista и Windows 2008

      Установка 2553708.
    • Windows 2003

      Установка 981263.
  2. Исключите из антивирусной кэш агента.
  3. Остановите службу работоспособности.
  4. Очистите кэш агента.
  5. Служба работоспособности.
Примечание Рекомендуется заранее установить исправления, перечисленные в шаге 1 для всех отслеживаемых системах. К ним относятся серверы управления. Кроме того исключите агента или управления кэша из антивирусного сканирования для предотвращения этой проблемы распространения в другие системы.

Дополнительные сведения об этих процедур щелкните приведенные ниже номера статей базы знаний Майкрософт:
982018 Доступно обновление для улучшения совместимости Windows 7 и Windows Server 2008 R2 с расширенный формат дисков

2553708 Накопительный пакет исправлений, улучшающий совместимость Windows Vista и Windows Server 2008 с дисков расширенного формата

981263 Серверы управления или назначенных агентов неожиданно отображаются как недоступные в консоли Operations Manager в Windows Server 2003 или Windows Server 2008

975931 Рекомендации по антивирусной исключений, связанных Operations Manager 2007 и MOM 2005

Сценарий 2

Только несколько агентов подвержены уязвимости. Для управления серверами отчетов этих агентов. Агенты постоянно оставаться неактивным. Хотя очистить кэш агента, это не не reolve проблему.

Решение 2

Для решения проблемы в данной ситуации, выполните следующие действия.
  1. Определите ли служба работоспособности включена и запущена на сервере управления или шлюза. Если служба работоспособности перестал отвечать, создайте дамп Adplus в режиме зависания службы, чтобы помочь определить причину проблемы. Для получения дополнительных сведений щелкните следующий номер статьи базы знаний Майкрософт:
    286350 Использование сетевого монитора для записи сетевого трафика
  2. Проверьте журнал событий диспетчера операций для агента, чтобы найти какой-либо из следующих событий:

    Код события: и аспирантов
    Источник события: HealthService
    Описание события:
    Правило или монитор «%4» запуск «%3» для экземпляра с идентификатором: «%2» не может быть инициализирован и не будут загружены. Группы управления «%1»

    Код события: заявок на получение стипендий
    Источник события: HealthService
    Описание события:
    Сводка: %2 правил / экране сбой и получил выгружен, %3 из них достигнут предел сбоя, который предотвращает автоматическую перезагрузку. Группа управления «%1». Это Сводка только событие, можно найти другие события с описанием правил для выгрузки и экране.

    Код события: 1104
    Источник события: HealthService
    Описание события:
    Профиль RunAs в рабочий процесс «%4», «%3» выполняется для экземпляра с идентификатором: «%2» не может быть разрешена. Рабочий процесс не будет загружено. Группы управления «%1»

    Код события: 1105
    Источник события: HealthService
    Описание события:
    Несоответствие типов профиля RunAs в рабочий процесс «%4», «%3» выполняется для экземпляра с идентификатором: «%2». Рабочий процесс не будет загружено. Группы управления «%1»

    Код события: 1106
    Источник события: HealthService
    Описание события:
    Невозможно получить доступ к обычного текста RunAs профиль запуска, например «%3» рабочий процесс «%4», с идентификатором: «%2». Рабочий процесс не будет загружено. Группы управления «%1»

    Код события: 1107
    Источник события: HealthService
    Описание события:
    Счет для профиля RunAs запуска, например «%3» рабочий процесс «%4», с идентификатором: «%2» не определен. Рабочий процесс не будет загружено. Свяжите учетную запись с профилем. Группы управления «%1»

    Код события: 1108
    Источник события: HealthService
    Описание события:
    Невозможно разрешить учетную запись в профиль выполнения от имени «7 %». В частности учетная запись используется в безопасные ссылки Override «%6». %n %n, это условие может произойти, учетная запись не настроена на этом компьютере. Чтобы устранить эту проблему, необходимо открыть профиль выполнения от имени указанного ниже, найдите запись учетной записи в соответствии с его SSID и или выбрать учетную запись для этого компьютера, при необходимости, распространять или изменить параметр в профиле, таким образом, целевой объект не использует указанную учетную запись. %n % nManagement группы: %1% nRun как профиль: %7% nSecureReferenceOverride имя: %6% nSecureReferenceOverride ID: %4% nObject имя: %3% nObject ID: % nAccount %2 SSID: %5

    Код события: 4000
    Источник события: HealthService
    Описание события:
    Слежение узел не отвечает или испытал сбой. Код состояния ошибки узла: %1.

    Код события: 21016
    Источник события: Соединитель OpsMgr
    Описание события:
    Не удалось настроить канал связи %1 OpsMgr и есть узлы без перехода на другой ресурс. Связь продолжится, когда %1 доступен и разрешается связь данного компьютера.

    Код события: 21006
    Источник события: Соединитель OpsMgr
    Описание события:
    Соединитель OpsMgr не удалось подключиться к %1: %2. Код ошибки: % 3(%4). Убедитесь, что имеется подключение к сети, сервер работает и зарегистрировал его прослушивания порта и существуют брандмауэры блокирование трафика в место назначения.

    Код события: 20070
    Источник события: Соединитель OpsMgr
    Описание события:
    Соединитель OpsMgr подключен к %1, но соединение было закрыто, сразу же после выполнения проверки подлинности. Наиболее вероятной причиной этой ошибки является, что агент не может связаться с сервером или сервер не получил конфигурации. Проверьте журнал событий на сервере на наличие 20000 событий, показывающее, агенты, которые не утверждены пытаетесь подключиться.

    Код события: 20051
    Источник события: Соединитель OpsMgr
    Описание события:
    Не удалось загрузить указанный сертификат сертификат не является актуальным. Проверьте системное время и при необходимости выдать сертификат %n допустимое время начала сертификатов: %1 %n сертификат допустимое время окончания: %2

    Источник события: ESE
    Категория события: Диспетчер транзакций
    Код события: 623
    Описание: HealthService (<PID></PID>) для экземпляра хранилища версий <instance></instance><name></name>») достиг максимального размера элемента <value> </value>МБ. Вполне вероятно, что длительная транзакция препятствует очистки хранилища версий и вызывает его для построения размера. Обновления будут отклоняться, пока длительная транзакция полностью фиксации или отката. Возможность длительной транзакции:
    Код сеанса:<value></value>
    Контекста сеанса:<value></value>
    ThreadId контекста сеанса: <value> </value>.
    Очистка:<value></value>
  3. Если найти следующих событий, следуйте приведенным ниже рекомендациям:
    • События и аспирантов и заявок на получение стипендий: эти события указывают, что некоторые процессы не удается загрузить. Если эти процессы ядра системы, эти события может вызвать проблемы. В этом случае сосредоточьтесь на обработке этих событий.
    • События 1104, 1105, 1106, 1107 и 1108: эти события могут вызывать событий и аспирантов и заявок на получение стипендий. Ttypically, это происходит из-за неправильно настроенные учетные записи «Запуск от имени». В OpsMgr R2 обычно это происходит потому, что учетные записи «Запуск от имени» настроен для использования с классом неправильный или не настроены на агент.
    • Событие 4000 Данное событие указывает, что произошел сбой процесса Monitoringhost.exe. Если проблема возникает при несоответствии Dll или отсутствуют параметры реестра, можно решить проблему путем переустановки агента. Если presists проблемы, попытайтесь устранить ее с помощью следующих методов:
      • Запустите Process Monitor записанных данных до точки сбоя процесса. Для получения дополнительных сведений посетите следующий веб-узел Microsoft Sysinternals:V2.96 монитор процесса
      • Создает дамп Adplus в режиме сбоя. Для получения дополнительных сведений щелкните следующий номер статьи базы знаний Майкрософт:
        286350 Как использовать ADPlus.vbs для устранения «зависаний» и «зависает»
      • Если агент наблюдает за сетевыми устройствами, а агент выполняется на Windows Server 2003, исправление в 982501 КБ. Для получения дополнительных сведений щелкните следующий номер статьи базы знаний Майкрософт:
        982501 Мониторинг устройств SNMP может перестать периодически в System Center Operations Manager или в System Center Essentials
    • Событие с кодом 21006: это означает, что существуют проблемы связи между агентом и сервером управления. Если агент использует сертификат для проверки подлинности, убедитесь, что сертификат не просрочен и что агент использует правильный сертификат. Если используется Kerberos, убедитесь, что агент может взаимодействовать с Active Directory. Если проверка подлинности работает правильно, это может означать не отображает пакеты от агента управления сервер или шлюз. Попробуйте установить простые telnet к порту 5723 от агента на сервере управления. Кроме того во время воспроизведения ошибки связи выполнения трассировки сети одновременных между агентом и сервером управления. Это может помочь определить ли пакеты производится доступ на сервер управления, и попытка оптимизации трафика или отклоняют некоторые пакеты между двумя компонентами любого устройства. Для получения дополнительных сведений щелкните следующий номер статьи базы знаний Майкрософт:
      812953 Использование сетевого монитора для записи сетевого трафика
    • Код события: 623 Это событие обычно происходит в большой среде Operations Manager, в которой на сервере управления или на компьютере агента управляет многих рабочих процессах. Для получения дополнительных сведений щелкните следующий номер статьи базы знаний Майкрософт:
      975057В консоли диспетчера операций диспетчера операций недоступен один или несколько серверов управления и управляемых устройств

Сценарий 3

Все агенты, отчеты для определенного сервера или шлюза, недоступны.

Решение 3

Для решения проблемы в данной ситуации, выполните следующие действия.
  1. Попытайтесь определить, какого рода рабочих нагрузок сервера управления и мониторинга шлюза. Такие рабочие нагрузки могут включать сетевые устройства, кросс платформенный агентов, синтетические транзакции, агентов Windows и компьютерами без агентов.
  2. Определите, запущена ли служба работоспособности на сервере управления или шлюз.
  3. Определите, выполняется ли сервер управления в режим обслуживания. При необходимости удалите сервер из режима обслуживания.
  4. Проверьте журнал событий диспетчера операций агента для одного из событий, перечисленных в сценарии 2. В случае код события: 21006, следуйте тем же набором правил, описанных в сценарии 2. Кроме того в этом случае данное событие указывает сервер управления или шлюза не может взаимодействовать с его родительского сервера. В Operations Manager 2007 и R2 для сервера управления родительского сервера является управление корневого сервера (RMS). Для шлюза родительского сервера может быть любой сервер управления. (См. шаг 3 в сценарии 2 разрешения.)
  5. Если сервер управления работает в системе Windows Server 2003 служба работоспособности наблюдения за сетевыми устройствами, можно также применить указанное ниже исправление 982501 КБ. Для получения дополнительных сведений щелкните следующий номер статьи базы знаний Майкрософт:
    982501 Мониторинг устройств SNMP может перестать периодически в System Center Operations Manager или в System Center Essentials
  6. Изучите следующие события в журнале событий диспетчера операций. Эти события обычно указывают на наличие проблем с производительностью на сервере управления или на Microsoft SQL Server, на котором размещена база данных OperationsManager или OperationsManagerDW:

    Код события: 2115
    Источник события: HealthService
    Описание события:
    Привязка источника данных в группе управления %1 сообщения, отправленные в рабочий процесс, но не получил ответа в секундах %5. Это указывает на производительность или функциональные проблемы с workflow.%n идентификатор рабочего процесса: %2 %n экземпляра: %3 %n идентификатор экземпляра: %4 %n

    Код события: 5300
    Источник события: HealthService
    Описание события:
    Служба работоспособности локального неисправен. Изменение состояния сущности потока останавливается с ожидающих подтверждения. %n % nManagement группы: % nManagement %2 код группы: %1

    Код события: 4506
    Источник события: HealthService
    Описание события: Operations Manager
    Данных был удален из-за слишком много необработанных данных в "%2", "%3" выполняется для экземпляра с идентификатором правила: "%4" в управлении группы "%1".

    Код события: 31551
    Источник события: Модули службы работоспособности
    Описание события:
    Не удалось сохранить данные в хранилище данных. Операция будет retried.%rException «%5»: ни один или несколько рабочих процессов повлияла эта %6 %n %. %n % nWorkflow имя: %2% nInstance имя: %3% nInstance ID: %4% nManagement группы: %1

    Код события: 31552
    Источник события: Модули службы работоспособности
    Описание события:
    Не удалось сохранить данные в Warehouse.%rException данных «%5»: ни один или несколько рабочих процессов повлияла эта %6 %n %. %n % nWorkflow имя: %2% nInstance имя: %3% nInstance ID: %4% nManagement группы: %1

    Код события: 31553
    Источник события: Модули службы работоспособности
    Описание события:
    Хранилище данных промежуточной области, но обрабатывает сбой на одной из последующих operations.%rException «%5» были записаны данные: % %n %6 ни один или несколько рабочих процессов повлияло это. %n % nWorkflow имя: %2% nInstance имя: %3% nInstance ID: %4% nManagement группы: %1

    ID:31557 событий
    Источник события: Модули службы работоспособности
    Описание события:
    Не удалось получить сведения о состоянии процесса синхронизации из базы данных хранилища данных. Операция будет retried.%rException «%5»: ни один или несколько рабочих процессов повлияла эта %6 %n %. %n % nWorkflow имя: %2% nInstance имя: %3% nInstance ID: %4% nManagement группы: %1
  7. Из-за отсутствия разрешения для учетных записей «Запуск от имени» или неправильными настройками учетной записи «Запуск от имени» также регистрируется событие с кодом 3155 X. Дополнительные сведения содержатся в следующем блоге Microsoft Technet, включает лист Microsoft Office Excel, содержащий список разрешений для различных учетных записей, используемых OpsMgr:
Примечание Устранение неполадок сервера управления или производительность шлюза и SQL Server, в разделе «Разрешения» для следующих сценариев.

Сценарии 4 и 5

Сценарии 4
Все агенты, которые периодически от состояния работоспособности и серый сервер управления конкретного отчета.
Сценарии 5
Все агенты в среде периодически от состояния работоспособности и серый.

Разрешение 4 и 5

Для решения проблемы в любом из этих случаев, необходимо сначала определите причину проблемы. Ниже перечислены основные причины недоступности сервера временных.
  • Родительского сервера агентов временно отключен.
  • Агенты перегрузка сервера управления с операционного оповещения, состояний, обнаружения и т. д. Это может вызвать увеличение использования системных ресурсов на базе OpsMgr и на серверах OpsMgr.
  • Сбои в работе сети вызвало сбой временные связи между агентами и родительского сервера.
  • Изменений Management pack (MP). В консоли OpsMgr эти изменения требуют настройки OpsMgr и перераспределения MP для агентов. Если изменения влияют на размер базового агента, это может привести к Популяризация использования системных ресурсов на серверах OpsMgr и OpsMgr базы данных.
Ключ к устранению этих сценариев является понимание длительность недоступности сервера, так и время дня, во время которого произошло. Это поможет быстро сузить проблему.

Устранение неполадок производительности сервера и шлюз управления

OpsMgr 2007 и R2 – корневой сервер управления (RMS)

Конфигурации пакетов обновления возникают путем импорта пакета управления и данных обнаружения. При низкой производительности системы чаще всего узкие места являются, во-первых, ЦП и, во-вторых, установка OpsMgr дискового ввода-вывода.

RMS отвечает за создание и отправка файлов конфигурации на все уязвимые службы работоспособности.

Для рабочего процесса перезагрузки (который может быть вызвано новой конфигурации на RMS), чаще всего узкие места совпадают: ЦП первого и OpsMgr установки диска ввода-вывода второй. RMS отвечает для чтения файла конфигурации, для загрузки и инициализации всех рабочих процессов, которые работают на его и для обновления RMS HealthService хранения при обновлении файла конфигурации на RMS.

Для пакетов действия локального рабочего процесса (что когда агенты изменяют их доступность) скорее всего, узким местом является Процессор. Если вы обнаружите, что Процессор не работает при максимальной вместительности, далее скорее узким местом является жесткий диск. RMS отвечает за мониторинг доступность всех агентов, использующих локальные рабочие процессы службы управления правами. RMS также содержит распределенные зависимость мониторы, использующие диск.

Сервер управления

Во время настройки обновления пакетов (что вызвана MP импорта и обнаружения), являются обычно узкие места, во-первых, ЦП и, во-вторых, установка OpsMgr дискового ввода-вывода. Сервер управления отвечает пересылки файлов конфигурации служб управления правами для назначения агентов.

Для сбора оперативных данных обычно узкие центральным Процессором. Дисковый ввод-вывод может быть также при максимальной вместительности, но не как. Сервер управления отвечает за распаковки и расшифровки входящих оперативных данных и вставлять его в базу данных рабочих. Он также отправляет подтверждения (ACK) агентов или шлюзы после оперативных данных и использует для временного хранения этих ACK исходящие очереди диска. И, наконец, сервер управления также переслать отслеживать изменения состояния (с помощью очереди диска) RMS мониторов распределенных зависимостей.

Шлюз

Шлюз является ЦП и ввода вывода. Когда шлюз ретрансляции большого объема данных операций ввода-вывода и Процессора может отображаться высокая нагрузка. Большинство ЦП вызвана распаковки, сжатия, шифрования и расшифровки входящих данных, а также при передаче данных. Все данные, получаемые от агентов и шлюз хранится в постоянные очереди на диске, чтение и передан на сервер управления шлюзом службы работоспособности. Это может привести к большой диске. Это может быть существенным при переводе временно недоступен шлюз и затем должен обрабатывать данные накопленной агента, агенты создаются и попытался отправить GW был еще в автономном режиме.

Для устранения неполадок в данной ситуации, соберите следующую информацию для каждого уязвимого сервера или шлюза:
  • Точное Windows версии, выпуска и номер построения (например, Windows Server 2003 Enterprise x 64 с пакетом обновления 2)
  • Число процессоров
  • Объем оперативной памяти
  • Диск, содержащий папку состояния службы
  • Настроено ли антивирусное программное обеспечение для исключения хранилище службы работоспособности

    Примечание Для получения дополнительных сведений щелкните следующий номер статьи базы знаний Майкрософт:
    975931Рекомендации по антивирусной исключения, связанные с toOperations диспетчер
  • Уровень RAID (0, 1, 5, 0 + 1 или 1 + 0) для диска, используемого службой работоспособности
  • Количество дисков, используемых для RAID
  • Включена ли записи с питаемым от аккумулятора кэшем контроллера массива

Устранение неполадок производительности SQL Server

Рабочие базы данных (OperationsManager)

Для базы данных OperationsManager скорее всего, узким местом является дискового массива. Если дисковый массив не на максимальную пропускную способность, далее скорее узким местом является Процессор. Базы данных будут возникать время от времени самопроизвольно и эксплуатации «дожди данных» (большое число событий, предупреждений и изменения данных или состояния производительности, которые сохраняются в течение длительного времени). Коротких импульсов обычно не вызывает значительные задержки на продолжительное время.

Во время ввода оперативных данных дисков базы данных в основном используются для записи. Использование Процессора обычно вызвано SQL Server "Обработка". Это может произойти при наличии больших и сложных запросов, вставки данных большой и учету больших таблиц (что по умолчанию происходит в полночь). Как правило устранению даже больших таблиц событий и данные о производительности не использует слишком большие ресурсы Процессора или дисковые ресурсы. Тем не менее, grooming pf таблицы оповещения и изменение состояния может быть интенсивно для больших таблиц.

Она также ЦП после обработки пакетов распространения конфигурации, приводивших MP imports или изменение места большого экземпляра. В таких случаях служба конфигурации запрашивает базу данных для новой конфигурации агента. Это обычно вызывает пиковые значения загрузки ЦП, прежде чем служба отправляет обновления конфигурации агентов произойдет в базе данных.

Хранилище данных (OperationsManagerDW)

Для базы данных OperationsManagerDW скорее всего, узким местом является дискового массива. Обычно это происходит из-за очень больших рабочих данных вставок. В этих случаях диски являются в основном занята выполнением операций записи. Как правило диски выполняют несколько операций чтения, за исключением чтобы обрабатывать вручную сгенерировал представления отчетности, поскольку их выполнения запросов в хранилище данных.

Использование ЦП обычно вызвано SQL Server "Обработка". Пиковые значения загрузки ЦП может возникнуть во время секционирования активность (когда таблицы становятся очень большими и затем получить секционированы), создание сложных отчетов и большое количество оповещений в базе данных, с которой хранилища данных необходимо постоянно синхронизировать высокой.
Устранение общих неполадок
Для устранения неполадок в данной ситуации, соберите следующую информацию для каждого уязвимого сервера или шлюза:
  • Точное Windows версии, выпуска и номер построения (например, Windows Server 2003 Enterprise x 64 с пакетом обновления 2)
  • Число процессоров
  • Объем оперативной памяти
  • Объем памяти, выделяемый для SQL Server
  • Следует ли SQL Server является 32-разрядным и включены расширения AWE

    Примечание Большая часть этой информации можно найти в среде SQL Server Management Studio или в SQL Server Enterprise Manager. Чтобы сделать это, откройте окно свойств сервера и нажмите кнопку вкладкиОбщие и памяти . Вкладка Общие содержит версию SQL Server, версии Windows, платформы, объем оперативной памяти и число процессоров. На вкладке память включает память, которая выделяется для SQL Server. В Microsoft SQL Server 2008 и в Microsoft SQL Server 2005 вкладке память содержит также параметр AWE. Чтобы определить, включены ли расширения AWE в Microsoft SQL Server 2000, выполните следующую команду в анализаторе запросов SQL Microsoft:
    процедуры sp_configure «Показать дополнительные параметры», 1
    ИЗМЕНИТЬ КОНФИГУРАЦИЮ
    GO
    процедуры sp_configure «awe enabled»
    Возвращаемые значения для config_value и run_value будет 1, если включены расширения AWE.

    Если операционная система является 32-разрядным и оперативной памяти составляет 4 ГБ или больше, проверьте, существуют ли ключи/3 gb и/PAE в файле Boot.ini. файл. Эти параметры могут неправильно настроен, если сервер был первоначально установлены с 4 ГБ или более оперативной памяти и если ОЗУ более поздние обновления.

    Для 32-разрядных серверов, 4 ГБ оперативной памяти параметр/3 gb в файле Boot.ini увеличивает объем памяти, SQL Server может решить (от 2 до 3 ГБ). Для 32-разрядных серверов, содержащих более 4 ГБ оперативной памяти параметр/3 gb в файле Boot.ini может фактически ограничить объем памяти, SQL Server может решить. Для этих систем добавить Boot.ini параметр/PAE и включить расширения AWE в SQL Server.

    В многопроцессорной системе проверьте максимальная степень параллелизма (MAXDOP) параметр. В SQL Server 2008 и SQL Server 2005 этот параметр находится на вкладке " Дополнительно " в диалоговом окне Свойства сервера. Чтобы определить этот параметр в SQL Server 2000, выполните следующую команду в анализаторе запросов SQL:

    процедуры sp_configure «Показать дополнительные параметры», 1
    ИЗМЕНИТЬ КОНФИГУРАЦИЮ
    GO
    процедуры sp_configure «max degree of parallelism»


    Значением по умолчанию является 0, что означает, что будет использовать все доступные процессоры. Значение 0 подходит для серверов, которые имеют восемью или меньшим количеством процессоров. Для серверов, имеющие более восьми процессоров времени требуется SQL Server для координации работы всех процессоров может привести к обратным результатам. Поэтому для серверов, имеющие более восьми процессоров, обычно следует задать Max Degree of Parallelism значение 8. Чтобы сделать это, выполните следующую команду в анализаторе запросов SQL:

    процедуры sp_configure «Показать дополнительные параметры», 1
    GO
    ПЕРЕНАСТРОЙКА С ПЕРЕОПРЕДЕЛЕНИЕМ
    GO
    процедуры sp_configure 'max degree of parallelism' 8
    GO
    ПЕРЕНАСТРОЙКА С ПЕРЕОПРЕДЕЛЕНИЕМ
    GO
  • Дисков, содержащих хранилища данных или Ops и Tempdb файлов
  • Настроено ли антивирусное программное обеспечение для исключения данных SQL и журналов (антивирусное программное обеспечение не сможет проверять файлы базы данных SQL. При попытке сделать это может привести к снижению производительности.)
  • Объем свободного места на дисках, содержащих хранилища данных или Ops и Tempdb файлов
  • Тип хранения (SAN или локальную)
  • Уровень RAID (0, 1, 5, 0 + 1 или 1 + 0) для дисков, которые используются SQL Server
  • При использовании системы хранения данных нам: количество шпинделей на каждый LUN, используемый SQL Server
  • В OpsMgr 2007 с пакетом обновления 1: 969130 (учету событий хранилища данных) исправление или накопительный пакет исправлений SP1 971541 применена ли
  • Если преобразованный пакет управления Exchange 2007 уже используется или когда-либо использовались: количество строк в таблице LocalizedText в Ops DB и таблицы EventPublisher в базе данных хранилища данных

    ПримечаниеЧтобы определить суммы строки, выполните следующие команды:
    Использование OperationsManager SELECT COUNT(*) из LocalizedText
    Использование OperationsManagerDW SELECT COUNT(*) из EventPublisher
Счетчики для идентификации нехватки памяти
  • MSSQL$<instance>: диспетчер буферов: ожидаемого срока жизни страницы — как долго страницы остаются в буферном пуле. Если это значение меньше 300 секунд, это может означать, что сервер может использовать больше памяти. Он также может наступить в результате фрагментации индекса.</instance>
  • MSSQL$<instance>: диспетчер буферов: отложенных записей/с — отложенной записи освобождает место в буфере, перемещая страницы на диск. Как правило значение не должно превышать постоянно 20 операций записи в секунду. В идеале, будет близка к нулю.</instance>
  • Память: Доступно МБ - значения ниже 100 МБ могут указывать на нехватку памяти. Нехватка памяти четко присутствует, если эта сумма превышает 10 МБ.
  • Процесса: Байт исключительного пользования: _Total: объем памяти (физической и страницы) совместно используется всеми процессами.
  • Процесс: Рабочий набор: _Total: это объем физической памяти, которые используются совместно всеми процессами. Если значение для этого счетчика является значительно ниже значения для процесса: Private Bytes: _Total, это означает, что процессы подкачки слишком сильно. Разница более чем на 10%, скорее всего, важен.
Счетчики для идентификации диска давление
Записать эти счетчики физического диска для всех дисков, содержащих файлы данных и журналов SQL:
  • % Времени простоя: сообщается сколько времени простоя диска. Все, что 50 процентов может означать проблем с производительностью дисков.
  • Средняя длина очереди диска: Это значение не должно превышать 2 раза количество шпинделей на LUN. Например если LUN 25 физические диски, допускается значение 50. Однако если LUN шпинделя 10, значение 25 является слишком большим. Можно использовать следующие формулы на основе RAID-уровень и количество дисков в конфигурации RAID.
    • RAID 0: Все диски выполнение работы в RAID 0 значение
    • Средняя длина очереди диска<= #="" (disks="" in="" the="" array)=""></=>
    • RAID 1: половину диски являются «работу»; Таким образом только половина из них могут быть подсчитаны к очереди диски
    • Средняя длина очереди диска<= #="" (disks="" in="" the="" array/2)=""></=>
    • RAID 10: — половина дисков «работу»; Таким образом только половина из них могут быть подсчитаны к очереди диски
    • Средняя длина очереди диска<= #="" (disks="" in="" the="" array/2)=""></=>
    • RAID 5: Все диски выполнение работы в набор RAID 5
    • Средняя длина очереди диска<= #="" disks="" in="" the="" array=""></=>
    • Среднее время обращения к диску/сек: количество секунд, необходимое для выполнения одного дискового ввода-вывода
    • Чтения с диска Средняя сек: среднее время в секундах для чтения данных с диска
    • Записи на диск Средняя сек: среднее время в секундах для записи данных на диск

      Примечание Последние три счетчики в этом списке всегда должны иметь значения приблизительно.020 (20 мс) или нижнем и никогда не должно exceed.050 (50 мс). Ниже приведены пороговые значения, описанные в производительности SQL Server, поиск и устранение неисправностей.
      • Меньше 10 мс: очень хорошее
      • Между 10-20 мс: хорошо
      • Между 20-50 мс: медленно, требует внимания
      • Больше 50 мс: серьезным узким местом ввода/вывода
    • Диск/сек: Количество байтов, передаваемых или с диска в секунду
    • Диск/сек: Количество операций ввода-вывода в секунду (IOPS)
    Когда % не хватает времени (10 процентов или меньше), это означает, что диск в полном объеме. В этом случае последних двух счетчиков в этот список («Диск байт в секунду» и «Обращений к диску/сек») дают хорошее представление о максимальной пропускной способности диска в байтах и IOPS, соответственно. Пропускная способность диска SAN очень переменной, в зависимости от числа дисков, скорость дисков и скорости канала. Лучше обратитесь к изготовителю SAN, чтобы узнать, сколько байтов и ВЫВОДА диска должны поддерживать. Если значения для этих двух счетчиков не соответствуют ожидаемым пропускная способность диска % не хватает времени, привлекать поставщик SAN для устранения неполадок.
Следующие ссылки позволяют добиться более глубокого понимания Устранение неполадок производительности SQL Server:

OpsMgrPerformance счетчики

В следующих разделах описаны счетчики производительности, которые можно использовать для наблюдения и устранения неполадок производительности OpsMgr.
Роль сервера шлюза
  • Счетчики общей производительности: эти счетчики показывают общее быстродействие шлюза:
    • Процессор (_Total) \ % загруженности процессора
    • Memory\% использования выделенной памяти
    • Сетевой интерфейс (*) \Bytes/сек
    • Логический диск (*) \ процент времени бездействия
  • Логический диск (*) \Avg. LengthOpsMgr очереди диска процесс универсальных счетчиков производительности: эти счетчики показывают общую производительность процессов OpsMgr на шлюз:
    • Время (HealthService) \%Processor
    • Обработка \Private (HealthService) байтов (в зависимости от того, сколько агентов управления этот шлюз, это число может меняться и может быть несколько сотен мегабайт)
    • Число процессов (HealthService) \Thread
    • Процесс (HealthService) \Virtual байт
    • \Working набор процессов (HealthService)
    • Процесс (MonitoringHost *) \ % загруженности процессора
    • Процесс (MonitoringHost *) \Private байт
    • Число процессов (MonitoringHost *) \Thread
    • Процесс (MonitoringHost *) \Virtual байт
  • Счетчики производительности отдельных процессов (MonitoringHost *) \Working SetOpsMgr: эти счетчики, OpsMgr конкретные счетчики, показывающие производительность на шлюзе OpsMgr конкретных аспектов:
    • Счетчик Service\Workflow работоспособности
    • Работоспособность групп службы управления (*) \Active загрузки файлов: количество передач файлов, обработка данного шлюза. Представляет количество файлов пакета управления, загруженные для агентов. Если это значение остается на высоком уровне в течение длительного времени и не много импорта в данный момент пакет управления, эти условия может создавать проблемы, которая влияет на передачу файлов.
    • Очередь \Send % используется для работоспособности группы управления обслуживанием (*): размер постоянные очереди. Если его не удалить это значение остается выше, чем 10 в течение длительного времени, это означает резервное очереди. Это условие является причиной перегруженных OpsMgr системой управления сервера или базы данных слишком занят или находится в автономном режиме.
    • Получено OpsMgr Connector\Bytes: Номер сети, принимаемые шлюз — т. е. количество входящих байт до распаковки.
    • Передано OpsMgr Connector\Bytes: Число байт, отправленных шлюз — т. е. количество исходящих байт после сжатия в сети.
    • Получено байт OpsMgr Connector\Data: Количество байтов данных, полученных шлюз — т. е. количество входящих данных после распаковки.
    • Передано байт OpsMgr Connector\Data: Количество байтов данных, отправленных шлюз — т. е. объем выходных данных до сжатия.
    • OpsMgr Connector\Open подключений: Количество подключений, открытых на шлюзе. Это число должно быть такой же, как количество агентов или серверы управления, которые подключены непосредственно к шлюзу.
Роль сервера управления
Счетчики общей производительности: эти счетчики показывают общую производительность сервера управления:
  • Процессор (_Total) \ % загруженности процессора
  • Memory\% использования выделенной памяти
  • Сетевой интерфейс (*) \Bytes/сек
  • Логический диск (*) \ процент времени бездействия
Логический диск (*) \Avg. LengthOpsMgr очереди диска процесс универсальных счетчиков производительности: эти счетчики показывают общую производительность OpsMgr процессов на сервере управления:
  • Процесс (HealthService) \ % загруженности процессора
  • Обработка \Private (HealthService) байт — в зависимости от того, сколько агентов управления этот сервер управления, это число может меняться и может быть несколько сотен мегабайт.
  • Число процессов (HealthService) \Thread
  • Процесс (HealthService) \Virtual байт
  • \Working набор процессов (HealthService)
  • Процесс (MonitoringHost *) \ % загруженности процессора
  • Процесс (MonitoringHost *) \Private байт
  • Число процессов (MonitoringHost *) \Thread
  • Процесс (MonitoringHost *) \Virtual байт
Счетчики производительности отдельных процессов (MonitoringHost *) \Working SetOpsMgr: эти счетчики, OpsMgr определенных счетчиков, которые позволяют определить производительность specifric аспекты OpsMgr на сервере управления:
  • Счетчик Service\Workflow работоспособности: число рабочих процессов, которые запущены на сервере управления.
  • Работоспособность групп службы управления (*) \Active загрузки файлов: количество передач файлов, обработка этот сервер управления. Представляет количество файлов пакета управления, загруженные для агентов. Если это значение остается на высоком уровне в течение длительного времени и не много импорта в данный момент пакет управления, эти условия может создавать проблемы, которая влияет на передачу файлов.
  • Очередь \Send % используется для работоспособности группы управления обслуживанием (*): размер постоянные очереди. Если его не удалить это значение остается выше, чем 10 в течение длительного времени, это означает резервное очереди. Это условие является причиной перегруженных OpsMgr системой, так как система OpsMgr (например, корневой сервер управления) слишком занят или находится в автономном режиме.
  • Работоспособности группы управления обслуживанием (*) \Bind скорость передачи данных исходного элемента Drop: количество элементов данных, которые удаляются с сервера управления для базы данных или хранилища данных сбора данных записи действий. При этом значение счетчика не равен 0, управление сервера или базы данных перегружен потому, что он не может обработать входящий элемент данных достаточно быстро или происходит в пакетном режиме элемента данных. Элементы перетащенных данных будет повторно агентами. По завершении перегрузки или пакетов эти элементы данных будут вставлены в базу данных или в хранилище данных.
  • Работоспособность групп службы управления (*) \Bind скорость входящих элемент источника данных: количество элементов данных, полученных сервером управления для базы данных или хранилища данных сбора данных записи действий.
  • Работоспособность групп службы управления (*) \Bind скорость Post элемент источника данных: количество элементов данных, на сервере управления написал для базы данных или хранилища данных для сбора данных записи действий.
  • OpsMgr Connector\Bytes получено: Количество сетевых байт, полученных сервером управления — т. е. размер входящих байт до распаковки.
  • Передано OpsMgr Connector\Bytes: Номер сети байтов, отправленных сервером управления — т. е. размер исходящих байт после сжатия.
  • Получено байт Connector\Data OpsMgr: Число байтов данных, полученных сервером управления — т. е. Размер входных данных после распаковки)
  • Передано байт Connector\Data OpsMgr: Количество байтов данных, отправленных сервером управления — т. е. размера выходных данных до сжатия)
  • OpsMgr Connector\Open подключения: Открыть количество подключений на сервер управления. Она должна быть такой же, как количество агентов или корневой сервер управления, непосредственно подключен к нему.
  • OpsMgr базы данных модулей записи действий (*) \Avg. размер пакета: число данных элементов или пакетов, являются eceived базой данных записи действия модулей. Если это число 5000, происходит в пакетном режиме элемента данных.
  • Модули (*) \Avg действие запись OpsMgr DB. время обработки: вступает в действие модули записи базы данных в секундах для вставки в базу данных пакета. Если это число превышает часто 60, возникают проблемы с производительностью вставки базы данных.
  • Модуль (*) \Avg записи DW OpsMgr. время обработки пакета, ms: количество миллисекунд для хранилища данных запись действий для вставки группы элементов данных в хранилище данных.
  • Модуль (*) \Avg записи DW OpsMgr. размер пакета: среднее количество пакетов, полученных модулями действие записи хранилища данных или элементов данных.
  • OpsMgr DW записи модуля (*) \Batches/сек: количество пакетов, полученных хранилища данных записи модулей действий в секунду.
  • Модуль (*) записи DW OpsMgr \Data элементов/с: число элементов данных, полученных хранилища данных записи модулей действий в секунду.
  • OpsMgr DW записи модуля (*) \Dropped число элементов данных: число элементов данных, отброшенные модули действие записи хранилища данных.
  • \Total модуль (*) записи DW OpsMgr счетчик ошибок: число ошибок, произошедших в модуль действия записи хранилища данных.
Роль корневого сервера управления
Счетчики общей производительности: эти счетчики показывают общей производительности корневой сервер управления:
  • Процессор (_Total) \ % загруженности процессора
  • Memory\% использования выделенной памяти
  • Сетевой интерфейс (*) \Bytes/сек
  • Логический диск (*) \ процент времени бездействия
Логический диск (*) \Avg. LengthOpsMgr очереди диска процесс универсальных счетчиков производительности: эти счетчики показывают общую производительность на корневой сервер управления в OpsMgr процессов:
  • Процесс (HealthService) \ % загруженности процессора
  • Обработка \Private (HealthService) байтов (в зависимости от того, сколько агентов управления этот корневой сервер управления, это число может меняться и может быть несколько сотен мегабайт.)
  • Число процессов (HealthService) \Thread
  • Процесс (HealthService) \Virtual байт
  • \Working набор процессов (HealthService)
  • Процесс (MonitoringHost *) \ % загруженности процессора
  • Процесс (MonitoringHost *) \Private байт
  • Число процессов (MonitoringHost *) \Thread
  • Процесс (MonitoringHost *) \Virtual байт
  • \Working набор процессов (MonitoringHost *)
  • Процесс (Microsoft.Mom.ConfigServiceHost) \ % загруженности процессора
  • Процесс (Microsoft.Mom.ConfigServiceHost) \Private байт
  • \Thread число процессов (Microsoft.Mom.ConfigServiceHost)
  • Процесс (Microsoft.Mom.ConfigServiceHost) \Virtual байт
  • \Working набор процессов (Microsoft.Mom.ConfigServiceHost)
  • Процесс (Microsoft.Mom.Sdk.ServiceHost) \ % загруженности процессора
  • Процесс (Microsoft.Mom.Sdk.ServiceHost) \Private байт
  • \Thread число процессов (Microsoft.Mom.Sdk.ServiceHost)
  • Процесс (Microsoft.Mom.Sdk.ServiceHost) \Virtual байт
Счетчики производительности отдельных процессов (Microsoft.Mom.Sdk.ServiceHost) \Working SetOpsMgr: OpsMgr конкретные счетчики, показывающие производительность определенных аспектов OpsMgr на корневой сервер управления, эти счетчики:
  • Счетчик Service\Workflow работоспособности: число рабочих процессов, выполняющихся на этот корневой сервер управления.
  • Работоспособность групп службы управления (*) \Active загрузки файлов: количество передач файлов, обработка этот корневой сервер управления — т. е., передает пакет настройки и управления агентами. Если его не удалить это значение остается высоким в течение длительного времени, это означает импорта не много обнаружения или управления пакета в настоящий момент и что могут быть неполадки в передачи файлов.
  • Очередь \Send % используется для работоспособности группы управления обслуживанием (*): размер постоянные очереди.
  • Работоспособности группы управления обслуживанием (*) \Bind скорость передачи данных исходного элемента Drop: количество элементов данных, отброшенные корневой сервер управления для базы данных или хранилища данных сбора данных записи действий. При этом значение счетчика не равен 0, корневой сервер управления или базы данных перегружен, так как не может достаточно быстро обработать входящий элемент данных или в пакетном режиме элемент данных происходит. Элементы перетащенных данных будет повторно агентами. После завершения ситуации перегрузка или скорости эти элементы данных будут вставлены в базу данных или в хранилище данных.
  • Работоспособность групп службы управления (*) \Bind скорость входящих элемент источника данных: количество элементов данных, полученных корневой сервер управления для базы данных или хранилища данных сбора данных записи действий.
  • Работоспособность групп службы управления (*) \Bind скорость Post элемент источника данных: количество элементов данных, написал корневого сервера управления, базы данных или хранилища данных для базы данных или хранилища данных сбора данных записи действий.
  • OpsMgr Connector\Bytes получено: Количество сетевых байт, полученных корневой сервер управления — т. е. размер входящих байт до распаковки.
  • Передано OpsMgr Connector\Bytes: Номер сети байтов, отправленных корневой сервер управления — т. е. размер исходящих байт после сжатия.
  • Получено байт OpsMgr Connector\Data: Количество байтов данных, полученных корневой сервер управления — т. е. Размер входных данных после распаковки.
  • Передано байт OpsMgr Connector\Data: Количество байтов данных, отправленных корневой сервер управления — т. е. размера выходных данных до сжатия.
  • OpsMgr Connector\Open подключения: Количество подключений, открытых на корневой сервер управления. Она должна быть такой же, как количество агентов или серверы управления, которые подключены непосредственно к нему.
  • OpsMgr Config Service\Number активных запросов: Число запросов пакет управления, повторной обработки службой конфигурации или конфигурации.
  • OpsMgr Config Service\Number запросов в очереди: Число запросов в очереди конфигурации или управлении пакет отправляется службе Config. Если это высокий в течение длительного времени, экземпляр места или места пакета управления слишком часто изменяется.
  • Пакет SDK для OpsMgr Service\Client подключения: Число подключений SDK.
  • Модули (*) \Avg действие запись OpsMgr DB. размер пакета: число данных элементов или пакеты, получаемые с помощью базы данных записи действий модулей. Если это число 5000, происходит в пакетном режиме элемента данных.
  • Модули (*) \Avg действие запись OpsMgr DB. время обработки: принимает число секунд, действие модули записи базы данных для вставки в базу данных пакета. Если это число превышает часто 60, возникают проблемы с производительностью вставки базы данных.
  • Модуль (*) \Avg записи DW OpsMgr. время обработки пакета, ms: число миллисекунд, необходимое для действия записи хранилища данных для вставки группы элементов данных в хранилище данных.
  • Модуль (*) \Avg записи DW OpsMgr. размер пакета: среднее количество пакетов, полученных модулей действие записи хранилища данных или элементов данных.
  • OpsMgr DW записи модуля (*) \Batches/сек: количество пакетов, полученных хранилища данных записи модулей действий в секунду.
  • Модуль (*) записи DW OpsMgr \Data элементов/с: число элементов данных, полученных хранилища данных записи модулей действий в секунду.
  • OpsMgr DW записи модуля (*) \Dropped число элементов данных: число элементов данных удаленных модулей действие записи хранилища данных)
  • OpsMgr DW записи модуля (*) \Total число ошибок (это число в модулях действие записи хранилища данных возникли ошибки.
сервер управления серый серый агента SCOM SCE

Внимание! Эта статья переведена автоматически

Свойства

Номер статьи: 2288515 — последний просмотр: 03/15/2015 08:50:00 — редакция: 5.0

Microsoft System Center Operations Manager 2007 R2, Microsoft System Center Operations Manager 2007, Microsoft System Center Operations Manager 2007 Service Pack 1, Microsoft System Center 2012 Operations Manager

  • kbtshoot kbmt KB2288515 KbMtru
Отзывы и предложения