Перейти к содержанию
malike

Ошибки NMI received for unknown reason 21 и 31 и Do you have a strange power saving mode enabled

Рекомендуемые сообщения

Столкнулся с проблемой, на одном из серверов под управлением ОС

root@storage:/etc/default$ uname -a
Linux storage 3.16.0-4-amd64 #1 SMP Debian 3.16.7-ckt11-1+deb8u5 (2015-10-09) x86_64 GNU/Linux

Стали появляться ошибки в консоле и соответствено  в /var/log/kern.log

Также на сервере были замечены "фризы" примерно в тоже время когда возникали эти ошибки. Решил начать бороться с проблемой.

Sep 20 21:32:33 storage kernel: [13914.963589] Uhhuh. NMI received for unknown reason 21 on CPU 22.
Sep 20 21:32:33 storage kernel: [13914.963605] Do you have a strange power saving mode enabled?
Sep 20 21:32:33 storage kernel: [13914.963617] Dazed and confused, but trying to continue
Sep 20 22:06:29 storage kernel: [15951.383028] Uhhuh. NMI received for unknown reason 31 on CPU 4.
Sep 20 22:06:29 storage kernel: [15951.383045] Do you have a strange power saving mode enabled?
Sep 20 22:06:29 storage kernel: [15951.383056] Dazed and confused, but trying to continue
Sep 20 23:26:10 storage kernel: [20733.534376] Uhhuh. NMI received for unknown reason 31 on CPU 11.
Sep 20 23:26:10 storage kernel: [20733.534391] Do you have a strange power saving mode enabled?
Sep 20 23:26:10 storage kernel: [20733.534403] Dazed and confused, but trying to continue
Sep 21 00:58:10 storage kernel: [26253.912410] Uhhuh. NMI received for unknown reason 21 on CPU 2.
Sep 21 00:58:10 storage kernel: [26253.912427] Do you have a strange power saving mode enabled?
Sep 21 00:58:10 storage kernel: [26253.912439] Dazed and confused, but trying to continue
Sep 21 01:04:58 storage kernel: [26661.671672] Uhhuh. NMI received for unknown reason 31 on CPU 9.
Sep 21 01:04:58 storage kernel: [26661.671688] Do you have a strange power saving mode enabled?
Sep 21 01:04:58 storage kernel: [26661.671700] Dazed and confused, but trying to continue
Sep 21 01:20:11 storage kernel: [27574.823938] i2c /dev entries driver
Sep 21 04:14:55 storage kernel: [38059.886166] Uhhuh. NMI received for unknown reason 21 on CPU 16.
Sep 21 04:14:55 storage kernel: [38059.886183] Do you have a strange power saving mode enabled?
Sep 21 04:14:55 storage kernel: [38059.886194] Dazed and confused, but trying to continue
Sep 21 09:15:01 storage kernel: [56067.772107] Uhhuh. NMI received for unknown reason 31 on CPU 14.
Sep 21 09:15:01 storage kernel: [56067.772125] Do you have a strange power saving mode enabled?
Sep 21 09:15:01 storage kernel: [56067.772137] Dazed and confused, but trying to continue
Sep 21 16:07:39 storage kernel: [80827.663209] Uhhuh. NMI received for unknown reason 21 on CPU 4.
Sep 21 16:07:39 storage kernel: [80827.663241] Do you have a strange power saving mode enabled?
Sep 21 16:07:39 storage kernel: [80827.663267] Dazed and confused, but trying to continue
Sep 21 23:34:23 storage kernel: [107634.161799] Uhhuh. NMI received for unknown reason 21 on CPU 9.
Sep 21 23:34:23 storage kernel: [107634.161829] Do you have a strange power saving mode enabled?
Sep 21 23:34:23 storage kernel: [107634.161855] Dazed and confused, but trying to continue
Sep 22 00:19:10 storage kernel: [110321.847546] Uhhuh. NMI received for unknown reason 21 on CPU 2.
Sep 22 00:19:10 storage kernel: [110321.847578] Do you have a strange power saving mode enabled?
Sep 22 00:19:10 storage kernel: [110321.847605] Dazed and confused, but trying to continue
Sep 22 01:37:26 storage kernel: [115017.753402] Uhhuh. NMI received for unknown reason 31 on CPU 1.
Sep 22 01:37:26 storage kernel: [115017.753433] Do you have a strange power saving mode enabled?
Sep 22 01:37:26 storage kernel: [115017.753460] Dazed and confused, but trying to continue
Sep 22 02:23:08 storage kernel: [117760.603696] Uhhuh. NMI received for unknown reason 31 on CPU 2.
Sep 22 02:23:08 storage kernel: [117760.603728] Do you have a strange power saving mode enabled?
Sep 22 02:23:08 storage kernel: [117760.603754] Dazed and confused, but trying to continue
Sep 22 04:07:35 storage kernel: [124028.559135] Uhhuh. NMI received for unknown reason 21 on CPU 19.
Sep 22 04:07:35 storage kernel: [124028.559165] Do you have a strange power saving mode enabled?
Sep 22 04:07:35 storage kernel: [124028.559192] Dazed and confused, but trying to continue

Как пишут в гугле, вариант неисправности, оперативка, блок питания, или винты.

Решил покопать в сторону

ASPM

С помощью технологии ASPM (Active-State Power Management) можно эффективно управлять потреблением энергии шин PCI Express (PCIe, Peripheral Component Interconnect Express) посредством их перевода в энергосберегающий режим, если подключенные через них устройства не используются. ASPM контролирует обе точки подключения и позволяет снизить потребление энергии, даже если подключенное устройство находится в рабочем режиме.

При активации ASPM задержка ответа устройства увеличивается из-за времени, затрачиваемого на переключение режимов шины. Можно определить четыре способа поведения ASPM:

default

Цитата

Настраивает состояние энергопотребления шины PCI Express в соответствии с параметрами, определенными на микропрограммном уровне (например, в BIOS). Этот режим используется по умолчанию.

powersave

Цитата

Максимальное энергосбережение независимо от воздействия на производительность системы.

performance

Цитата

Отключает ASPM и обеспечивает максимальную производительность PCI Express.

off

Цитата

Отключает его.

Решил пока отключить ASPM

pcie_aspm=off

а также NMI watchdog

nmi_watchdog=0

 

Для этого идем редактировать файл grub

nano /etc/default/grub

Ищем строку GRUB_CMDLINE_LINUX_DEFAULT

и дописываем nmi_watchdog=0 и pcie_aspm=off

Мой файл после изменения выглядит так:

# If you change this file, run 'update-grub' afterwards to update
# /boot/grub/grub.cfg.
# For full documentation of the options in this file, see:
#   info -f grub -n 'Simple configuration'

GRUB_DEFAULT=0
GRUB_TIMEOUT=5
GRUB_DISTRIBUTOR=`lsb_release -i -s 2> /dev/null || echo Debian`
GRUB_CMDLINE_LINUX_DEFAULT="quiet nmi_watchdog=0 pcie_aspm=off"
GRUB_CMDLINE_LINUX=""

# Uncomment to enable BadRAM filtering, modify to suit your needs
# This works with Linux (no patch required) and with any kernel that obtains
# the memory map information from GRUB (GNU Mach, kernel of FreeBSD ...)
#GRUB_BADRAM="0x01234567,0xfefefefe,0x89abcdef,0xefefefef"

# Uncomment to disable graphical terminal (grub-pc only)
#GRUB_TERMINAL=console

# The resolution used on graphical terminal
# note that you can use only modes which your graphic card supports via VBE
# you can see them in real GRUB with the command `vbeinfo'
#GRUB_GFXMODE=640x480

# Uncomment if you don't want GRUB to pass "root=UUID=xxx" parameter to Linux
#GRUB_DISABLE_LINUX_UUID=true

# Uncomment to disable generation of recovery mode menu entries
#GRUB_DISABLE_RECOVERY="true"

# Uncomment to get a beep at grub start
#GRUB_INIT_TUNE="480 440 1"

 

Далее пишем:

update-grub

 

И перегружаем машину.

 

P.S. Посмотрим как дальше будет вести себя машина. Если не поможет дальше будем тестировать память.

 

 

 

Поделиться сообщением


Ссылка на сообщение

Для публикации сообщений создайте учётную запись или авторизуйтесь

Вы должны быть пользователем, чтобы оставить комментарий

Создать учетную запись

Зарегистрируйте новую учётную запись в нашем сообществе. Это очень просто!

Регистрация нового пользователя

Войти

Уже есть аккаунт? Войти в систему.

Войти


×