Ayuda con PC (Inestabilidad, BSODs, etc)

Buenas!

Me compré un ordenador en marzo, y, aunque no ha ido fino del todo en ningún momento, no le he dado mayor importancia porque no me afectaba al flujo de trabajo. Sin embargo, desde julio la situación es insostenible,
He pedido el RMA de todas las piezas excepto de los discos duros y, a pesar de que no encontraron errores en ninguna, me han mandado piezas nuevas por si acaso.
Windows original, últimos drivers, bios actualizada, firmware de todas las piezas en la última versión.

El equipo es este:
Mobo: Asus Z790 Hero
Micro: i9 13900ks
RAM: GSkill Z5 6000Mhz CL32 (2x32, QVL)
GPU: Asus Strix 4090 OC
SSD: 2x Samsung 990 Pro 2Tb
Fuente: Be Quiet Dark Power 13 1000W
Refrigeración: MSI Coreliquid S360

He pasado todos los test que se me han ocurrido y los pasa sin problema, pero después no va como debería ir.

Desde bsod aleatorios (irql, kmode exception, kernel, etc, creo que he visto todos los tipos que hay) a simplemente ni pasar del post. De temperaturas va bien, en carga está gráfica a unos 60-70 grados y el procesador a 70 y algo. Sin carga están a poco más de 30 grados.

Esta mañana me ha crasheado usando el UE 5.3, después con el Black Desert, he estado viendo el event viewer y parecía que era por la gráfica, he cambiado los drivers de los game ready a los studio y lo mismo. Después actualicé el firmware de la gráfica y activé el ECC pero igual.
Actualicé el firmware de la placa a la última versión, y ahora le está costando pasar del post, parece que no le gustan las memorias con el XMP a pesar de estar en el QVL (de hecho las he comprado por eso, tengo 4x16 a 7600Mhz pero no las estoy usando porque con 4 sticks es imposible tener una velocidad decente). Al menos a ratos, otras arranca sin problema.

En Windows tras uno de los bsod he activado el firmado de drivers en Windows y el rendimiento ha caído en picado. Lo he desactivado y tras 4-5 intentos no he conseguido pasar del post (se queda un ratillo con el qcode 31, que es memoria instalada, pasa por unos cuantos más rápidamente y reinicia sin llegar a mostrar nada por pantalla), he desistido y me he tomado un descanso.

Así que aquí estoy, en el portátil, pero desesperado. Me he dejado bastante pasta en el PC para trabajar tranquilo y es lo único que no estoy consiguiendo hacer, cuando funciona va como un tiro pero la inestabilidad hace inviable que pueda trabajar.

Si habéis llegado hasta aquí, gracias por leer el tocho. Espero que se os ocurra algo!
Yo he tenido algún problema similar por el peso de la GPU, que finalmente ha ido a peor (hasta el punto de solo arrancar tras muchos intentos, en modo seguro, y con la RAM a 4000, que en DDR5 sin duda es terrible) y he tenido que tramitar RMA de la placa.No digo que sea tu caso, pero en fin, yo lo revisaría.

Que no funcionen 4 módulos a 7600 es normal y esperable, esa frecuencia es que de hecho yo no me atrevería a asegurarla ni con dos módulos si no es en placas 1DPC. Quizás con una M790E que tiene topología en T pero cruzando los dedos.

...que no funcionen bien del todo dos módulos a 6000 sí que es para preocuparse, un 13900K a esa frecuencia no debería de inmutarse siquiera.

¿Qué voltaje tienes en el VCCSA ahora mismo? Lo puedes mirar con Hwinfo o similar. Yo bajaría la RAM a 4800. No para dejarlo así sino por descartar. Por los problemas del POST que describes hacia el final pinta o bien a RAM o bien a PCB doblado y pistas dañadas. Si es esto poner la torre en horizontal (de tal manera que la gráfica esté vertical y la placa base sobre el lado de la caja más cercano al suelo) debería mejorar ligeramente el problema.

Saludos
Pollonidas escribió:Yo he tenido algún problema similar por el peso de la GPU, que finalmente ha ido a peor (hasta el punto de solo arrancar tras muchos intentos, en modo seguro, y con la RAM a 4000, que en DDR5 sin duda es terrible) y he tenido que tramitar RMA de la placa.No digo que sea tu caso, pero en fin, yo lo revisaría.

Que no funcionen 4 módulos a 7600 es normal y esperable, esa frecuencia es que de hecho yo no me atrevería a asegurarla ni con dos módulos si no es en placas 1DPC. Quizás con una M790E que tiene topología en T pero cruzando los dedos.

...que no funcionen bien del todo dos módulos a 6000 sí que es para preocuparse, un 13900K a esa frecuencia no debería de inmutarse siquiera.

¿Qué voltaje tienes en el VCCSA ahora mismo? Lo puedes mirar con Hwinfo o similar. Yo bajaría la RAM a 4800. No para dejarlo así sino por descartar. Por los problemas del POST que describes hacia el final pinta o bien a RAM o bien a PCB doblado y pistas dañadas. Si es esto poner la torre en horizontal (de tal manera que la gráfica esté vertical y la placa base sobre el lado de la caja más cercano al suelo) debería mejorar ligeramente el problema.

Saludos


Gracias!!

La placa no debería estar doblada, me ha llegado una nueva de RMA hace un par de semanas, no le ha dado tiempo. A mayores, la esquina de la gráfica que "cuelga" la tengo con un pequeño soporte apoyado en la base de la caja justo para eso, que ya me lo supuse el día que me llegó la gráfica y vi lo que pesaba 😅

El VCCSA lo miré esta tarde cuando me puse, de memoria diría que era 1.328V?

He estado buscando más cosillas por ahí, en Reddit he visto que Intel aconseja cambiar el SVID a Intel's Fail, que se supone que aumenta el voltaje de algunos cores y evita fallos (vamos, que admiten que el procesador tiene algún fallito y lo solucionan así) pero no me parece una solución a largo plazo, al final más voltaje es más temperatura y no me gusta. He abierto un ticket en Intel, porque como me confirmen eso pediré que me lo cambien por el 14900k, que a fin de cuentas es lo mismo pero con mejor TDP.

También he desactivado el ECC de la gráfica y vuelto a probar los dos drivers, pero nada, no afecta, por eso me inclino más a pensar lo del micro. La ram la descarto por lo que decía, tengo 2 sets de 32 a 7600 y el otro a 6000, más las otras a 7600 que mandé a RMA y me mandaron esas nuevas a pesar de que no encontraron problemas. Son demasiados kits para que estén todos defectuosos.

Pero bueno, que es una opción más. Sigo sin saber realmente qué es (porque he probado lo del SVID y así me arranca con XMP, pero sigo con los bsod aleatorios), cosa que es bastante frustrante porque es la primera vez que tengo tantos problemas y no consigo tener una idea de por dónde vienen.

Un saludo.
@redsmaug ¿No tendras la gpu con un Raiser o extensor del pci-x?
Xcala666 escribió:@redsmaug ¿No tendras la gpu con un Raiser o extensor del pci-x?


Qué va, en horizontal en el pcie reforzado.

Es que no he montado nada raro, y está todo default/stock por ahora, por eso me está molestando tanto 😅
Más que la RAM estropeada como tal lo que quería decir es que 7600MT/s en 4 módulos es muy difícil que funcione. Incluso en 2 es difícil que funcione sin una Apex/Tachion o similar.

Lo que dice @Xcala666 puede ser problemático, pero por lo que leo en el post anterior entiendo que la gráfica está en la posición tradicional, sin riser y con un soporte para el peso.

Lo del SVID para mí sería razón más que suficiente para pensar en tramitar RMA. De todos los alder lake que he montado (que son unos cuantos, entre amigos, familiares, y alguna cosa puntual de trabajo) ninguno ha necesitado valores tan pesimistas.

Mantengo que deberías probar la RAM a 4800 para descartar no un fallo del kit, sino de toda la parte de memoria, y más sabiendo que el POST es largo y da guerra.

El VCCSA me parece alto para estas frecuencias. Con 1.2V debería sobrar incluso para módulos dual rank como los tuyos que es ligeramente más exigente para el controlador de memoria. A veces subirlo mucho también es contraproducente. Pero eso también sería una razón para tramitar RMA del proce (otra vez)

Saludos
Pollonidas escribió:Más que la RAM estropeada como tal lo que quería decir es que 7600MT/s en 4 módulos es muy difícil que funcione. Incluso en 2 es difícil que funcione sin una Apex/Tachion o similar.

Lo que dice @Xcala666 puede ser problemático, pero por lo que leo en el post anterior entiendo que la gráfica está en la posición tradicional, sin riser y con un soporte para el peso.

Lo del SVID para mí sería razón más que suficiente para pensar en tramitar RMA. De todos los alder lake que he montado (que son unos cuantos, entre amigos, familiares, y alguna cosa puntual de trabajo) ninguno ha necesitado valores tan pesimistas.

Mantengo que deberías probar la RAM a 4800 para descartar no un fallo del kit, sino de toda la parte de memoria, y más sabiendo que el POST es largo y da guerra.

El VCCSA me parece alto para estas frecuencias. Con 1.2V debería sobrar incluso para módulos dual rank como los tuyos que es ligeramente más exigente para el controlador de memoria. A veces subirlo mucho también es contraproducente. Pero eso también sería una razón para tramitar RMA del proce (otra vez)

Saludos


Estoy con el ticket en Intel abierto, directamente les he pedido que me lo cambien por un 14900k, a ver qué dicen.

La ram la he probado! Los de 7600 de dos en dos van bien a esa velocidad (con los crasheos que me da todo), si pongo los cuatro he conseguido arrancar a 6800.
Los de 6000 los he arrancado a 4000 (que es la que viene por defecto sin el XMP) y es lo mismo, pasa el post pero crashea cuando le apetece (que normalmente es cuando hay carga gráfica, pero también me ha pasado varias veces en el escritorio con un navegador y un editor de texto).

Mañana echaré un ojo a voltajes y temperaturas y te comento, que lo he puesto de memoria.

Gracias!
Igual te parece una tontería pero... aunque tu fuente es ATX3.0 y tiene directamente el conector 12VHPWR requerido por la 4090, prueba a ponerla con el "pulpo" de conectores que viene con la GPU en lugar de eso. Aunque sea de forma temporal. A ver si mejora la cosa. No sería la primera vez que veo fallos de ese estilo por el dichoso conector.

...incluso te diría que conectes solo 3 de los cables al "pulpo" (esto limita el consumo a 450W, de forma incluso más estricta que hacerlo en MSI Afterburner o similar)

Sigo atento al post para cuando sepas los voltajes seguro.

Saludos
Actualizo un poco. Progresa adecuadamente pero aún no me funciona como debería.

A base de buscar en el Event Viewer he visto que la mayoría de las veces el Armoury Crate (el software de Asus para gestionar sus productos) era el que causaba la mayoría de errores. Desinstalado, y una mejora muy buena.

Como no me fiaba de los drivers que bajé con eso, terminé pegándole una formateada e instalando los últimos drivers disponibles de cada cosa a mano, sin programas de terceros.
Van 3 días y no he tenido ningún BSOD, lo cual es una mejora sustancial. Al menos puedo trabajar, aunque aún tengo algún problemilla.

De vez en cuando crashean programas porque si. Por ejemplo me pasa con el League of Legends, sencillamente se cierra el juego durante la partida, dos o tres veces por aram (cada 10 min más o menos). Me sorprende porque la carga gráfica es muy baja, la gpu está de vacaciones mientras juego. Que el juego en si me da igual, si sólo fuese lo borraría y punto, pero me pasa con más cosas.

El discord es otro que se cierra de vez en cuando. Dejo el ordenador renderizando de noche, y al llegar sigue funcionando bien pero veo que o el discord se ha reiniciado o directamente está cerrado. A veces mientras estoy en llamada se me cierra igual.

Y así con más cosas. Con el UE, con el substance, algún juego, etc. Son esporádicos, me permiten trabajar pero me molestan, sobre todo cuando pierdo algo sin guardar. Además que no entiendo por qué no consigo tener el ordenador estable.

En el event viewer ya no me sale nada de crasheo de apps como antes, sin embargo tengo algunos errores que no sé de qué son. No sé hasta qué punto es "normal" tener algunos errores (rojos, no warnings ni info) ahí, pero no ponen información de qué los causa (si no recuerdo mal, algo de metadata y con posiciones de memoria).
¿Te cambiaron tambien la cpu como con la placa? ¿Que componentes te han cambiado? Pprque si sigues con la misma cpu puede que el problema sea de la misma.

Con la memoria de 7600 sin xmp tambien crashea?

Esos cierres repentinos sin avisos ni nada a mi me pasaban cuando hacia undervolt y el componente no tenia voltaje suficiente, a ver si hay algo por ahi jodiendo porque la placa o lo que sea no da el voltaje correcto.

Bajate el HWInfo y mantenlo abierto mientras juegas/trabajas y chequea el voltaje minimo y maximo, del 12VHPWR tambien.
elcapoprods escribió:¿Te cambiaron tambien la cpu como con la placa? ¿Que componentes te han cambiado? Pprque si sigues con la misma cpu puede que el problema sea de la misma.

Con la memoria de 7600 sin xmp tambien crashea?

Esos cierres repentinos sin avisos ni nada a mi me pasaban cuando hacia undervolt y el componente no tenia voltaje suficiente, a ver si hay algo por ahi jodiendo porque la placa o lo que sea no da el voltaje correcto.

Bajate el HWInfo y mantenlo abierto mientras juegas/trabajas y chequea el voltaje minimo y maximo, del 12VHPWR tambien.


Cambiadas la placa base, el procesador, la gráfica y la ram.

Ahora mismo estoy con las de 6000 com XMP, no he vuelto a probar las de 7600. Les echaré en cuanto tenga un ratillo.

Voy con clocks y voltajes por defecto, de hecho el SVID va con los valores de Intel que se suponen que son levemente más altos que los auto, recomendado por el soporte de Intel cuando hay problemas.

Estoy todo el día con el HWInfo y el event viewer abierto, a ver si aparece algo, pero por ahora no he visto nada raro.

Gracias!
redsmaug escribió:En el event viewer ya no me sale nada de crasheo de apps como antes, sin embargo tengo algunos errores que no sé de qué son. No sé hasta qué punto es "normal" tener algunos errores (rojos, no warnings ni info) ahí, pero no ponen información de qué los causa (si no recuerdo mal, algo de metadata y con posiciones de memoria).

Es normal tener algunos errores "rojos", ya que el visor de eventos tiene la extraña manía de considerar errores cosas relativamente comunes (intentar conectarse a un dispositivo bluetooth y que no responda, algún problema "menor" de software, etc.), lo que no es normal es que crasheen cosas, independientemente de cómo de exigente estés siendo. Ni discord, ni nada. Puede que Armoury Crate tuviera (gran) parte de la culpa. También es posible que fuera especialmente sensible a lo que sea que causara la inestabilidad que estabas teniendo.

...mi experiencia igualmente es que el hardware de sobremesa va bastante "apretado" en cuanto a frecuencias y temperaturas y que muchas veces para ese tipo de usos es recomendable tirar por hardware de servidor, que tiene valores un poco más conservadores. Incluso con TRX40 sin memoria ECC personalmente tengo alguna queja en cuanto a estabilidad en periodos largos. Pero repito, siempre un PC debería ser estable, aunque le exijas mucho.

El SVID en el valor por defecto no debería causar ningún tipo de crasheo, pero ya que te han recomendado dejarlo en el valor "Intel Failsafe" déjalo así de momento hasta que confirmes que todo va bien. Aparte de voltajes ligeramente más altos de lo necesario no tiene ninguna contraindicación dejarlo así.

Saludos
11 respuestas