6 Replies Latest reply on Jan 29, 2014 11:16 AM by Mauricio Magnani Jr

    Jboss 7.1 domain server group down

    Marcelo Sales Newbie

      Pessoal, estou me deparando com uma situação muito estranha num ambiente em modo domain.

      Meu ambiente possui 3 hosts. Um sendo o host controller + apache em mod_cluster e mais dois hosts (host1 e host2).

       

      Tenho a configuração de dois server groups (grupoA e grupoB). Cada um dos hosts (host1 e host2) possui uma instância que faz parte ou do grupoA ou do grupoB. Logo, em cada um dos hosts eu tenho a presença de pelo menos um server de cada grupo.

       

      É fato que as máquinas possuem capacidade de memória limitada mas neste momento estamos apenas realizando testes com no máximo 2 usuários simultâneos.

      Estranhamente de repente o contexto que compõe o grupoA para de responder e o apache passa a exibir erros quando se tenta acessar a aplicação. Através do gerenciador administrativo pela web porta 9990 eu consigo verificar que o grupoB está ativo mas o grupoA não está.

       

      Procurei nos logs tanto do host1 quanto do host2 e não encontrei algo que justificasse este comportamento. O que localizei na raiz do jboss do host1 foram as linhas:

       

      INFO  [org.jboss.as.process.Server:DC01-host1.status] (ProcessController-threads - 12) JBAS012017: Starting process 'Server:host1'
      INFO  [org.jboss.as.process.Server:DC01-host1.status] (reaper for Server:host1) JBAS012010: Process 'Server:host1' finished with an exit status of 137
      

       

      Esperava que houvesse pelo menos um thread dump de emergência caso um outofmemory tenha ocorrido. O fato é que aparentemente sem motivo as instâncias que compõem o grupoA ficam desabilitadas. Achei que poderia ser um outofmemory mas mesmo assim não justificaria que se no nó host1 estourasse memória o contexto no host2 também fosse afetado.

       

      Posso até estar equivocado mas não me recordo de ter visto nada parecido. É possível que um erro em um host possa derrubar todo o grupo de servidores? E mais, alguém conhece alguma outra forma de localizar algo que justifique a parada da instância do server de forma repentina?

       

      Abraço a todos