MENU

緊急!フロア全体のネットワーク麻痺。L2ループの原因と対応方法

ネットワークが存在する所、いずれにおいても、L2ループが発生したという事例は後を絶ちません。
ですが、いざ発生したとなると、その緊急事態と現場の慌てふためいた雰囲気に、翻弄されることは間違いありません。
そこで今回は、ケースバイケースに沿った、L2ループの発生原因とその対処方法について、解説いたします。

目次

そもそも、L2ループって何だろう?ループ発生のメカニズムについて

L2ループの対象となるネットワーク機器は「2ポート以上のインターフェイス」を持つ、いずれの機器も、当てはまります。
要するに「片方のポートから、もう片方のポートに向けて、同一のパケットが延々と流れる」のです。

以上、簡単に、Webや教科書に書かれているような、模範回答を述べてみましたが、ここからは現実的な状況を説明いたします。
L2ループは延々と事象が続くことから、さらにその先に、最悪のシナリオが待ち受けています。
L2ループが発生したネットワーク機器は、性能や規模に関わらず、数十秒以内に「CPU使用率が100%」になり、処理能力が追い付かないため、通信不可となります。
高性能なCisco製L3スイッチでも、L2ループ発生後は30秒と持ちません。
このままL2ループを続けたネットワーク機器は、基盤の「一番熱に弱い部位」から徐々に焼き切れていき、やがて、故障してしまうのです。

また、L2ループ起因で故障したネットワーク機器は、メーカーによっては「保証や保守対象外となる」こともあります。

トラブルシューティング①「HUB同士の2重結線、LANケーブル両端のHUB結線」

このトラブルは非常に多い事例ですが、まさか「フロア元のHUB等に、ケーブルタグ等を設置している」ような現場は少ないため、原因やループ元が非常につかみにくい状況になることが多いのです。


しかし「一刻も早く、ネットワークを復旧しなくてはならない状況」であることが殆どです。
そこで、ダイナミックかつ、的確な復旧方法をご紹介いたします。

1).そのフロア内を総括する、ディストリビューションスイッチやエッジスイッチの電源を抜きます。
そのフロアの端末が数百台あろうが、どうせ、L2ループが発生中のネットワークは、すべて死滅しています。
思い切って、電源を落としてしまいましょう。

2).「1).」で電源を切ったスイッチのLANケーブルを、すべて抜線します。
これも過激な方法ですが、L2ループの被疑箇所と、問題のないネットワーク箇所を切り分ける一石となります。
抜線後は、元のポートに戻すため「どのケーブルが、どのポートへ挿さっていたか」を覚えておく必要があります。
抜線後は「該当ポートへLANケーブルを半挿しにしておく」などの対応を行いましょう。

3).再び、ディストリビューションスイッチを起動します。
この流れで、凡そ15秒置きに、1ポートずつ挿して、ネットワークを復旧させていきます。
復旧したネットワーク下の端末にて、ディストリビューションスイッチ宛てに、Pingを実施しておくと、再ループの際に、Pingが通らなくなり、該当ポートが判別しやすくなります。

4).ネットワークの設定が変更されていない限り、必ずL2ループは再発します。
L2ループが確認された時点で、ディストリビューションスイッチを再起動し、L2ループが発生したポートのみを抜線しておきます。

5).あとは、オフライン中のHUBやスイッチを探しましょう。
該当HUBに対して、ケーブルテスターや「端末を差し込んで、同ネットワーク内の端末へPing」を実施してみたりして、ループ対象のポートを探し出し、抜線してしまいます。

今回のご紹介では「HUBにLANケーブルのIN/OUTポートが挿さっていた」という状況でした。
ですが、下記構成のように「下位HUB同士が結線されていた」という状況においても、L2ループが発生します。

この場合「ディストリビューションスイッチへ全ポートを繋げると、L2ループが発生」しますが「1ポートのみ挿していなくとも、全ネットワークが復旧している」という、不可思議な状況となりますので、覚えておきましょう。

トラブルシューティング②「設計ミスが原因で発生するL2ループ」

上記2ケースの構成図を見てみましょう。
実はこの構成、一見して問題なさそうですが「L2ループが発生する」という、未熟な設計です。

本当は「あってはならない」ことなのですが、社内レビューを介した構成図であっても、この問題点を指摘されず、レビューを通過してしまうことがあります。
だからこそ「見やすい物理/論理構成図が必要となる」わけですが、ここでは省略させていただきます。

上記が、L2ループを排した、正しい構成図となります。

特に、既存のネットワークシステムへ、新たなネットワーク機器や挿げ替えなどを行う際は、細心の注意が必要です。

トラブルシューティング③「端末起因で発生するL2ループ」

前段では、L2ループの対象となるネットワーク機器は「2ポート以上のインターフェイス」を持つ、いずれの機器も、当てはまる、と申し上げました。
ということは、2つ以上のインターフェイスを持つ、サーバや端末もそれに該当します。
例えば、LANケーブルを給電するPoE機器や、LAN回線冗長化を目的とした「サーバへの複数NIC搭載」などの構成も、当てはまります。

さらに、WLANとLANポートを併用搭載した端末も該当します。
15年位前のWeb会議機端末や無線LAN機器などの、旧機においては「WirelessインターフェイスとLANポートを同時利用した挙句、L2ループに至った」という事例があります。
しかしながら、直近の機器においては「WLANとLANの切り替え」などは、当たり前に自動化されています。
それは、各インターフェイスへ「メトリック値」を付与し、優先順位を決めているためです。
「15年以上前の旧機は、WLANとLANポートを同時利用した挙句、L2ループを発生させることがある」これは頭の片隅にでも、覚えておいて損はないはずです。

最近のサーバは、何台ものサーバ機器で、ディスクやCPUが共用されて稼働する「バーチャルサーバ」が台頭しています。
バーチャルサーバは、各サーバ間をバーチャルマシンが頻繁に行き来するため、ディスク、CPU、メモリを「高速な回線で共用する必要」がありました。
それを、仮想スイッチ、もしくは仮想ネットワークと言います。
仮想スイッチの設定は、高速な回線速度を要求されることから「VLANごとに外部スイッチへ各ポートずつ接続」「Linkaggrigationを使用し、複数のLANケーブルを1つにまとめる」などの、仮想技術が利用されることが殆どです。
もし、これらの設定が誤っており、ネットワークへ接続したら・・・結果はご想像の通りです。
その場合は、サーバ側の設定見直しが必要となります。

L2ループ対処は、L2ネットワークで対応しよう

L2ループが何故、L2なのか?というと、レイヤー2以外では起こらないためです。
レイヤー2に関連する切り分け観点として、下記の4点が該当します。

  • ポートアサインは間違っていないか?
  • 予定外のインターフェイスが繋がっていないか?(無線LANも気にすること)
  • VLANの設定は間違っていないか?
  • LinkaggrigationやStack、STP等の冗長化設定は間違っていないか?

L2ループは緊急性を伴い、混乱しがちなトラブルですが、上記を考え、冷静に対応することが肝要です。

筆者プロフィール

中村京介(36歳)
ネットワークエンジニア6年目、座右の銘は「拝承!」。
零細企業の「ひとり情シス」から一念発起し、ネットワーク系エンジニアを目指す。
初回教育で鬼教官にしごかれ、赴任したとある技師の元で修業を積み、ようやく一人前に。
脱落者の多い官公庁系案件を主に手掛けながら、設計・構築兼、SIerとして前線に立つ。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

管理人のよしぞと申します。
フリーランス業界で働いている管理人が、業界で働く様々な視点からフリーランスエンジニアに挑戦するためのノウハウを掲載。独立を考えている方にとって手助けになるサイトを目指しています。

目次