Tech_Goest

[VLAN/QoS] 전화가 끊기던 B기업 네트워크, '트래픽 분리'와 '이중화'로 살려낸 이야기

person GOEST지기 | calendar_today 2025. 10. 24.

[VLAN/QoS] 전화가 끊기던 B기업 네트워크, '트래픽 분리'와 '이중화'로 살려낸 이야기

🙋‍♀️ 이런 분들을 위해 작성했습니다.

  • 중요한 인터넷 전화(VoIP)가 끊기거나 ERP 속도가 느려져 직원들의 불만이 폭주하는 IT 관리자
  • 사내망, 손님용 Wi-Fi, CCTV, VoIP 트래픽이 뒤섞여 관리가 불가능한 엔지니어
  • 비용 효율적인 네트워크 이중화(HA) 구성으로 서비스 중단을 막고 싶은 분

들어가며: 문제의 시작과 우리의 목표 (Introduction & Goal)

History & Why: 왜 이 프로젝트가 필요했나요?

B기업은 사내 PC, Wi-Fi, 인터넷 전화(VoIP), CCTV 등 수백 대의 디바이스가 연결된, 전형적인 중견기업 네트워크를 보유하고 있었습니다. 하지만 IT팀은 매일 아침 "전화가 또 끊긴다", "ERP가 너무 느리다"는 불만 전화로 하루를 시작했습니다. 😒

문제의 원인은 명확했습니다. '트래픽의 혼돈'이었습니다. 회사의 성장에 맞춰 스위치를 급하게 증설하다 보니, 중요도를 불문한 모든 트래픽이 하나의 파이프라인(물리적 네트워크)에 뒤섞여 있었습니다.

중요한 ERP 데이터가 대용량 CCTV 영상 데이터와 경쟁하고, 실시간성이 생명인 VoIP 패킷이 손님용 Wi-Fi 트래픽에 밀려 지연되는 최악의 상황이었습니다. 기존의 복잡한 3-Tier 구조는 이 문제를 해결하긴커녕, 오히려 장애 포인트를 늘리고 원인 파악만 어렵게 만들고 있었습니다.

우리의 핵심 목표(Goal)'속도'가 아니라 '안정적인 품질'이었습니다. "핵심 업무(VoIP, ERP) 트래픽을 최우선으로 보장하고, 장애 시에도 서비스 중단이 없는 고가용성 네트워크를 구축한다."

이를 위해 설정한 핵심 지표(Key Metric)는 다음과 같았습니다.

  1. 핵심 업무(VoIP, ERP) 품질: 관련 장애 및 불만 접수 0건
  2. 네트워크 장애 복구 시간(RTO): 0초 (HA 구성을 통한 무중단)
  3. 운영 관리 공수: 네트워크 관련 티켓 수 30% 감소

Our Vision

우리의 비전은 '질서 있는 네트워크'를 만드는 것이었습니다. IT팀이 매일 트래픽과 싸우는 '소방수'가 아니라, 안정적인 인프라 위에서 비즈니스를 지원하는 '설계자'가 될 수 있도록 하는 것. 그것이 우리가 추구한 '안정성'의 가치였습니다.

💥 핵심 과제와 해결 과정 (Challenges & Solutions)

(이 섹션이 이 글의 핵심입니다.)

The Problem: '뒤엉킨 트래픽'과 '단일 장애 지점(SPOF)'

가장 큰 난제는 '어떻게 이 모든 트래픽을 분리하고, 핵심 장비의 장애를 극복할 것인가'였습니다.

1. 트래픽의 무질서: 아래 다이어그램은 B기업의 기존 3-Tier 구조입니다. 문제는 Tier 자체가 아니라, A1 스위치에 연결된 PC와 VoIP 트래픽이 A3의 CCTV 트래픽과 Core에서 만나 무한 경쟁을 벌인다는 점이었습니다.

2. 치명적인 단일 장애 지점(SPOF): 더 큰 문제는 Core 스위치나 Distribution 스위치 하나에 장애가 발생하면, 그에 연결된 모든 하위 부서의 네트워크가 마비된다는 것이었습니다. 이중화가 제대로 되어있지 않았죠.

graph TD
    subgraph "Before: 트래픽 혼재와 단일 장애 지점(SPOF)"
        direction TB
        
        C1[Core 1]
        C2[Core 2]
        
        D1[Dist 1]
        D2[Dist 2]

        A1[Access 1]
        A2[Access 2]
        A3[Access 3]
        A4[Access 4]

        C1 --- D1
        C1 --- D2
        C2 --- D1
        C2 --- D2
        
        D1 --- A1
        D1 --- A2
        D2 --- A3
        D2 --- A4
        
        A1 --- U1["PC 1 (ERP)"]
        A2 --- U2[VoIP]
        A3 --- U3["CCTV (대용량)"]
        A4 --- U4["Guest WiFi"]

        %% 문제점 표현 (SPOF)
        style D1 fill:#f99,stroke:#c00,stroke-width:2px
        style D2 fill:#f99,stroke:#c00,stroke-width:2px
        
        %% 트래픽 혼재 표현
        U2 -- "VoIP (실시간)" --> A2 -- "트래픽 경쟁 발생!" --> D1 -- "트래픽 경쟁 발생!" --> C1
        U3 -- "CCTV (대용량)" --> A3 -- "트래픽 경쟁 발생!" --> D2 -- "트래픽 경쟁 발생!" --> C1
        linkStyle 12 stroke:orange,stroke-width:2px,stroke-dasharray: 5 5
        linkStyle 13 stroke:orange,stroke-width:2px,stroke-dasharray: 5 5
        linkStyle 14 stroke:orange,stroke-width:2px,stroke-dasharray: 5 5
        linkStyle 15 stroke:purple,stroke-width:2px,stroke-dasharray: 5 5
        linkStyle 16 stroke:purple,stroke-width:2px,stroke-dasharray: 5 5
        linkStyle 17 stroke:purple,stroke-width:2px,stroke-dasharray: 5 5
    end

그림 1: 3-Tier 구조 내 트래픽 혼재와 SPOF 문제

The Journey: '단순화' 위에서 '질서'를 잡다

처음에는 기존 장비에 QoS 설정만 적용해볼까도 고민했습니다. 하지만 복잡한 3-Tier 구조 전체에 일관된 정책을 적용하는 것은 거의 불가능에 가까웠고, SPOF 문제도 해결되지 않았습니다.

결국 우리는 '선(先) 단순화, 후(後) 질서 확립' 전략을 선택했습니다. "구조부터 단순하게 만들자. 불필요한 Distribution 계층을 제거하고, 심플한 2-Tier 구조 위에서 트래픽을 완벽히 분리하고 이중화하자."

The Solution: 2-Tier + HA + VLAN/QoS

우리의 최종 솔루션은 세 가지 기술의 조합이었습니다.

  1. 2-Tier (Collapsed Core): 관리 포인트를 줄이기 위해 Core-Distribution 계층을 통합.
  2. 고가용성 (HA): 통합된 Core 스위치를 물리적으로 이중화(Stacking 또는 VRRP)하여 SPOF를 제거.
  3. VLAN & QoS: 트래픽을 논리적으로 분리(VLAN)하고, 우선순위(QoS)를 부여.

아래 다이어그램처럼, 물리적으로는 단순한 2-Tier 구조지만, 논리적으로는 VLAN을 통해 각기 다른 목적의 네트워크 4개가 운영되는 것과 같습니다.

graph TD
    subgraph "After: HA와 VLAN으로 안정화된 2-Tier"
        direction TB

        subgraph "Collapsed Core (L3) 🏛️"
            direction LR
            C1["Core 1 (Active)"]
            C2["Core 2 (Standby)"]
            C1 <-->|"VRRP/Stack (HA)"| C2
        end

        subgraph "Access (L2) 🍃"
            direction LR
            A1[Access 1]
            A2[Access 2]
            A3[Access 3]
            A4[Access 4]
        end

        %% 이중화 연결
        A1 --- C1
        A1 --- C2
        A2 --- C1
        A2 --- C2
        
        linkStyle 1 stroke:green,stroke-width:2px
        linkStyle 2 stroke:gray,stroke-dasharray: 5 5,stroke-width:2px
        linkStyle 3 stroke:green,stroke-width:2px
        linkStyle 4 stroke:gray,stroke-dasharray: 5 5,stroke-width:2px

        %% VLAN 분리 표현
        subgraph "VLAN 10: 업무망 (Priority 2)"
            A1 --- U1["PC 1 (ERP)"]
        end
        subgraph "VLAN 20: VoIP망 (Priority 1)"
            A2 --- U2[VoIP]
        end
        subgraph "VLAN 30: CCTV망 (Priority 3)"
             A3 --- U3[CCTV]
        end
        subgraph "VLAN 99: 손님망 (Priority 4)"
            A4 --- U4["Guest WiFi"]
        end

        style C1 fill:#bbf,stroke:#00a,stroke-width:2px
        style C2 fill:#bbf,stroke:#00a,stroke-width:2px
    end

그림 2: 물리적 이중화(HA)와 논리적 트래픽 분리(VLAN)가 적용된 2-Tier

이 구조의 핵심은 '안정성''품질'입니다.

  • 무중단 (HA): Core 1번 스위치에 장애가 나도, 모든 Access 스위치는 Core 2번과 연결된 경로(회색 점선)를 즉시 활성화하여 1초의 중단도 없이 서비스를 유지합니다. ✅
  • 품질 보장 (QoS): Core 스위치는 'VLAN 20 (VoIP)' 트래픽을 최우선(Priority 1)으로 처리합니다. CCTV(VLAN 30)가 아무리 많은 영상을 전송해도 VoIP 통화 품질에는 전혀 영향을 주지 못합니다.

🏛️ 우리가 선택한 기술과 아키텍처 (Solution Overview)

Why this Stack?

  • Why 2-Tier (vs. 3-Tier)?
    • A대학교(Spine-Leaf) 사례와 달리, B기업은 100G급의 초고속 성능이나 대규모 확장이 필요하지 않았습니다. 대신 '관리의 단순함''비용 효율성'이 중요했죠. 3-Tier의 Distribution 계층을 제거한 2-Tier(Collapsed Core)는 B기업의 규모에 가장 합리적인 물리적 토대였습니다.
  • Why VLAN (Virtual LAN)?
    • 이것이 '트래픽 분리'의 핵심입니다. 물리적으로는 같은 스위치에 연결되어 있어도, VLAN ID를 기준으로 "당신은 업무망(10)", "당신은 전화망(20)" 하고 논리적인 '차선'을 그어준 것입니다. 손님용(99) 트래픽이 업무망(10)에 접근하는 것을 원천 차단하는 보안 효과는 덤입니다.
  • Why QoS (Quality of Service)?
    • VLAN이 차선을 나눈 것이라면, QoS는 '1차선(VoIP)을 버스 전용 차로로 지정'하는 것과 같습니다. 아무리 트래픽이 막혀도(혼잡이 발생해도), 1차선(VoIP)과 2차선(ERP)은 항상 막힘없이 달리도록 보장하는 기술입니다. B기업의 핵심 문제였던 VoIP 끊김을 해결한 일등공신입니다.
  • Why HA (High Availability)?
    • QoS로 품질을 보장했어도, Core 스위치가 다운되면 모든 게 끝입니다. Core 스위치를 이중화(스태킹 또는 VRRP)하는 것은 네트워크의 '심장'에 보조 심장을 다는 것과 같았습니다. 이를 통해 우리는 SPOF(단일 장애 지점)를 완벽히 제거했습니다.

📈 주요 성과와 비즈니스 임팩트 (Result)

B기업은 '물리적 단순화'와 '논리적 질서'를 통해 비즈니스 안정성을 확보했습니다.

정량적 성과

  • 핵심 업무 품질 100% 보장: QoS 도입 후, VoIP 끊김 및 ERP 지연 문제로 인한 불만 접수가 0건으로 줄었습니다.
  • 무중단 서비스 달성: 정기 점검 시 Core 스위치 1대를 의도적으로 재부팅하는 테스트에서, 단 한 통의 전화도 끊기지 않고 서비스가 유지됨을 확인했습니다.
  • TCO 30% 절감: 불필요한 Distribution 계층 장비의 유지보수 비용과 상면 비용이 절감되었습니다.

정성적 효과

  • IT팀의 업무 변화: 장애 대응(Fighting)에 쓰던 시간을 절약하여, 사내 보안 강화, Wi-Fi 6 도입 등 더 가치 있는 IT 기획 업무에 집중할 수 있게 되었습니다. 👌
  • 직원 만족도 향상: "네트워크가 원래 이렇게 안정적인 거였나요?"라는 피드백을 받았습니다.
  • 유연한 확장성: 향후 IoT 디바이스나 새로운 서비스가 도입되어도, 새로운 VLAN을 할당하고 QoS 정책을 적용하기만 하면 되는 유연한 구조를 갖추게 되었습니다.

마무리하며: 우리의 경험이 당신에게 주는 가치 (Conclusion)

A대학교의 Spine-Leaf가 '성능과 확장'에 대한 이야기였다면, B기업의 사례는 '안정성과 품질'에 대한 이야기입니다. 모든 기업에 100G급 ECMP가 필요한 것은 아닙니다. 하지만 모든 기업에는 안정적인 VoIP와 빠른 ERP가 필요합니다.

이 프로젝트를 통해 얻은 가장 큰 교훈은 "네트워크의 가치는 속도가 아니라, 비즈니스의 연속성을 보장하는 안정성에 있다"는 것이었습니다.

💡 Call to Action: 당신을 위한 제언

이 글을 읽고 비슷한 고민을 하고 계신 분들께 두 가지 실질적인 조언을 드리고 싶습니다.

  1. '속도'만 보지 말고 '품질(QoS)'을 점검하세요. 단순히 10G로 대역폭을 늘리는 것보다, 중요한 트래픽의 우선순위를 보장하는 것이 직원들의 체감 만족도를 훨씬 크게 높일 수 있습니다.
  2. 우리 회사의 'SPOF(단일 장애 지점)'를 찾아보세요. 만약 Core 스위치가 한 대뿐이라면, 그것이 고장 났을 때의 비즈니스 손실을 계산해보고 지금 당장 이중화(HA)를 검토해야 합니다.

Future

B기업의 안정화된 네트워크는 이제 다음 단계를 준비하고 있습니다. 확보된 안정성 위에 NAC(네트워크 접근 제어) 솔루션을 연동하여 보안을 강화하고, 전사 Wi-Fi 6E 업그레이드를 통해 차세대 무선 업무 환경을 구축할 계획입니다.

긴 글 읽어주셔서 감사합니다. 여러분의 네트워크에도 '흔들림 없는 안정성'이 함께하길 바랍니다.

auto_awesome

'Tech_Goest' 카테고리의 다른 글

흩어진 지점들을 하나로 묶다: NGFW 기반 '보안 VPN 통합망' 구축

2025.10.26

수백 명 동시 접속에도 끊김 없는 Wi-Fi의 비밀: C대학교 무선망 구축 회고

2025.10.24

✅ 100G 시대로의 전환: Spine-Leaf와 ECMP가 만든 A대학교 무중단 고속도로

2025.10.24

EPP(Endpoint Protection Platform)를 활용한 혁신: 통합 관리 기반 엔드포인트

2025.10.21
더 보기 →