공통/인프라 & 시스템 설계

[대규모 시스템 설계 기초 정리] 피드 시스템 설계

반응형

피드 시스템이란?

지속적으로 업데이트되는 스토리들로, 페이스북 피드, 인스타그램 피드, 트위터 타임라인들을 예시로 들 수 있다.


피드 발행 흐름 상세 설계


포스팅 전송(팬아웃 서비스)

  • 팬아웃이란, 어떤 사용자의 새 포스팅을 그 사용자와 친구 관계에 있는 모든 사용자에게 전달하는 과정.
  • 팬아웃에는 두 가지 모델이 존재
    • Push 모델 (쓰기 시점에 팬아웃 하는 모델)
    • Pull 모델 (읽기 시점에 팬아웃 하는 모델)


Push 모델

쓰기 시점에 팬아웃 하는 모델

새로운 포스팅을 기록하는 시점에 뉴스 피드를 갱신하게 된다.

  • 포스팅이 완료되면 해당 사용자(수신자)의 캐시에 해당 포스팅을 기록하는 것.


장점

  • 뉴스 피드가 실시간으로 갱신되며 친구 목록에 있는 사용자에게즉시 전송된다.
  • 뉴스 피드를 읽는 데 드는 시간이 짧아진다


단점

  • 친구가 많은 사용자의 경우 친구 목록을 가져오고 그 목록에 있는 사용자 모두의 뉴스 피드를 갱신하는 데 많은 시간이 소요될 수 있다. (핫키 문제라고 한다)
  • 서비스를 자주 사용하지 않는 Cold존의 사용자의 피드까지 갱신해야 하므로 컴퓨팅 자원이 낭비된다.


Pull 모델

읽기 시점에 팬아웃 하는 모델

  • 피드를 읽어야 하는 시점에 뉴스 피드를 갱신한다. (사용자가 본인 타임라인을 로딩하는 시점에 새로운 포스트를 가져오게 된다)


장점

  • 비활성화된 사용자, 또는 서비스를 거의 사용하지 않는 사용자의 경우에는 로그인하기까지에는 어떤 컴퓨팅 자원도 소모하지 않으므로 이 모델이 유리하다.
  • 데이터를 친구 각각에 푸시하는 작업이 필요 없으므로 핫키 문제도 생기지 않음.


단점

  • 뉴스 피드를 읽는 데 많은 시간이 소요될 수 있다.


설계안

두 가지 방법을 결합하여 장점은 취하고 단점은 버리는 전략을 가져갈 수 있다.

  • 뉴스 피드를 빠르게 가져올 수 있도록 하는 것은 아주 중요하므로 대부분의 사용자에 대해서는 푸시 모델을 사용한다.
  • 친구나 팔로워가 아주 많은 사용자의 경우에는 팔로워로 하여금 해당 사용자의 포스팅을 필요할 때 가져가도록 하는 풀 모델을 사용하여 시스템 과부하를 방지한다.
  • 안정 해시를 통해 요청과 데이터를 보다 고르게 분산하여 핫키 문제를 줄인다.


팬 아웃 서비스 설계

  1. 그래프 데이터베이스에서 친구 ID 목록을 가져온다.
    • 그래프 데이터베이스는 친구 관계나 친구 추천을 관리하기 적합.
  2. 사용자 정보 캐시에서 친구들의 정보를 가져온다.
    • 그런 후에 사용자 설정에 따라 친구 가운데 일부를 필터링 한다.
  3. 친구 목록과 새 스토리의 포스팅 ID를 메시지 큐에 넣는다.
  4. 팬아웃 워커 서버가 메시지 큐에서 데이터를 꺼내어 뉴스 피드 데이터를 뉴스 피드 캐시에 넣는다.
    • 뉴스 피드 캐시는 <포스팅 ID, 사용자 ID>의 순서쌍을 보관하는 매핑 테이블
    • 사용자 정보와 포스팅 정보 전부를 이 테이블에 저장하지 않는 이유는, 그렇게 하면 메모리 요구량이 지나치게 늘어날 수 있기 때문이다. 따라서 ID만 보관한다.
    • 또한 메모리 크기를 적정 수준을 유지하기 위해서 캐시의 크기에 제한을 둔다. (어떤 사용자가 뉴스 피드에 올라온 수천 개의 스토리를 전부 훑어보는 일이 벌어질 확률은 지극히 낮다. - 대부분의 사용자가 보려고 하는 것은 최신 스토리)


피드 읽기 흐름 상세 설계


  1. 사용자가 뉴스 피드를 읽으려는 요청을 보낸다.
  2. 로드 밸런서가 요청을 웹 서버 가운데 하나로 보낸다.
  3. 웹 서버는 피드를 가져오기 위해 뉴스 피드 서비스를 호출한다.
  4. 뉴스 피드 서비스는 뉴스 피드 캐시에서 포스팅 ID 목록을 가져온다.
  5. 뉴스 피드에 표시할 사용자 이름, 사용자 사진, 포스팅 콘텐츠, 이미지 등을 사용자 캐시와 포스팅 캐시에서 가져와 완전환 뉴스 피드를 만든다.


캐시 구조

캐시는 뉴스 피드 시스템의 핵심 컴포넌트로, 캐시를 다섯 계층으로 나눈다.

  • 뉴스 피드: 뉴스 피드 ID를 보관한다.
  • 콘텐츠: 포스팅 데이터를 보관. (인기 콘텐츠는 따로 보관한다)
  • 소셜 그래프: 사용자 간 관계 정보를 보관
  • 행동: 포스팅에 대한 사용자의 행위에 관한 정보를 보관
  • 횟수: 좋아요, 응답 수, 팔로워 수 등의 정보를 보관한다.

 

참고



출처: https://willseungh0.tistory.com/175 [will.log]

반응형