Average Repair Read Cost of Linear Repairable Code Ensembles

In this paper, we derive the average repair bandwidth and/or read cost for arbitrary repairable linear code ensembles. The repair bandwidth and read cost are the required amount of data and access number of nodes to restore a failed node, respectively. Here, the repairable linear code ensemble is given by such parameters as the number  of data symbols, the number  of parity symbols, and their degree distributions. We further assume that the code is systematic, and no other constraint is assumed, except possibly that the exact repair could be done by the parity check-sum relation with fully connected   storages. This enables one to apply the result of this paper directly to any randomly constructed codes with the above parameters, such as linear fountain codes. The final expression of the average repair read cost shows that it is highly dependent on the degree distribution of parity symbols, and also the values  and . ※ This research was supported by Basic Science Research Program through the National Research Foundation of Korea(NRF) funded by the Ministry of Education(No. 2013R1A1A2062061). First Author : School of Electrical and Electronic Engineering, Yonsei University, js.park09@yonsei.ac.kr, 학생회원 ° Corresponding Author : School of Electrical and Electronic Engineering, Yonsei University, hysong@yonsei.ac.kr, 종신회원 * School of Electrical and Electronic Engineering, Yonsei University, jh.kim06@yonsei.ac.kr, kh.park@yonsei.ac.kr, 학생회원 논문번호:KICS2014-08-333, Received August 30, 2014; Revised November 6, 2014; Accepted November 6, 2014 I. 서 론 최근, 국내외에서 클라우드 서비스에 대한 연구 뿐만 아니라, 분산 저장 시스템(Distributed storage system, DSS)을 위한 소실 부호 기술(Erasure coding) 이 클라우드 서비스 제공자들과 연구자들의 관심을 끌고 있다 . DSS를 위한 부호 기법의 주요한 두가 지 성능 척도는 필요 저장 공간과 하나의 저장소가 소 The Journal of Korean Institute of Communications and Information Sciences '14-11 Vol.39B No.11 724 그림 1. 시스터메틱 선형 부호의 일반적인 그래프 포현 Fig. 1. Graph representation of a systematic linear code 실되었을 때 이를 복구하기 위해 필요한 대역폭(즉, 데이터의 양)이다. 이 두가지 척도에 대한 바운드가 잘 알려져 있는데, 어떤 부호가 그 바운드를 만족하면 최적이라 한다 . 또한 두 척도에 대한 양극단의 최적 지점을 만족하는 부호를 각각 최소 저장 용량 재생 (Minimum storage regenerating, MSR) 부호, 최소 복 구 대역폭 재생(Minimum bandwidth regenerating, MBR) 부호라 한다. 기존의 소실 부호에 대한 연구 [8] 는 이진 소실채널에서 DSS를 고려하지 않고 진행되 었으나, 최근에는 DSS를 위해 최적 및 극단 지점을 만족하도록 설계된 repair-by-transfer 부호 , product-matrix 알고리즘, 그리고 최대 거리 분리가 능(Maximum distance separable, MDS) 부호 [5] 등이 제안되었다. 바운드의 중간 부분에 대한 재생 부호 (Regenerating codes) 또한 실제적으로 중요한데, 이 러한 관점에서 부분성(Locality) 개념이 도입되었다. 만약 어떤 저장소가 소실되어 새로운 저장소에 복구 해 놓아야 하는 경우, 전체 데이터 심볼 수 대비 훨씬 적은 양의 저장소만 접속하여 복구할 수 있으면 부분 접속으로 복호 가능(Locally decodable)하다고 부른다 . 그러한 부호를 부분접속 복구 부호(Locally repairable code, LRC) 라 하는데, 이에 대한 간단하 며 실용적인 연구가 있었으며 부호 파라미터와 부분성에 연구가 진행되었다 . 또한 저장 공간과 부분성에 대한 trade-off를 주는 피라미드 부호가 제안 되었으며, 자연적으로 부분접속 복구 성질을 갖는 파운틴 부호에 대한 near-MDS 성질의 연구가 발표되 었다 . 또한, 복구를 위한 접속 노드 수를 줄일 수 있 는 간섭 정렬(Interference alignment, IA) 기법이 발표되었다. 본 논문에서는 선형 재생 부호 앙상블의 평균 복구 접속 비용과 대역폭을 유도한다. 우리는 평균 복구 접 속 비용, 즉 하나의 소실 저장소를 복구하기 위해 필 요한 다른 저장소 접속 수를 주로 고려하며 이로부터 복구 대역폭을 쉽게 유도할 수 있다. 필요한 입력 파 라미터로는 데이터 심볼의 수 , 패리티 심볼의 수  , 그리고 그들의 차수 분포이다. 각 패리티 심볼은 데이터 심볼들의 선형 결합으로 만들어지며,  개의 부호 심볼들은 개의 저장소에 각각 저장되며 모든 저장소는 연결되어있다고 가정하자. 이 때, 패리티 심볼과 데이터 심볼간 연관성은 차수 분포 를 제외하고는 특정짓지 않도록 한다. 이러한 가정은 본 논문의 가정을 재생 파운틴 부호 [13] 등에 직접 적 용 가능하게 한다. 본 논문은 II장에서 선형 재생 부호를 간략히 설명 하고, III장에서는 주 결과인 평균 복구 접속 비용과 대역폭을 유도한다. 마지막 IV장에서는 시뮬레이션 결과들과 결론으로 논문을 마친다.

[1]  Baochun Li,et al.  Erasure coding for cloud storage systems: A survey , 2013 .

[2]  Yunnan Wu,et al.  A Survey on Network Codes for Distributed Storage , 2010, Proceedings of the IEEE.

[3]  Young Ik Eom,et al.  A Scheme on High-Performance Caching and High-Capacity File Transmission for Cloud Storage Optimization , 2012 .

[4]  Insoon Jo,et al.  Trust Assurance of Data in Cloud Computing Environment , 2011 .

[5]  Alexandros G. Dimakis,et al.  Repairable Fountain Codes , 2014, IEEE J. Sel. Areas Commun..

[6]  Cheng Huang,et al.  Erasure Coding in Windows Azure Storage , 2012, USENIX Annual Technical Conference.

[7]  Alexandros G. Dimakis,et al.  Network Coding for Distributed Storage Systems , 2007, IEEE INFOCOM 2007 - 26th IEEE International Conference on Computer Communications.

[8]  Cheng Huang,et al.  On the Locality of Codeword Symbols , 2011, IEEE Transactions on Information Theory.

[9]  Minghua Chen,et al.  Pyramid Codes: Flexible Schemes to Trade Space for Access Efficiency in Reliable Data Storage Systems , 2007, Sixth IEEE International Symposium on Network Computing and Applications (NCA 2007).

[10]  Michael Luby,et al.  LT codes , 2002, The 43rd Annual IEEE Symposium on Foundations of Computer Science, 2002. Proceedings..

[11]  Gregory W. Wornell,et al.  Local recovery properties of capacity achieving codes , 2013, 2013 Information Theory and Applications Workshop (ITA).

[12]  Yunnan Wu,et al.  Reducing repair traffic for erasure coding-based storage via interference alignment , 2009, 2009 IEEE International Symposium on Information Theory.

[13]  Hyung-Taek Lim,et al.  Performance Analysis of RS, Turbo and LDPC Code in the Binary Symmetric Erasure Channel , 2010 .

[14]  Frédérique E. Oggier,et al.  Coding Techniques for Repairability in Networked Distributed Storage Systems , 2013, Found. Trends Commun. Inf. Theory.

[15]  Nihar B. Shah,et al.  Optimal Exact-Regenerating Codes for Distributed Storage at the MSR and MBR Points via a Product-Matrix Construction , 2010, IEEE Transactions on Information Theory.

[16]  Kannan Ramchandran,et al.  Asymptotic Interference Alignment for Optimal Repair of MDS Codes in Distributed Storage , 2013, IEEE Transactions on Information Theory.

[17]  Dimitris S. Papailiopoulos,et al.  XORing Elephants: Novel Erasure Codes for Big Data , 2013, Proc. VLDB Endow..

[18]  Kannan Ramchandran,et al.  Distributed Storage Codes With Repair-by-Transfer and Nonachievability of Interior Points on the Storage-Bandwidth Tradeoff , 2010, IEEE Transactions on Information Theory.