DevOps/MLOps

Feature Store란?

devsean 2025. 5. 11. 21:50

들어가며

Feature Store 개념을 파악하기 위해, 전자통신동향분석(ETRI)에서 발간된 Article을 읽어보았다. Feature Store는 MLOps의 핵심 구성 요소 중 하나로, 데이터 플랫폼과 AI 플랫폼을 이어주는 역할을 하여 AI 프로젝트의 생산성을 높이는 데 기여한다. Feature Store의 개념과 필요성, 기능, 사용 이점, 그리고 활용 사례들을 정리해보고자 한다.

 

Feature Store의 개념과 필요성

Feature Store Workflow

 

Feature Store는 AI 모델에 사용되는 Feature들을 중앙에서 저장하는 저장소이다. 데이터 플랫폼이 다양한 데이터 소스로부터 Feature 엔지니어링 과정을 통해 생성하는 모든 Feature 데이터를 Feature 저장소에 등록하고, AI 플랫폼은 AI 모델 개발에 필요한 Feature 데이터를 Feature 저장소로부터 검색하여 해당 Feature 데이터를 AI 모델 개발에 활용한다.

 

일반적으로 AI 프로젝트는 정제되지 않은 원천 데이터 소스로부터 데이터를 정제하고 불러와서, 모델을 학습하고 서빙하여 추론 작업을 하게 된다. 전자의 데이터 엔지니어링 작업은 데이터 플랫폼에서, 후자의 AI 모델링 작업은 AI 플랫폼에서 각각 나누어서 수행하게 된다. AI 프로젝트는 대규모 데이터에 내재하는 의미를 도출하기 위한 실험적, 반복적, 탐색적 작업을 수행하는 특성으로 인해 두 종류의 플랫폼이 반복적으로 연계되므로, 이 두 플랫폼을 효과적으로 연계하여 협업하는 것이 AI 프로젝트의 효율성을 높이는 데 중요하다.

 

Feature Store의 기능

Feature 저장소의 기능을 살펴보며, 어떤 이점을 제공하는지 살펴보자.

 

Feature 공유

중앙 저장소인 Feature Store에 Feature를 등록해두고, 재사용한다. AI 플랫폼이 직접 데이터 플랫폼에 접근하는 것이 아니라, 중간자인 Feature Store를 통함으로써 인터페이스 구조가 체계적이고 단순화된다. End-to-End ML 파이프라인 구축 및 관리 비용이 절감되어, 결과적으로 AI 모델 개발 비용 절감에 큰 효과를 가져온다.

 

Feature 관리

전체 Feature에 대한 체계적이고 일관성 있는 관리가 가능하다. Feature의 버전 관리, Feature 생성에 관여한 데이터 소스 정보, 데이터 소스로부터 Feature를 생성하는 과정에서 적용된 변환 연산 정보, Feature 생성 주체, Feature 활용 주체와 같은 정보들을 체계적으로 관리할 수 있다. 이를 통해 AI 모델 생성 과정 추적 및 재생성을 지원하여 모델 개발의 효율성과 모델의 신뢰성을 증대한다.

 

Feature 모니터링

Feature의 상태를 모니터링 할 수 있다. Feature는 AI 모델 개발을 위한 훈련 데이터와, 운영 중인 AI 모델로부터 예측, 추론 값을 얻기 위한 서빙 데이터로 구분된다. 훈련 데이터를 Offline Feature 저장소에 저장하고, 서빙 데이터를 Online Feature 저장소에 저장하여 관리할 수 있다. AI 모델에 사용된 훈련 데이터와 서빙 데이터의 통계적 특성이 상이하다면 자연히 AI 모델의 성능이 저하된다. 각각의 저장소에 저장된 데이터의 통계적 일치성 유지 여부를 모니터링하고, 필요하다면 훈련 데이터를 갱신하여 서빙된 AI 모델을 재학습 할 수 있다.

 

Feature 접근 제어

개인 정보와 같이 민감한 정보를 통해 생성된 Feature는, 특정 주체에게만 공개되어야 할 수도 있다. Feature의 접근 권한을 관리할 수 있게 된다.

 

Feature Store 사례

Article에서는 대표적으로 다음의 3가지 사례를 소개하고 있다.

 

Michelangelo

Michelangelo

 

2017년 공개된 Uber의 AI 서비스 개발 플랫폼이다. 다양한 오픈소스를 기반으로 구축되었으며, 요구사항을 충족할 수 없는 컴포넌트들은 자체 개발하였다. 분류, 회귀, 시계열 예측을 포함하는 Uber의 모든 AI 모델 개발 과정은 다음 6단계를 거친다.

 

데이터 관리 → 모델 훈련 → 모델 검증 → 모델 배포 → 예측 → 성능 모니터링

 

Uber는 첫 단계인 데이터 관리 단계에서 좋은 Feature를 찾는 것과 이러한 Feature를 안정적으로 생성하고 제공하는 파이프라인을 구축하는 것이 가장 어렵고 또 큰 비용이 요구되는 작업이라는 사실에 주목했다. 많은 AI 모델 개발 경험을 통해 서로 다른 다양한 AI 모델 개발에서 동일하거나 비슷한 Feature들이 활용되는 사례가 빈번한 사실에 주목하여, 모든 Feature들을 Feature 저장소에 저장하고 다른 AI 모델 개발 과정에서 저장된 Feature를 공유할 수 있도록 하였다.

 

초기에는 Feature 공유 문제 해결에 집중하였던 반면, 이후에는 유용한 Feature를 검색할 수 있도록 하는 등 개발자의 AI 모델 생산성 향상에 주력하였다.

 

HSFS(Hopsworks Feature Store)

Hopsworks

 

Hopsworks는 Logical Clock의 주도로 개발된 ML 모델 개발 및 운영을 위한 오픈소스 소프트웨어 플랫폼이다. MLOps 플랫폼의 구성 요소들을 포함하고 있는데, 그 중에 Feature Store인 HSFS(Hopsworks Feature Store)가 있다. HSFS 설계 시 가장 중요한 고려 사항 중 하나는 데이터 소스로부터 Feature를 생성하고 Feature Store에 저장하는 과정의 범용성을 확보하는 문제였다.

 

HSFS는 여러 개의 비슷한 특성을 가진 Feature들을 모은 Feature Group 개념을 도입하였다. 이렇게 생성된 Feature들은 저장되기 전 반드시 데이터 검증 과정을 거치며, 그룹으로 모아서 관리하기 때문에 그룹 별 별도 관리(접근 제어)가 가능해진다. 데이터 엔지니어에게만 Feature 생성 권한을 부여하고, 데이터 사이언티스트가 Feature를 생성하고 싶다면 반드시 엔지니어와 협의하도록 하였다. 이를 통해 Feature 생성과 Feature 활용 단의 작업을 명확하게 분리하여, AI 프로젝트에서 각각 독립적으로 수행할 수 있도록 하였다.

 

Feast

Feast

 

 

인도네시아의 온라인 주문 및 결제 대행업체인 Gojek이 자사 비즈니스 모델을 위해 Google Cloud 등과 협업하여 개발한 오픈소스 Feature Store이다. Feast는 Feature 공유를 통해 AI 프로젝트 비용을 절감하는 것이 주된 목표이다. Feast는 위의 두 솔루션과 달리, Feature를 생성하기 위해 데이터 소스로부터의 변환 연산 작업은 포함하지 않는다. 그러므로 이미 데이터 파이프라인이 구축된 기관/조직에서 Feature 저장 및 제공이 필요할 때 유용한 솔루션이다.

 

Feast는 개발자 커뮤니티 확산에 유리한 환경을 갖추고 있다는 측면에서 발전성이 유망하고, 특정 기업의 기술에 종속되지 않은 독립된 솔루션이라는 점에서 많은 기업이 AI 서비스 개발 시 활용할 것으로 예상되는 주목할 만한 Feature 저장소이다.

 

참고 자료

<Feature 저장소 기술 동향> (2021, 허성진 외, ETRI)

https://ettrends.etri.re.kr/ettrends/189/0905189007/065-074_%ED%97%88%EC%84%B1%EC%A7%84.pdf

 

피처 스토어가 뭐고 왜 필요한가?

intro 그래서 내가 하고 싶은 말은.. 피처스토어가 뭔지, 왜 필요한지, 그리고 이것을 주로 파는종류들을 이야기하려합니다. 코드 1줄도 없이 왜 필요한지가 주 논점이기때문에, 다소 글과 그림으

kils-log-of-develop.tistory.com