개발/Common CS with GPT

[Common]Elastic Search란?

무지렁e ㅣ 2025. 4. 29. 16:55

Q. Elastic Search에 대해서 알고 싶은데, 이게 뭘 의미하는 거야?

✅ ElasticSearch란?

🎯 **"대용량 데이터를 빠르게 검색하기 위해 만들어진 실시간 검색엔진"**이야.

조금 더 쉽게 말하면:

**"DB에 넣으면 느려터질 검색을, 엄청 빠르고 똑똑하게 해주는 시스템"**이야.

✅ ElasticSearch를 이해하려면 기본 전제부터 알아야 해

📦 기존 RDB (MySQL, PostgreSQL)에서 검색할 때 문제

데이터를 WHERE절로 일일이 찾는다 → 인덱스 있어도 범위가 커지면 느려짐
복잡한 검색 (ex: '이름에 김 들어가고, 나이는 25~30, 지역은 서울 근처') → 느려터짐
문서, 텍스트 검색 (ex: 상품 설명 중 '블루투스'가 들어간 상품) → 거의 불가능

✅ RDB는 원래 '정형 데이터 저장'에는 최적이지만, '복잡한 검색'은 약해.

✅ ElasticSearch는 이런 한계를 극복하려고 만들어진 거야

항목 설명

🔎 검색 최적화	텍스트, 문서, 키워드 검색에 초고속
🏎 초고속 인덱싱	데이터를 저장할 때부터 검색에 최적화된 구조로 저장
🔀 복잡한 쿼리 지원	필터, 정렬, 페이징, 다중 조건 검색 다 가능
📚 대용량 처리	수억 건 데이터도 몇 초 내 검색 가능
🛠 실시간	저장과 동시에 검색 가능 (Near-Real-Time)

✅ ElasticSearch는 "검색 엔진"이지 "DB"는 아니다

ElasticSearch는 데이터 영구 저장이 목표가 아니야.
"빠른 검색"이 목표야.
하지만 내부적으로 데이터를 JSON 형태로 저장하고,
자체 저장소 (Lucene)도 관리해.
✅ 그래서 '검색 + 저장'을 함께 하긴 하지만,
RDB처럼 트랜잭션 강한 보장은 없다.

📌 그래서 실무에서는 보통 이렇게 써:

역할 시스템

원본 데이터 저장	RDB (MySQL, PostgreSQL)
빠른 검색용 데이터 복제	ElasticSearch

✅ ElasticSearch 흐름 예시 (실제 서비스)

예를 들면:

쇼핑몰: 상품명, 설명, 카테고리 키워드 검색
포털: 기사, 문서 검색
금융: 거래 내역, 고객 정보 빠른 조회
모니터링 시스템: 로그 검색 (ex: Kibana, ELK 스택)

✅ ElasticSearch 구조 대충 보면

[Index] = 데이터베이스 역할
  └── [Type] = 테이블 역할 (현재는 폐지)
    └── [Document] = Row (레코드) 역할
      └── [Field] = 컬럼 (속성)

✅ 대충 "Index → Document → Field" 이렇게 3단계로 구성돼.

예시:

Index Document Field

products	상품 A	name, price, category
users	사용자 A	name, age, location

✅ 그리고 ElasticSearch는 내부적으로 역색인(Inverted Index) 을 만들어서 검색해

일반 DB는 "데이터를 보고 조건에 맞는 걸 찾아"

ElasticSearch는 "단어별로 미리 인덱스를 만들어서 거꾸로 찾아"

예시:

단어 문서 ID

"승현"	1, 3, 7
"개발자"	1, 2, 5

→ "승현 개발자" 검색하면 1번 문서를 바로 찾아낼 수 있어.

이 구조 덕분에 수억 건 데이터도 거의 실시간 검색이 가능해.

✅ 한 줄 요약

ElasticSearch는 대용량 텍스트나 데이터 검색을 빠르고 효율적으로 하기 위해 만든 분산 검색엔진이고, 기존 RDB처럼 저장하는 게 아니라, 검색 최적화를 위해 데이터를 인덱싱해서 실시간 검색을 가능하게 한다.

Q. 그럼 Elastic Search의 공급자는 누구야? 오픈소스야?

✅ ElasticSearch 공급자와 라이선스

1. 누가 만들었나?

Elastic N.V. 라는 회사가 만들었어.

2012년에 샤이 반우르크(Shay Banon)라는 개발자가 주축이 돼서 만들었고,
본사는 네덜란드 → 미국으로 확장
지금 Elastic.co 사이트가 ElasticSearch를 공식적으로 관리하고 있어.

✅ 즉, ElasticSearch는 오픈소스로 출발했지만, Elastic N.V.가 주도적으로 개발/공급하는 프로젝트야.

2. ElasticSearch는 오픈소스인가?

✅ 원래는 100% 오픈소스(Apache 2.0 라이선스) 였어.

→ 누구나 자유롭게 복제, 수정, 배포 가능했지.

그런데!

3. 왜 라이선스 이슈가 터졌나?

Amazon AWS가 문제였어.

AWS가 ElasticSearch를 가져다가 자기네 서비스(Amazon Elasticsearch Service) 만들어서 팔았어.
근데 Elastic사는 AWS가 ElasticSearch를 돈벌이 수단으로 쓰면서, 원래 Elastic 회사에 기여를 안 한다고 불만을 품었어.

결국 2021년에 Elastic사는 선언했어:

✅ "이제부터 ElasticSearch는 완전한 오픈소스(Apache 2.0)가 아니다."

→ Elastic License (자체 라이선스) + 일부 SSPL (Server Side Public License)로 변경함.

쉽게 말하면:

개인/기업 사용은 여전히 가능하지만

Elastic Search를 가져다가 AWS처럼 서비스로 팔 수는 없다!

4. 이때 등장한 게 Opensearch

AWS가 ElasticSearch 오픈소스 버전(fork)을 가져다가 따로 갈라서 만듦
이름을 OpenSearch라고 바꿨어 (ElasticSearch 오픈소스 7.10 버전 기준)

✅ 그래서 지금은:

이름 특징

ElasticSearch (공식)	Elastic사가 주도, Elastic License 기반
OpenSearch	AWS 주도, Apache 2.0 기반 오픈소스

✅ 현재 상황 요약

항목 ElasticSearch OpenSearch

공급자	Elastic.co	AWS
라이선스	Elastic License (비자유)	Apache 2.0 (완전 자유)
클라우드 서비스	Elastic Cloud	AWS OpenSearch Service
커뮤니티	Elastic 중심	AWS 및 오픈 커뮤니티 중심

✅ 한 줄 요약

ElasticSearch는 원래 오픈소스였지만, 지금은 Elastic사가 공급하는 비자유 라이선스 제품이고, AWS가 갈라서 만든 OpenSearch는 여전히 완전 오픈소스다.

Q. 그럼 기존 RDB와 다른점을 중점적으로 알려줘. 그리고 프로젝트에 연동하는 방법도 개괄설명해 줄래?

✅ ElasticSearch vs RDB (MySQL, PostgreSQL) 핵심 차이

항목 RDB (MySQL, PostgreSQL) ElasticSearch

🎯 목적	정형 데이터 저장 & 관계형 조회	대용량 데이터 빠른 검색 최적화
📚 데이터 구조	테이블(스키마 기반)	인덱스(스키마 자유로움, JSON 기반 문서)
🔍 검색 방식	WHERE, JOIN, 인덱스 활용	Full-Text Search, 역색인 (Inverted Index)
🏎 성능	소규모 WHERE는 빠름, 복잡하면 느려짐	대량 데이터 복잡 쿼리도 빠름
🔀 복잡한 조인	가능 (JOIN 연산)	기본적으로 불가능 (조인 대신 denormalization)
🧹 트랜잭션 보장	강력 (ACID)	약함 (일부만 보장)
📖 검색 기능	LIKE 검색 한계 있음	형태소 분석, 유사 검색, 퍼지 검색 가능
🛠 스케일링	수직 확장 위주 (DB 서버 스케일업)	수평 확장 쉬움 (Shard + Replica 구조)

✅ 요약

📦 RDB는 안정적 저장 & 관계형 연산에 강하고🔎 ElasticSearch는 빠르고 유연한 대규모 검색에 강하다.

👉 그래서 둘은 경쟁하는 게 아니라 "서로 보완"하는 구조야.

✅ 프로젝트에 ElasticSearch를 연동하는 기본 흐름

(Spring Boot 기준으로 설명할게)

🎯 흐름 요약

1. ElasticSearch 서버 설치 (or AWS ElasticSearch/OpenSearch 사용)
2. 프로젝트에 클라이언트 라이브러리 추가 (예: Elasticsearch RestHighLevelClient)
3. 검색 대상 데이터 구조 설계 (Index Mapping)
4. 데이터 색인 (Indexing)
5. 검색 쿼리 실행 (Query DSL 사용)

✅ 구체적인 단계 설명

1. ElasticSearch 서버 설치

직접 설치하거나 (Docker, zip 파일)
AWS OpenSearch, Elastic Cloud 같은 매니지드 서비스 사용 가능

docker run -d -p 9200:9200 -e "discovery.type=single-node" elasticsearch:7.17.0

→ 로컬 http://localhost:9200에서 API로 접근 가능

2. 프로젝트에 클라이언트 추가

Spring Boot에서는 보통 다음 중 하나를 사용해

✅ RestHighLevelClient (전통적, 7.x 기준)
✅ ElasticsearchTemplate (Spring Data Elasticsearch)
✅ 최신은 Elasticsearch Java API Client

Maven 예시:

<dependency>
  <groupId>org.springframework.boot</groupId>
  <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
</dependency>

3. 데이터 모델 설계 (Index + Mapping)

RDB에서는 테이블 설계
Elastic에서는 Index + Mapping 설계

Mapping 예시:

PUT /products
{
  "mappings": {
    "properties": {
      "name": { "type": "text" },
      "price": { "type": "integer" },
      "category": { "type": "keyword" }
    }
  }
}

(Elastic에서는 각 필드 타입을 명시적으로 지정해야 성능 최적화 가능)

4. 데이터 색인(Indexing)

데이터 저장 예시:

POST /products/_doc
{
  "name": "AirPods Pro",
  "price": 299,
  "category": "earphone"
}

→ _doc 타입은 Elastic 기본 문서 타입

✅ RDB에서는 INSERT,

✅ Elastic에서는 Index (색인)

5. 검색 쿼리 실행

검색 예시(Query DSL 기반):

GET /products/_search
{
  "query": {
    "match": {
      "name": "AirPods"
    }
  }
}

✅ match: 자연어 검색
✅ term: 정확 매칭
✅ range: 가격 범위 검색
✅ bool: AND/OR 조합 검색

Spring 코드에서는:

SearchRequest searchRequest = new SearchRequest("products");
SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
sourceBuilder.query(QueryBuilders.matchQuery("name", "AirPods"));
searchRequest.source(sourceBuilder);
SearchResponse response = client.search(searchRequest, RequestOptions.DEFAULT);

✅ ElasticSearch 연동 핵심 포인트 요약

포인트 설명

클라이언트 연결	RestHighLevelClient 등 사용
데이터 설계	Index + Mapping
데이터 저장	Indexing
검색	Query DSL로 유연하고 고급 검색 가능
주의할 점	트랜잭션 강하지 않음 (원본 DB 필요할 수도 있음)

✅ 한 줄 요약

ElasticSearch는 빠른 검색 최적화 시스템이고, RDB처럼 스키마 강제는 없지만 데이터 Mapping 설계가 중요하며, Spring Boot 등에서 클라이언트 라이브러리를 이용해 연동하고 Indexing + Search 패턴으로 사용한다.

Q. 어쨌든 그럼 원천 데이터는 RDS에 저장해야 한다는 이야기지? 그럼 RDS와 Elastic Search 저장소의 무결성 문제는 어떻게 해결해?

✅ 먼저 큰 그림 요약

ElasticSearch는 "검색 최적화 복제본"일 뿐, "진짜 원본"은 RDB(RDS)처럼 트랜잭션 보장 시스템이어야 한다.

✅ 그래서 원본 DB(RDS) + 검색용 복제본(ElasticSearch) 구조로 가고,

**RDS → ElasticSearch 동기화(Sync)**를 해야 돼.

✅ 그렇다면 발생하는 문제: "RDS ↔ ElasticSearch 무결성"

상황 문제

RDS에는 저장됐는데, Elastic에 저장 실패	검색 결과 누락
Elastic에는 저장됐는데, RDS에는 저장 실패	검색은 되는데 실제 데이터 없음
데이터 갱신했는데 Elastic에는 업데이트 안됨	오래된 데이터 노출
삭제했는데 Elastic에는 남아있음	잘못된 결과 노출

📌 이런 문제를 **"데이터 이중성, 무결성 문제"**라고 부르는 거야.

✅ 그래서 실무에서 쓰는 무결성 관리 방법

🎯 방법 1. 트랜잭션 후 "비동기"로 ElasticSearch 업데이트 (주류 방식)

흐름:

1. RDS에 트랜잭션 완료 (DB commit)
2. 별도 이벤트 발행 or 작업 큐에 저장
3. 별도 프로세스가 ElasticSearch에 반영

예시:

Spring에서는 RDS 저장 성공 후 → Kafka, SQS, Redis pub/sub, RabbitMQ 같은 "이벤트 큐"에 발행
따로 "Elastic 동기화 서비스"가 큐를 소비해서 ElasticSearch 업데이트

✅ 장점: DB 트랜잭션을 방해하지 않음 (빠름)

✅ 검색 실패 위험이 낮음 (재시도 가능)

✅ ElasticSearch는 eventually consistent (일관성은 약간 늦더라도 맞춰짐)

🎯 방법 2. DB → ElasticSearch를 실시간으로 복제 (Change Data Capture, CDC)

Debezium, AWS DMS, MySQL binlog 같은 DB 변경 로그를 구독해서
RDS 변경사항을 실시간 감지 → ElasticSearch에 적용

흐름:

RDS binlog → Kafka → Connector → ElasticSearch 동기화

✅ 완전 자동화 가능

✅ "삭제/수정" 이벤트도 자동 동기화 가능

❗ 구축 복잡도 올라감 (Kafka 등 인프라 필요)

🎯 방법 3. 애플리케이션 레벨에서 동기화 (직접 코드 관리)

서비스 레이어에서 RDS 저장 → Elastic 저장을 순차 처리
혹은 트랜잭션 커밋 이후 별도 쓰레드로 Elastic 저장

saveToDatabase();
saveToElasticSearch();

✅ 간단함

❌ 장애에 취약 (Elastic 실패하면 수동 복구해야 함)

❌ 트랜잭션 복합성 증가

✅ 정리

방식 특징 실무 적합성

비동기 이벤트 발행	안정적, 재시도 가능	✅ 가장 많이 씀
DB CDC 복제	완전 자동화	고도화 환경 (대기업)
애플리케이션 동기화	단순, 빠른 구축	소규모 프로젝트

✅ 실무 한 줄 요약

ElasticSearch는 무조건 원본 DB(RDS)가 있어야 하며, Elastic은 원본의 "검색 복제본"일 뿐이다. 무결성 관리는 보통 DB 트랜잭션 성공 이후 "비동기 이벤트 발행 → Elastic 업데이트" 방식으로 실무에서 처리한다.

Q. 궁금증이 몇가지 생기는데?

방법 1. 트랜잭션 후 "비동기"로 ElasticSearch 업데이트 (주류 방식) -> 만약 이 경우에 트랜잭션 완료 후에 별도 프로세스가 ElasticSearch에 반영하다가 장애가 날 경우, 이미 트랜잭션이 완료되었는데, 이 경우 어떻게 데이터를 맞추는지? 방법 2. DB → ElasticSearch를 실시간으로 복제 (Change Data Capture, CDC) → 서버 용량이 꽉 차서 DB 변경 로그가 적재되지 않았을 경우에는 어떻게 되는지? 방법 3. 애플리케이션 레벨에서 동기화 (직접 코드 관리) → 장애에 취약하다는 이유가 무엇인지? 어차피 Elastic 실패하면 수동 복구해야하는건 방법1, 방법2 또한 마찬가지 아닌지?

✅ 방법 1. 트랜잭션 후 "비동기" Elastic 업데이트에서 장애가 날 경우?

❓ 트랜잭션은 완료됐는데 Elastic 저장 중 실패 → 데이터가 불일치할 수 있음.

그래서 실무에서는 이렇게 방어해:

방어 전략 설명

✅ 이벤트를 "재처리" 가능하게 설계	Kafka, SQS 같은 큐에 발행하고, Elastic 업데이트 실패하면 큐에 남겨서 재시도
✅ Dead Letter Queue (DLQ) 운영	재시도 몇 번 실패하면 따로 실패 큐로 보내서 나중에 복구
✅ Elastic 저장 성공/실패 모니터링	실패 로그를 실시간 수집하고, 실패 건만 다시 재색인하는 배치 처리 돌림
✅ Periodic 재동기화	하루 1번, 새벽마다 RDS → Elastic 전체 동기화 스케줄 작업 돌리기도 함 (주기적 Full Sync)

즉, 장애는 나도 돼. 중요한 건

**"실패를 감지하고 재처리할 수 있는 구조를 만들어야 한다"**는 거야.

✅ 방법 2. CDC 방식에서 DB 변경 로그(binlog)가 적재되지 못하면?

❓ 서버 디스크 용량 부족으로 binlog가 남아있지 않으면?

실제로 이런 문제 나와. 그래서 이렇게 대비해:

방어 전략 설명

✅ binlog 보존 주기 설정	MySQL/MariaDB에서는 expire_logs_days를 늘려서 binlog 오래 보존
✅ binlog 백업 시스템	Kafka Connect 같은 CDC 시스템은 binlog를 별도 저장소로 백업 가능
✅ Lag 모니터링	CDC 파이프라인에서 "읽지 못한 binlog offset"을 실시간 모니터링 (지연 감지)
✅ 복구 방법	CDC로 복구 못하는 경우, 전체 RDS 덤프 → Elastic 재색인하는 방식 사용

요약하면:

binlog를 바로 읽는 CDC는 완벽하지 않다.

항상 "풀 백업 & 복구" 계획을 세워야 안전하다.

✅ 방법 3. 애플리케이션 레벨 동기화의 "장애에 취약하다"는 이유?

❓ Elastic 업데이트 실패 시 수동 복구해야 하는 건 방법 1, 2도 마찬가지 아닌가?

✅ 맞아. Elastic 장애는 어느 방법이든 수동 복구 리스크가 존재해.

그런데 애플리케이션 레벨에서 가장 취약한 이유는 이거야:

문제 설명

❌ 트랜잭션 분리 어려움	DB 저장과 Elastic 저장을 하나의 로직 안에서 순차적으로 처리해야 해. 둘 다 성공/실패 컨트롤이 어렵다.
❌ 재처리 어려움	별도 큐나 이벤트가 없으니까, 실패한 기록이 남지 않는다.
❌ 배포/장애 복구 난이도 증가	Elastic이 일시적으로 실패하면, 사용자가 요청을 다시 해야 한다거나, 서버 롤백이 복잡해진다.

즉, 방법 1, 2는 **“Elastic 업데이트 실패를 독립적으로 추적/복구”**할 수 있어.

애플리케이션 직접 처리 방식은 "실패 이력"을 관리하기가 어렵고, 모든 장애 상황을 직접 예외 처리해야 해서 운영 복잡도가 올라간다.

✅ 정말 실무 결론

방식 장단점 요약 실무 채택률

비동기 큐 발행 → Elastic 업데이트	장애 추적 가능, 재처리 가능, 높은 신뢰성	✅ 가장 많이 사용
CDC 방식으로 실시간 복제	자동화 가능, 복잡도 높음, 인프라 필요	✅ 대규모 기업
애플리케이션 직접 처리	구현 간단, 장애에 취약, 복구 난이도 높음	❌ 거의 안 씀

✅ 한 줄 요약

ElasticSearch 동기화는 장애를 “막는 게 목표”가 아니라, "실패하더라도 추적하고 복구할 수 있게 시스템을 설계"하는 게 핵심이다. 그래서 실무에서는 큐를 통한 비동기 이벤트 발행 → Elastic 업데이트 구조를 가장 많이 쓴다.

Q. 그렇다면 실무에서 Elastic Search는 어떤 기업에서 어떨 때 쓰여? 검색 포털 회사의 경우 제일 많이 쓰일까?

✅ 실무에서 ElasticSearch가 특히 많이 쓰이는 경우

상황 이유

🔍 검색 포털, 대형 커머스	대량의 상품/게시글/문서 검색 필요 (빠르고 정확한 검색)
📈 로그 분석, 모니터링	실시간 서버 로그, 애플리케이션 이벤트, 장애 모니터링
📊 BI/데이터 분석	대규모 데이터 집계, 실시간 통계 조회
🔎 보안/관제 시스템	로그인 기록, 침입 탐지 로그 실시간 분석
🛍 추천 시스템, 필터링	다중 조건 필터링, 퍼지 검색, 연관 검색 기능
🧠 AI 데이터 인덱싱	AI 모델 학습용 대량 비정형 데이터 검색 및 전처리

✅ 실제 산업별 사례

산업 ElasticSearch 사용 목적

📚 검색 포털 (예: 네이버, 다음, 줌)	뉴스, 블로그, 웹문서 검색 엔진 핵심
🛒 커머스 (예: 쿠팡, 11번가, 무신사)	상품명, 설명, 카테고리, 조건별 빠른 검색 (가격, 브랜드, 필터 등)
🔎 로그 수집/관제 (예: 카카오, 쿠팡, 토스)	ELK 스택으로 서비스 로그 모니터링, 장애 탐지, 알림
💳 핀테크/금융 (예: 토스, 카카오페이, 뱅크샐러드)	거래 기록 검색, 사용 내역 조회, 보안 로그 분석
🏥 헬스케어 (예: 뷰노, 루닛)	의료 영상, 환자 기록 검색 시스템 구축
🛡 보안/컨설팅 (예: 시큐아이, 안랩)	대규모 보안 이벤트 실시간 분석 (IPS/IDS/Firewall 로그 분석)

✅ 특히 "검색 포털"에서는 ElasticSearch가 거의 필수 수준이다

✅ 이유는 이거야:

검색 포털 요구사항 ElasticSearch가 강한 이유

수억 건 이상의 문서 검색	대용량 데이터 빠른 검색 가능
복잡한 질의 (자연어 검색, 필터링)	Query DSL로 고급 질의 가능
형태소 분석기 (한국어 등) 필요	ElasticSearch 플러그인으로 지원 (예: Nori 형태소 분석기)
실시간 색인 필요	데이터 추가와 동시에 검색 가능 (Near-Real-Time)
검색 정확도 조정 (랭킹)	스코어링, 부스터 기능 지원

✅ 그래서 네이버, 카카오, 줌 같은 포털은

ElasticSearch + 자체 검색 엔진 조합을 쓴다 (또는 Elastic 기반 커스터마이징)

✅ 그러나 ElasticSearch가 부적합하거나 주의해야 할 경우도 있어

상황 설명

트랜잭션이 강하게 필요한 데이터 저장	RDB를 써야 함 (Elastic은 트랜잭션 약함)
아주 복잡한 다중 JOIN 필요	Elastic은 JOIN 불가능 (Denormalization 해야 함)
데이터 일관성이 절대 필요한 경우	RDB 기반으로 관리하고, Elastic은 보조로 써야 함
분석보다는 저장 위주일 경우	단순 저장이면 RDB나 NoSQL(MongoDB 등)이 더 나음

✅ 한 줄 요약

ElasticSearch는 특히 대규모 검색, 실시간 로그 분석, 대량 데이터 집계가 필요한 산업(검색 포털, 커머스, 로그 분석 시스템 등)에서 필수처럼 쓰이며, 반면 데이터 무결성, 복잡한 트랜잭션이 중요한 경우에는 RDB를 메인으로 유지해야 한다.

Q. 그럼 스프링부트에 elastic search를 적용할 경우에 어떻게 적용해? 예시를 보여줄래?

✅ Spring Boot에서 ElasticSearch 연동 기본 흐름

🎯 기본 플로우

1. ElasticSearch 서버 준비 (로컬 or 클라우드)
2. Spring Boot 프로젝트에 의존성 추가
3. ElasticSearch Client 설정
4. Entity(Model) 작성
5. Repository/Service 작성
6. 데이터 색인 및 검색 실행

✅ 1. ElasticSearch 서버 준비

로컬에 띄우기 (Docker 추천)

docker run -d -p 9200:9200 -e "discovery.type=single-node" elasticsearch:7.17.0

→ http://localhost:9200 확인

또는 AWS OpenSearch, Elastic Cloud 써도 가능.

✅ 2. Spring Boot 프로젝트에 의존성 추가

(Spring Data ElasticSearch 사용 예시)

Maven 기준

<dependencies>
  <dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
  </dependency>
</dependencies>

Gradle 기준

dependencies {
    implementation 'org.springframework.boot:spring-boot-starter-data-elasticsearch'
}

✅ 참고: Spring Boot 2.4 이상부터는 버전에 맞는 Elasticsearch 라이브러리 맞춰야 함.

✅ 3. application.yml 설정

spring:
  data:
    elasticsearch:
      client:
        reactive:
          endpoints: localhost:9200

또는

spring:
  elasticsearch:
    uris: <http://localhost:9200>

(버전에 따라 다름. 2.x는 data.elasticsearch, 3.x는 elasticsearch.uris)

✅ 4. Entity (Document) 작성

import org.springframework.data.annotation.Id;
import org.springframework.data.elasticsearch.annotations.Document;

@Document(indexName = "products")
public class Product {

    @Id
    private String id;
    private String name;
    private Integer price;
    private String category;

    // getters, setters
}

✅ @Document(indexName = "products")

→ ElasticSearch의 인덱스명과 연결된다.

✅ 5. Repository 작성

Spring Data ElasticSearch에서는 Repository 지원해줘!

import org.springframework.data.elasticsearch.repository.ElasticsearchRepository;
import java.util.List;

public interface ProductRepository extends ElasticsearchRepository<Product, String> {
    List<Product> findByName(String name);
}

✅ RDB JPA 쓰듯이 ElasticsearchRepository를 상속하면 된다.

✅ 6. Service/Controller 작성

간단한 저장 + 검색 예시

import org.springframework.stereotype.Service;
import java.util.List;

@Service
public class ProductService {
    private final ProductRepository productRepository;

    public ProductService(ProductRepository productRepository) {
        this.productRepository = productRepository;
    }

    public Product save(Product product) {
        return productRepository.save(product);
    }

    public List<Product> searchByName(String name) {
        return productRepository.findByName(name);
    }
}

Controller

import org.springframework.web.bind.annotation.*;

import java.util.List;

@RestController
@RequestMapping("/products")
public class ProductController {
    private final ProductService productService;

    public ProductController(ProductService productService) {
        this.productService = productService;
    }

    @PostMapping
    public Product create(@RequestBody Product product) {
        return productService.save(product);
    }

    @GetMapping("/search")
    public List<Product> search(@RequestParam String name) {
        return productService.searchByName(name);
    }
}

✅ /products에 POST하면 색인(Indexing),

✅ /products/search?name=XXX로 GET하면 검색(Search) 가능.

✅ 추가로: 복잡한 검색 하고 싶으면?

Spring Data ElasticSearch 기본 Repository만으로는 한계가 있으니까,

직접 Query DSL을 사용할 수도 있어.

QueryBuilders.matchQuery("name", "AirPods")

같은 걸 쓰는 방식이야.

(원하면 이 QueryDSL 기반 고급 검색도 보여줄게)

✅ 한 줄 요약

Spring Boot에서는 ElasticSearch를 Spring Data 기반 Repository로 JPA처럼 쉽게 연동할 수 있고, 간단한 색인/검색은 거의 자동으로 처리되며, 복잡한 쿼리는 QueryDSL로 구현한다.

Q. 그럼 엔티티에 @Document(indexName = "products")이런식으로 애노테이션을 붙이면 자동으로 엘라스틱서치의 인덱스명과 연결된다 이거지? 엘라스틱서치에서는 위 엔테티에 담긴 정보들은 엘라스틱서치 저장소에 인덱스명으로 저장하고? 그렇다면 엘라스틱서치의 인덱스이름을 엔티티에 수동으로 지정하는거면 이것도 사용자의 직관이 중요한거야?

✅ Q. Spring Boot에서 @Document(indexName = "products")를 붙이면 무슨 일이 일어나는가?

✅ 맞아, 정확히 **"이 엔티티는 ElasticSearch의 products 인덱스와 연결"**이라는 뜻이야.

구체적으로는:

Spring Data ElasticSearch가 이 엔티티를 보면
indexName = "products"를 읽고
ElasticSearch에 "products" 인덱스가 있는지 확인하고
없다면 (초기 상태라면) 알아서 생성해주기도 하고
CRUD 작업 시 이 인덱스명 기준으로 데이터를 저장/검색한다

✅ ElasticSearch 저장 구조로 보면

ElasticSearch
  └── Index (products)
        └── Document
            ├── id: "abc123"
            ├── name: "AirPods Pro"
            ├── price: 299
            └── category: "earphone"

✅ 이 Document 하나가 Spring Boot 엔티티 객체 1개와 1:1 매칭돼.

✅ 그럼 "indexName을 수동으로 지정하는 게 중요한가?"

직관이 중요한가?"

✅ 정확히 맞아. 매우 매우 중요해.

ElasticSearch는 관계형 데이터베이스처럼 복잡한 스키마 관리가 없기 때문에,

"index 이름"이 사실상 "데이터의 성격"을 설명해주는 유일한 단서야.

잘못된 인덱스 네이밍 좋은 인덱스 네이밍

mydata1	products
tempindex	users
abctest	order_history
searchdata	logs-webserver-2024-04

📌 좋은 인덱스 네이밍 규칙은:

무슨 데이터가 들어있는지 명확하게
가능하면 단수형 (products, users, logs)
날짜 기반이면 명시 (logs-20240429)
팀/서비스 별로 prefix 붙이기도 함 (svc-상품, svc-로그)

✅ 만약 인덱스 네이밍을 대충 하면?

어디에 어떤 데이터가 들어있는지 알 수 없다.유지보수, 모니터링, 데이터 마이그레이션 때 지옥을 본다.검색 API 만들 때 명세가 꼬인다.

실제 대규모 ElasticSearch 운영하는 회사에서는

"인덱스 네이밍 표준 문서" 따로 만들어서 관리할 정도야.

✅ 한 줄 요약

Spring Boot에서 @Document(indexName = "xxx")는 ElasticSearch의 인덱스와 엔티티를 매칭시키는 연결 고리이고, 이 인덱스 네이밍은 장기적으로 서비스 유지보수/확장성에 직접적인 영향을 미치기 때문에 "직관적이고 체계적으로" 설정하는 것이 매우 중요하다.

Q. 만약 한 단어의 인덱스에 정말 수많은 데이터가 들어간다면 성능이 RDS랑 비슷해질 수도 있니?

✅ Q. ElasticSearch 인덱스에 데이터가 엄청 많으면, 성능이 떨어질까?

✅ 답은 "그럴 수 있다."

ElasticSearch도 물리적인 컴퓨팅 리소스를 쓰는 시스템이기 때문에,

"설계와 튜닝을 잘못하면"

RDS처럼 느려터진 검색이 될 수 있어.

하지만 ElasticSearch는 **"초고속 검색을 위해 구조적으로 설계된 시스템"**이기 때문에,

RDS랑 똑같은 방식으로 느려지지는 않아.

✅ 그럼 ElasticSearch가 느려지는 대표 원인

원인 설명

📦 하나의 인덱스에 너무 많은 데이터 (수억~수십억 건)	인덱스 크기가 디스크 IO, 메모리를 초과
🧩 샤드(Shard) 개수 설계가 비효율적	샤드가 너무 적거나 너무 많으면 검색 성능 저하
🔥 매핑(Mapping)이 비효율적	분석기 설정이 잘못돼 있거나, 불필요한 필드까지 인덱싱
🧹 인덱스 튜닝 미흡	Refresh Interval, Merge 정책 설정이 비효율적
🔍 쿼리가 최적화되지 않음	복잡한 nested query, wildcard query 남발

✅ ElasticSearch는 잘 설계하면 수십억 건도 감당할 수 있다.

✅ 하지만 기본 설정 그대로, 튜닝 없이 쓰면 RDS보다 더 느려질 수도 있다.

✅ ElasticSearch가 RDB랑 다른 점

항목 ElasticSearch RDB

스케일링	수평 확장 (Shard → Node 분산)	기본은 수직 확장 (CPU, RAM 늘리기)
데이터 저장 구조	역색인 구조 (Inverted Index)	B-Tree, Hash 기반 인덱스
검색 최적화	검색이 주목적 (쓰기 성능은 약간 희생)	쓰기/읽기 균형
쿼리 방식	Query DSL (full-text 친화적)	SQL (정형 검색 친화적)

✅ ElasticSearch는 검색은 빠르지만, 저장/갱신/정합성은 약하다.

✅ 한마디로 요약하면

ElasticSearch는 "대량 데이터를 초고속 검색"하는 데 최적화된 구조지만,

설계(Shard 수, Mapping, 리소스 튜닝 등)를 제대로 안 하면

데이터가 많아질수록 성능이 떨어져서 결국 RDS처럼 느려질 수도 있다.

그러나 잘 설계하면 수억 건도 몇 초 이내에 검색할 수 있다.

✅ 그럼 실무에서는 어떻게 관리할까?

전략 설명

🔀 인덱스 분리	ex: 월별 인덱스 logs-2024-04, logs-2024-05 식으로 관리
🧩 샤드 수 조정	데이터량 대비 적정 샤드 수 설계 (ex: 1억 건당 5샤드)
🛠 매핑 최적화	검색에 쓸 필드만 인덱싱, 불필요한 필드 제외
🔥 노드 스케일링	데이터량 증가 시 노드를 추가해서 수평 확장
📚 Hot-Warm-Cold 아키텍처	최근 데이터는 고성능 저장, 오래된 데이터는 저성능으로 이동

✅ 현실에서 ElasticSearch 성능 관리 예시

카카오: 100억 건 이상 메시지 로그 ElasticSearch 운영 → Hot-Warm-Cold 스토리지 구조쿠팡: 상품 검색 인덱스를 매일 리프레시 (Delta Merge)네이버: 뉴스/블로그 인덱스를 주기적으로 Archive → 성능 유지

✅ 정리

질문 답변

ElasticSearch도 데이터 많으면 느려질 수 있어?	✅ 맞아. 설계/튜닝 잘못하면 느려진다.
RDS랑 똑같이 느려지는 구조야?	❌ 아니. Elastic은 역색인 기반이라 특성은 다르지만, IO 병목/메모리 병목은 비슷하게 온다.
그러면 설계를 잘 해야겠네?	✅ 맞아. 인덱스 설계, 샤드 관리, 매핑 최적화, 리소스 튜닝이 관건이다.

✅ 한 줄 요약

ElasticSearch는 대량 데이터에 강하지만, 설계와 튜닝을 제대로 하지 않으면 성능 저하가 발생할 수 있고, 장기적으로는 "적절한 인덱스 관리 + 수평 확장"이 생명이다.

'개발 > Common CS with GPT' 카테고리의 다른 글

시큐어 코딩 가이드 10개(요약) (1)	2025.06.09
HTTP 프로토콜 세대 비교 (2)	2025.06.09
리차드슨 성숙도 모델? (2)	2025.05.19
[Common] 서버리스(serverless)란? (2)	2025.04.28

무지렁이의 연습장

[Common]Elastic Search란?

Q. Elastic Search에 대해서 알고 싶은데, 이게 뭘 의미하는 거야?

✅ ElasticSearch란?

✅ ElasticSearch를 이해하려면 기본 전제부터 알아야 해

📦 기존 RDB (MySQL, PostgreSQL)에서 검색할 때 문제

✅ ElasticSearch는 이런 한계를 극복하려고 만들어진 거야

✅ ElasticSearch는 "검색 엔진"이지 "DB"는 아니다

✅ ElasticSearch 흐름 예시 (실제 서비스)

✅ ElasticSearch 구조 대충 보면

✅ 그리고 ElasticSearch는 내부적으로 역색인(Inverted Index) 을 만들어서 검색해

✅ 한 줄 요약

Q. 그럼 Elastic Search의 공급자는 누구야? 오픈소스야?

✅ ElasticSearch 공급자와 라이선스

1. 누가 만들었나?

2. ElasticSearch는 오픈소스인가?

3. 왜 라이선스 이슈가 터졌나?

4. 이때 등장한 게 Opensearch

✅ 현재 상황 요약

✅ 한 줄 요약

Q. 그럼 기존 RDB와 다른점을 중점적으로 알려줘. 그리고 프로젝트에 연동하는 방법도 개괄설명해 줄래?

✅ ElasticSearch vs RDB (MySQL, PostgreSQL) 핵심 차이

✅ 요약

✅ 프로젝트에 ElasticSearch를 연동하는 기본 흐름

🎯 흐름 요약

✅ 구체적인 단계 설명

1. ElasticSearch 서버 설치

2. 프로젝트에 클라이언트 추가

3. 데이터 모델 설계 (Index + Mapping)

4. 데이터 색인(Indexing)

5. 검색 쿼리 실행

✅ ElasticSearch 연동 핵심 포인트 요약

✅ 한 줄 요약

Q. 어쨌든 그럼 원천 데이터는 RDS에 저장해야 한다는 이야기지? 그럼 RDS와 Elastic Search 저장소의 무결성 문제는 어떻게 해결해?

✅ 먼저 큰 그림 요약

✅ 그렇다면 발생하는 문제: "RDS ↔ ElasticSearch 무결성"

✅ 그래서 실무에서 쓰는 무결성 관리 방법

🎯 방법 1. 트랜잭션 후 "비동기"로 ElasticSearch 업데이트 (주류 방식)

🎯 방법 2. DB → ElasticSearch를 실시간으로 복제 (Change Data Capture, CDC)

🎯 방법 3. 애플리케이션 레벨에서 동기화 (직접 코드 관리)

✅ 정리

✅ 실무 한 줄 요약

Q. 궁금증이 몇가지 생기는데?

✅ 방법 1. 트랜잭션 후 "비동기" Elastic 업데이트에서 장애가 날 경우?

✅ 방법 2. CDC 방식에서 DB 변경 로그(binlog)가 적재되지 못하면?

✅ 방법 3. 애플리케이션 레벨 동기화의 "장애에 취약하다"는 이유?

✅ 정말 실무 결론

✅ 한 줄 요약

Q. 그렇다면 실무에서 Elastic Search는 어떤 기업에서 어떨 때 쓰여? 검색 포털 회사의 경우 제일 많이 쓰일까?

✅ 실무에서 ElasticSearch가 특히 많이 쓰이는 경우

✅ 실제 산업별 사례

✅ 특히 "검색 포털"에서는 ElasticSearch가 거의 필수 수준이다

✅ 그러나 ElasticSearch가 부적합하거나 주의해야 할 경우도 있어

✅ 한 줄 요약

Q. 그럼 스프링부트에 elastic search를 적용할 경우에 어떻게 적용해? 예시를 보여줄래?

✅ Spring Boot에서 ElasticSearch 연동 기본 흐름

🎯 기본 플로우

✅ 1. ElasticSearch 서버 준비

✅ 2. Spring Boot 프로젝트에 의존성 추가

✅ 3. application.yml 설정

✅ 4. Entity (Document) 작성

✅ 5. Repository 작성

✅ 6. Service/Controller 작성

✅ 추가로: 복잡한 검색 하고 싶으면?

✅ 한 줄 요약

✅ Q. Spring Boot에서 @Document(indexName = "products")를 붙이면 무슨 일이 일어나는가?

✅ ElasticSearch 저장 구조로 보면

✅ 그럼 "indexName을 수동으로 지정하는 게 중요한가?"

✅ 만약 인덱스 네이밍을 대충 하면?

✅ 한 줄 요약

Q. 만약 한 단어의 인덱스에 정말 수많은 데이터가 들어간다면 성능이 RDS랑 비슷해질 수도 있니?

✅ Q. ElasticSearch 인덱스에 데이터가 엄청 많으면, 성능이 떨어질까?

✅ 그럼 ElasticSearch가 느려지는 대표 원인

✅ ElasticSearch가 RDB랑 다른 점

✅ 한마디로 요약하면

✅ 그럼 실무에서는 어떻게 관리할까?

✅ 현실에서 ElasticSearch 성능 관리 예시

✅ 정리

✅ 한 줄 요약

'개발 > Common CS with GPT' 카테고리의 다른 글