토픽(Topic)과 파티션(Partition)토픽(Topic)은 카프카에서 데이터를 구분하기 위해 사용하는 단위입니다.토픽은 1개 이상의 파티션(Partition)을 소유하고 있고 파티션에는 프로듀서가 보낸 데이터들이 들어가 저장되는데 이 데이터를 레코드(Record)라고 부릅니다.파티션은 카프카의 병렬처리의 핵심으로써 그룹으로 묶인 컨슈머들이 레코드를 병렬로 처리할 수 있도록 매칭됩니다.컨슈머의 처리량이 한정된 상황에서 파티션 개수와 컨슈머 개수를 늘려 스케일 아웃하여 병렬로 처리가 가능하므로 처리량이 증가하는 효과를 볼 수 있습니다.파티션은 FIFO(Firtst-in-first-out) 형태로 큐(Queue)와 비슷한 구조이지만 다른 점이 있습니다.큐는 데이터를 가져가면 삭제하지만 카프카에서는 삭제하..
카프카 커맨드 라인 툴(kafka command-line-tool)카프카(kafka)에서 제공하는 커맨드 라인 툴을 통해 카프카 브로커 운영에 필요한 다양한 명령을 내릴 수 있습니다.카프카를 운영할 때는 카프카 클러스터(Kafka Cluster)와 연동하여 데이터를 주고받는 것도 중요하지만 토픽(Topic)이나 파티션(Partition) 개수 변경과 같은 명령을 실행해야 하는 경우도 자주 발생합니다. 커맨드 라인 툴을 통해 명령을 실행할 때 필수 옵션과 선택 옵션이 있는데, 선택 옵션은 지정하지 않을 시 브로커에 설정된 기본 설정값 또는 커맨드 라인 툴의 기본값으로 대체되어 설정되기 때문에 브로커에 옵션이나 커맨드 라인 툴의 기본값이 어떻게 되어있는지 확인한 후에 사용해야 합니다.1. kafka-top..
브로커(Broker)브로커(broker)는 카프카 클러스터(Kafka Cluster)의 구성 요소로, 데이터를 저장하고 프로듀서(Producer)와 컨슈머(Consumer) 간의 통신을 담당합니다. 카프카 클러스터는 여러 브로커로 구성되며 데이터들을 분산 저장하여 안전하게 사용할 수 있습니다.데이터 저장, 전송브로커는 프로듀서로부터 데이터를 전달받으면 프로듀서가 요청한 토픽(Topic) 내부에 존재하는 파티션(Partition)에 데이터를 저장하고 컨슈머가 데이터를 요청하면 해당 파티션에 저장된 데이터를 전달합니다.이렇게 전달된 데이터는 파일 시스템에 저장되는데, 파일 시스템은 다루기는 편하지만 입출력이 많아질 경우 메모리에 올려서 사용하는 것보다 처리 속도가 현저히 느려집니다.카프카는 이러한 문제를 해..
[Kafka] Local에서 Kafka 명령어 날리기 [Kafka] EC2 생성 후 접속, Kafka 설치 및 설정 AWS EC2 생성 후 Inbound rule 추가 1. AWS Console 로그인 후 EC2에 접속 2. EC2 인스턴스 생성 3. 키 페어 생성 4. Inbound rule 추가 Inbound rule은 필요한대로.. devbksheen.tistory.com 앞서 Local에서 여러가지 Kafka 명령어를 날려보았다. 이제는 Spring Boot에 연동해 실제 프로젝트에 적용해보자 Spring Boot에 Kafka를 연동 Java(11) Amazon Corretto JDK(11) Spring Boot(2.5.5) 1. Kafka 의존성 추가 dependencies { ... // re..
[Kafka] EC2 생성 후 접속, Kafka 설치 및 설정 AWS EC2 생성 후 Inbound rule 추가 1. AWS Console 로그인 후 EC2에 접속 2. EC2 인스턴스 생성 3. 키 페어 생성 4. Inbound rule 추가 Inbound rule은 필요한대로 설정하면 되겠다. EC2 접속 후 Kafka 설치.. devbksheen.tistory.com 앞서 EC2를 생성하고 접속 후 Kafka를 설치하고 설정까지 해보았다. Local에서 Kafka를 설치 해 명령을 날려보자 Local에서 Kafka 명령어 날리기 1. 세팅 맞추기 위에 글에서와 같은 버전에 java와 kafka를 설치하고 똑같이 설정한다. wget 명령어가 되지 않는다면 Homebrew 설치 후 wget을 설치한다..
AWS EC2 생성 후 Inbound rule 추가 1. AWS Console 로그인 후 EC2에 접속 2. EC2 인스턴스 생성 3. 키 페어 생성 4. Inbound rule 추가 Inbound rule은 필요한대로 설정하면 되겠다. EC2 접속 후 Kafka 설치 및 설정 1. 키 페어 권한 변경 위에서 생성한 키 페어를 보관하는 곳으로 이동해 키 페어 파일를 사용할 권한을 변경한다. # 400 → 나만 읽을 수 있음(private) chmod 400 devbeekei-kafka.pem 2. EC2 접속 # 키 페어를 사용하여 EC2 접속 ssh -i devbeekei-kafka.pem ec2-user@3.34.97.97 3. Java 설치 Amazon에 JDK 11버전을 사용했다. # Java 설..
Producer & Consumer란? 프로듀서(producer)는 메세지를 생산하고 토픽(topic)에 메세지를 쓴다. 컨슈머(consumer)는 토픽에 씌여진 메시지를 읽어 온다. 프로듀서(producer)는 컨슈머(consumer)의 존재를 알지 못하고 카프카에 메세지를 쓴다. 만약에 여러개의 토픽에 여러개의 파티션(partition)을 나누고, 특정 메세지들을 분류해서 특정 파티션에 저장하고 싶다면, key 값을 통해서 분류해서 넣을 수 있다. 만약 컨슈머의 갯수가 파티션의 갯수와 같다면 1대1로 메시지를 읽어올 수 있기 때문에 빠른 속도로 처리할 수 있다. 컨슈머의 갯수가 더 많다면 남는 컨슈머는 파티션을 할당받지 못하고 대기하게 된다. Consumer Group Kafka 컨슈머(consume..
Topic & Partition이란? 메세지는 토픽(Topic)으로 분류되고, 토픽(Topic)은 여러개의 파티션(Partition)으로 나눠 질 수 있다. 파티션(Partition) 내의 한 칸은 로그(Log)라고 불린다. 데이터는 한 칸의 로그에 순차적으로 append 되는데 메세지의 상대적인 위치를 나타내는게 offset이다. (0이 가장 먼저) 여러개의 파티션으로 누눠서 쓰는 이유는? 메세지는 카프카의 해당 토픽(topic)에 쓰여지는데 시간이 소비된다. 몇 천건의 메세지가 동시에 카프카에 쓰여진다고 생각해보자. 하나의 파티션(partition)에 순차적으로 append되면 처리하는게 좀 버거울 것이다. 그렇기 때문에 여러개의 파티션을 두어서 분산 저장을 하는 것이다. 그러면 병렬로 처리될테니 시..
Kafka Broker & Zookeeper란? 브로커(broker)는 실행된 Kafka application 서버를 뜻한다. 주키퍼(zookeeper)는 이러한 분산 메세지 큐의 정보를 관리해 주는 역할을 한다. kafka를 띄우기 위해서는 주키퍼가 반드시 실행되어야 한다. 3대 이상의 브로커로 클러스터를 구성한다. 주키퍼와 연동(~2.5.0버전) 주키퍼의 역활 : 메타데이터(브로커id, 컨트롤러id 등) 저장 추후에는 주키퍼와 연동하지 않도록 구성할 예정 → 메타데이터를 브로커 안에 저장 n개 브로커 중 1대는 Controller기능을 수행한다. Controller : 각 브로커에게 담당파티션 할당 수행, 브로커 정상 동작 모니터링 관리 누가 Controller인지는 zookeeper에 저장 Brok..
Record 객체를 Producer에서 Consumer로 전달하기 위해 Kafka 내부에 byte형태로 저장할 수 있도록 직렬화/역직렬화 하여 사용한다. 기본 제공 직렬화 Class : StringSerializer, ShortSerializer 등 커스텀 직렬화 Class를 통해 Custom Object 직렬화/역직렬화 가능 new ProducerRecord("topic", "key", "message"); ConsumerRecords records = consumer.poll(1000); for (ConsumerRecords record : records) { ... } Log & Segment 실제로 메시지가 저장되는 파일시스템 단위이다. 메시지가 저장될때는 세그먼트(segment)파일이 열려있다...