블로그 데이터베이스 빅 데이터에는 빅 데이터베이스가 필요합니다.

빅데이터에는 대형 데이터베이스가 필요합니다

유월 17, 2022

한때는 불가능했던 것이 이제는 실용화되었기 때문에 사용량과 관련 기술의 발전이 갑자기 급증하는 경우가 종종 있습니다. 빅데이터 애플리케이션의 증가는 클라우드 컴퓨팅의 확산과 밀접한 관련이 있습니다. 빅데이터가 무엇인지, 왜 오늘날 빅데이터가 중요한지, 그리고 NoSQL 데이터베이스와 함께 어떻게 발전해 왔는지에 대해 집중해 보겠습니다. 빅 데이터란 관련성을 찾기 위해 살펴보거나 분석할 수 있는 방대한 양의 정보를 의미합니다.

빅 데이터는 일반적으로 각각 3Vs로 표시된 세 가지 특성을 가지고 있습니다.

Volume - 우리는 많은 데이터를 가지고 있습니다.
V웅변성 - 우리의 데이터는 빠르게 들어오고 있습니다.
Variety – 당사의 데이터는 다양한 형태로 제공됩니다.

우리가 어떻게 그렇게 많은 데이터, 데이터 유형 및 그것으로부터 파생 할 수있는 가치를 얻는지 살펴 보겠습니다.

결론 도출

작은 데이터 집합이 현실 세계를 나타내는 데 신뢰할 수 없기 때문에 기본 패턴을 찾기 위해 많은 데이터 집합이 필요합니다. 10 명을 대상으로 설문 조사를 실시한다고 상상해보십시오 : 그 중 여덟 명은 안드로이드 폰을 가지고 있고, 두 명은 iPhone을 가지고 있습니다. 이 작은 샘플 크기를 사용하면 Apple이 20 %의 시장 점유율 만 가지고 있다고 추정 할 수 있습니다. 이것은 현실 세계를 잘 표현하지 못합니다.

또한 여러 인구 통계 및 위치에서 정보를 얻는 것도 중요합니다. 펜실베이니아 주 필라델피아에서 온 10 명을 대상으로 설문 조사를 실시해도 세계, 미국 또는 펜실베이니아 주 전체에 대해 많은 것을 알 수 없습니다. 요컨대, 훌륭하고 신뢰할 수있는 데이터를 얻으려면 많은 데이터가 필요합니다. 연구가 넓을수록 더 많이 세분화하고 결론을 도출 할 수 있습니다.

설문 조사를 10에서 100으로 높이고 참가자의 나이를 기록합시다. 이제 더 큰 표본 크기에서 더 많은 데이터를 수집하고 있습니다. 이제 결과에 따르면 40 명이 Android 휴대 전화를 사용하고 60 명이 iPhone을 가지고 있다고 가정 해 봅시다. 이것은 여전히 매우 작은 샘플이지만 참가자가 10 배 증가하면 결과에서 80 포인트 스윙이 크게 발생했음을 알 수 있습니다. 그러나 그것은 우리 세트의 데이터 필드 중 하나만 고려하고 있습니다. 전화 선택뿐만 아니라 참가자의 나이를 기록했기 때문에 10-20 또는 21-30 세 그룹은 매우 다른 비율을 가질 수 있습니다.

알고리즘에 관한 모든 것

빅 데이터는 대량의 데이터를 빠르고 다양한 형식으로 처리 할 수있게 해줍니다. 이 데이터에서 우리는 현실 세계를 반영하는 정확한 모델을 만들 수있는 기본 패턴을 찾을 수 있습니다. 왜 이것이 중요합니까? 정확한 모델을 통해 예측을 수행하고 알고리즘을 개발하거나 향상시킬 수 있습니다.

일상 생활에서 일하는 빅 데이터의 가장 일반적인 예는 간단하고 때로는 논쟁의 여지가있는 추천 엔진입니다. "X를 좋아한다면 Y도 좋아할 것입니다!" 이것은 마케팅 및 광고 관점에서 확실히 유용하지만 이것은 유일한 사용 사례와는 거리가 멀습니다. 빅 데이터와 알고리즘은 자율 주행 자동차에서 조기 질병 발견에 이르기까지 모든 것을 지원합니다.

데이터 수집의 짧은 예에서 우리는 100 명에서 멈췄지 만, 좋은 데이터를 정말로 원한다면 다양한 속성을 가진 수천 또는 수백만 개의 소스가 필요합니다. 이것은 표본 크기를 확장하고 결과의 신속한 수집을 설정하더라도 여전히 "빅 데이터"로 인정되지 않습니다. 우리는 세 가지 Vs 중 하나 인 Variety를 놓칠 것이며, 이것이 우리 데이터의 대부분이 나오는 곳입니다.

데이터 다양성

수집하는 데이터 유형을 세 가지 기본 범주, 즉 구조화, 반구조화 및 비구조화로 분류할 수 있습니다. 구조화 된 데이터는 위의 설문 조사와 유사합니다. 우리는 미리 정의 된 스키마를 가지고 있으며 우리의 입력은 엄격한 구조에 맞을 것입니다. 이러한 유형의 데이터는 행과 열로 작동하도록 설계되었으므로 SQL을 사용하는 RDBMS에 적합합니다. SQL 데이터베이스 외부에서 구조화된 데이터에는 일반적으로 csv 파일과 스프레드시트가 포함됩니다.

존재하는 대부분의 데이터는 일상 생활에서 다양한 방식으로 많은 다른 출처에서 나옵니다. 소셜 미디어 게시물, 구매 기록, 브라우징 및 쿠키: 모든 작업은 나이, 위치, 성별, 결혼 상태 등과 같은 다양한 속성을 가진 개인에 대한 프로필을 만들 수 있습니다. 여기서는 표면을 긁어모으고 있을 뿐이지만, 산업계는 정확한 결론을 도출하기 위해 많은 데이터를 수집하고 있으며, 이 데이터의 대부분은 미리 정의된 구조화된 형식이 아닙니다. 빅 데이터의 경우, 우리는 일반적으로 반 구조화 및 비정형 데이터 형태로 작업하고 있습니다.

응용 프로그램 로그 또는 전자 메일은 반구조화된 데이터의 예입니다. 우리는 이것을 반 구조화 된 행이라고 부르는데, 왜냐하면 엄격한 행과 열은 아니지만이 데이터가 어떻게 포맷되는지에 대한 일반적인 패턴이 있기 때문입니다. 반구조화된 데이터의 가장 일반적인 파일 형식 중 두 가지는 JSON과 XML입니다. 구조화되지 않은 데이터는 구조화되지 않았거나 반 구조화되지 않은 거의 모든 것이 될 수 있으며, 우리가 상상할 수 있듯이 이는 대부분의 데이터를 구성합니다. 구조화되지 않은 데이터의 일반적인 예로는 소셜 미디어 게시물, 오디오 및 비디오 파일, 이미지 및 기타 문서가 있습니다.

우리의 전화 선택 설문 조사는 여전히 분석 데모로 작동합니다 : 우리가 가지고있는 데이터가 많을수록 결론이 현실 세계를 더 정확하게 반영하지만 실제로 더 많은 데이터를 얻으려면 구조화 된 데이터 이상을 수집 할 수있는 시스템이 필요합니다. 여기서 NoSQL 데이터베이스가 방정식을 입력합니다.

빅 데이터 및 NoSQL

빅 데이터의 개념은 1980 년대부터 알려져 왔으며 오늘날 가장 빠르게 성장하는 많은 기술과 마찬가지로 2000 년대 중반에 큰 발전을 이루었습니다. 이정표가 적중되었을 때 Apache 2006 년에 Hadoop을 출시했습니다. Hadoop은 대규모 데이터 세트를 안정적으로 처리하도록 설계된 오픈 소스 소프트웨어 프레임워크입니다.

핵심 성분 중 일부는 HDFS (Hadoop Distributed File System) 및 YARN (Yet Another Resource Negotiator)을 포함한다. HDFS는 빠르고 내결함성이 뛰어난 파일 시스템이며 YARN은 작업 스케줄링 및 리소스 관리를 처리합니다. 대부분의 경우 HDFS 위에서 실행되는 HBase는 열 지향 비관계형 데이터베이스입니다. HBase는 NoSQL의 느슨한 정의에 적합하지만 일반적으로 MongoDB 또는 Cassandra (다른 데이터베이스)와 동일한 목록에 나타나지 않을 정도로 다른 인기있는 데이터베이스와 충분히 다릅니다. Apache 프로젝트).

HDFS와 함께 HBase는 수십억 개의 행에 방대한 양의 데이터를 저장하고 희소 데이터를 지원할 수 있습니다. 그러나 한계가없는 것은 아닙니다. HBase는 HDFS에 의존하고 있으며 가파른 하드웨어 요구 사항을 가지고 있으며 네이티브 쿼리 언어가 부족합니다. Mongo 및 Cassandra와 달리 HBase는 단일 실패 지점을 초래할 수 있는 기본 복제본 아키텍처에 의존합니다.

그러나 처음부터 빅 데이터와 NoSQL이 일치하는 이유를 알 수 있습니다. Vs를 다시 살펴 보겠습니다.

Volume – 빅 데이터에는 대규모 데이터베이스가 필요하며 대규모 데이터베이스에는 수평 확장이 필요합니다. SQL 데이터베이스는 종종 상당한 제한과 함께 수평으로 확장 될 수 있지만 스키마가없는 NoSQL 데이터베이스가 탁월한 곳입니다.

V웅변성 - NoSQL 데이터베이스는 SQL 데이터베이스의 일관성과 유효성 검사가 부족하지만 많은 데이터를 신속하게 수집해야하는 원시 쓰기 속도입니다.

Variety – 빅 데이터에는 구조화되지 않은 데이터를 처리할 수 있는 시스템이 필요하며 MongoDB와 같은 스키마가 없는 NoSQL 데이터베이스는 작업에 매우 적합합니다.

NoSQL 데이터베이스는 빅 데이터에만 사용되지는 않지만 왜 서로 잠금 상태로 개발되었는지 알 수 있습니다. 빅 데이터 속도 저하의 징후는 없으며 2009 년에 처음 출시 된 NoSQL MongoDB는 시장에서 가장 빠르게 성장하는 데이터베이스 중 하나입니다.

컴퓨팅

스토리지

데이터베이스

네트워킹

개발자 툴

전송

보안

서비스

업계

가격

커뮤니티

저희와 함께하세요

빅데이터에는 대형 데이터베이스가 필요합니다

추천 사항

내용

댓글 남기기 댓글 취소

빅데이터에는 대형 데이터베이스가 필요합니다

추천 사항

LLM 시작하기: 데이터 수집 관리

글로벌 규모의 서비스 제공을 시작하는 방법 | HarperDB 설치 및 설정

분산 데이터베이스 컴퓨팅 | Apache 여러 데이터 센터에서 실행되는 Cassandra

내용

댓글 남기기 댓글 취소

"In the Node" 뉴스레터 가입하기