메인 콘텐츠로 건너뛰기
블로그데이터베이스산더미 같은 데이터: 크고 작은 데이터의 비교

산더미 같은 데이터: 대규모 대 소규모의 다양한 데이터

산더미 같은 데이터: 대규모 대 소규모의 다양한 데이터

기술 업계에 종사하고 계시다면, 아니 종사하지 않으시더라도 인공지능에 대해 많이 들어보셨을 겁니다. 공상 과학 소설에서나 볼 수 있는 "스카이넷이 지구를점령한다"는 식의 AI가 아니라, 일상 생활에서 인공지능과 머신 러닝을 실제로 적용하고 있다는 것을 이야기하고 있습니다.

AI/ML의 생명선이자 근간은 바로 빅데이터입니다. 방대한 데이터. 방대한 양의 데이터. 그렇죠? 빅 데이터는 오늘날의 AI/ML을 지원하는 엔진이었으며, 항상 엄청난 양의 데이터가 필요할 수도 있지만, 최근 몇 년 동안 조직은 빅 데이터에서 소규모 및 광범위한 데이터로 전환하기 시작했습니다. 

두 가지를 비교해 보겠습니다.

방대한 데이터 더미 

빅 데이터는 크게 두 가지로 나눌 수 있습니다.

첫 번째는 대규모 데이터 집합을 수집하고 정리하는 것인데, 이는 간단한 개념이지만 제대로 실행하기 어려울 수 있습니다. 이 프로세스에는 빠르게 채워지는 대량의 데이터, 일반적으로 비정형 데이터가 필요합니다. 이러한 데이터 스트림을 수용하기 위한 백엔드 인프라는 리소스 집약적이며 대규모 데이터베이스 배포를 지원하기 위한 네트워크 대역폭, 저장 공간, 처리 능력이 필요합니다. 그리고 비용이 많이 듭니다.

두 번째 방법은 더 까다롭습니다. 방대한 양의 데이터를 확보한 후에는 데이터에서 인사이트와 가치를 추출해야 합니다. 기술은 빅 데이터의 규모에 맞게 발전해 왔지만, 이 산더미 같은 정보에서 무엇을 도출할 수 있는지 파악하는 데는 진전이 미흡했습니다.

지금이야말로 더 스마트해져야 할 때입니다. 무한한 저장 공간과 완벽한 NoSQL 배포를 갖춘 환경이라 할지라도 적합한 모델이 없다면 세상의 모든 데이터는 아무 의미가 없습니다. 

여기에도 기회가 있습니다. 기업들은 더 많은 소스의 더 적은 데이터가 더 실용적인 사용 사례를 찾고 있으며, 데이터 집합에서 더 나은 결론과 상관관계를 도출하고 있습니다.

작고 넓은

작고 폭넓은 접근 방식을 사용하면 단순히 원시 데이터의 양을 늘리는 것이 아니라 더 다양한 소스를 살펴보고 상관관계를 검색할 수 있습니다. 이 보다 전술적인 접근 방식은 더 적은 데이터를 필요로 하므로 컴퓨팅 리소스가 더 적게 듭니다. 다양성은 게임의 이름이며, 작고 넓게 접근한다는 것은 정형 및 비정형의 다양한 데이터 형식을 찾고 이들 간의 연관성을 찾는 것을 의미합니다.

2021년 가트너 보고서에 따르면 "소규모 데이터와 광범위한 데이터를 활용할 수 있는 잠재적 분야는 소매업의 수요 예측, 초개인화에 적용되는 고객 서비스의 실시간 행동 및 감성 지능, 고객 경험 개선"이라고 합니다.

많은 잠재력이 있지만 실제로는 어떤 모습일까요? 방대한 데이터 세트는 다루기 어렵거나 금방 구식이 될 수 있습니다. 인간의 트렌드와 행동은 정보화 시대에는 문화적, 경제적 변화에 따라 한순간에 바뀔 수 있습니다. 이러한 변화에 동적으로 적응할 수 있는 소규모 데이터 세트를 사용하여 보다 민첩한 모델을 만들 수 있는 여지가 있습니다.

하버드 비즈니스 리뷰의 한 보고서에 따르면 "조직에서 가장 가치 있는 데이터 세트 중 상당수는 엑사바이트가 아닌 킬로바이트나 메가바이트로 매우 작습니다. 이러한 데이터는 빅 데이터의 양과 속도가 부족하기 때문에 간과되는 경우가 많으며, PC와 기능 데이터베이스에 잠자고 전사적인 IT 혁신 이니셔티브와 연결되지 않습니다."라고 설명합니다.

이 보고서는 의료 코더를 대상으로 실시한 실험을 설명하며, 소규모 데이터로 AI를 학습시킬 때 인적 요소를 강조합니다. 이 연구를 읽어보시길 권해드리며, 궁극적인 결론은 스몰 데이터 외에도 인적 요소를 고려하면 모델을 개선하고 빅 데이터 군비 경쟁에서 조직이 경쟁 우위를 점할 수 있다는 것입니다.

즉, 작고, 넓고, 스마트한 데이터의 성공적인 조합에 대해 이야기하고 있습니다.

결론 도출

이 모든 것이 무엇을 의미할까요? 이 주제에 대해 많은 책이 쓰여졌을 수 있고, 이미 쓰여졌지만, 간단히 전체적인 메시지를 살펴봅시다. 저는 홈 오피스의 난방 장치 역할을 할 만큼 강력하고 강력한 PC를 좋아하지만, '더 많은 것'에도 한계가 있을 때가 있습니다. 소프트웨어가 제대로 최적화되지 않으면 최고급 워크스테이션에서도 제대로 실행되지 않을 수 있습니다. 

많은 경우, 문제에 더 많은 리소스를 투입하는 것은 비실용적이며 실제 문제를 간과합니다. 개선할 수 있는 좋은 기회가 있는 경우가 더 많으며, 오늘날 빅 데이터에서 이러한 현상이 나타나기 시작했습니다. 여전히 엄청난 양의 데이터가 꼭 필요한 사용 사례도 있지만, 데이터를 가장 많이 보유하기 위한 방법만 설계하는 것이 아니라 데이터를 최대한 활용할 수 있는 모델을 설계하는 것도 중요합니다.

내용

댓글 남기기

이메일 주소는 게시되지 않습니다. 필수 필드가 표시됩니다 *