본문 바로가기

카테고리 없음

빅데이터 제대로 배우기 1부

728x90
반응형
SMALL

빅데이터 제대로 배우기 1부

빅데이터 이론적 배경

빅데이터의 특징

빅데이터는 크게 4가지 특징을 가지고 있습니다.

Volume(양)

빅데이터 분석에서 Volume(양)은 데이터의 크기나 양을 의미합니다. 이는 일반적으로 데이터를 수집하고, 분석하는 시스템에서 중요한 요소 중 하나입니다. 데이터의 양이 커지면 처리 및 분석 시간이 증가하므로 처리 능력, 저장 용량 등을 고려한 적절한 데이터 관리 전략이 필요합니다. 데이터의 양은 빅데이터 분석에서 핵심요소 중 하나입니다. 빅데이터 분석은 대규모의 데이터 세트를 처리하므로 데이터 양이 많을수록 정확한 결과를 얻을 수 있습니다. 그러나 이는 동시에 대용량 저장 장치, 빠른 처리 및 분석을 위한 대규모 컴퓨팅 시스템 등이 필요한 것을 의미합니다. 데이터 볼룸을 고려한 빅데이터 분석은 다양한 산업 분야에서 중요한 역할을 합니다. 예를 들어, 금융 산업에서는 매일 발생하는 금융 거래 데이터가 매우 큰 양으로 발생합니다. 이러한 데이터에서 트렌드, 사기 검출 등의 패턴을 식별하기 위해서는 데이터의 양이 매우 중요합니다. 마찬가지로, 일부 산업 분야에서는 센서, 영상, 소셜 미디어 및 웹 로그 데이터와 같은 대용량 다양한 유형의 데이터를 처리해야 합니다. 따라서, 빅데이터 분석에서 Volume(양)은 데이터를 수집, 저장, 분석하고 관리하는 전반적인 과정에서 중요한 역할을 합니다.

 

Variety(다양성)

빅데이터에서 variety(다양성)은 데이터의 유형과 형식, 그리고 다양한 데이터 소스로부터 수집된 데이터의 다양성을 의미합니다. 기존의 데이터 분석에서는 정형화된 데이터만 다루었지만, 빅데이터에서는 비정형 데이터(텍스트, 이미지, 비디오, 음성 등)나 반정형 데이터(웹로그, 센서 데이터, 소셜 미디어 등) 또한 다루어야 합니다. 이러한 다양한 데이터 형식 및 유형을 통합하고 분석함으로써 더욱 정확한 정보를 얻을 수 있습니다. 빅데이터에서 다양성은 유형의 다양성 뿐만 아니라 데이터의 원천과 형식도 포함합니다. 즉, 빅데이터는 다양한 소스에서 수집된 데이터를 다루므로 데이터의 정확성, 일관성, 유일성을 보장하기 위한 데이터 품질 관리가 필요합니다. 따라서, variety(다양성)는 빅데이터의 특징 중 하나로서, 이를 다루기 위해서는 데이터의 다양성에 대한 이해와 함께 다양한 데이터를 처리할 수 있는 기술과 역할을 가져야 합니다. 이를 통해 빅데이터에서 유용한 정보를 추출하고 적극적으로 활용할 수 있습니다.

 

Velocity(속도)

빅데이터에서의 Velocity(속도)는 데이터 처리 속도의 빠름을 의미합니다. 빅데이터는 대량의 데이터가 실시간으로 발생하고 계속적으로 업데이트되는 것이 특징입니다. 이를 위해 데이터를 수집, 저장, 처리하는 시스템들은 매우 빠르게 동작해야 하며, 실시간으로 데이터를 처리하여 신속하게 분석 결과를 얻어내야 합니다. 데이터 처리 속도를 높이기 위해 빅데이터에서는 분산 처리와 병렬처리를 위한 기술들이 개발되었습니다. 이를 통해 다야한 데이터 처리 작업이 분산되어 동시에 처리될 수 있으며, 더욱 빠른 결과 도출이 가능해집니다.또한, 빅데이터에서는 실시간으로 데이터를 처리할 수 있는 시스템들이 매우 중요합니다. 이를 위해 스트리밍 데이터 처리 기술이 발전하였고, 이를 이용하여 매우 빠른 속도로 데이터 분석이 가능해졌습니다. 따라서, 빅데이터에서는 Velocity(속도)가 매우 중요한 요소이며, 데이터를 처리할 수 있는 기술과 인프라, 그리고 높은 처리속도를 보장할 수 있는 시스템과 알고리즘이 필요합니다. 이를 통해 더욱 정확한 분석 결과를 빠르게 도출하여 의사 결정에 반영할 수 있습니다.

 

Veracity(정확성) 

빅데이터에서의 Veracity(정확성)은 대규모의 데이터가 정확하고 신뢰성 있는 데이터인지 판단하는 능력을 의미합니다. 빅데이터는 데이터가 필요로 하는 산업 분야에 매우 다양하고, 다양한 방법으로 생성할 수 있습니다. 그만큼 데이터의 질과 정확성도 중요합니다. 빅데이터가 중요한 것은 다량의 데이터를 수집하는 것보다는, 데이터의 질과 신뢰성이 더욱 중요합니다. 데이터의 정확성을 검증하는 방법으로는, 데이터를 수집하는 시점, 수집한 데이터의  크기, 데이터의 유형, 데이터의 출처 등 여러 가지 요소를 고려하여 검증합니다. 그리고 데이터를 검증하고 필요한 정제 작업을 거쳐야만, 데이터를 효과적으로 사용할 수 있습니다. Veracity(정확성)을 보장하기 위해서는 데이터의 출처와 질을 확인하는 방식 이외에, 데이터를 보유하는 조직이 적절한 암호화와 보안 체계를 갖추고 있어야 합니다. 데이터의 대량화로 인해 데이터 유출 사고가 발생할 확률이 높아지기 때문입니다. 빅데이터에서는 Veracity(정확성)을 보장하고 데이터의 신뢰성을 높이기 위해, 데이터 검증 및 정제, 보관 및 관리, 보안 등에 대한 다양한 기술과 시스템이 사용되고 있습니다. 이를 통해 데이터의 정확성을 확인하고, 정확하고 높은 신뢰성을  가진 데이터를 이용하여 의사결정을 더욱 정확하고 적극적으로 할 수 있습니다.

 

빅데이터 이론 배경

데이터 폭발

데이터폭발은 빅데이터 이론배경 중 가장 중요한 요소 중 하나입니다. 인터넷과 모바일 디바이스의 보급으로 인해 새로운 데이터를 생성하는 속도가 폭발적으로 증가했습니다. 이러한 데이터 폭발은 빅데이터 분석을 위한 데이터 수집, 저장, 처리, 분석 등의 모든 단계에[서 막대한 양의 데이터를 다루게 만듭니다. 또한 인터넷에서 생성되는 데이터의 형태와 양도가 다양해졌습니다. 소셜미디어, 센서, 로그 데이터, 웹 메타데이터 등 다양한 유형의 데이터가 생성됩니다. 이러한 데이터들은 복잡하고 비정형적이며, 기존의 데이터 처리 기술과 방법론을 적용하기 어렵습니다. 따라서 데이터 폭발은 기존의 데이터 처리 방식이 한계에 부딪히게 만들어, 빅데이터 분석에 대한 필요성을 대두시키는 중요한 역할을 하고 있습니다. 빅데이터는 이러한 데이터 폭발로부터 효과적으로 이점을 끌어내기 위한 새로운 데이처 처리 방식과 기술을 개발하고 이를 이용하여 정보를 발견하고 유용한 인사이트를 도출해내는 중요한 역할을 합니다.

저비용 하드웨어

빅데이터 이론적 배경 중 하나인 저비용 하드웨어는 대용량 데이터를 다루기 위해 필요한 컴퓨터 자원을 가지는데 비용이 많이 들지않는 것을 말합니다. 빅데이터 처리를 위해서는 수많은 데이터를 저장하고 분석할 수 있는 대량의 서버 자원이 필요합니다. 그러나 과거에는 대량의 데이터를 처리하기 위해서는 고가의 서버 자원이 필요했기 때문에 중소기업이나 개인 연구자는 빅데이터 분석에 참여하기 어려웠습니다. 하지만 최근에는 기존의 고가의 서버 자원을 대체할 수 있는 저비용 하드웨어가 등장하면서 이러한 문제가 해결되었습니다. 에를 들어, 구글에서는 빅데이터 처리를 위해 자체적으로 개발한 서버 클러스터링 기술을 사용하여 수천 대의 저비용 서버를 연결하여 대용량 데이터 분석을 수행하고 있습니다. 이와 같은 방식은 기존의 대형 서버를 사용하는 방식보다 기술적인 문제나 부하 등의 부작용이 적다는 장점이 있습니다. 이외에도 병렬 처리를 지원하는 프로세서, 대용량 데이터를 저장할 수 있는 저비용 대용량 스토리지, 오픈 소스 기반의 무료 분산 컴퓨팅 플랫폼 등이 등장하여 빅데이터 처리를 위한 저비용 하드웨어 기술이 발전하고 있습니다. 따라서 이러한 자원을 활용하여 경제성 있는 빅데이터 분석을 수행할 수 있으며, 기업의 미래 성장을 위한 중요한 역할을 합니다.

 

데이터 처리 기술의 진보 

분산 컴퓨팅 기술 : 빅데이터 분산 컴퓨팅 기술은 대규모 데이터를 처리하고 분석하기 위한 기술입니다. 빅데이터는 전통적인 데이터베이스 관리 시스템으로 처리하기에는 너무 크고 복잡하기 때문에 분산 컴퓨팅 기술이 필요합니다. 빅데이터 분산 컴퓨팅 기술은 데이터를 여러 개의 서버에 분산하여 처리하는 기술을 말합니다. 이를 위해 하둡(Hadoop)과 같은 분산 처리 프레임워크가 사용됩니다. 하둡은 데이터를 분산 저장하고 처리하는 데 필요한 다양한 도구와 기능을 제공합니다. 분산 저장 시스템인 HDFS(Hadoop Distributed File System)와 분산 처리 프레임워크인 MapReduce 등이 그 예입니다. 빅데이터 분산 컴퓨팅 기술은 스케일 아웃 방식으로 구성됩니다. 이는 데이터의 양이 증가할 수록 더 많은 컴퓨터 자원을 추가하여 처리 능력을 늘리는 방식입니다. 때문에 빅데이터 분산 컴퓨팅 기술은 컴퓨터 자원을 확장하거나 축소할 수 있는 클라우드 환경에서 최적의 성능을 발휘합니다. 빅데이터 분산 컴퓨팅 기술은 데이터 처리와 관련된 여러 과제를 해결하는 데 도움을 줍니다. 예를 들어, 데이터의 양이 너무 방대한 경우, 처리 시간이 지나치게 오래걸리는 문제 등을 해결할 수 있습니다. 또한, 빅데이터 분산 컴퓨팅 기술은 스트리밍 데이터를 실시간으로 처리할 수 있어 실시간 분석과 같은 애플리케이션에서도 사용됩니다.

1부 끝.

728x90
반응형
LIST