Nedir?

Big Data Nedir? Nasıl Üretilir?

Gökşah Taşyürek
Güncellendi:
12 dk okuma
Bir kişi bir dizüstü bilgisayarda yazı yazmaktadır. Dizüstü bilgisayar gümüş rengindedir ve siyah bir ekranı vardır. Kişi bileğine sarı bir bileklik takmaktadır. Elleri klavyenin üzerindedir ve hızlı bir şekilde yazmaktadır. Görüntü dizüstü bilgisayarın yakın çekimidir, tuşları ve ekranı ayrıntılı olarak göstermektedir. Ekran metinle aydınlatılmış ve dizüstü bilgisayar bir stand üzerinde durmaktadır. Dizüstü bilgisayar siyah bir çerçeve ile çevrelenmiştir. Kişi odaklanmış görünüyor ve bir amaçla yazıyor. Bu görüntü, görüntü başlıklarından oluşan bir veri kümesi oluşturmak için kullanılabilir.
TerimAçıklamaÖrnek
Big DataGeleneksel sistemlerin işleme kapasitesini aşan, büyük miktarda ham ya da karmaşık veri.Google tarafından her gün işlenen milyarlarca internet kullanıcısının verileri.
VeriDurum, nesne ya da fikirleri tarif ve temsil eden, ham, organize edilmemiş bilgi parçası.Kullandığınız işletim sisteminin sürüm bilgisi, tarayıcı modeli gibi bilgiler.
3V KriteriBig Data'nın değerlendirilebilmesi için Variety (Çeşitlilik), Velocity (Hız), Volume (Yoğunluk) kriterlerine uygun olmalıdır.Facebook kullanıcılarının sayfa beğenileri, fotoğraf paylaşımları gibi büyük miktar ve hızda üretilen veriler.
Veri ÇeşitliliğiElde edilen verinin farklı türlerden oluşması ve bu çeşitliliğin işlenmesi gerektiren karmaşıklığı içermesi.Sosyal medya platformlarındaki metin, image, video, anket gibi çok çeşitli veri türleri.
Veri HızıVerinin hızlı bir şekilde üretilmesi, toplanması, işlenmesi ve kullanılması.E-ticaret sitelerindeki kullanıcı davranışlarından anlık olarak elde edilen veriler.
Veri YoğunluğuVeri kümelerinin analiz ve işlemeye gereksinim duyulan büyük boyutları.Petabyte ile ölçülen e-mail, sosyal medya mesajları gibi büyük veri kümeleri.
Veri GerçekliğiToplanan verinin işlemeye değer olabilmesi için yüksek doğruluğa ve kaliteye sahip olması.Yüksek doğruluklu GPS konum bilgisi veya kullanıcı tarafından doldurulan anket verileri.
Veri AnaliziVeriyi işleyip anlamlı bilgilere dönüştürme süreci.Bir e-ticaret sitesinin müşteri alışveriş verilerini analiz ederek satış stratejileri geliştirmesi.
Büyük Veri AraçlarıBüyük veriyi işlemek ve analiz etmek için kullanılan yazılım ve teknolojiler.Hadoop, Spark, NoSQL gibi big data teknolojileri.
Veri BilimiBüyük verinin depolanması, işlenmesi ve bilgi elde etmek için analiz edilmesiyle ilgilenen disiplin.Bir veri bilimcisinin, büyük veri setlerini işleyerek müşteri segmentasyonu yapması.
10 satır ve 3 sütunlu tablo
Tüm sütunları görmek için yatay kaydırın →

Big data, geleneksel sistemlerin işleme kapasitesini aşan, büyük miktarda ham ya da karmaşık veriyi ifade eder. İnsanların dijital teknolojileri kullanmaya başlamasından bu yana her geçen gün biriktirdikleri verinin boyutu, veriyi saklamak ve işlemek için kullanılan donanımların kapasitesini fazlasıyla aşmaktadır. Bu sorunlar veri bilimi, veri madenciliği alanında çalışan veri analisti uzmanlarca çözülmeye çalışılmaktadır.

Aylık 2,45 milyar aktif kullanıcısı bulunan Facebook, kullanıcılarının ürettiği tüm bilgileri işlemektedir. Sayfa beğenileri, resim, fotoğraf paylaşımları, reklamları izleme süreleri ve daha pek çok şey. Google milyarlarca web sitesine ait katrilyonlarca kayıtlı sayfa içinden aradığınız sonuçları listeliyor. Kullanıcılarının arama alışkanlıklarını, konum, dil ve sair tüm bilgilerini kaydediyor ve işliyor. Dünya genelinde toplam 4,5 milyar internet kullanıcısının gün içinde ürettiği bu bilgilerin boyutunu hayal etmeye çalışın. İşte Big Data (Büyük Veri) budur.

Veri Nedir? Nasıl Üretilir?

Veri, durum, nesne ya da fikirleri tarif ve temsil eden, ham, organize edilmemiş bilgi parçasıdır. Bilginin yeniden yorumlanabilmesi ya da işlenebilmesi için kullanılan parçalardır. Veri, tecrübe, bilgi, ya da big data (büyük veri) gibi kavramlar söz konusu olduğunda veri tek başına bir anlam ifade etmez. Bilgiye dönüşebilmesi ve kullanışlı olabilmesi için miktar, hız, çeşitlilik ve gerçeklik (kalite) bağlamında işlenmesi gerekir.

Bu yazıya ulaşmak için yaptığınız araştırma sürecinde veri ürettiniz. Okurken de veri üretmektesiniz. Kullandığınız işletim sisteminizin sürümünden diline, tarayıcınızın modelinden ekran boyutuna, arama motorlarında kullandığınız anahtar kelimelerden paylaştığınız konumunuza ve geçirdiğiniz süreye kadar her şey bir veridir. Bu veriler, veri analisti olarak tanımlanan uzmanlarca işlenmektedir.

Sosyal medya araçlarında konum bilgisini paylaşan yüz milyonlarca kişinin yarattığı devasa bir veri topluluğu vardır. Milyonlarca müşterisi olan alışveriş siteleri, sosyal medya ortamları, kullanıcılarının tüm işlemlerini kaydetmektedir. Toplanan bu veriler, güvenlik, pazarlama, istatistik, bilimsel araştırmalar gibi alanlarda kullanılmaktadır.

Veri topluluğunun big data olarak değerlendirilebilmesi için 2000’li yıllarda ortaya atılan ve 3V olarak anılan, Variety (Çeşitlilik), Velocity (Hız), Volume (Yoğunluk) kriterlerine uygun olmalıdır. Elde edilen verinin işe yararlığı verinin çeşitliliği ile ilgilidir. Bu veriye hızlı bir biçimde ulaşmak ve verinin üretilme hızı bir diğer kriterdir. İşlenecek ve anlamlı sonuçlar üretecek verinin yoğunluğu (ya da karmaşıklığı) da yüksek olmalıdır. Karmaşıklığı yüksek olan düşük yoğunluklu veriler de big data olarak değerlendirilir.



Big Data Çeşitliliği

Çeşitlilik, verinin yoğunluğunu artıran bir etkendir. Çok çeşitli kaynaklardan gelen veri big datayı oluşturur. Gelen bu verileri işlenmiş, yarı işlenmiş ya da işlenmemiş veri olabilir. Verinin türündeki çeşitlilik gelişmiş algoritmalar gerektirir. Verinin çeşitliliği ve yoğunluğu kadar hızı da işletmeler açısından önemlidir. Hızlı bir şekilde üretilmesi ve elde edilmesinin yanı sıra hızlı bir şekilde işlenmesi ve kullanılması gerekir.



Elde edilen veri, pek çok durumda hızlı bir şekilde değerini yitirecektir. Veri analizi ne kadar hızlı olursa sorunlar o denli hızlı çözülür ya da pazar değişikliklerine ayak uydurulabilir. Değişime ayak uyduramamış fikirlerin, toplumların yok olup gitmesinin nedeni; veriyi yeterince hızlı üretememiş, işleyememiş olmalarıdır.

Veri yoğunluğu, terabayt ve petabayttan daha büyük olan, analiz edilmesi ve işlenmesi gereken veri kümelerinin boyutunu ifade eder. Verinin büyüklüğü ya da karmaşıklığı geleneksel depolama ve işleme yeteneklerinden fazlasını gerektirir. İlk ortaya çıkışından bu yana big data kriterleri zamanla artış gösterdi. Bunlardan biri de verinin gerçekliği ya da kalitesidir. Üretilen verinin yüksek doğruluğu genel sonuçlara anlamlı bir şekilde katkıda bulunur. Düşük doğrulukta ki veriler yüksek miktarda anlamsız veri içerir.

Değerli olmayan bu anlamsız veri setlerine bilgi kirliliği ya da gürültüsü denir. Büyük yoğunluk, yüksek hız, çok çeşitlilik ve yüksek doğruluktaki veri kümeleri, anlamlı sonuçlar üretmek amacıyla geliştirilmiş program ya da programlama dilleri ile işlenmelidir. Verilerin bu özellikleri bağlamında, veri kümelerinin depolanması, işlenmesi ve veri analizi ile ilgilenen veri bilimi, büyük veri olarak karşımıza çıkıyor.

Büyük Veri Araçları



Big data (büyük veri) sistemlerinin ne kadar büyük veri ürettiği ve işlediği hakkında birkaç kayda değer bilgi paylaşalım.

  • IBM tarafından yapılan bir açıklamaya göre; internet kullanıcıları her gün 2.5 kentilyon byte veri üretmekteler.

  • Son 2 yılda üretilen bilgi toplam bilginin %90’ını oluşturmaktadır.

  • Facebook, 45 milyardan fazla fotoğrafı kullanıcı veritabanında saklıyor.

Bugün, petabytelarla ölçülen ve büyük olarak nitelenen veri yoğunluğu, gelişen teknoloji sayesinde yarın normal büyüklük olarak nitelenecek. Teknik olarak büyük veri, teknolojik altyapımızı zorlayan veri yoğunluğudur. Bu verilerin bir yerde toplanıp, kullanılabilir hale getirilmesi için işlenmesi gerekiyor. Geleneksel teknoloji ile bu ihtiyaçlar karşılanabilir değil. Yapılan veri analizleri, big data yöntemleri ile daha detaylı ve çözümleyici hale getirilebiliyor.

Kontrol edilmesi her geçen gün daha da zorlaşan büyük veri ile birlikte yeni araçlar da geliştirilmektedir. İşletmelerin ihtiyaçlarını karşılamak amacıyla Hadoop, Hive, Kafka gibi araçlar kullanılır. Pek çok açık kaynak kodlu sistemler geliştirilmiştir. Büyük veri projelerini destekleyen Apache Software Foundation adında bir vakıf da bulunmaktadır.

Bu araçlardan öne çıkanı, veriyi saklamak ve işlemek konusunda son derece başarılı olan Apache Hadoop'tur. Benzer şekilde dikkat çeken bir diğer uygulama ise Apache Spark’tır. Diğerlerinin aksine Spark, yerel makinelerde çalışabiliyor. İşlenecek olan verinin büyük bölümünü sistem belleğinde ya da diskinde tutabilmektedir.

Büyük Veri ve İş İmkanları

2020 yılı sonrasında bilgisayar ve veri bilimi ile ilgili birçok alanda istihdam patlaması bekleniyor. Büyük veri ile büyüyen karmaşayı ortadan kaldırmak ve veriyi işlemek için teknik personel ihtiyacı, sürekli artıyor. 2013 yılından bu yana veri bilimi alanında uzmanlaşmış personel ihtiyacı %350 artış gösterdi. Büyük veri ile gelen istihdam fırsatlarından en çok faydalanacak olan alanlar;

  • Programlama dilleri

  • Veri görselleştirme

  • Yapay zeka ve makine öğrenmesi

  • Veri madenciliği

  • Kantitatif analiz

  • Algoritmalar

  • Veri tabanları ve veri yapıları

şeklinde sıralanabilir. Günümüzde ve özellikle gelecekte altın çağını yaşayacak olan mesleklerdir. Büyük veri ile ilgili algoritma geliştirmek konusunda son derece başarılı olan Python, yazılımcılar için eşsiz bir fırsat sunuyor. Enstitü, bilişim sektöründe ihtiyaç duyulan becerilere sahip kişiler yetiştirebilmek için giderek artan alanda online eğitimler vermektedir. Bu alanlardan biri olan, Yazılım ve Bilişim Eğitimleri ilginizi çekecektir.

İlgili eğitimler: Yazılım ve Bilişim Eğitimleri

Veri Bilimi ve Büyük Veri Analisti

Veri, çağımızın petrolü olarak görülmektedir. Büyük verinin bir sorun olmaktan çıkıp fırsata dönüştürülmesinden bu yana yeni bir ekonominin oluştuğunu söyleyebiliriz. Veri bilimi, toplanan verilerin gerçek bir değere dönüştürülebilmesi için, bilimsel yöntemleri, yazılım tekniklerini kullanarak veri analizi yapan bir alandır. İnsanların veriyi ürettikleri her türlü ortam ve cihazdan elde edilen verilerin analizi için istatistik, bilgisayar bilimi, iş bilgisi gibi çok çeşitli yöntemleri kullanır. Veri bilimi, trendleri ortaya çıkarır ve işletmelerin daha iyi kararlar vermek, daha yenilikçi ürün ve hizmetler oluşturmak için kullanabileceği bilgiler üretir.

Yararlı bilgileri keşfetmek için büyük veri kümelerini toplayan, düzenleyen ve veri analizi yapan kişiyi veri analisti olarak tanımlayabiliriz. Veri analisti, veri madenciliği ve veri denetimi becerilerine sahip olmalıdır. Bu becerilerin yanı sıra istatistiksel beceriler, yapay zekâ, makine öğrenmesi, veri görselleştirme alanlarında da bilgi sahibi olmalıdır.

Özellikle, veri madenciliği ve veri denetimi, herhangi bir veri analisti için gerekli beceriler listesinin başında bulunmaktadır. Veri madenciliği, yeni ve anlamlı bilgiler ortaya çıkarmak için büyük veri tabanlarını inceleme çalışmalarıdır. Veri denetimi, verilerin işletme performansı ve karları üzerindeki etkisini değerlendirmektir.

Veri Analistinin Sahip Olması Gereken Özellikler Nelerdir?

Bir veri analisti, en iyi veri analiz araçları olarak görülen R, Python, SaS gibi programlama dillerinde uzmanlaşarak beklentileri karşılamalıdır. Giderek artan yoğunluk ve karmaşıklıkta, büyük veri çok çeşitli ihtiyaçları da beraberinde getirmektedir. Sorunların ortaya çıkması ve çözülmesi, işletmeler için yeni fırsatlar sağlıyor. Benzer şekilde istihdam konusunda da yeni alanlar açılıyor.

Veri bilimi anlayışının gelişmesi, veri analizi çalışmalarına yön veriyor. Bu durum, çok yönlü yeteneklere sahip nitelikli veri analisti ihtiyacının giderek arttığı anlamına gelir. Son 20 yılda verinin değeri çok daha iyi anlaşılmış durumda. Bu da veri madenciliği çalışmalarının önemi artırmaktadır. Enstitü bünyesinde sunulan online eğitimler sayesinde bilişim dünyasına adım atabilir ve kendinize yeni ufuklar açabilirsiniz.

Sıkça Sorulan Sorular

Büyük veri tanımı nedir ve bu tanımın işletmeler ve teknolojik gelişmeler için önemi nedir?

Büyük veri tanımı, geleneksel sistemlerin işleme kapasitesini aşan, büyük miktarda ham ya da karmaşık veri anlamına gelir. Teknolojik gelişmeler ve dijitalleşme ile birlikte dünya genelinde her gün milyarlarca terabayt veri üretilmekte ve bu verinin saklanması ve işlenmesi konusunda ciddi zorluklar yaşanmaktadır. İnsanlara ait bu büyük veri yığınları, Facebook, Google gibi dünyanın en büyük teknoloji şirketlerine finansal açıdan değerli fırsatlar sağlar.

Büyük verinin işletmeler ve teknolojik gelişmeler için önemi oldukça büyüktür. Büyük veri sayesinde işletmeler, kullanıcıların ürün ve hizmet tercihlerini, alışkanlıklarını, beklentilerini daha iyi anlayabilir ve buna göre stratejilerini şekillendirebilirler. Bu veride yer alan bilgilerin doğru şekilde analiz edilmesi ve yorumlanması işletmeler için daha fazla müşteri, maliyet tasarrufu ve daha fazla kar demektir.

Teknolojik gelişmelerin hızlandığı çağımızda, big data'nın önemi daha da artmaktadır. Özellikle yapay zeka ve makine öğrenmesi uygulamalarının geliştirilmesi ve uygulanabilmesi büyük veriye bağlıdır. Google, Facebook, Amazon gibi şirketler, kullanıcılarına daha iyi hizmet sunabilmek için bu veriyi kullanmakta ve işlemektedir. Bu durum, verinin değerini ve önemini ortaya koymaktadır. Ayrıca, büyük veri analizleri, pandemi gibi küresel krizlerle baş etme ve çözüm üretme potansiyeli taşımaktadır.

2000'li yıllarda ortaya atılan ve 3V olarak anılan kriterlere göre verinin çeşitliliği (Variety), hızı (Velocity) ve yoğunluğu (Volume) bir arada olmalıdır. Aynı zamanda bunlara ek olarak da 'Veracity' yani verinin doğruluk ve güvenilirlik derecesi de büyük verinin değerini belirleyen faktör olarak kabul edilmektedir.

Sonuç olarak, büyük veri, gelişen teknolojiler ve dijitalleşme ile birlikte bu verinin artması ve işlenmesi, işletmeler ve teknolojik gelişmeler için büyük önem taşımaktadır. Yakın gelecekte verinin daha etkin ve verimli kullanımının, işletmelerin ve teknolojik gelişmelerin başarısında daha belirleyici olacağı öngörülmektedir. Bu nedenle, büyük veri analitikleri konusunda uzmanlaşarak, bu alanın gelecekteki taleplerine cevap verebilmek, işletmeler için stratejik bir öneme sahip olacaktır.

Bilgiyi veriden ayıran faktör nedir ve bu bağlamda büyük verinin rolü nelerdir?

Bilgi ile veri arasındaki ayrım ve büyük verinin bu bağlamdaki rolü, özellikle günümüz dijital çağında önemli bir konu haline gelmiştir. Bilgi ve verinin birbirine geçişi karmaşıktır ve birbirlerinden çok farklı özelliklere sahiptirler.

Bilgiyi veriden ayıran temel faktör, verinin bilgiye dönüşebilmesi ve kullanışlı olabilmesi için miktar, hız, çeşitlilik ve gerçeklik (kalite) bağlamında işlenmiş olmasıdır. Veri, ham ve organize edilmemiş bilgi parçaları olarak tarif edilirken, bu parçalar, işlendiği ve yeniden yorumlandığı zaman bilgi haline gelir. Bu yeniden yorumlama ve işleme süreci, bilgiyi veriden ayırt eden temel unsur olup, bu süreci gerçekleştiren de genellikle veri analisti olarak adlandırılan uzmanlardır.

Bu bağlamda, büyük verinin rolü ise, geniş çaplı veri setlerini işlemeye yardımcı olmak ve bu verileri anlamlı bilgilere dönüştürmektir. Dijital dünyadaki büyük veri, insanların her geçen gün birikmekte olan ve geleneksel sistemlerin işleme kapasitesini aşan büyük boyuttaki veri kümelerini ifade eder. Bu veriler, dünya genelindeki milyarlarca insanın, aylık 2,45 milyarı aktif olmak üzere Facebook gibi platformlar üzerinde ürettiği tüm bilgileri içerir. Arama motorları da bu kapsamda milyarlarca web sitesine ait katrilyonlarca kayıtlı sayfa içerisinden aranan sonuçları listeler.

Elde edilen bu verinin işe yarar bilgiye dönüştürülebilmesi için çeşitli kriterlerin sağlanması gerekmektedir: Çeşitlilik (verinin farklı kaynaklardan gelmesi); hız (veriye hızlı ulaşım ve verinin hızlı üretilmesi); ve yoğunluk (anlamlı sonuçlar üretecek verinin karmaşıklığı ve büyük boyutu). Bu kriterlere uyan veri kümeleri, büyük veri olarak değerlendirilir ve işlenir.

Bu durumda, büyük verinin rolü, bu karmaşık ve henüz işlenmemiş veri kümelerini içerisinde bulunduğumuz dijital çağın gereksinimlerine uygun hale getirmektir. Verinin kullanılabilir ve anlamlı bilgiye dönüştürülebilmesi için gereken hız, çeşitlilik ve yoğunluğu sağlayan büyük veri, bu nedenle bilgi toplumu için çok değerlidir. Bilgi, karar verme süreçlerinde kritik öneme sahip olan kital bir unsurdur ve büyük veri bu sürecin merkezinde yer alır. İşletmeler ve organizasyonlar, büyük veriyi kullanarak stratejik kararlar alırken, bireyler bilgi toplumunda daha bilinçli kararlar alabilmek için büyük veriden faydalanır.

Sonuç olarak, veri ve bilgi arasındaki fark, verinin bilimsel ve sistematik bir şekilde işlenmesi ve yorumlanmasıdır. Bu işleme ve yorumlamayı sağlayan kavram ise, büyük veridir. Büyük veri, veri kümelerini anlamlı ve kullanılabilir bilgiye dönüştürme sürecinde kilit bir rol oynar.

Big data nasıl oluşur ve bu devasa veri kümelerinin işlenmesi ve anlamlı sonuçlar üretmek amacıyla kullanılması süreci nasıl işler?

Big data, geniş bir hacme sahip olan ve geleneksel veritabanı araçlarının işleyemediği karmaşık veri kümelerini ifade eder. Sürekli artan bir hızla üretilen bu verilerin doğru bir şekilde işlenmesi ve değerlendirilmesi, mevcut ve potansiyel zorluklara çarpıcı çözümler sağlama potansiyeline sahip olan sonuçlar doğurabilir.

Big Data'nın oluşumunu anlamak

Big data, genellikle çeşitli dijital platformlarda gerçekleştirilen etkinlikler aracılığıyla oluşur. Bu etkinlikler arasında internet üzerinde yapılan aramalar, sosyal medya interaksiyonları, elektronik işlem kayıtları, GPS sinyalleri ve daha pek çok şey bulunmaktadır. Bu nedenle, her geçen gün internet üzerinde milyarlarca yeni veri oluşturulmakta ve bu veriler, işlenmeye hazır hale getirilmeye çalışılmaktadır.

Büyük Verinin İşlenme Süreci

Dünya genelinde, bu sürekli üretilen ve birikmekte olan bilgilerin işlenmesi, büyük veri analizi konusunda uzmanlaşmış profesyonellerin sorumluluğundadır. Data analistler, belirli bir hedefe ulaşmak ve anlamlı sonuçlar çıkarabilmek için biri veriyi düzenlemek ve diğeri ise veriyi analiz etmek olmak üzere iki ana adımdan oluşan bir süreç izler.

Veri Çeşitliliği ve Yoğunluğu

Veri çeşitliliği ve yoğunluğu, big data alanında ele alınan en önemli konulardan biri. Çünkü çeşitlilik, işlenmesi gereken verinin doğası ve kaynağı, yoğunluk ise verinin büyüklüğü ve karmaşıklığı ile ilgilidir. Çok çeşitli kaynaklardan gelen veri, big data oluşturur. Bu veriler, işlenmiş, yarı işlenmiş ya da işlenmemiş olabilir. Farklı türlerdeki bu veriler, veriyi anlamlı bilgiye çevirebilmek için gelişmiş algoritmalar gerektirir.

Sonuç

Big Data konusunda bilgi sahibi olmak, şirketlerin ve diğer kuruluşların, işlemek ve analiz etmek için üzerine düşeni yapmada yardımcı olur. Bu, organizasyonların hedeflerine ulaşmasına yardımcı olabilecek önemli bilgiler ve raporlar elde etmelerine olanak sağlar. Bu bilgiler verimliliği artırmak, maliyetleri düşürmek, daha iyi kararlar alabilmek ve daha etkili stratejiler geliştirmek gibi konularda hayati öneme sahiptir.