Veri madenciliği hakkında bilmeniz gerekenler nelerdir? Veri Madenciliği – video veri toplama. Veri Madenciliği Yöntemleri

Zasobi Veri Madenciliği

Şu anda Veri Madenciliği teknolojisi, geniş çapta dağıtılan bir dizi ticari yazılım ürünüyle temsil edilmektedir. Bu ürünlerin güncel ve düzenli olarak güncellenen bir listesini web sitesinde bulabilirsiniz. www. kdnuggets. iletişim, Veri Madenciliğine adanmıştır. Veri Madenciliği yazılım ürünleri, teknolojinin kendisinin sınıflandırılmasının temelini oluşturan aynı ilkelere göre sınıflandırılabilir. Ancak böyle bir sınıflandırmanın pratik değeri yoktur. Piyasadaki yüksek rekabet ve teknolojik çözüm arayışının bir sonucu olarak, birçok Veri Madenciliği ürünü, analitik teknolojilerin geliştirilmesinin tam anlamıyla tüm yönlerini tüketmektedir. Bu nedenle Veri Madenciliği ürünlerini nasıl uygulandıklarına ve hangi entegrasyon potansiyelini sağladıklarına göre sınıflandırmak daha önemlidir. Açıkçası bu mantıklıdır çünkü böyle bir kriter, ürünler arasında net ayrımlar yapmamıza izin vermez. Ancak böyle bir sınıflandırmanın yadsınamaz bir avantajı vardır. Bu, veri analizinde projelerin başlatılması, karar vermeyi destekleyecek sistemlerin geliştirilmesi, bir veri koleksiyonunun oluşturulması vb. sırasında bir veya daha fazla hazır çözümün seçilmesine ilişkin kararı büyük ölçüde övmenize olanak tanır.

Bu nedenle Veri Madenciliği ürünleri zihinsel olarak üç büyük kategoriye ayrılabilir:

    girdi, görünmez bir parça olarak veritabanı yönetim sistemleri;

    Veri Madenciliği algoritmalarının kütüphaneleri ve beraberindeki altyapı;

    kutu ve zemin çözümleri (“kara kutular”).

İlk iki kategorideki ürünler en büyük entegrasyon potansiyelini sağlar ve analitik potansiyelinizi herhangi bir uygulamada pratik olarak gerçekleştirmenize olanak tanır. Kutulu programlar, kendi tarzlarında, Veri Madenciliği alanında benzersiz ilerlemeler sağlayabilir veya madenciliğin herhangi bir spesifik alanı için uzmanlaşabilir. Ancak çoğu durumda bunları daha geniş çözümlere entegre etmek sorunludur.

Analitik yeteneklerin ticari veri tabanı yönetim sistemleri deposuna dahil edilmesi doğaldır ve büyük bir potansiyele sahiptir. Verilerin yoğunlaştığı yerler olmadığı için, bunların işlenmesinin özelliklerinin yerleştirilmesi en önemli şey olduğu için mantıklıdır. Bu prensibe dayanarak, Veri Madenciliği'nin işlevselliği mevcut ticari veritabanlarında anında uygulanır:

    Microsoft SQL Sunucusu;

Ana noktaları

  • Akıllı veri analizi, büyük miktarda birikmiş veriye dayanarak diğer analiz yöntemleriyle (örneğin OLAP) doğrulanabilecek hipotezleri otomatik olarak oluşturmanıza olanak tanır.

    Veri Madenciliği, daha önce görülemeyen, önemsiz olmayan, pratik ve insan yorumu için erişilebilir olmayan ham bilgi verilerinin bir makine (algoritmalar, yapay zeka) tarafından keşfedilmesi ve keşfedilmesidir.

    Veri Madenciliği yöntemleri üç ana sorunu çözer: sınıflandırma ve regresyon görevi, birliktelik kurallarını bulma görevi ve kümeleme görevi. Kokunun özelliklerine göre açıklamalara ve aktarımlara ayrılırlar. Ana öğrenme yöntemleri denetimli öğrenmeye (öğretmenle öğrenme) ve denetimsiz öğrenmeye (öğretmen olmadan öğrenme) bölünmüştür.

    Verilen sınıflandırma ve regresyon, eski olmayan değişken nesnesi için eski değişken nesnenin değerine indirgenir. Eski bir değişken sayısal değerler üretiyorsa, belirli bir regresyondan, aksi takdirde belirli bir sınıflandırmadan bahsederiz.

    p align="justify"> İlişkilendirme kurallarını ararken yöntem, nesneler veya alt bölümler arasındaki kısmi ilişkileri (veya ilişkileri) bulmaktır. Bulgular kurallar olarak karşımıza çıkıyor ve veri analizinin doğasının ve verilerin aktarımının kısa bir şekilde anlaşılması olarak tartışılabilir.

    Belirtilen kümeleme, analiz edilen tüm verilerde bağımsız grupların (kümelerin) ve özelliklerinin aranmasına dayanmaktadır. Bu bilgi, verilerin daha iyi anlaşılmasına yardımcı olur. Ayrıca benzer nesnelerin gruplandırılması, sayılarının azaltılmasına ve dolayısıyla analizin basitleştirilmesine olanak tanır.

    Veri Madenciliği yöntemleri bilgi teknolojilerinin çeşitli alanlarında kullanılmaktadır: istatistikler, sinirsel ölçümler, bulanık faktörler, genetik algoritmalar ve diğerleri.

    Akıllı analiz şu aşamaları içerir: belirli bir analizi anlamak ve formüle etmek, verileri otomatik analiz için hazırlamak, Veri Madenciliği yöntemleri oluşturmak ve modeller oluşturmak, modellerin sonuçlarını doğrulamak ve modelleri insanlar tarafından yorumlamak.

    Veri Madenciliği yöntemleri uygulanmadan önce çıktı verilerinin işlenmesi gerekebilir. Dönüşümün türü durağanlaşacak yöntemlerde yatmaktadır.

    Veri Madenciliği yöntemleri insan faaliyetinin çeşitli alanlarında etkili bir şekilde kullanılabilir: iş, tıp, bilim, telekomünikasyon vb.

3. Metin bilgilerinin analizi – Metin Madenciliği

Veritabanlarında depolanan yapılandırılmış bilgilerin analizi ön işleme gerektirir: veritabanı tasarımı, bilgilerin düzenli kurallara göre girilmesi, özel yapılara yerleştirilmesi (örneğin ilişkisel tablolar), vb. Dolayısıyla bu bilgiyi analiz etmek ve ondan yeni bilgiler çıkarmak için ek para harcamak gerekiyor. Bu durumda öncelikle kokunun analize bağlanması ve istenilen sonuca getirilmesi gerekir. QCD analizi sayesinde yapılandırılmış bilgi azaltılır. Ayrıca her türlü veri, değerli bilgiler kaybolmadan yapılandırılamaz. Örneğin, metin belgelerini, metnin anlambilimini ve varlıklar arasındaki anlamı kaybetmeden bir tablo üzerindeki ifadelere dönüştürmek neredeyse imkansızdır. Bu nedenle, bu tür belgeler, metin alanları (BLOB alanları) gibi, yeniden oluşturulmadan veritabanına kaydedilir. Ancak metin büyük miktarda bilgi içeriyor ancak yapısal eksikliği veri madenciliği algoritmalarının kullanılmasına izin vermiyor. Bu sorunun ana odağı yapılandırılmamış metnin analizidir. Son literatürde bu tür analizlere Metin Madenciliği adı verilmektedir.

Yapılandırılmamış metinleri analiz etme yöntemleri çeşitli alanlarda yatmaktadır: Veri Madenciliği, doğal dil işleme, bilgi arama, bilgi madenciliği ve bilgi yönetimi.

Metin Madenciliğinin Anlamı: Metinde açığa çıkan bilgi, yapılandırılmamış metin verilerindeki gerçekten yeni, potansiyel olarak ilginç ve akıllı kalıpları tanımlamaya yönelik önemsiz olmayan bir süreçtir.

Nitekim Veri Madenciliği bağlamında yeni bir “yapılandırılmamış metin verisi” kavramı ortaya çıkmıştır. Böyle bir bilgi, metni yapısına herhangi bir müdahale olmaksızın mantıksal olarak birleştiren bir dizi belge anlamına gelir. Bu tür belgelere örnek olarak web sayfaları, e-posta, düzenleyici belgeler vb. verilebilir. is.Genel olarak bu tür belgeler katlanabilir ve büyük olabilir ve yalnızca metin değil aynı zamanda grafik bilgileri de içerebilir. Metin oluşturmak için XML (genişletilebilir İşaretleme Dili), standart SGML (Standart Genelleştirilmiş İşaretleme Dili) ve diğer benzer formatları kullanan belgelere genellikle yapılandırılmış belgeler denir. Kokular Metin Madenciliği yöntemleri kullanılarak çıkarılabilir.

Metin belgelerini analiz etme süreci birkaç kelimeden oluşan bir dizi halinde sunulabilir

    Bilgi arayın. İlk adım, hangi belgelerin analiz edileceğini belirlemek ve bunların kullanılabilirliğini sağlamaktır. Kural olarak, analistler analiz edilen bir dizi belgeyi bağımsız olarak manuel olarak seçebilirler, ancak çok sayıda belge için, belirtilen kriterlere göre otomatik seçim seçeneklerini kullanmak gerekir.

    Belgelerin önceden işlenmesi. Burası en basit şeylerin doruğa çıktığı yerdir ve gerekli olan şey, Metin Madenciliği yöntemlerinin nasıl çalıştığını görmek için belgeleri göndermek üzere değiştirmektir. Bu dönüşümün yöntemi sözcükleri çıkarıp metne yeni bir biçim kazandırmaktır. İleriye dönük işleme yöntemine ilişkin rapor bölümde anlatılacaktır.

    Bilgi edinme. Seçilen belgelerden bilgi elde etmek, analiz edilmesi gereken önemli bilgilere ilişkin içgörü sağlar.

Metin Madenciliği yöntemlerinin Vikoristannya'sı. Metinlerde yer alan kalıp ve ayetlerin ortaya çıktığı yer burasıdır. Bu dönem, metin analizi süreci ve bu süreçten doğan pratik görevler açısından temeldir.

Sonuçların yorumlanması. Sürecin geri kalan kısmında ortaya çıkan bilgi, sonuçların içeriğinin yorumlanmasını aktarır. Yorumlama, kural olarak, sonuçların doğal bir şekilde sunulmasına veya grafiksel biçimde görselleştirilmesine dayanır.

Görselleştirme, metin analizinin tamamlayıcısı olarak kullanılabilir. Bu amaçla anahtar kavramlar grafiksel olarak sunulmuştur. Bu yaklaşım öğrencinin ana kavramları tanımlamasına ve bunların önemini belirlemesine yardımcı olur.

Metnin ön kesimi

Metin analizindeki temel sorunlardan biri belgedeki kelimelerin çokluğudur. Bu sözlerden cilt analiz edilir edilmez, yeni bilgi arayışı keskin bir şekilde artıyor ve koristuvachev'in faydalarını karşılaması pek mümkün değil. Aynı zamanda metindeki tüm kelimelerin faydalı bilgiler içermediği de aşikardır. Ayrıca doğal dillerin akışkanlığından dolayı biçimsel olarak farklı kelimeler (eş anlamlılar vb.) aslında farklı kavramlar anlamına gelir. Böylece bilgi vermeyen kelimelerin çıkarılması ve onlara yakın olan kelimelerin tek bir formda bir araya getirilmesi, metin analiz süresini önemli ölçüde hızlandıracaktır. Bu sorunlar metnin daha ileri işlenmesi aşamasında çözülür.

Bilgilendirici olmayan kelimeleri kaldırmak ve metinlerin hızını artırmak için aşağıdaki yöntemleri kullanın:

    Fren lambalarının görünümü. Durdurma sözcükleri birbirine benzeyen ve belgenin konumu hakkında çok az bilgi içeren sözcüklerdir.

    Köklenme-morfolojik arama. Normal şekline dönüşmüş kelimenin derisine yakın bir yerde bulunur.

    L-gram, morfolojik analize ve stop-slaytların seçimine bir alternatiftir. Bilgilendirici olmayan kelimelerin sayısını değiştirme sorunuyla karşılaşmadan metnin yaratıcı bir şekilde oluşturulmasına izin verin;

    Kayıtlı. Bu teknik, tüm karakterleri büyük veya küçük harfe dönüştürmek için geçerlidir.

En etkili yol aşırı sigorta yöntemlerinden kaçınmaktır.

Zavdannya Metin Madenciliği

Nina'nın literatürü, metin belgelerinin ek analiziyle ilgili birçok uygulamalı görevi açıklamaktadır. Bunlar Veri Madenciliğinin klasik görevleridir: sınıflandırma, kümeleme ve metin belgelerine özgü görevler: otomatik açıklama, anlaşılması gereken anahtarların öğrenilmesi vb.

Sınıflandırma Veri Madenciliğinin standart bir alanıdır. Bu yöntem, her belgeye, belgenin ait olduğu bir veya daha fazla kategoriyi atamak için kullanılır. Bu sınıflandırmanın özelliği, belgeleri sınıflandırmadan herhangi bir yanlış yerleştirmenin olmayacağı, dolayısıyla belgelerdeki dış görünümün belirli bir kategoriye karşılık geleceği varsayımıdır.

Verilen sınıflandırmayı belgenin konusuna verilen atama ile özetleyelim.

Belge kümeleme yöntemi, belirli bir sabit sayı arasında anlamsal olarak benzer belge gruplarının otomatik olarak tanımlanmasıdır. Grupların yalnızca belge açıklamalarının ikili benzerliğine göre oluşturulması ve bu grupların aynı özelliklerinin önceden belirtilmesi önemlidir.

Otomatik özetleme, yerden tasarruf ederken metni kısaltmanıza olanak tanır. En önemli görev, metnin tamamına ilişkin olarak görülebilecek önerme önermelerinin ve yüzlerce metnin sayısının belirlenerek sistem tarafından düzenlenmesidir. Sonuç, metindeki en önemli önermeleri içerir.

Özellik çıkarmanın birincil yöntemi metindeki gerçeklerin tanımlanmasıdır. Çoğu durumda, bu tür kavramlar adları ve nominalleri içerir: kişilerin adları ve takma adları, kuruluşların adları vb. Öğrenme algoritmaları kullanılarak sözlükler, diğerlerini tanımlamak için belirli terimleri ve dilsel kalıpları tanımlamak için kullanılabilir.

Metin tabanlı gezinme, kullanıcıların bu önemli terimleri kullanarak belgelerde gezinmesine olanak tanır. Bu, anahtarları tanımlamak ve aralarındaki çeşitli bağlantıları anlamakla ilgilidir.

Eğilim analizi, geçerli döneme ait belge kümelerindeki eğilimleri belirlemenize olanak tanır. Bir trend, örneğin bir şirketin çıkarlarının bir pazar segmentinden diğerine değiştiği ortaya çıkarılarak tersine çevrilebilir.

İlişkilendirme arayışı da Veri Madenciliğinin temel görevlerinden biridir. Bunu başarmak için belirli bir belge kümesi için anahtar kavramlar arasındaki ilişkiler tanımlanır.

Pek çok farklı tedavi görevine ve bunların iyileştirilmesi için yeni yöntemlere ulaşmak gerekir. Bu durum metin analizinin önemini bir kez daha doğrulamaktadır. Ayrıca, bu bölümde gelecek görevlerin çözümleri ele alınmaktadır: anlama anahtarlarını öğrenme, sınıflandırma, kümeleme ve otomatik açıklama ekleme.

Metin belgelerinin sınıflandırılması

Metin belgelerinin sınıflandırılması ve nesnelerin sınıflandırılması, girilen belgeye aşağıdaki sınıflardan birine uygulanır. Genellikle metin belgelerinin sınıflandırılmasına kategorizasyon veya derecelendirme adı verilir. Açıkçası, bu adlar belgeleri kataloglar, kategoriler ve başlıklar halinde sistemleştirme görevine benziyor. Bu durumda dizin yapısı tek düzeyli veya çok düzeyli (hiyerarşik) olabilir.

Resmi olarak, metin belgelerinin verilen sınıflandırması bir dizi çarpanla tanımlanır.

Sınıflandırma görevi, bu verilere dayanarak, araştırılan belge için bilinen en büyük kategoriye giren ve çarpanı olan bir prosedür gerektirir.

Metinleri sınıflandırmaya yönelik yöntemlerin çoğu, aynı kategoriye giren belgelerin hem görünürlüğü hem de yokluğu için yeni işaretler (kelimeler ve ifadeler) yerleştirdiği varsayımına dayanmaktadır. .

Bu tür kişisel olmayan bir işarete genellikle kelime dağarcığı denir, çünkü kategoriyi karakterize eden kelimeleri ve/veya konuşma dilini içeren sözcük birimleriyle birleştirilir.

Bu karakter kümelerinin, bir dizi nitelikle karakterize edilen Veri Madenciliği'ndeki nesnelerin sınıflandırılmasından metin belgelerini sınıflandırmanın önemini gösterdiğini unutmayın.

D belgesinin c kategorisine yükseltilmesi kararı üst çubukta alınır.

Sınıflandırma yöntemlerinin amacı, bu tür işaretleri mümkün olduğu kadar çabuk seçmek ve bir belgenin bir kategoriye sınıflandırılmasına ilişkin kararların hangilerine göre verileceği kurallarını formüle etmektir.

Metin bilgisi analizinin özellikleri

    Zasobi Oracle - Oracle Text2

Oracle sürüm 7.3.3'ten başlayarak, metin analizi özellikleri Oracle ürünlerinin bilinmeyen bir parçasıdır. Oracle, yapılandırılmamış metinler içeren sorguları etkili bir şekilde işlemenize olanak tanıyan, DBMS'ye entegre olan bir yazılım kompleksi olan Oracle Text'i genişletti ve yeni bir ad oluşturdu. Bu durumda metnin işlenmesi, geliştiricinin ilişkisel veritabanlarıyla çalışmak için sağladığı yeteneklerle tutarlı olacaktır. Zokrema, metin işlemek için programlar yazarken SQL kullanmak mümkün hale geldi.

Oracle Text'in temel amacı, gerektiğinde çeşitli Boolean işlemleriyle birleştirilebilecek kelimeler ve ifadeler için belgeleri bulundukları yerde aramaktır. Arama sonuçları, bulunan belgelerdeki kelimelerin sıklığına göre önem sırasına göre sıralanır.

    IBM Tools - Text için Akıllı Madenci1

IBM Intelligent Miner for Text ürünü, türü ne olursa olsun, komut satırından veya komut dosyalarından başlatılabilen çeşitli yardımcı programlardan oluşan bir kümedir. Sistem, metin bilgilerini analiz etme görevini tamamlamak için çeşitli yardımcı programları birleştirir.

IBM Intelligent Miner for Text, her ürüne özel olan, esas olarak bilgi alma mekanizmalarını temel alan, giderek artan sayıda araç içerir. Sistem, Metin Madenciliği teknolojisi arasında bağımsız öneme sahip bir dizi temel bileşenden oluşur:

    Zasobi SAS Enstitüsü - Metin Madenci

Amerikan şirketi SAS Institute, yazılı dilin gramerini ve kelime dağarcığını geliştirmek için SAS Text Miner sistemini piyasaya sürdü. Text Miner aynı zamanda veritabanlarından, dosya sistemlerinden ve hatta web'den çeşitli formatlardaki metin belgeleriyle çalışabildiği için evrenseldir.

Text Miner, SAS Enterprise Miner paketi içinde mantıksal metin işleme sağlar. Bu, veri bilimcilerinin, yapılandırılmamış metin bilgilerini yaş, gelir ve satın alma fiyatının niteliği gibi temel yapılandırılmış verilerle entegre ederek veri analizi sürecinden faydalanmalarına olanak tanır.

Ana noktaları

    Metinde açığa çıkan bilgi, yapılandırılmamış metin verilerindeki gerçekten yeni, potansiyel olarak ilginç ve akıllı kalıpları tanımlamaya yönelik önemsiz olmayan bir süreçtir.

    Metin belgelerini analiz etme süreci birkaç adımdan oluşan bir dizi halinde gerçekleştirilebilir: bilgi arama, belgelerin ileri işlenmesi, bilgi elde etme, Metin Madenciliği yöntemlerinin oluşturulması, sonuçların yorumlanması.

    Bilgi vermeyen kelimeleri kaldırmak ve metinlerin hızını artırmak için şu yöntemleri kullanın: Durdurulan kelimeleri kaldırmak, köklerini ayırmak, L-gramları, büyük/küçük harf değiştirmek.

    Metinsel bilgileri analiz etmeye yönelik görevler: sınıflandırma, kümeleme, otomatik açıklama ekleme, anahtarları anlama, metinde gezinme, trend analizi, ilişkilendirme aramaları vb.

    Metinlerden temel anlayış elde etmek hem uygulamalı bilimin hem de metin analizinin bir parçası olarak görülebilir. Gerçekler metinden elde edildikten sonra çeşitli analiz görevlerine tabi tutulacaktır.

    Ek kalıplar kullanarak anlamanın anahtarlarını öğrenme süreci iki aşamadan oluşur: ilk olarak gerçekler metin belgelerinden sözcüksel analiz kullanılarak çıkarılır, diğer aşamada ise elde edilen gerçeklerin entegrasyonu ve/veya yeni gerçeklerin tanıtılması.

    Metinleri sınıflandırmaya yönelik yöntemlerin çoğu, aynı kategoriye giren belgelerin hem görünürlüğü hem de yokluğu için yeni işaretler (kelimeler ve ifadeler) yerleştirdiği varsayımına dayanmaktadır. .

    Bilgi arama için yaygın olarak kullanılan ve semantik benzerliği uzay yakınlığı olarak temsil etmek için wikirist metaforu için yaygın olarak kullanılan bir vektör uzay modeline benzeyen veriler üretmek için daha fazla kümeleme algoritması kullanılır.

    Metin belgelerine otomatik olarak açıklama ekleme konusunda iki ana yaklaşım vardır: öğrenme (en önemli parçaları görme) ve düzenleme (önceden toplanan bilgileri gözden geçirme).

Visnovok

Verilerin akıllı analizi, uygulamalı matematiğin en alakalı ve zorlu alanlarından biridir. Günlük iş süreçleri ve üretim, büyük miktarda veri üretiyor ve insanların, zaman içinde dinamik olarak değişen büyük miktardaki veriyi, kritik durumların öngörülmesi konusunda endişe duymadan yorumlayıp yanıt vermesi giderek daha önemli hale geliyor. . “Entelektüel veri analizi” zengin, çeşitli, belirsiz, kesin olmayan, aşırı açık ve dolaylı verilerden mümkün olduğunca fazla yararlı bilgi çıkarmaktır. Veriler gigabaytlara ve hatta terabaytlara ulaştığından verimli çalışmaya yardımcı olur. Ayrıca çeşitli mesleki sorunlara çözüm sunmaya başlayacak algoritmalar da olacak.

“Akıllı Veri Analizi” araçları, gerekli aksiyonların doğru zamanda alınması için operasyonel verileri ilgili bilgiye dönüştürerek insanları bilgi kazanımından korur.

Uygulamalı araştırmalar aşağıdaki alanlarda yürütülmektedir: - ekonomik sistemlerde tahmin; imalat, ticaret, telekomünikasyon ve İnternet şirketleri için pazarlama araştırmasının ve müşteri ortamlarının analizinin otomasyonu; kredi kararı verme ve kredi riski değerlendirmesinin otomasyonu; mali piyasaların izlenmesi; Otomatik ticaret sistemleri.

Referans listesi

    “Veri analizi teknolojisi: Veri Madenciliği. Görsel Madencilik. Metin Madenciliği, OLAP" A. A. Barseghyan. M. S. Kupriyanov, V. V. Stenanenko, I. BEN. Soğuk. - 2. tip, işlenmiş. Eklemek istiyorum.

    http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - İnternet makalesi

    http://www.piter.com/contents/978549807257/978549807257_p.pdf -Veri analiz teknolojileri

    Derece çalışması >> Bankivska sağda

    Pozichalnik z vikoristannyam kümesi, sözlü analiz, koorgual katsayılar, vb. ve ayrıca... işverenin kredibilitesine dayalı olarak entelektüel analiz veri Veri Madenciliği (z... Başlangıç ​​aşamasında) analiz yürütülebilir analiz Vlasnikh koştiv ta...

  1. Analiz ve takdir yetkisini uygulayan mevcut bilgi sistemleri pazarının sınıflandırılması,

    Özet >> Bilgisayar Bilimi

    1.3 Rol ayrımı 6 2. Sıra analiz farklı sistem türleri 7 İşletim sistemleri... aşağıdakileri içeren sistemler: analiz güvenlik politikası ve özellikleri, ... eklemeler veya daha fazlasını uygulama entelektüel analiz haraç O zamana kadar...

  2. EntelektüelÜstün yetenekli çocukların okul başarısına faydaları

    Derece >> Psikoloji

    Başarı ve özellikler arasındaki ilişki entelektüel gelişim Teorik platformda analiz takipte sorunlar vardı... istihbarata kadar analiz Yogo'nun psikolojik yapısı. Değerlendirme için en iyi entelektüel zdіbnosti є...

Veri madenciliği

Veri Madenciliği, şirketlerin bilgi sistemlerinde biriken, daha önce bilinmeyen, önemsiz olmayan, pratik olarak yararlı olan ve yorumlanmaya açık, insan faaliyetinin diğer alanlarından kararlar almak için gerekli olan büyük miktardaki verileri tanımlamaya yönelik bir metodoloji ve süreçtir. Veri Madenciliği, Veritabanlarında Bilgi Keşfinin daha geniş bir metodolojisinin aşamalarından biridir.

Veri Madenciliği sürecinin ortaya çıkardığı bilgi önemsiz olmayabilir ve önceden bilinmiyor olabilir. Önemsizlik öyle bir bilgi aktarır ki, basit bir görsel analizle bilinmesi imkansızdır. Ticari kuruluşların yetkilileri arasındaki bağlantıları tanımlamak, bazı işaretlerin anlamını diğerlerinin düzenlemelerinden aktarmak sizin sorumluluğunuzdadır. Bulunan bilgi, yeni nesneler geliştirilinceye kadar sabit kalacaktır.

Bilginin pratik değeri, yönetim kararlarını ve kapsamlı iş faaliyetlerini destekleme sürecinde gelişme olasılığından kaynaklanmaktadır.

Bilgi, bilgisayar bilimcilerinin anlayabileceği bir şekilde sunulabilir ancak özel bir matematik eğitimi gerektirmez. Örneğin, insanın mantıksal yapısını "bu şekilde, bu şekilde" anlamak en kolay yoldur. Ayrıca bu tür kurallar çeşitli DBMS'lerde SQL sorguları olarak kullanılabilir. Sanatçı için bilinen belirsizlikler olduğunda bunların yorumlanabilir forma getirilmesini sağlayacak post-processing yöntemlerinin kullanılması gerekmektedir.

Veri Madenciliği yalnızca bir tane değil, bilgiyi tanımlamaya yönelik çok sayıda farklı yöntemin birleşimidir. Veri Madenciliği yöntemleriyle oluşturulan tüm veriler akıllıca altı türe ayrılabilir:

Veri Madenciliği, sayısal yöntemlerin unsurlarını, matematiksel istatistikleri ve olasılık teorisini, bilgi teorisini ve matematiksel mantığı, yapay zekayı ve makine öğrenimini içeren doğası gereği çok disiplinlidir.

İş analizinin görevleri farklı şekillerde formüle edilir, ancak çoğu Veri Madenciliği'nin diğer görevlerine veya bunların kombinasyonlarına indirgenir. Örneğin, risk değerlendirmesi, regresyon ve sınıflandırma, pazar bölümleme - kümelenme, nüfus uyarımı - ilişkisel kuralların birincil görevidir. Aslında Veri Madenciliği, gerçek iş sorunlarının çoğuna yönelik çözümlerin “seçilmesinin” mümkün olduğu unsurları içerir.

En önemli görevlerin kilidini açmak için Veri Madenciliği'nin çeşitli yöntemleri ve algoritmaları kullanılır. Veri Madenciliği'nin matematiksel istatistik, bilgi teorisi, bilgisayar bilimi ve veritabanları gibi disiplinler temelinde gelişmiş ve gelişmekte olması önemlidir, Veri Madenciliği algoritmalarının ve yöntemlerinin çoğunun bölünmüş olması ve bunların çeşitli yöntemlerinin olması tamamen doğaldır. disiplinler. Örneğin, k-means kümeleme algoritması istatistiklere dayanmaktadır.

Parçalı sinir ağları, genetik algoritmalar, evrimsel programlama, ilişkisel bellek, bulanık mantık. Veri Madenciliği yöntemleri genellikle şu şekilde anılır: istatistiksel yöntemler(tanımlayıcı analiz, korelasyon ve regresyon analizi, faktör analizi, varyans analizi, bileşen analizi, diskriminant analizi, zaman serisi analizi). Ancak bu tür yöntemler, verilerin analizi hakkında genellikle hedeflerden sapan önsel kararlar verir. Veri madenciliği(Daha önce bilinmeyen, önemsiz olmayan ve pratik olarak yararlı bilgilerin açığa çıkarılması).

Veri Madenciliği yöntemlerinin en önemli faydalarından biri, hesaplama sonuçlarının bilimsel olarak sunulması, Veri Madenciliği araçlarının özel matematik eğitimi almış kişiler tarafından kullanılmasına olanak sağlamasıdır. Aynı zamanda, veri analizine yönelik istatistiksel yöntemlerin durgunluğu, olasılık teorisinin ve matematiksel istatistiklerin iyi anlaşılmasını vurgulamaktadır.

Girmek

Veri Madenciliği Yöntemleri (ya da kısaca Veride Bilgi Keşfi, kısaca KDD) veritabanlarına, istatistiklere ve bireysel zekaya dayanmaktadır.

Tarihsel ara açıklama

Veri Madenciliği alanı 1989 yılında Grigory Pyatetsky-Shapiro'nun düzenlediği çalıştay ile başladı.

Daha önce GTE Labs şirketinde çalışan Grigory Pyatetsky-Shapiro, büyük veritabanlarında arama sürecini hızlandırmak için şarkı kurallarını otomatik olarak nasıl keşfedebileceğiniz fikriyle ilgilenmeye başladı. Aynı zamanda iki terim tanımlandı: Veri Madenciliği ("veri türü") ve Verilerde Bilgi Keşfi ("veritabanlarından bilginin keşfi" olarak çevrilir).

Problem cümlesi

Başlangıç ​​noktası şu şekilde ayarlamaktır:

  • є veritabanı büyüktür;
  • Veritabanında “bilgi edinme” eylemlerinin olduğu bildiriliyor.

“Sirich” verilerinin büyük çabalar sonucu elde edilen bilgilerin tanımlanmasına yönelik yöntemlerin geliştirilmesi gerekmektedir.

“Bilginin kabulü” ne anlama geliyor? Tse mayut buti obov'yazkovo şunu biliyor:

  • önceden görünür olmayan - yeni olabilecek bilgiler (ve daha önce kaldırıldığı için onaylanmamış olanlar);
  • önemsiz olmayan - basitçe hesaplanamayanlar (verilerin kapsamlı bir görsel analizi veya basit istatistiksel özelliklerin hesaplanmasıyla);
  • pratik olarak korisni - bu, bir takipçi veya yoldaş için değerli hale gelen türden bir bilgidir;
  • yorumlanmaya açık - temel biçimde kolayca görülebilen ve konu alanı açısından kolayca açıklanabilen bu tür bilgiler.

Bu, büyük ölçüde Veri madenciliği yöntemlerinin özünü ve gelişmiş Veri madenciliği teknolojilerinin veri tabanı yönetim sistemlerine, istatistiksel analiz yöntemlerine ve parça zeka yöntemlerine hangi biçimde ve hangi şekilde dayandığını gösterir.

Veri madenciliği ve veri tabanı

Veri madenciliği yöntemleri büyük veritabanlarına erişimi zorlaştırabilir. Her spesifik kutanöz galusta çalışma, veri tabanının “genişliğine” ilişkin kendi kriterine dayanmaktadır.

Veritabanı teknolojilerinin gelişimi başlangıçta veritabanlarına yönelik özel dil - dil sorgularının oluşturulmasına yol açtı. İlişkisel veritabanları için bu, kaydedilen verileri oluşturmak, değiştirmek ve çıkarmak için çok çeşitli olanaklar sunan SQL'dir. Daha sonra daha analitik bilgilere (örneğin, bir işletmenin geçmiş dönemdeki faaliyetleri hakkında bilgi) yönelik bir talep ortaya çıktı ve geleneksel ilişkisel veritabanlarının, örneğin operasyonel faaliyetleri (işletmelerde) yürütmek için çok uygun olduğu ortaya çıktı. Analiz yapmak kötüdür. Bu, kendi gücüyle sözde olanın yaratılmasına çağrıda bulundu. Yapısı kapsamlı bir matematiksel analizin yürütülmesini en açık şekilde gösteren “veri koleksiyonları”.

Veri madenciliği ve istatistik

Veri madenciliği yöntemleri, istatistiksel yöntemler de dahil olmak üzere veri işlemenin matematiksel yöntemlerine dayanmaktadır. Endüstriyel çözümlerde bu tür yöntemler genellikle Veri madenciliği paketlerine dahil edilir. Ancak şunu da belirtmek gerekir ki araştırmacılar, analizi basitleştirmek için genellikle parametrik olmayan testler yerine parametrik testleri kullanırlar, başka bir deyişle analiz sonuçlarının yorumlanması önemlidir ve bu durum Veri madenciliğinin amaç ve hedeflerinden tamamen farklıdır. Prote, istatistiksel yöntemler kullanılıyor ve bunların durgunluğu, araştırmanın ilk aşamalarının sonuçlanmasıyla sınırlı.

Veri madenciliği ve parça zekası

Veri madenciliği yöntemleri kullanılarak elde edilen bilgiler genellikle videoda sunulur. modeller. Bu modeller nasıl davranır:

  • birliktelik kuralları;
  • ahşap çözümü;
  • küme;
  • matematiksel fonksiyonlar.

Bu tür modellerin oluşturulmasına yönelik yöntemler sözde kişilerin dikkatine sunulmaktadır. "parça istihbaratı."

Zavdannya

Veri Madenciliği yöntemleriyle üretilen bilgi genellikle açıklamalara bölünür. tanımlayıcı) ta peredbachuvalni (İngilizce) öngörücü).

Tanımlayıcı görevlerde en önemli şey, belirgin oluşum kalıplarının ayrıntılı bir tanımını sağlamaktır; transfer görevlerinde ise ilk öncelik, henüz veri bulunmayan bu tür olaylar için transfer hakkında bilgi sağlamaktır.

Görevin açıklamaları yalan olana kadar:

  • ilişkisel kuralları ve kalıpları aramak;
  • nesnelerin gruplandırılması, kümeleme analizi;
  • regresyon modeline dayanmaktadır.

Eğitimin devredilmesinden önce aşağıdakilerin yapılmasına yönelik bir görev vardır:

  • nesnelerin sınıflandırılması (daha sonraki sınıf atamaları için);
  • Regresyon analizi, zaman serilerinin analizi.

Gezinme algoritmaları

Sınıflandırma görevi, giriş ve çıkış vektörlerini yerleştirmek için modelin seçim esasına göre yürütüldüğü "öğretmenle başlama" ile karakterize edilir.

Kümeleme ve ilişkilendirmeyi ayarlamak için "okuyucu olmadan başlama" kullanılır; bu durumda model, çıktı parametresi olmayan bir seçim üzerinde gerçekleştirilir. Çıkış parametresinin değerleri (“bir kümeye uygula…”, “bir vektöre benzer ...”) başlangıç ​​sürecinden otomatik olarak seçilir.

Hızlıca anlatacağım görevler için tipiktir Giriş ve çıkış vektörlerinde bir alt bölümün varlığı. K. Pearson'un kafa bileşenleri yöntemine ilişkin klasik çalışmasından başlayarak, asıl dikkat verilerin yakınlaştırılmasına verilmektedir.

Etapi navchannya

Veri Madenciliği yöntemlerini kullanarak sorunları çözmek için tipik bir dizi aşama vardır:

  1. bir hipotez oluşturmak;
  2. Verilerin toplanması;
  3. Veri hazırlama (filtrasyon);
  4. modeli seçin;
  5. Model parametrelerinin seçimi ve başlangıç ​​algoritması;
  6. model başlangıcı (diğer model parametrelerinin otomatik aranması);
  7. 5. veya 4. noktaya yetersiz bir geçiş varsa, başlangıç ​​​​maliyetinin analizi;
  8. 1, 4 ve 5. paragrafların yetersiz geçişi gibi ortaya çıkan kalıpların analizi.

Veri Hazırlama

Veri Madenciliği algoritmalarını kullanmadan önce bir veri seti hazırlamak gerekir. Bu nedenle, IAD yalnızca verilerde mevcut olan modelleri ortaya çıkarabildiği için, bir taraftan gelen çıktı verileri bu modellerin mevcut olmasını sağlayacak kadar zorunlu olmalı ve diğer taraftan analizin her saat kabul edilebilmesi için yeterince kompakt olmalıdır. Çoğu zaman koleksiyonlar veya veri pencereleri çıktı verileri görevi görür. Kümeleme ve veri madenciliği öncesinde çok sayıda veriyi analiz etmek için hazırlık yapmak gereklidir.

Temizlenen veriler, bir dizi uyarı işareti olan karakter kümelerine (veya algoritma yalnızca sabit boyutlu vektörlerle çalışabildiğinden vektörlere) indirgenir. İşaret kümesi, işleme için gerekli hesaplama çabasının genişlemesi nedeniyle yüksek tahmin gücüne sahip olan ham veri işaretleri hakkındaki hipotezlere göre oluşturulur. Örneğin 100x100 piksel boyutunda siyah beyaz bir görselin değeri 10 bindir. biraz sirikh verisi. Koku, gözler ve ağız görüntüsünde ortaya çıkan bir yol ile vektör işaretine dönüştürülebilir. Bunun sonucunda veri yükümlülüğünde 10 binden bir değişiklik olacak. formasyon kodları listesine biraz eklenecek, bu da verileri analiz etme zorunluluğunun değiştirilmesi ve bir saatlik analiz anlamına geliyor.

Bir dizi algoritma, eksik verileri işleyebilir ve tahmin gücüne sahip olabilir (örneğin, bir müşterinin yaptığı satın alma sayısı). Birliktelik kuralları yöntemini kullanarak diyelim (İngilizce) Rusça Oluşturulanlar işaret vektörleri değil, değişken boyut kümeleridir.

Hedef fonksiyonunun seçimi analiz yöntemine bağlıdır; Başarılı veri madenciliği için “doğru” fonksiyonun seçilmesi esastır.

Önlemler iki kategoriye ayrılır: başlangıç ​​seti ve test seti. Başlangıç ​​seti Veri Madenciliği algoritmasını başlatmak için test edilir ve test seti bulunan modelleri doğrulamak için kullanılır.

Bölüm Ayrıca

  • Reshetov'un Imovirnisna sinir ağı

Notlar

Edebiyat

  • Paklin N.B., Gorishkov St.I.İş analitiği: veriden bilgiye (CD). - St.Petersburg. : Görüş. Peter, 2009. – 624 s.
  • Duke V., Samoilenko O. Veri Madenciliği: Temel Kurs (CD). - St.Petersburg. : Görüş. Peter, 2001. – 368 s.
  • Zhuravlov Yu.I. , Ryazanov V.V., Senko O.V. ROZIZNAVANYA. Matematiksel yöntemler. yazılım sistemi. Pratik durağanlık. – M.: Görüntüle. “Faz”, 2006. – 176 s. - ISBN 5-7036-0108-8
  • Zinov'ev A. Yu. Zengin dünya verilerinin görselleştirilmesi. - Krasnoyarsk: Görüntüle. Krasnoyarsk Devlet Teknik Üniversitesi, 2000. – 180 s.
  • Çubukova I. A. Veri Madenciliği: temel kılavuz. – M.: İnternet Bilgi Teknolojileri Üniversitesi: BİNOM: Bilgi Laboratuvarı, 2006. – 382 s. - ISBN 5-9556-0064-7
  • Ian H. Witten, Eibe Frank ve Mark A. Hall Veri Madenciliği: Pratik Materyal Öğrenme Araçları ve Teknikleri. - 3. Baskı. – Morgan Kaufmann, 2011. – S. 664. – ISBN 9780123748560

Posilannya

  • Veri Madenciliği Yazılımı Açık Dizin Projesi'ni (dmoz) kataloglayabilirsiniz.

Wikimedia Vakfı. 2010.

Sizi mevcut Veri Madenciliği yöntemlerine adanmış benzersiz bir portal olan Veri Madenciliği portalına götürüyoruz.

Veri Madenciliği teknolojileri, kalıpları belirlemek ve aktarılabilir modeller oluşturmak amacıyla günlük iş analitiği ve veri takibi için güçlü bir araçtır. Veri Madenciliği ve video prodüksiyonu, yüzeysel verilere değil, gerçek verilere dayandığını biliyor.

Pirinç. 1. Veri Madenciliği Şeması

Sorun Tanımı – Sorunun ifadesi: veri sınıflandırma, segmentasyon, modellerin aktarımının teşvik edilmesi, tahmin.
Veri Toplama ve Hazırlama – Verilerin toplanması ve hazırlanması, temizlenmesi, doğrulanması, mükerrer kayıtların silinmesi.
Model Oluşturma - Pobudova modelleri, doğruluk değerlendirmesi.
Bilgi Dağıtımı – Verilen görevin yerine getirilmesi için modelin oluşturulması.

Veri Madenciliği, işletme, pazarlama, internet, telekomünikasyon, endüstri, jeoloji, tıp, ilaç ve diğer alanlardaki büyük ölçekli analitik projelerin uygulanması için kullanılır.

Veri Madenciliği, modern örüntü tanıma yöntemlerini ve karar ağaçları da dahil olmak üzere benzersiz analitik teknolojilerin toplanmasını kullanarak geniş bir veri dizisinin elenmesi sonucunda önemli korelasyonlar ve bağlantılar bulma sürecini başlatmanıza olanak tanır.sınıflandırma, kümeleme, sinirsel ölçüm yöntemleri ve diğerleri.

Veri işleme teknolojisini ilk keşfeden araştırmacı, büyük miktarda verinin analiziyle ilgili en önemli görevlere yaklaşım bulmasını sağlayan çok sayıda yöntem ve etkili algoritmalara hayran kalıyor.

Veri Madenciliği, büyük veriyi aramaya yönelik bir teknoloji olarak nitelendirilebilir. kesin değil, amaç ve pratik kahverengi desenler.

Veri Madenciliği, büyük hacimli ve büyüklükteki yapılandırılmamış verilerin analizi için geliştirilmiş etkili yöntem ve algoritmalara dayanmaktadır.

İşin püf noktası, büyük hacim ve büyük boyutların sonuçlarının yapı ve bağların azaltılmasında görülmesidir. Veri işlemenin meta teknolojileri - ilk bakışta kaos ve svaville'in tüm hızıyla devam ettiği yapıları ortaya çıkarmak ve kalıpları tanımak.

Mevcut poponun ekseni ilaç ve tıp endüstrilerinden elde edilen verilere dayanmaktadır.

İlaç etkileşimleri sağlığın günlük korunmasını etkileyen ve giderek büyüyen bir sorundur.

Yıllar geçtikçe, reçete edilen ilaçların sayısı (reçetesiz ve tüm takviyeler) artıyor ve bu da ilaçlar arasında giderek daha fazla etkileşime neden oluyor ve bu da doktorların ve hastaların şüphelenmediği ciddi yan etkilere neden oluyor.

Eğer cilt halihazırda piyasaya çıkmışsa ve yoğun bir tedavi görüyorsa bu alanın klinik sonrası incelemelerle takip edilmesi gerekir.

İlacın etkinliği değerlendirilmeden önce klinik çalışmalar yapılıyor ancak bu ilaçların piyasadaki diğer ilaçlarla etkileşim riski çok az.

Kaliforniya'daki Stanford Üniversitesi'ndeki araştırmacılar, ilaçların yan etkilerine ilişkin FDA veri tabanını incelediler ve yaygın olarak kullanılan iki ilacın antidepresanlar olduğunu buldular: Oksetin ve pravastatin, eğer bu kursu hemen alırsanız diyabetin gelişmesinde kolesterol seviyelerini düşürmek için kullanılır.

FDA verilerine dayanan benzer bir analiz, daha önce bilinmeyen 47 olumsuz etkileşimi tanımladı.

Bu gözlemler nedeniyle hastalar tarafından fark edilen pek çok olumsuz etkinin tespit edilememesi şaşırtıcıdır. Şu anda bu acımasız şakanın en büyük nezaketini kendinize göstermelisiniz.

Veri Madenciliği Akademisi StatSoft Veri Analizi'nden 2020'de gelecek dersler

Veri Madenciliği, vikoryst ve Veri Analizi Akademisi'nin mucizevi videolarıyla tanışmaya başlıyoruz.

Videolarımızı mutlaka izleyin, Veri Madenciliği'nin ne olduğunu anlayacaksınız!

Video 1. Veri Madenciliği Nedir?


Video 2. Veri işleme yöntemlerinin gözden geçirilmesi: karar ağaçları, gelişmiş aktarım modelleri, kümeleme ve çok daha fazlası

Tarayıcınızda JavaScript devre dışı bırakıldı


Öncelikle final projesini başlatıyoruz, dış kaynaklardan veri ayırma sürecini organize edebiliriz ve şimdi size bunun nasıl yapılacağını göstereceğiz.

Video sizi benzersiz teknolojiyle tanıştıracak İSTATİSTİK Yerinde veritabanı işleme ve Veri Madenciliği ile gerçek veriler arasındaki bağlantı.

Video 3. Veritabanlarıyla etkileşim sırası: SQL sorgularını yönlendirmek için grafik arayüz, Yerinde veritabanı işleme teknolojisi

Tarayıcınızda JavaScript devre dışı bırakıldı


Keşifsel veri analizinin yapılmasında etkili olan interaktif sondaj teknolojilerinin artık farkındayız. Sondaj terimi, Veri Madenciliği teknolojisini jeolojik keşifle birleştirir.

Video 4. Etkileşimli sondaj: Etkileşimli veri takibi için keşifsel ve grafiksel yöntemler

Tarayıcınızda JavaScript devre dışı bırakıldı


Artık algoritmaları gerçek verilerdeki bağlantıları bulmamızı sağlayan birliktelik kurallarının analizine aşinayız. Kilit nokta, algoritmaların büyük veri kümelerindeki etkinliğidir.

Bağlantı analizi algoritmalarının sonucu, örneğin Apriori algoritması, belirli bir güvenilirliğe (örneğin %80) sahip nesneleri izlemek için bağlantı kurallarının keşfidir.

Jeolojide bu algoritmalar, örneğin B ve C işaretleriyle bağlantıların bir işareti olarak kahverengi kopalinlerin araştırılması sırasında engellenebilir.

Çabalarımız sayesinde bu tür çözümlerin spesifik uygulamalarını bulabilirsiniz:

Çeşitli ticaretlerde, Apriori algoritması ve modifikasyonlarının, örneğin parfümlerin (her şey için parfüm - vernik - maskara) ve çeşitli markaların ürünlerinin satışı sırasında çeşitli malların bağlantılarını izlemesine izin verilir.

Sitedeki belirli bölümlerin analizi, ek birliktelik kuralları kullanılarak da etkili bir şekilde gerçekleştirilebilir.

Merhaba, gelecek videodan haberiniz olsun.

Video 5. Birliktelik kuralları

Tarayıcınızda JavaScript devre dışı bırakıldı

Veri Madenciliğini belirli alanlarda uygulamaya çalışalım.

İnternet ticareti:

  • Alıcıların mal satın almadan önce siteyi ziyaret etme gidişatının analizi
  • Hizmetin etkinliğinin değerlendirilmesi, çeşitli ürünlerle ilgili sorunların analizi
  • distribütörlere malzeme gibi mal paketleri

Perakende ticaret: Kredi kartları, indirim kartları vb. temel alınarak alıcılara ilişkin bilgilerin analizi.

Veri Madenciliği tarafından yönetilen ayrı ticaretin tipik görevleri:

  • cupivel kedisinin analizi;
  • modellerin transferi için kapı alıcıların ve satın alınan malların sınıflandırma modelleri;
  • alıcı profillerinin oluşturulması;
  • CRM; çeşitli kategorilerdeki alıcıların sadakatinin değerlendirilmesi; sadakat programlarının planlanması;
  • zaman serisi takibi ve vadeli mevduatlar, mevsimsel faktörlerin görünürlüğü, reklam kampanyalarının etkinliğinin geniş bir yelpazedeki gerçek veriler üzerinde değerlendirilmesi.

Telekomünikasyon sektörü, mevcut büyük veri teknolojilerinin yanı sıra veri toplama yöntemlerinin olanaklarını da değiştirme ihtiyacını keşfediyor:

  • çağrıların temel özelliklerine (sıklık, ciddiyet vb.), SMS sıklığına göre müşterilerin sınıflandırılması;
  • müşteri sadakatinin belirlenmesi;
  • Şehriyet'in önemi şudur:

Sigorta:

  • rizu'nun analizi. Sigortacılar, ödenen hasarlarla ilgili faktörleri belirleyerek hasarlara ilişkin masraflarını değiştirebilir. Sigorta şirketinin, arkadaşların tazminat talepleri için ödenen tutarın, bekar kişilerin tazminat talepleri için ödenen tutarı iki katına çıkardığını keşfetmesi çok yazık. Şirket bu duruma aile müşterilerine yönelik indirim politikasını revize ederek yanıt verdi.
  • Şehrayizmin tezahürü. Sigorta şirketleri, avukatlar, doktorlar ve başvuru sahipleri arasındaki etkileşimleri karakterize eden sigorta taleplerindeki stereotipler nedeniyle dolandırıcılık oranını azaltabilir.

Verilerin daha pratik bir sunumu ve daha spesifik görevler aşağıdaki videoda sunulmaktadır.

Webinar 1. Webinar “Pratik Veri Madenciliği: Sorunlar ve Çözümler”

Tarayıcınızda JavaScript devre dışı bırakıldı

Webinar 2. Webinar "Veri Madenciliği ve Metin Madenciliği: gerçek görevlerin uygulanması"

Tarayıcınızda JavaScript devre dışı bırakıldı


StatSoft kurslarında veri işleme metodolojisi ve teknolojisi hakkında daha derinlemesine bilgi edinilebilir.

Bireysel zekanın bu unsurları, pratik yöneticiler tarafından aktif olarak desteklenmektedir. Geleneksel yapay zeka sistemlerinin yerine, akıllı veri arama ve analiz teknolojisi veya "veri madenciliği" (Veri Madenciliği - DM), doğal zekayı modellemeye çalışmaz, bunun yerine günlük bilginin güçlendirilmesini mümkün kılar. arama motorları ve veri ambarları. Genellikle “Veri Madenciliği” kelimelerinin ardından “Veritabanlarında Bilgi Keşfi” kelimeleri gelir.

Pirinç. 6.17.

Veri Madenciliği, insan faaliyetinin çeşitli alanlarında çözüm gerektiren, mevcut verilerdeki önceden bilinmeyen, önemsiz olmayan, pratik ve kolayca yorumlanabilen bilgilerin belirlenmesi sürecidir. Veri Madenciliği, taş ocakçıları ve analistler için günlük faaliyetlerinde büyük değer taşıyor. İş adamları, ek Veri Madenciliği yöntemlerinin kullanılmasının önemli rekabet avantajları sağlayabileceğini öğrendi.

Mevcut Veri Madenciliği teknolojisi (Keşif Odaklı Veri Madenciliği), verilerdeki zengin boyutlu ilişkilerin parçalarını görüntüleyen Desenler kavramına dayanmaktadır. Bu modeller, olgun bir insan formunda kompakt bir şekilde ifade edilebilecek veri seçimlerini yöneten kalıplardır. Desen arayışı, numunenin yapısı ve analiz edilen göstergelerin değerlerinin dağılım türü hakkındaki önsel varsayımlarla sınırlı olmayan yöntemler kullanılarak gerçekleştirilir. İncirde. Şekil 6.17, Veri Madenciliği teknolojisini kullanarak verilerin dönüştürülmesinin bir diyagramını göstermektedir.

Pirinç. 6.18.

Tüm tahmin sistemlerinin temeli, veri tabanında zaman serisi olarak saklanan geçmiş bilgilerdir. Hedef göstergelerin davranış dinamiklerini yeterince ortaya koyan örüntüler oluşturmak mümkün olduğundan sistemin davranışının geleceğe aktarılabilmesi mümkündür. İncirde. Şekil 6.18 Veri Madenciliği teknolojisindeki en son durgunluk döngüsünü göstermektedir.

Veri Madenciliği'nin önemli bir noktası da tartışılması gereken şablonların önemsiz olmamasıdır. Bu, bulunan kalıpların, Gizli Bilgi olarak adlandırılan, açık olmayan, beklenmedik veri düzenliliği sergilemekten suçlu olduğu anlamına gelir. İş adamları, "ham verilerin" derin bir bilgi katmanını ortaya çıkardığını ve uygun kazı ile rekabette kullanılabilecek ilgili külçelerin ortaya çıkarılabileceğini anlamaya başladı.

Veri Madenciliği alanı hiçbir şeyle sınırlı değildir; teknoloji, herhangi bir "ham" veri miktarının çok olduğu burada uygulanabilir!


Bizden önce Veri Madenciliği yöntemleri, veri ambarlarına (Veri Ambarı) dayalı projeler geliştiren ticari işletmeler tarafından kullanılıyordu. Birçok işletmeden elde edilen kanıtlar, Veri Madenciliğinden elde edilen getirilerin %1000'e ulaşabileceğini göstermektedir. 350 ila 750 bin arası koçan maliyeti aktarıldığında ekonomik etkisinin 10-70 kat arttığının bilincindeyiz. dolar Ve kendini 4 ayda amorti eden 20 milyon dolarlık projeye dair bilgiler. Başka bir popo - 700 bin nehir tasarrufu. Büyük Britanya'daki süpermarketlerden birinde Veri Madenciliği'nin geliştirilmesi için dolar.

Microsoft, Veri Madenciliği alanındaki faaliyetinin güçlendirildiğini resmi olarak duyurdu. Osama Fayyad'ın inandığı gibi Microsoft'tan özel bir takip grubu ve talep edilen altı ortak (Angoss, Datasage, Epiphany, SAS, Silicon Graphics, SPSS), Veri Madenciliği araçlarının entegre edilmesi için veri alışverişi standartları ve özellikleri geliştirmek üzere kapsamlı bir proje hazırlıyor. veritabanları ve koleksiyonlar.

Veri Madenciliği, uygulamalı istatistik, örüntü tanıma, yapay zeka yöntemleri, veri tabanı teorisi vb. temel alınarak geliştirilen multidisipliner bir alandır. (Şekil 6.19). Çeşitli çalışan Veri Madenciliği sistemlerinde uygulanan yöntem ve algoritmaların bir özeti. [Dük V.A. www.inftech.webservis.ru/it/datamining/ar2.html]. Bu tür sistemlere entegre olmanın birçok yolu vardır. Diyelim ki Prote, cilt sisteminin ana amacından sorumlu olan önemli bir bileşeni var.

Diğer Veri Madenciliği yöntemlerinin arkasında görünen beş standart model türü vardır: ilişkilendirme, sıralama, sınıflandırma, kümeleme ve tahmin.

Pirinç. 6.19. Veri Madenciliği teknolojisinin durgunluk alanları

Birçoğu birbiriyle bağlantılı olduğundan dernek her zaman gerçekleşir. Örneğin bir bilgisayar süpermarketinde yapılan bir araştırma, satın alınan bilgisayarların %55'inde yazıcı veya tarayıcının da bulunduğunu ve böyle bir sette indirim olması nedeniyle yazıcıyı alanların %80'inin satın aldığını gösterebilir. Yazıcı. Yöneticiler böyle bir ilişkiye dair mevcut bilgileri sayesinde ne kadar bir azalma beklendiğini kolaylıkla değerlendirebilirler.

Mızrak günün her saatinde örüldüğüne göre tutarlılıktan bahsediyoruz. Örneğin, yeni ev sahiplerinin %45'i bir kabin satın aldıktan sonra bir ay içinde yeni bir soba satın alıyor ve iki yıl arasında yeni ev sahiplerinin %60'ı buzdolabı alıyor.

Bu sınıflandırmanın ardından başka bir nesneyle ilişkili olan grubu karakterize eden işaretler ortaya çıkar. Halihazırda sınıflandırılmış nesneleri analiz etmek ve belirli bir dizi kural oluşturmak önemlidir.

Kümeleme, grupların daha fazla belirtilmemesi nedeniyle sınıflandırmadan ayrılır. Ek kümelemenin yardımıyla Veri Madenciliği bağımsız olarak farklı benzer veri gruplarını görür.