Veri analizinin boyutunu küçültme yöntemleri. Küçültülmüş boyut · Loginom Wiki. “İstatistiksel verilerin boyutunu küçültme yöntemleri” konulu bilimsel makalenin metni

  • İstatistikte, makine tabanlı bilgi teorisinde, boyutluluğun azaltılması, verinin dönüştürülmesini içerir, bu da değişiklik sayısında, ana değişikliklerden uzaklaşacak şekilde bir değişikliğe yol açar. Dönüşüm, bir burcu seçmeye ve bir burcu görmeye bölünebilir.

Po'yazani anlıyor

Edebiyattaki gizemler

– girdi verilerinin önemli olması ve yeniden işlenmesi, – uyarıcı materyallerin manuel ve otomatik olarak düzenlenmesi (görünür ilgi alanları), – saldırganın tepki matrisini hesaplamak için algoritma, – gerekli girdi değişikliklerinin değerlerini içeren genişletilmiş bir veri tablosunun oluşturulması ileri analiz alizu, – yöntem boyutta azalma boşluk işareti (temel bileşen yöntemi), - yorumlanan bileşenlerin seçimi için bileşen hususlarının görselleştirilmesi, - bir karar ağacının başlatılması için algoritma, - bir ağacın aktarılan kapasitesinin değerlendirilmesi için algoritma, - bir karar ağacının görselleştirilmesi.

Po'yazani anlayışı (devam)

Spektral kümeleme teknikleri vikorist spektrumun (ıslak değerler) matris benzerlik verilerinin daha düşük boyutlu uzaylarda kümelenmeden önce boyutsallığın azaltılmasının uygulanması. Benzerlik matrisi bir girdi olarak sağlanır ve bir çift veri noktasının dış görünüş benzerliğine ilişkin bir dizi tahminden oluşur.

Spektral yöntemler, çeşitli diferansiyel denklemlerin sayısal çözümü için uygulamalı matematikte kullanılan ve Schwidke'nin Four's dönüşümüne kadar izlenebilen bir teknikler sınıfıdır. Buradaki fikir, diferansiyel denklemleri belirli "temel fonksiyonların" toplamı olarak numaralandırmak (örneğin, Fourier serisi sinüzoidlerin toplamıdır) ve ardından diferansiyel denklemi mümkün olduğu kadar karşılamak için toplamdan katsayılar seçmektir.

Matematiksel analiz (klasik matematiksel analiz), diferansiyel ve integral hesabı da içeren, "sonsuz derecede küçüklerin analizi" adı verilen tarihsel dalına karşılık gelen bir dizi matematik dalıdır.

Diferansiyel evrim (İngilizce: diferansiyel evrim), stokastik optimizasyon algoritmaları (bir dizi rastgele sayı üzerinde çalışan) ve vikory işlemleri sınıfına giren çok çeşitli matematiksel optimizasyon yöntemidir. bunlardan değiştirilmiş kodla çalışmayı gerektirmez.

Ayrık elemanlar yöntemi (DEM, İngilizce Ayrık elemanlar yönteminden), moleküller, taneler, çakıl, çakıl taşları ve diğer granüler maddeler gibi çok sayıda parçacığın parçalanması için kullanılan bir sayısal yöntemler ailesidir. Yöntem, kaya kayalarının mekaniğini geliştirmek için 1971'de Cundall stazasyonunun başlangıcından beri kullanıldı.

Meta araştırma:

Kararlılıklarını ve pratik tanınmalarını (tanımlama) optimize etmek için verilerin boyutluluğunu değiştirmeye yönelik yöntemlerin etkinliğinin değerlendirilmesi.

Soruşturma departmanı:

1. Veri boyutunu değiştirmeye yönelik diğer yöntemler hakkında literatüre bir bakış.

2. Sınıflandırma problemlerinde pratikte geçerli olan, verilerin boyutluluğunu değiştirmeye yönelik algoritmaların etkinliğini eşitlemek için araştırma (deneyler) yapmak

Araştırma yöntemleri (yazılım özellikleri):

C++ programlama dili, OpenCV kütüphanesi

Yüksek boyutlu bir insanın verilerini anlamak önemlidir ve bazen zahmetlidir. Bununla bağlantılı olarak, büyük ölçekli bir seçimden küçük boyutlu verilere geçmek, böylece "onlara hayran kalabilmek", bunları değerlendirmek ve analiz etmek, ayrıca tanıma görevine ulaşmak oldukça mantıklı hale geldi. Hassasiyete ek olarak, boyuttaki değişiklik, bilgi toplama sırasında istatistiksel analiz için önemli olan faktörlerin (bilginin) azaltılmasına, parametre tahminlerinin ve alt bölümlerin özelliklerinin dağılımının arttırılmasına olanak tanır.

Yeniden boyutlandırma, büyük boyutlu çıktı verilerinin, ana bilgileri kaydeden daha küçük boyutlu yeni bir veriye dönüştürülmesi işlemidir. İdeal durumda, dönüştürülen olgunun boyutu verinin iç boyutunu yansıtır. Verinin iç boyutu, verinin olası tüm güçlerini tanımlamak için gerekli olan minimum değişiklik sayısıdır. Kısa bir veri kümesine dayanarak oluşturulan analitik bir model, işleme ve uygulama açısından daha basit olabilirken, daha düşük model, çıktı kümesinde oluşturulur.

Boyutları azaltmak için bir yöntem seçmeye ilişkin kararlar, analizin özellikleri ve elde edilen sonuçlar hakkındaki bilgilerin yanı sıra zaman ve hesaplama kaynaklarının paylaşımına da dayanır. Literatür incelemelerine göre, boyut azaltma için en yaygın kullanılan yöntemler arasında Temel Bileşen Analizi (PCA), Bağımsız Bileşen Analizi (ICA) ve Tekil Değer Ayrışımı (SVD) yer almaktadır.

Temel Bileşen Analizi (PCA) - Veri boyutunu değiştirmenin en basit yolu. Yeniden tasarlanan bir işaret, verilen sınıflandırmadaki verilerin boyutu değiştiğinde yaygın olarak kullanılacaktır. Öngörülen verileri, matrisin güç vektörleri ve güç sayıları tarafından belirlenen daha küçük boyutlu yeni bir koordinat sistemine dayandırma yöntemi. Matematik açısından bakıldığında baş bileşenler yöntemi dik doğrusal bir dönüşümdür.

Yöntemin ana fikri, varyansı en aza indirerek verilerin kovaryans matrisinin değerlerini ve vektörlerini hesaplamaktır. Kovaryans matrisi, dağılımların birbirine yaklaşık yüzde yüz değerine göre hesaplanır. İki fazlı niceliklerin (boyutların) kovaryansı – doğrusal konumlarının dünyası:

de – X değişken değerinin matematiksel hesaplanması, – Y değişken değerinin matematiksel hesaplanması. Formül (1)’i şu şekilde de yazabiliriz:

X'in ortası nerede, Y'nin ortası nerede, N verinin boyutudur.

Vektörler ve sayılar hesaplandıktan sonra değerleri azalan şekilde sıralanır. Yani bileşenler azalan önem sırasına göre sıralanmıştır. En yüksek güç sayısına sahip güç vektörü veri setinin önde gelen bileşenidir. Ana bileşenler, sıralanmış ağırlık değerlerinde vektörlerinden birden fazla satır halinde görünür. En küçük boyutun optimal uzayını bulmak için, çıktı veri seti arasındaki minimum farkı belirlemek ve bir sonraki kriteri çıkarmak için formül (3) kullanılır:

burada P yeni alanın boyutudur, N çıkış örneğinin boyutudur, güç sayısıdır, sınır değeridir. İşlem sırasında algoritma, MP verilerini içeren matrisi alır, onu MN ile doğrusal olarak dönüştürür, ardından PCA, tahmin fonksiyonunu en aza indiren M'nin doğrusal bir temsilini bulur:

de – Noktalar arasındaki Öklid uzaklığı ve , – Noktalar arasındaki Öklid uzaklığı ve , , . Değerlendirme fonksiyonunun minimum değeri, Gram matrisinin spektral ayrışımının grafiğini çizerek ve matrisin güç vektörlerini farklı güç sayılarının köküyle çarparak hesaplanabilir.

Bağımsız bileşenlerin analizi ( ICA ) , PCA'yı yönetmek için - yeni bir tane ekleyin, aksi takdirde yöntem hızla popülerlik kazanıyor. Verilerin istatistiksel olarak mümkün olduğu kadar bağımsız ve birbirine dik olması gerekmeyen yeni bileşenlere doğrusal olarak dönüştürülmesi fikrine dayanmaktadır. Bu robotu takip etmek için istatistiklerde açıklandığı gibi FastICa algoritması seçildi. Bu yöntemin ana görevleri ortalamak (verinin ortasını seçmek) ve “bölmek” (xy vektörünün ilişkisiz koordinatlarla doğrusal dönüşümü, dağılımı hangi birimlerdir).

FastICA'daki bağımsızlık kriteri Gausian değildir ve bu, ek bir aşırılık katsayısı olarak kabul edilir:

Gauss dalga formları için bu değer sıfıra eşittir, dolayısıyla FastICA değerlerini maksimuma çıkarır. Veriler “geçerli” olduğundan, “geçerli” verilerin kovaryasyon matrisi tek bir matristir.

Benzer bir yeniden yaratma her zamankinden daha mümkün. Kovaryans matrisinin vikoristik spektral ayrışmasını "parlatmanın" popüler yöntemi De, güç vektörlerinin ortogonal bir matrisidir ve güç sayılarının diyagonal bir matrisidir. Bir bakışta "kaldırmanın" mümkün olduğunu görebilirsiniz:

matrisin bileşen bazında bir işlemle hesaplandığı yer:

Deney

Profil oluşturma yöntemlerinin deneysel takibi için diziler CASIA GAIT veri tabanından çerçevelendi. Taban, zaten çökmekte olan görünür nesneleri gösteren video dizisinin çevredeki karelerine karşılık gelen ikili görüntü dizilerini içerir.

Çok sayıda video dizisinden, açıların 90 derece olduğu, insanların kışlık olmayan kıyafetlerle ve çantasız olarak tasvir edildiği 15 sınıf rastgele seçilmiştir. Cilt sınıfında 6 dizi vardı. Dış görünüm dizisinin toplam uzunluğu 60 kareden az oldu. Sınıflar, 3 cilt sekansına göre başlangıç ​​ve test numunelerine bölündü.

İşaretler, Destek Vektör Makineleri (SVM) olan bir sınıflandırıcı geliştirmek için PCA ve ICA yöntemlerinin bir sonucu olarak çıkarıldı.

Yöntemin etkinliğini değerlendirmek için, doğru sınıflandırılmış nesnelerin oranı olarak belirlenen sınıflandırmanın doğruluğu değerlendirildi. Deney saatinde start ve test modunda geçirilen saat de kaydedildi.

Şekil 1. a) Temel Bileşen Analizi (PCA) b) Bağımsız bileşen yöntemi (ICA)

Şekil 1(a, b), dönüşümden sonra çıktı boyutu verilerinin sınıflandırılmasının doğruluğunu göstermektedir. Bileşen sayısı arttıkça PCA sınıflandırma doğruluğunun önemsiz derecede değiştiği, ICA değişkenleri için ise küçük bir değerden başlayarak doğruluğun düşmeye başladığı görülmektedir.

Şekil 2. Bileşen sayısına göre sınıflandırma süresi A) PCA , B) ICA

Şekil 2(a,b), PCA ve ICA bileşenlerinin sayısına göre sınıflandırmanın önemini göstermektedir. Her iki türün boyutundaki artışa kesme süresindeki doğrusal bir artış da eşlik etti. Grafikler, SVM sınıflandırıcısının, temel bileşen yöntemini (PCA) kullanarak boyut azaltma işleminden sonra daha iyi performans gösterdiğini göstermektedir.

Verilen sınıflandırma için yüksek sonuçlar elde etmek amacıyla Temel Bileşen Analizi (PCA), Bağımsız Bileşen Analizi (ICA) yöntemleri kullanıldı. Bu veriler ve katlama yapısı ile bu yöntemler her zaman istenilen sonuca ulaşmanıza olanak sağlamayacaktır. Bu nedenle, veri yapısının korunmasına olanak tanıyan, çeşitlilik tablosu üzerinde veri projeksiyonu oluşturan yerel doğrusal olmayan yöntemlere giderek daha fazla önem verilmektedir.

Şu anda hem bir işaret açıklamasını formüle etmek için kullanılabilecek algoritmaların listesini hem de test edilebilecek sınıflandırma yöntemlerinin listesini genişletmeyi planlıyoruz. Bir diğer önemli doğrudan takip ise işlem süresinin kısaltılmasıdır.

Referans listesi:

  1. Jolliffe, I.T., Temel Bileşen Analizi, Springer, 2002
  2. Hyvärinen ve Erkki Oja, Bağımsız Bileşen Analizi: Algoritmalar ve Uygulamalar, Sinir Ağları, 13, 2000
  3. Josiński, H. İnsan Tanımlaması Amacıyla Yürüyüş Video Dizilerinin Özellik Çıkarımı ve HMM Tabanlı Sınıflandırılması/ Springer, 2013 - Cilt 481.

Bölüm 13. KURŞUN BİLEŞENLERİN YÖNTEMİ

13.1. Boyut küçültme probleminin özü ve farklı yöntemler ve bunların en iyi sonuçları

Önceki ve pratik istatistiksel çalışmalar, birçok nesnenin (ülkeler, yerler, işletmeler, aileler, teknik ve çevresel sistemlerdeki hastalar) derisi üzerinde çok sayıda işaretin kayıtlı olduğu durumlarla uğraşmak zorundaydı; hatta yüzlerce veya daha fazla. . Görünen ihtiyat bolluğuna karşı

İstatistiksel analizleri gönderdikten sonra, gerekli anda düzeltilebilmeleri için anlayın ve veritabanına gönderin.

Önemli ölçüde daha az sayıda bileşenden çeşitli ek göstergelerin Z vektörü formundaki cilt bakımının (13.1) önemli istatistikleri, öncelikle aşağıdaki nedenlerden kaynaklanmaktadır:

özel olarak seçilmiş üç boyutlu uzay, alan ve sayı doğrusuna yönelik tasarımlarına uygulanan çıktı verilerinin (13.1) çevrimiçi sunumu (görselleştirme) ihtiyacı (bu tür görevler bölüm IV'e ayrılmıştır);

İstatistiksel bulguların tasarımını ve yorumlanmasını basitleştirme ihtiyacından yola çıkarak araştırma modellerinin özlülüğüne odaklanma;

(13.1) tipindeki dizilerin özel bir veritabanına kaydedilmesinin kaydını gerektiren, kaydedilen istatistiksel bilgilerin yükümlülüklerinde (bilgi içeriğinde gözle görülür kayıplar olmadan) acil bir azalma ihtiyacı.

Bu durumda, çıktılar arasından yeni (ek) işaretler seçilebilir veya bazı kurallara göre çıktı karakterlerinin toplamına, örneğin bunların doğrusal kombinasyonları olarak atanabilir. Yeni bir sistem oluştururken, gösterge yine de en büyük bilgi içeriği (şarkıcının anlamında), karşılıklı korelasyonsuzluk, çıktı verilerinin kişiliksizliğinin geometrik yapısıyla en az çelişki vb. gibi çeşitli avantajlar sunar. bu vmog'un resmi olarak belirtilmesi seçeneği (aşağıdaki bölüm ve ayrıca bölüm IV), boyutluluğu azaltmaya yönelik başka bir algoritmadan önce gelir. Ve en azından, analiz edilen sistemin çok sayıda çıktı göstergesinden (davranışlar, operasyonel verimlilik) önemli ölçüde daha az sayıda sonuca geçiş olasılığını temsil eden üç ana önemli fikir değişikliği türü. Daha bilgilendirici değişiklikler. Bu, her şeyden önce, birbirine oldukça bağımlı işaretler tarafından iletilen bilgilerin kopyalanmasıdır; başka bir deyişle, bir nesneden diğerine geçerken çok az değişen işaretin bilgilendirici olmaması (işaretin "değişkenliği" küçüktür); üçüncüsü, belirli işaretlerin arkasında hem basit hem de "önemli" bir değerlendirmenin toplanma olasılığı.

Resmi olarak, yeni bir dizi işarete geçiş görevi (minimum bilgi içeriği kaybıyla) önümüzdeki sırada açıklanabilir. Öyle olsun - çıktı değişkenlerinin r-sanal vektör fonksiyonunun eylemi ve bırak gitsin - bilgi içeriği dünyası - dünya sistemi - çıktı dizisinde, çıktı imzalarından önce bir işaret var; ve dış bilgi içeriği kriteri, bu dizide yer alan bilgilerin diğer (harici) göstergelerle karşılaştırıldığında “etkisini” en üst düzeye çıkarma amacı.

Böyle bir kümeye atanan değer, çıkış göstergelerinin izin verilen dönüşümlerinin F sınıfında bulunan Z işaretine sahiptir.

İfadenin değerini (bu, belirli bir bilgi içeriği seçimi anlamına gelir) ve izin verilen dönüşümlerin sınıfını belirlemek için başka bir seçenek, belirli bir boyut azaltma yöntemine indirgemektir: temel bileşenler yöntemi, faktör analizi, aşırı gruplandırma yöntemi. parametreler vb.

Fiyatını izmarit üzerinden açıklayalım.

13.1.1. Temel bileşen yöntemi (böl. § 13.2-§ 13.6).

İzin verilen dönüşümlerin sınıfı F, çıktı göstergelerinin tüm doğrusal ortogonal normlu kombinasyonları anlamına geldiğinden, ilk ana bileşenler bir takip alacaktır.

(burada) - matematiksel analiz ve bilgi içeriği dünyası olarak - dünya çapında bir virüs göstergeleri sistemi

(Burada D, daha önce olduğu gibi, belirli bir düşme değerinin dağılımını hesaplama işleminin işaretidir).

13.1.2. Faktör analizi (bölüm 14).

Görünüşe göre (Böl. § 14.1), faktör analizi modeli çıktı göstergeleri arasındaki bağlantıların yapısını açıklamaktadır, böylece onların derilerinin davranışları istatistiksel olarak aynı grup gizli görevliye aittir.

de – gizli faktörün çıktı göstergesi üzerindeki “etkisi” – Zalishkov'un “özel” bileşeni ve – ikili korelasyonsuz.

Görünüşe göre F, bilmecelerin çözümünden elde edilen tüm doğrusal kombinasyonların sınıfının bilgi içeriği dünyasına nasıl bölündüğünü belirliyor - dünya çapında bir göstergeler sistemi, değeri seçme ve optimizasyon problemini çözme ( 13.2) gizli vektörden kaçınır Faktör analizi modelinde faktörler. İşte çıktı göstergelerinin korelasyon matrisi; göstergelerin korelasyon matrisi A matrisinin Öklid normudur.

13.1.3. İşaretlerin aşırı gruplandırılması yöntemi (böl. 14.2.1).

Bu yöntem, belirli sayıdaki gruplara ilişkin çıktı göstergelerinin toplamının böyle bir dökümünü içerir, böylece bir gruba ait olan işaretler güçlü bir şekilde ilişkilendirilirken, farklı gruplara ait olan işaretler zayıf bir şekilde ilişkilendirilir. Aynı zamanda, birbiriyle yüksek derecede ilişkili çıktı göstergelerinin cilt grubunu, doğal olarak kendi grubunun işaretleriyle yakın bir korelasyondan sorumlu olan ek bir "eşdeğer" gösterge ile değiştirme eğilimi vardır. F çıkış göstergelerinin kabul edilebilir dönüşümlerinin bir sınıfı olarak tanımlanan, tüm normalleştirilmiş doğrusal kombinasyonlar, maksimuma çıkarma (S ve ) işlevselliğini çözmek için aranır.

de - değişkenler arasındaki korelasyon katsayısı.

13.1.4. Bagatomirne ölçeği (bölüm 16).

Bir dizi durumda ve en önemlisi, çıktı istatistiksel verilerinin özel testler, anketler, uzman değerlendirmeleri, olası varyasyonlar kullanılarak toplandığı durumlarda, birincil dikkat unsurunun bir vektör olarak yazılan nesnenin durumu olduğu durumlarda ve iki nesnenin (veya sembolün) ikili yakınlığının (mesafesinin) karakteristiği sayılara bölünmüştür

Bu durumda, araştırmacı, (nesnelerin ikili yakınlığının özelliklerine bakan) veya (işaretlerin ikili yakınlığının özelliklerine bakan) bir boyut matrisine sahip bir çıktı istatistiksel veri dizisidir.

Değerlerin ya nesneler (işaretler) arasındaki bölünmeler olarak ya da bu bölümlerin sırasını belirleyen sıralar olarak yorumlandığı yer. Zengin dünyevi ölçeklendirmenin amacı, nesnelerimizin (işaretlerimizin) bu kadar dünyevi bir genişliğe "dahil olduğu" gerçeğinde yatmaktadır, böylece koordinat eksenlerini seçiyoruz, böylece analiz edilen nokta nesnelerinin bütünlüğünün ortaya çıkan geometrik konfigürasyonu ( veya nokta işaretleri), yardım görevleri (13.1) veya (13.5), karşılıklı ikili gelişmelerin orta "yaradılış aşaması"nın duyusal kriterinin en az etkili olduğu görülmektedir.

Zengin ölçeklendirmenin en önemli şemalarından biri şu kritere göre belirlenir:

nerede - uzaydaki nesneler arasında durmak, - daha küçük boyutlardaki aynı alandaki bu nesneler arasında durmak - serbest parametreler, belirli değerlerin seçimi araştırmacının takdirine göre gerçekleştirilir.

Aranan Z işareti kümesinin bilgi içeriği dünyası için önemli, örneğin bir değer olarak, bilinen bir değere sarılmış, çıktı noktaları kümesinin geometrik yapısının oluşturulması aşaması, son ayara indirgenmiş (13.2), önemlidir

13.1.5. Ayırt edici analiz modellerinden en bilgilendirici göstergelerin seçimi (bölüm § 1.4; 2.5).

Telefon sisteminin otomatik bilgi içeriğine daha fazla işlevsellik kazandırın. Dış bilgi içeriğine ilişkin kriterlerin uygulanmasına bakalım. Açık olmak gerekirse, göstergeler sisteminin bilgilendiriciliğini, diskriminant analizi şemasında bu göstergelerin arkasındaki nesnelerin sınıflandırılmasının doğruluğu açısından değerlendirebiliriz. İzin verilen dönüşümlerin bu sınıfında F önemlidir ve bu yalnızca bir dizi çıktı ekranının temsilcileri tarafından görülebilir.

Çıktı kümesinden en bilgilendirici göstergeleri belirlemek için sonucu genişletelim ve belirli bir boyuttaki göstergelerin vektörünün daha bilgilendirici olduğunu ve dikkate alınan görev için farklı sınıflarda belirlenen bu homojen bölümün yasalarının daha fazla geçerliliği olduğunu doğrulayalım. sınıflandırma. İşaret vektörünün güçlü yönlerinin sayılarla sınıflara dağılımını tanımlayan ikili yasalar dünyasını tanıttığımızda, akıldan en bilgilendirici göstergelerin seçilmesine ilişkin daha genel bir ilke kullanarak yönergeleri resmileştirebiliriz.

En büyük anlaşmaya, hem bilgi türü (Kulbak'ın modeli, Mahalanobis'in modeli) hem de çeşitlilik (bu bölümle ilgili rapor .

13.1.6. Regresyon modellerindeki en bilgilendirici değişikliklerin seçimi (böl.).

Gerileyen tipte vakalar olduğunda, merkezi olanlardan biri, eşit derecede az sayıda değiştirilebilir olanın beslenme kanıtıdır (sonuçtaki sonuç işaretinin davranışı üzerindeki en doğru etkinin önsel kümesi için).

Dolayısıyla, ilk paragrafta olduğu gibi, F sınıfı, çeşitli faktör argümanlarından elde edilen çeşitli değişken seçim kümelerinden oluşur ve belki de böyle bir kümenin dış bilgi içeriği kriterine dayanır iv. Bu tür, ek çoklu belirleme katsayısı ile belirlenir - gösterge ile değişkenler kümesi arasındaki bağlantının sertlik derecesinin özellikleri. Bu durumda, değişkenler kümesinin sabit bir boyutu için, maksimum açıkça şu olacaktır: Bilgi içeriği dünyasında önemli olan bilgilendirici (göstergenin davranış tanımının doğruluğu açısından) dikkate alınır. Bu noktada işe alım maksimuma ulaşır.

Derinin birçok istatistiksel analizinde bir nesne, boyutu yeterli (veya tüm nesneler için aynı) bir vektörle tanımlanır. Prote insanlar hem sayısal verileri hem de düzlem üzerindeki noktaları kolaylıkla kavrayabilirler. Önemsiz bir alanda biriken noktaları analiz etmek zaten çok daha karmaşık. Büyük boyutlardaki verileri tam anlamıyla kavramak mümkün değildir. Bu nedenle, "hayranlık duyabilmek" için büyük ölçekli bir seçimden küçük boyutlu verilere geçmek tamamen doğaldır.

Vurguya ek olarak, boyutu küçültmenin başka nedenleri de var. Yatması muhtemel yetkililerin istatistiksel analizlere saygısı yok. Her şeyden önce onlar hakkında bilgi toplamak kaynak israfına neden olur. Başka bir deyişle, çıkarabileceğimiz gibi, bunların analize dahil edilmesi istatistiksel prosedürlerin gücünü azaltır (kısacası, parametre tahminlerinin ve bölümlerin özelliklerinin daha büyük bir dağılımı). Bu nedenle bu tür faktörlerden kaçınmak gerekir.

Boyuttaki azalmayı göz önünde bulundurarak, bölüm 3.2.3'te ele alınan satış tahmini için regresyon analizinin uygulanmasını tartışalım. Birincisi, uygulaması bağımsız değişkenlerin sayısını 17'den 12'ye düşürmeyi başardı. Aksi takdirde, diğer tüm satırlardan daha kısa olan, tahmin edilen 12 faktörden oluşan doğrusal bir fonksiyon olan yeni bir faktör oluşturmak mümkündü. Faktörlerin bu kombinasyonu satışları öngörüyor hacim. Dolayısıyla sonuç olarak arz büyüklüğünün 18'den 2'ye değiştiği söylenebilir. Zokrem, bir bağımsız faktörü (alt bölüm 3.2.3 doğrusal kombinasyonda tanıtılmıştır) kaybetmiş ve bir eski faktörü - satışı zorunlu kılmıştır.

Çok sayıda veriyi analiz ederken, yalnızca bir tanesine değil, kişisel olmayan bir komuta, yakından, farklı seçilmiş bağımsız ve bayat değişikliklere baktığınızdan emin olun. Bu nedenle mevcut formüldeki boyut küçültmeye bakalım. Dünyanın zengin bir seçkisi var. Mümkünse verilerin içerdiği bilgileri kaybetmeden, çıktı verilerinin yapısını mümkün olduğunca koruyarak en küçük boyutlu bir vektör kümesine geçmek gerekir. Tasarım, boyutun azaltılmasına yönelik özel bir yöntem kullanılarak cildin sınırlarında belirlenir.

Ana bileşen yöntemi Boyut küçültmede en sık kullanılan yöntemlerden biridir. Ana fikir, verilerin en büyük dağılıma sahip olabileceği ardışık olarak belirlenen yönlerde yatmaktadır. Seçimin vektörlerden oluşmasına ancak vektörden ayrılmasına izin verin X = (X(1), X(2), … , X(N)). Doğrusal kombinasyonlara bir göz atalım

e(λ(1), λ(2), …, λ( N)) = λ(1) X(1) + λ(2) X(2) + … + λ( N)X(N),

λ 2 (1) + λ 2 (2) + …+ λ 2 ( N) = 1.

Burada λ = (λ(1), λ(2), …, λ( vektörü N)) tek bir küre üzerinde uzanır N-huzurlu alan.

O halde ana bileşenler yönteminde doğrudan maksimum dağılımı bilmemiz gerekir. ayrıca λ, düşme değerinin dağılımının maksimuma ulaştığı nokta e(λ) = e(λ(1), λ(2), …, λ( N)). O halde λ vektörü ilk baş bileşeni anlamına gelir ve değer e(λ) düşme vektörünün izdüşümüdür X tüm ilk kafa bileşenleri için.

Daha sonra doğrusal cebir terimlerini kullanarak hiperdüzleme bakıyoruz. N- ilk kafa bileşenine dik huzurlu bir alan ve seçimin tüm öğelerini bu hiper düzleme yansıtın. Hiperdüzlemin boyutu, çıkış alanının alt boyutu olan 1 minsha'dır.

Analiz edilen hiperdüzlem için prosedür tekrarlanır. Kimse en büyük anlaşmayı bilmiyor, hepsi bu. arkadaşının kafa bileşeni. Daha sonra ilk iki ana bileşene dik olan bir hiperdüzlem görülür. Boyutu 2 kat daha küçüktür, alt boyut çıkış alanının boyutudur. Sonraki yineleme başlar.

Lineer cebir açısından Pobudov'un yeni temelinden bahsediyoruz N- ana bileşenleri olan huzurlu alan.

Yeni kafa bileşeninin kaplamasını belirten dağılım, ön kısım için daha az, daha az. Görevler için yeterince bilgi alamadıklarında kekelemeye başlarlar. Ne seçilir k ana bileşenler, yani N- barışçıl genişliğe gitmesine izin verildi k- o zaman huzurlu. boyut kısalığı N-önce k, çıktı verilerinin yapısını değiştirmeden pratik olarak .

Verilerin görsel analizi için, çıkış vektörlerinin ilk iki ana bileşenin alanına projeksiyonları sıklıkla kullanılır. Verilerin yapısı açıkça görülebildiğinde, açıkça görülebilen kompakt nesne ve vektör kümeleri ortaya çıkar.

Baş bileşen yöntemi yöntemlerden biridir. faktor analizi. Çeşitli faktör analizi algoritmaları, hepsinin çıktıda yeni bir temele geçiş gerektirmesi gerçeğiyle birleşiyor N-huzurlu alan. “Faktörün etkisi” kavramı, şarkı vektörünün oluşumunda çıktı faktörünün (değişim faktörü) rolünü yeni bir temelden tanımlamak için kullanıldığından önemlidir.

Baş bileşenler yöntemine karşı yeni bir fikir, görevli gruplarının geliştirilmesinin temelde önemli olduğudur. Faktörler tek bir grupta birleşecek ve yeni temelin unsurları üzerinde benzer bir akış belirecek. Daha sonra cilt grubundan bir temsilcinin çıkarılması önerilir. Bazen bir temsilci seçmek yerine, görülen, grubun merkezinde yer alan yeni bir faktör oluşturulur. Yetkililer ve grup temsilcileri sistemine geçişle birlikte boyutta bir azalma bekleniyor. Diğer yetkililer pes ediyor.

Açıklanan prosedür yalnızca faktör analizi yardımıyla geliştirilemez. İşaretlerin (yetkililerin, öne çıkanların) küme analizinden bahsediyoruz. Grup işaretini çözümlemek için farklı küme analizi algoritmalarını kullanabilirsiniz. İşaretler arasındaki mesafeyi (yakınlık, hareketlilik göstergesi) girmeniz yeterlidir. Hadi gidelim Xі sen– iki işaret. Vіdmіnnіst D(X, e) ek örnek korelasyon katsayılarını kullanarak aralarında hesaplama yapabilirsiniz:

D 1 (X, Y) = 1 – r n(X, Y), D 2 (X, Y) = 1 - ρ N(X, Y),

de r n(X, e) – örnek doğrusal Pearson korelasyon katsayısı, ρ N(X, e) - Spearman sıra korelasyonunun örnek katsayısı.

Zengin dünya ölçeği. Diğer tarafta (yakınlık dünyası, önem gösterileri) D(X, e) işaretler arasında Xі sen zengin ölçekli ölçeklendirme yöntemlerinin büyük bir sınıfının temelleri. Bu yöntem sınıfının ana fikri, deri nesnesini, koordinatları birlikte var olan (gizli) faktörlerin önemi olarak hizmet eden geometrik uzayın bir noktası olarak tanımlamaktır (boyut 1, 2 veya 3'ü hesaplayın). Nesneyi yeterince tanımlayabilir. Bu durumda, nesneler arasındaki çizgiler, noktaların temsilcileri arasındaki çizgilerle değiştirilir. Yani nesnelerin benzerliğiyle ilgili veriler - noktalar arasındaki mesafeler, üstünlükle ilgili veriler - noktaların karşılıklı dönüşü.

Uygulamada çok çeşitli ölçeklerde çok sayıda farklı model bulunmaktadır. Hepsi faktör uzayının gerçek boyutunu değerlendirme sorunuyla karşı karşıyadır. Bu soruna, metrik ölçeklendirme kullanarak nesnelerin benzerliğine ilişkin verilerin işlenmesi bağlamında bakalım.

Bırak gitsin N nesneler Hakkında(1), Hakkında(2), …, Ö(N), nesnelerin dış görünüm çiftleri için Hakkında(Ben), Ö(J) benzerliklerinin dünyası belirtilmiştir S(Ben, J). Öncelikle bunu takdir ediyoruz S(Ben, J) = S(J, Ben). Sayı atlamalı S(Ben, J) robotik algoritmayı tanımlamak açısından hiçbir önemi yoktur. Koku, doğrudan yok etme yoluyla veya farklı uzmanlar kullanılarak veya tanımlayıcı özelliklerin toplamı hesaplanarak veya başka şekilde giderilebilirdi.

Öklidyen genişlikte görülebilir N nesneler konfigürasyonla temsil edilebilir N nokta ve temsili noktaların yakınlığı dünyası olarak Öklid çizgisi ortaya çıkıyor D(Ben, J) farklı noktalar arasında. Nesneler kümesi ile onları temsil eden noktalar kümesi arasındaki benzerlik derecesi, benzerlik matrisinin oluşturulma şekliyle gösterilir || S(Ben, J)|| ve kalk || D(Ben, J)||. Metrik benzerlik işlevi şuna benzer:

Geometrik konfigürasyon, S işlevselliğinin en düşük değerine ulaşacağı şekilde seçilmelidir.

Saygı. Metrik olmayan bir ölçekte, yaklaşımların kendilerinin yakınlığı, yakınlık ve görünümler yerine, yakınlığın, yakınlığa yaklaşımların yokluğu ve diğer görünümlerin yokluğuna göre sıralandığı görülmektedir. İşlevselliğin yerine S Spearman ve Kendal sıra korelasyon katsayılarının analogları kullanılır. Başka bir deyişle metrik olmayan ölçek, dünyanın sıralı ölçeğe yakın olduğu varsayımından ortaya çıkmaktadır.

Öklid genişliğinin boyutları olsun M. Kesimin orta karesinin minimumuna bir göz atalım

,

En azından olası tüm konfigürasyonları üstlenin N işaret etmek M-Huzurlu Öklid bölgesine Herhangi bir konfigürasyonla minimum analizin elde edilebileceği gösterilebilir. Büyümeyle birlikte açıkça görülüyor ki Mα m'nin değeri monoton olarak değişir (daha doğrusu artmaz). ne olduğunu gösterebilir misin M > N- 1 won 0'a eşittir (olduğu gibi) S(Ben, J) – metrik). Yerel yorumlama olanaklarını arttırmak için belki de en küçük boyutlardaki bir alanda faaliyet göstermek önemlidir. Ancak boyutların, noktaların nesneleri çok fazla kafa karışıklığı yaratmadan temsil edecek şekilde seçilmesi gerekir. Sorun beslenmedir: O halde boyutun en uygun şekilde nasıl seçileceği. doğal sayı M?

Verilerin deterministik analizi arasında beslenmeye, şarkıya dair hiçbir iz bulunmuyor. Bu nedenle α m davranışının bu ve diğer uluslararası modellerden öğrenilmesi gerekmektedir. Dünyanın yakın olduğu yer S(Ben, J) bölümleri "gerçek boyut" içinde yer alan değişken değerlerdir M 0 (ve muhtemelen herhangi bir parametreye bağlı olarak), o zaman kendi tahminlerinizi klasik matematiksel-istatistik tarzında belirleyebilirsiniz. M 0, olası derecelendirmeleri vb. arayın.

Kesinlikle daha yenilikçi modeller olacak. Öklid boyut uzayında nesnelerin benekli olması kabul edilebilir. k, de k bisikleti bitir. “Doğru boyutu” eski olanlar M 0, tüm noktaların boyutun hiperdüzleminde olduğu anlamına gelir M 0. Görüntülenen noktaların toplamının, σ 2 (0) dağılımlı dairesel normal dağılımdan bir seçim olduğu önem açısından kabul edilir. Bu şu anlama gelir: nesne Hakkında(1), Hakkında(2), …, Ö(N) є müştereken bağımsız ve düşme vektörleri, bunların her biri ζ(1) gibi olacaktır e(1) + ζ(2) e(2) + … + ζ( M 0)e(M 0), de e(1), e(2), … , e(M 0) – alt uzay boyutunun ortonormal temeli M 0 , burada bakılan noktalar bulunur ve ζ(1), ζ(2), … , ζ( M 0) – matematiksel hesaplamalarla tek boyutlu normal değerlerin toplamından bağımsız) ve dağılım σ 2 (0).

Yakınlık dünyasını yakalamanın iki modeline bakalım S(Ben, J). Bunlardan ilki S(Ben, J) bağlantı noktaları arasındaki Öklid mesafesinden kapılara bakan noktalara doğru uzanır. Hadi gidelim H(1),H(2), … , H(N) - Noktalara baktım. Todi

S(Ben, J) = D(C(Ben) + ε( Ben), C(J) + ε( J)), Ben, J = 1, 2, … , N,

de D- Noktalar arasındaki Öklid uzaklığı k-dünya uzayı, ε(1), ε(2), … , ε( vektörleri N) dairesel bir normal alt bölümden bir seçimi temsil eder k-sıfır matematiksel hesaplamalar ve kovaryans matrisi σ 2 (1) ile huzurlu alan BEN, de BEN- kimlik matrisi. Başka bir deyişle, ε( Ben) = η(1) e(1) + η(2) e(2) + … + η( k)e(k), de e(1), e(2), …, e(k) – ortonormal temel y k-huzurlu alan ve (η( Ben, T), Ben= 1, 2, …, n, T= 1, 2, …, k) – sıfır matematiksel hesaplamalar ve dağılım σ 2 (1) ile bağımsız tek boyutlu değişken değerlerinin toplamı.

Başka bir modelin doğrudan yükselticilerin üzerinde bir kaplaması vardır:

S(ben,j) = D(C(Ben), C(J)) + ε( ben,j), ben,j = 1, 2, … , N, BenJ,

de (ε( Ben, J), Ben, J = 1, 2, … , N) – normal değişken değerlerinin matematiksel hesaplamalarla toplamından bağımsız) ve dağılım σ 2 (1).

Robot, her iki model formülasyonu için karışımın ortalama karesinin minimumunun α m olduğunu göstermektedir. N→ ∞ mükemmel bir şekilde yakınsar

F(M) = F 1 (M) + σ 2 (1)( kM), M = 1, 2, …, k,

Bu şekilde fonksiyon F(M) ve aralıklarında doğrusaldır ve ilk aralıkta diğerinde giderek daha az azalır. Yıldız parlıyor çünkü istatistikler

gerçek boyutun olası bir tahminiyle M 0 .

Ayrıca, çok kapsamlı bir teoriden bir öneri geliyor: galip gelmek için faktör alanının boyutunun nasıl değerlendirileceği M*. Böyle bir önerinin zengin dünya ölçeğinin kurucularından J. Kruskal tarafından buluşsal olarak formüle edilmiş olması anlamlıdır. Bu, çok çeşitli ölçeklendirme ve hesaplama deneylerinin pratik zaferinin kanıtlarından kaynaklanmaktadır. Uluslararası teori bu buluşsal öneriyi temel almamıza izin verdi.

Ön

5. Bölümdeki materyalin incelenmesi sonucunda bilim adamı aşağıdakilerden suçludur:

asalet

  • temel kavramlar ve boyutların küçültülmesi:
  • işaret alanını dönüştürme problemlerinin çözümüne yönelik yaklaşım;

içine batır

  • Standartlaştırılmış ortogonal işaretlere geçişin temel bileşenlerinin Vikoristovati yöntemi;
  • işaret alanının boyutunun azalması nedeniyle verilerin bilgi içeriğindeki değişiklikleri değerlendirmek;
  • nesneleri izlemek için en uygun zengin ölçekleri oluşturma görevini yerine getirin;

Volodya

  • istatistiksel analizin en çok uygulanan görevlerinin boyutunu azaltma yöntemleri;
  • Dönüştürülen işaret alanındaki değişiklikleri yorumlama becerisi.

Temel kavramlar ve boyutta küçültme

İlk bakışta, inceleme nesneleri hakkında ne kadar fazla bilgi olursa, onları karakterize eden işaret ne kadar eksiksiz olursa, modelin oluşturulması o kadar iyi olacaktır. Ancak aşırı bilgi birikimi veri analizinin etkinliğinin azalmasına neden olabilir. Bu “büyüklüğün laneti” teriminin kökenidir. (boyutsallığın seyri), yüksek hacimli verilere sahip robotların sorunlarını karakterize eder. Bu ve diğer biçimlerin boyutunun küçültülmesi ihtiyacı, çeşitli istatistiksel sorunların artmasıyla ilişkilidir.

Bilgilendirici olmayan işaretler ek gürültüye neden olur ve model parametrelerinin tahmin edilmesinin doğruluğunu etkiler. Ayrıca, çok sayıda karaktere sahip veri kümeleri, birbiriyle ilişkili değişken gruplarıyla örtüşebilir. Bu tür işaret gruplarının varlığı, modelin spesifikasyonunu ve parametrelerinin değerlendirilmesini destekleyebilecek bilgilerin kopyalanması anlamına gelir. Verinin boyutu ne kadar büyük olursa, bu algoritmik işlemeyi kullanarak hesaplamanın zorluğu da o kadar artar.

Aşağıdaki değişikliklerin ilkesine dayalı olarak işaret uzayının boyutunun azaltılmasına yönelik iki yön görülebilir: belirgin bir çıktı kümesinden bir işaretin seçilmesi ve başlangıç ​​verilerinin dönüştürülmesiyle yeni işaretlerin oluşturulması. İdeal olarak, verilerin kısaltılmış sunumu, verinin iç gücünün boyutunu gösteren verinin boyutundan kaynaklanmaktadır. (içsel boyutluluk).

Gözlemlenen olguyu karakterize eden en bilgilendirici işaret, çıktı değişikliklerinin dönüştürülmesini gerektirmeyen, sorunun boyutunda bariz doğrudan azalmadır. Bu, daha kompakt bir model oluşturmanıza ve az bilgilendirici tabelalarla ilgili maliyetleri ortadan kaldırmanıza olanak tanır. Bilgilendirici karakterlerin seçimi, tüm çıktı değişkenlerinin en küçük alt kümesinin aranmasına dayanır. “En iyi” kavramının kriteri, işaret uzayının belirli bir boyutu için modelleme yoğunluğunun bulunması veya mümkünse verinin en küçük boyutu, belirli bir boyutun modeli olabilir.

Doğrudan en güzel modelin yaratılmasının en üst seviyesi, son derece zor olduğu düşünülen tüm olası işaretlerin araştırılmasıyla bağlantılıdır. Bu nedenle, kural olarak, işaretlerin doğrudan ve ters seçimine girerler. Doğrudan seçim prosedürlerinde, gerekli model boyutuna ulaşılana kadar çıktı setine ardışık değişiklik eklemeleri gerçekleştirilir. Çıkış işaret alanının daha sonra azaltılmasına (kapı seçimi) yönelik algoritmalar, modelin bilgi içeriğinde kabul edilebilir bir azalmaya kadar en az bilgilendirici değişiklikleri kademeli olarak kaldırmalıdır.

Lütfen tabelanın bilgi içeriğinin önemli olduğunu unutmayın. Seçim, deponun toplam bilgi içeriğinin değişmesinden değil, işaret setinin yüksek bilgi içeriğinin sağlanmasından sorumludur. Böylece, işaretler arasındaki korelasyonun kanıtı, gizli bilgilerin çoğaltılması nedeniyle gizli bilgi içeriğini azaltır. Dolayısıyla seçilmiş olanlara yeni bir işaretin eklenmesi, ilgili bilgilerin herhangi bir değişiklikten sadece birkaç gün önce yerleştirilmesinin mümkün olduğu bu dünyada bilgi içeriğinin artmasını sağlayacaktır. En basit durum, seçim algoritmasının son derece basit bir şekilde uygulandığı karşılıklı ortogonal karakterlerin seçilmesidir: değişkenler bilgi içeriğine göre sıralanır ve vikoryst, bu derecelendirmedeki ilk işaretlerin böyle bir deposunu kullanır ve bu da belirtilen bilgi içeriğini sağlar. .

İşaret seçme yöntemlerinin alanın boyutunu azaltma yöntemiyle kombinasyonu, çıktı verilerinde gerekli işaretlerin mutlak varlığına ilişkin varsayımlarla ilişkilidir ve bu genellikle yanlıştır. Boyutu küçültmeye yönelik alternatif bir yaklaşım, kısayolların işaretinin dönüşümünü yeni değişiklikler kümesine aktarır. Çıkış işaretlerinin seçimine ek olarak, yeni bir işaret alanının oluşması, çıkış işaretlerinin işlevleri olan yeni değişikliklerin yaratılmasını da aktarır. Her zaman dikkatli olunmayan bu değişikliklere genellikle ibadet edenler denir veya gizli. Yaratılış sürecinde değişimlere diklik gibi farklı güçler kazandırılabilir. Aslında, çıkış işaretlerinin karşılıklı ilişkileri vardır, dolayısıyla uzaylarının dönüşümü, nesnenin izlenmesiyle ilgili bilgilerin sürekli kopyalanması etkisine sahip olan yeni koordinat işaretlerini ortogonal olarak üretir.

Nesneleri yeni bir ortogonal işaret alanında görüntülemek, bu nesneler arasındaki farka bakarak deri işaretinin rengini net bir şekilde tanımlamayı mümkün kılar. Yeni tabanın koordinatları, dikkatli bir analiz için değerin bunlar arasında yayılmasını karakterize eden dağılım tarafından sıralandığından, pratik açıdan bakıldığında küçük dağılım değerlerine sahip herhangi bir işarete ihtiyaç olmadığı aşikar hale gelir, çünkü Bu işaretlerin arkasındaki nesneler neredeyse görünmezdir ve görevleri doğrultusunda daha fazla bilgi için değiştirilebilir. Böyle bir durumda sözde çıkışlı bir tabela alanının doğuşundan söz edebiliriz. könemli ve bu alanın gerçek boyutu T belki daha az hafta sonu (m< k).

p align = "justify"> İşaret alanının azaltılmasına, verilerin bilgi içeriğinde daha fazla azalma eşlik eder, aksi takdirde izin verilen azalma seviyesi daha sonraki bir tarihte değerlerde olabilir. Görünür işaret, daha küçük boyutlu bir alana bir dizi çıktı değişkenini yansıtır. İşaret uzayını iki-üç boyutlu uzaya sıkıştırmak veriyi görselleştirmek için yararlı olabilir. Bu nedenle, yeni bir işaret alanı oluşturma sürecinin daha küçük bir dizi gerçekten bilgilendirici değişiklikle sonuçlanması amaçlanıyor. Bunlara dayanarak, daha az sayıda en bilgilendirici işarete dayandığı için daha net bir model geliştirilebilir.

Vikorista çıktısına dayalı yeni değişikliklerin oluşturulması, gizli anlamsal analiz, veri sıkıştırma, görüntülerin sınıflandırılması ve tanınması, geliştirme süreçlerinin akışkanlığının ve verimliliğinin arttırılması için kullanılır. Bu veriler daha ileri analiz ve modelleme için toplanmalıdır.

Gösterge uzayının dönüşümüne ve boyutluluğun azalmasına yapılan önemli katkılardan biri, hayatta kalan anlamlara dayalı sentetik gizli kategorilerin ortaya çıkmasıdır. Bu gizli işaretler, farklı ülkelerin entegre göstergelerinin güncellenmiş bilgilerden çıkmasına izin veren şeylere karşı dikkatli olan nesnelerin özel otoritelerini birleştiren takip edilen kutunun gizli şarkılarını karakterize edebilir.

Araştırılan problemde işaret alanı azaltma yöntemlerinin temel rolü, çıktı işaretlerindeki bilgilerin kopyalanmasıdır, bu da regresyon modellerinin katsayı tahminlerinin dağılımının "şişmesine" yol açar. Çıktı verilerinin çoklu doğrusallığını göz önünde bulundurarak yeni, ideal olarak ortogonal ve alternatif olarak yorumlanabilir, değiştirilebilir ve etkili modelleme yollarına geçilmesi.

Çıkış işareti alanının, en yüksek sınıflandırma spesifikasyonu için manuel olarak ortogonal olarak dönüştürülmesi; bu, yakındaki giriş noktalarını veya Öklid çizgisinin karesini ayarlama gibi nesnelerin görünürlüğünü ayarlamanıza olanak tanır. Regresyon analizinde baş bileşenlerdeki regresyonun düzeyi çoklu doğrusallık problemini çözmemize olanak sağlar.