>
Dersin Adı Dersin Kodu Dersin Türü Dersin Düzeyi Dersin Yılı Dersin Verildiği Dönem AKTS Kredisi
Metin İşleme ve Analizde İleri Teknikler BTM553 Seçmeli Yüksek lisans 1 Bahar 8

Öğretim Elemanı Adı

Doç. Dr. Zeynep Hilal KİLİMCİ
Doç. Dr. Serdar SOLAK
Arş. Gör. Seda BALTA

Dersin Öğrenme Kazanımları

1) Metin madenciliği kavramını ve istatistiksel doğal dil işleme (SNLP) ile yakın ilişkilerini anlamak
2) Dilbilimsel Temeller ve Korpus Tabanlı Çalışmanın temellerini öğrenmek
3) İstatistiksel çıkarım modellerini öğrenmek
4) Metin madenciliğinde veri ön işlemeyi öğrenmek
5) Metin madenciliğinde temel sınıflandırma algoritmalarını ve uygulamalarını öğrenmek
6) Temel madencilik algoritmalarını ve bunların metin madenciliğindeki uygulamalarını öğrenmek

Program Yeterliliği İlişkisi

  Program Yeterlilikleri
1 2 3 4 5 6 7
Öğrenme Kazanımları
1              
2       Yüksek      
3              
4              
5              
6              

Eğitim Şekli

Yüz Yüze

Ön Koşullar, Diğer Koşullar

Yok

Önerilen Destekleyici Dersler

Makine Öğrenmesi

Dersin İçeriği

Metin Madenciliği Kavramları, Metin içerikli Veri Setleri, Metin Madenciliği Süreci, Metin Gösterimi, Veri Özellikleri, Eksik Veri, Veri İndirgeme, İstatistiksel Yöntemler, Sınıflandırma, Kümeleme Yöntemleri, Metin Madenciliği Uygulamaları

Haftalık Ders İzlencesi

1) Metin Madenciliğine Giriş Karmakarışık Metin Verileri Madenciliği (Marti Hearst, 1999)
2) İstatistiksel Doğal Dil İşlemeye Giriş (NLP) NLP Ch. 1
3) Matematiksel Temeller Temel Olasılık Teorisi Temel Bilgi Teorisi NLP Ch. 2
4) Dilsel Temeller ve Korpus Tabanlı Çalışma Korporatif metinlerin işlenmesi Tokenizasyon, Cümle sınırı tespiti, konuşmanın bir kısmı etiketleme, köklenme (Porter’ın stemmer algoritması), sözcükleri durdurma, NLP Ch. 3
5) Eşdizimli Frekans ile Kollokasyon Seçimi, Hipotez Testleri, Karşılıklı Bilgi NLP Ch. 5
6) İstatistiksel Çıkarım: Seyrek Verilere Göre n-gram Modeller İstatistiksel tahmin ediciler, tahmin edicileri birleştirmek NLP Ch. 6
7) İstatistiksel Çıkarım: Seyrek Verilere Göre n-gram Modeller İstatistiksel tahmin ediciler, tahmin edicileri birleştirmek NLP Ch. 6
8) Yazım denetimi ve eş anlamlılar: mesafeyi düzenleme, soundex, dil algılama. IIR Ch. 3
9) Yazım denetimi ve eş anlamlılar: mesafeyi düzenleme, soundex, dil algılama. IIR Ch. 3 Metinlerdeki kelimeleri otomatik olarak düzeltme teknikleri (Kukich 1992) Büyük sözlüklerde yaklaşık eşleşme bulma (Zobel ve Dart 1995) Yazım Hatası Düzeltmelerinin Verimli Üretimi ve Sıralaması (Tillenius) Bir yazım düzeltici nasıl yazılır (Peter Norvig)
10) Verilerin veri madenciliği algoritmaları için hazırlanması. Endeks yapıları, Puanlama, terim ağırlıklandırma ve vektör uzayı modeli. tf.idf ağırlıklandırma, Kosinüs ölçüsü IIR Ch. 1
11) Kümeleme 1: Bölümleme yöntemleri: k-kümeleme; NLP Ch. 14, IIR Ch. 16
12) Kümeleme 2: Hiyerarşik kümeleme. NLP Ch. 14, IIR Ch. 17
13) Sınıflandırma 1
14) Metin sınıflandırmasına giriş. Naif Bayes modelleri. Spam filtreleme. IIR Ch. 13 Otomatik metin kategorizasyonunda makine öğrenmesi (Sebastiani 2002) Metin sınıflandırma yöntemlerinin yeniden incelenmesi (Yang ve ark. 1999) Saf Bayes metin sınıflandırması için olay modellerinin karşılaştırılması (McCallum ve ark. 1998)
15) Sınıflandırma 2 K En Yakın Komşular, Karar sınırları, Vektör uzay sınıflandırması, Karar Ağaçları. Karşılaştırmalı sonuçlar. NLP Ch. 16, IIR Ch. 14 Web sayfası sınıflandırması: Özellikler ve algoritmalar (Qi, Davison 2009) EM kullanarak yarı denetimli metin sınıflandırması (Nigam ve diğerleri, 2006) Transdüktif SVM'ler (Joachims, 1999) Link tabanlı sınıflandırma (Getoor 2005)
16) Proje sunumları

Önerilen/İstenen Ders Kaynakları

1- [NLP] Foundations of Statistical Natural Language Processing, by C. Manning and H. Schütze (2003).
2- [IIR] Introduction to Information Retrieval, Manning, Raghavan and Schütze, Cambridge University Press (2008)
3- Mining the Web: Discovering Knowledge from Hypertext Data, Chakrabarti (2003)

Planlanan Öğrenim Faaliyetleri Ve Eğitim Yöntemi

1) Anlatım
2) Soru-Cevap
3) Tartışma
4) Alıştırma ve Uygulama
5) Model Yapma
6) Bireysel Çalışma
7) Proje Temelli Öğrenme


Değerlendirme Yöntemi ve Ölçütleri

Ara Sınav Notunun Başarıya Oranı

40%

Yarıyıl Sonu Sınavının Başarıya Oranı

60%

Toplam

100%

Dersin Eğitim Dili

Türkçe

Mesleki Uygulama

İstenmemekte