Kocaeli Üniversitesi / Avrupa Kredi Transfer Sistemi (AKTS)

Dersin Adı	Dersin Kodu	Dersin Türü	Dersin Düzeyi	Dersin Yılı	Dersin Verildiği Dönem	AKTS Kredisi
Bilgi Keşfi ve Madenciliği	BTM547	Seçmeli	Yüksek lisans	1	Bahar	8

Öğretim Elemanı Adı

Doç. Dr. Zeynep Hilal KİLİMCİ
Dr. Öğr. Üyesi Seda BALTA

Dersin Öğrenme Kazanımları
Program Yeterliliği İlişkisi

Dersin Öğrenme Kazanımları

1) Veri madenciliği temel kavramlarını, tekniklerini, veri madenciliği sürecinin adımlarını ve yöntemlerini anlar.
2) Farklı veri madenciliği algoritmalarını uygular, gerçek veri kümeleri üzerinde algoritmaların sonuçlarını analiz eder.
3) Farklı veri madenciliği tekniklerini birleştirerek karmaşık veri kümelerinden anlamlı bilgileri analiz eder, elde edilen sonuçları yorumlar, veri madenciliği modellerinin güçlü ve zayıf yönlerini değerlendirir.
4) Veri madenciliği tekniklerini farklı alanlara uygulama ve yeniden tanımlama yeteneğini geliştirir.

Program Yeterliliği İlişkisi

		Program Yeterlilikleri
		1	2	3	4	5	6	7	8	9	10
Öğrenme Kazanımları
	1	Orta
	2		Orta			Orta	Orta		Orta
	3			Orta	Orta		Orta	Orta	Orta	Orta
	4			Orta	Orta		Orta		Orta

Eğitim Şekli

Yüz Yüze

Ön Koşullar, Diğer Koşullar

Yok

Önerilen Destekleyici Dersler

İstatistik, Olasılık, Lineer Cebir

Dersin İçeriği

Veri Madenciliği Kavramları, Veri Hazırlama Teknikleri, İstatistiksel Öğrenme Teorisi, Denetimli, Yarı-Denetimli ve Denetimsiz Öğrenme Temelleri, Kümeleme Metodları, Karar Ağaçları ve Karar Kuralları, Birliktelik Kuralları,Sınıflandırma

Haftalık Ders İzlencesi

1) Introduction to Text Mining
2) Introduction to Statistical Natural Language Processing (NLP)
3) Mathematical Foundations Elementary Probability Theory Essential Information Theory
4) Linguistic Essentials and Corpus-Based Work Low level Processing of the text corpora Tokenization, Sentence boundary detection, part-of-speech tagging, stemming (Porter’s stemmer algorithm), stop words,
5) Collocations Selection of Collocations by Frequency, Hypothesis Testing, Mutual Information
6) Statistical Inference: n-gram Models over Sparse Data Statistical estimators, combining estimators
7) Statistical Inference: n-gram Models over Sparse Data Statistical estimators, combining estimators
8) Spelling correction and synonyms: edit distance, soundex, language detection. IIR Ch. 3 Techniques for automatically correcting words in text (Kukich 1992) Finding approximate matches in large lexicons (Zobel and Dart 1995) Efficient Generation and Ranking of Spelling Error Corrections (Tillenius) How to write a spelling corrector (Peter Norvig)
9) Preparing our data for data mining algorithms. Index structures. Scoring, term weighting, and the vector space model. tf.idf weighting. The cosine measure
10) Clustering 1 Introduction to the problem. Partitioning methods: k-means clustering
11) Clustering 2 Hierarchical clustering.
12) Classification 1 Introduction to text classification. Naive Bayes models. Spam filtering.
13) Machine learning in automated text categorization (Sebastiani 2002) A re-examination of text categorization methods (Yang et al. 1999) A Comparison of event models for naive Bayes text classification (McCallum et al. 1998)
14) Classification 2 K Nearest Neighbors, Decision boundaries, Vector space classification, Decision Trees. Comparative results. NLP Ch. 16, IIR Ch. 14 Web page classification: Features and algorithms (Qi, Davison 2009) Semi-supervised text classification using EM (Nigam et al. , 2006) Transductive SVMs (Joachims, 1999) Link-based classification (Getoor 2005)
15) Review, examples from real world applications. Term project presentations Evaluation
16) Review, examples from real world applications. Term project presentations Evaluation

Önerilen/İstenen Ders Kaynakları

1- Foundations of Statistical Natural Language Processing, by C. Manning and H. Schütze (2003).
2- Introduction to Information Retrieval, Manning, Raghavan and Schütze, Cambridge University Press (2008)
3- Mining the Web: Discovering Knowledge from Hypertext Data, Chakrabarti (2003)
4- Information Retrieval: A book by C. J. van RIJSBERGEN

Planlanan Öğrenim Faaliyetleri Ve Eğitim Yöntemi

1) Anlatım
2) Model Yapma
3) Grup Çalışması
4) Bireysel Çalışma
5) Proje Temelli Öğrenme

Değerlendirme Yöntemi ve Ölçütleri

Yarıyıl İçi Çalışmalarının Başarıya Oranı

40%

		Sayı	Yüzde
Yarıyıl İçi Çalışmaları	Ara Sınav	1	50%
Yarıyıl İçi Çalışmaları	Proje	1	50%

Yarıyıl Sonu Sınavının Başarıya Oranı

60%

Toplam

100%

Dersin Eğitim Dili

Türkçe

Mesleki Uygulama

İstenmemekte

Bilgi Keşfi ve Madenciliği

Bilişim Sistemleri Mühendisliği

Fen Bilimleri Enstitüsü

Yüksek lisans