>
Course Unit Title Course Unit Code Type of Course Unit Level of Course Unit Year of Study Semester ECTS Credits
Advanced Techniques In Text Processing and Analysis BTM553 Elective Master's degree 1 Spring 8

Name of Lecturer(s)

Associate Prof. Dr. Zeynep Hilal KİLİMCİ
Associate Prof. Dr. Serdar SOLAK
Research Assistant Seda BALTA

Learning Outcomes of the Course Unit

1) Understand the concept of text mining and its close relationship with statistical natural language processing (SNLP)
2) To learn the basics of linguistic foundations and corpus based study
3) To learn statistical inference models
4) To learn data processing in text mining
5) Learn basic classification algorithms and applications in text mining
6) To learn basic mining algorithms and their applications in text mining

Program Competencies-Learning Outcomes Relation

  Program Competencies
1 2 3 4 5 6 7
Learning Outcomes
1 No relation No relation No relation No relation No relation No relation No relation
2 No relation No relation No relation High No relation No relation No relation
3 No relation No relation No relation No relation No relation No relation No relation
4 No relation No relation No relation No relation No relation No relation No relation
5 No relation No relation No relation No relation No relation No relation No relation
6 No relation No relation No relation No relation No relation No relation No relation

Mode of Delivery

Face to Face

Prerequisites and Co-Requisites

None

Recommended Optional Programme Components

Machine Learning

Course Contents

Concepts of Text Mining, Text Content Data Sets, Text Mining Process, Text Representation, Data Properties, Missing Data, Data Reduction, Statistical Methods, Classification, Clustering Methods, Text Mining Applications.

Weekly Schedule

1) Metin Madenciliğine Giriş Karmakarışık Metin Verileri Madenciliği (Marti Hearst, 1999)
2) İstatistiksel Doğal Dil İşlemeye Giriş (NLP) NLP Ch. 1
3) Matematiksel Temeller Temel Olasılık Teorisi Temel Bilgi Teorisi NLP Ch. 2
4) Dilsel Temeller ve Korpus Tabanlı Çalışma Korporatif metinlerin işlenmesi Tokenizasyon, Cümle sınırı tespiti, konuşmanın bir kısmı etiketleme, köklenme (Porter’ın stemmer algoritması), sözcükleri durdurma, NLP Ch. 3
5) Eşdizimli Frekans ile Kollokasyon Seçimi, Hipotez Testleri, Karşılıklı Bilgi NLP Ch. 5
6) İstatistiksel Çıkarım: Seyrek Verilere Göre n-gram Modeller İstatistiksel tahmin ediciler, tahmin edicileri birleştirmek NLP Ch. 6
7) İstatistiksel Çıkarım: Seyrek Verilere Göre n-gram Modeller İstatistiksel tahmin ediciler, tahmin edicileri birleştirmek NLP Ch. 6
8) Yazım denetimi ve eş anlamlılar: mesafeyi düzenleme, soundex, dil algılama. IIR Ch. 3
9) Yazım denetimi ve eş anlamlılar: mesafeyi düzenleme, soundex, dil algılama. IIR Ch. 3 Metinlerdeki kelimeleri otomatik olarak düzeltme teknikleri (Kukich 1992) Büyük sözlüklerde yaklaşık eşleşme bulma (Zobel ve Dart 1995) Yazım Hatası Düzeltmelerinin Verimli Üretimi ve Sıralaması (Tillenius) Bir yazım düzeltici nasıl yazılır (Peter Norvig)
10) Verilerin veri madenciliği algoritmaları için hazırlanması. Endeks yapıları, Puanlama, terim ağırlıklandırma ve vektör uzayı modeli. tf.idf ağırlıklandırma, Kosinüs ölçüsü IIR Ch. 1
11) Kümeleme 1: Bölümleme yöntemleri: k-kümeleme; NLP Ch. 14, IIR Ch. 16
12) Kümeleme 2: Hiyerarşik kümeleme. NLP Ch. 14, IIR Ch. 17
13) Sınıflandırma 1
14) Metin sınıflandırmasına giriş. Naif Bayes modelleri. Spam filtreleme. IIR Ch. 13 Otomatik metin kategorizasyonunda makine öğrenmesi (Sebastiani 2002) Metin sınıflandırma yöntemlerinin yeniden incelenmesi (Yang ve ark. 1999) Saf Bayes metin sınıflandırması için olay modellerinin karşılaştırılması (McCallum ve ark. 1998)
15) Sınıflandırma 2 K En Yakın Komşular, Karar sınırları, Vektör uzay sınıflandırması, Karar Ağaçları. Karşılaştırmalı sonuçlar. NLP Ch. 16, IIR Ch. 14 Web sayfası sınıflandırması: Özellikler ve algoritmalar (Qi, Davison 2009) EM kullanarak yarı denetimli metin sınıflandırması (Nigam ve diğerleri, 2006) Transdüktif SVM'ler (Joachims, 1999) Link tabanlı sınıflandırma (Getoor 2005)
16) Proje sunumları

Recommended or Required Reading

1- [NLP] Foundations of Statistical Natural Language Processing, by C. Manning and H. Schütze (2003).
2- [IIR] Introduction to Information Retrieval, Manning, Raghavan and Schütze, Cambridge University Press (2008)
3- Mining the Web: Discovering Knowledge from Hypertext Data, Chakrabarti (2003)

Planned Learning Activities and Teaching Methods

1) Lecture
2) Question-Answer
3) Discussion
4) Drill and Practice
5) Modelling
6) Self Study
7) Project Based Learning


Assessment Methods and Criteria

Contribution of Midterm Examination to Course Grade

40%

Contribution of Final Examination to Course Grade

60%

Total

100%

Language of Instruction

Turkish

Work Placement(s)

Not Required