Python Pandas: Left Join, Right Join, Inner Join, Outer Join ve Self Join ile Veri Birleştirme
Left Join: Solda Birleşme
Right Join: Sağda Birleşme
Inner Join: Ortak Birleşme
Outer Join: Ayrık Birleşme
Self Join: Yarı Birleşme
Sağda ve Solda birleşmeler sizin “merge” metodunu kullanırken “how” değişkenine verdiğiniz değere göre değişir. “Solda Birleşme” sağ tabloyla eşleşen satırlarla birlikte sol tablodaki bütün satırları döner. “Sağda Birleşme” ise sol tabloyla eşleyen satırlarla birlikte sağ tablodaki bütun satırları döner. Yani bu işlemin sonucunda olarak elde edeceğiniz tablo, burada nerede birleştiğine göre büyük ölçüde değişir.
“how” değişkenine bir değer vermezseniz varsayılan olarak “inner” değerini alır, bunu buradaki yazımda da gördüğümüz gibi “inner” ile birlikte ortak kümede kalan veriler birleşiyordu.
Başlamadan önce kullanacağımız paketleri ve veri setlerini içe aktaralım.
import pandas as pd
movies = pd.read_csv("./movies.csv")
financials = pd.read_csv("./financials.csv")
1. Solda Birleşme
Bir birleştirme işlemi için her iki tablonun da ortak bir sütunda aynı endeks değerlerini alabileceği bir sütun belirlememiz gerekir. Bu bazen birçok sütun da olabilir.
print(movies.head())
print(financials.head())
id title popularity release_date
0 257 Oliver Twist 20.416 2005-09-23
1 14290 Better Luck Tomorrow 3.877 2002-01-12
2 38365 Grown Ups 38.864 2010-06-24
3 9672 Infamous 3.681 2006-11-16
4 12819 Alpha and Omega 12.301 2010-09-17
id budget revenue
0 19995 237000000 2.788e+09
1 285 300000000 9.610e+08
2 206647 245000000 8.807e+08
3 49026 250000000 1.085e+09
4 49529 260000000 2.841e+08
“id” sütununu endeks olarak belirleyebiliriz.
Birleşmeden önceki satır ve sütun sayılarına bir bakalım.
print(movies.shape)
print(financials.shape)
(4803, 4)
(3229, 3)
movies_financials = movies.merge(financials, on="id", how="left")
Birleşmeden sonraki satır ve sütun sayılarına bakalım.
print(movies_financials.shape)
(4803, 6)
Burada iki tabloyu sol tabloda birleştirdik. Sağ tabloyla eşleşen “id”lerin sütunları sol tabloda eşleştiği satırlara ek sütun olarak geldi.
Fakat burada bir sorun var. “financials” veri setimizde 3229 satır var. Birleşme işlemi yapıldıktan sonra “movies” veri setindeki 4803 satırın sadece 3229 satırına ek sütun eklendi ve bu sütunlar veriyle dolduruldu. 4803 — 3229 kadar satıra da EK sütun eklendi ama veri eklenmedi.
number_of_missing_fin = movies_financials['budget'].isnull().sum()
print(number_of_missing_fin)
# 1574
Burada olan şey, solda birleşme yöntemiyle bir birleştirme işlemi gerçekleştirdik. Solda birleşme, bizim sol tabloda bir veri kaybı istemeyip sağdaki tablodan da alabileceğimiz veriyi almaktır. Bizim sol tablomuz burada “movies” veri setiydi. Görüldüğü üzere onun satır ve sütun sayısında bir azalma meydana gelmedi. Sol tabloyu korumuş olduk. Ama sağ tabloyla birleştirerek sağ tablodaki verileri sol tabloda eşleşensatırlara ekledik.
Bunun ortak birleşmeden farkı ise, ortak birleşme ortak kümede kalan satırların birleşmesi olarak yorumlanabilir.
Solda birleşme ile gerçekleşen satır ve sütun değişimi;
(4803, 4)
(3229, 3)
(4803, 6)
Bu 1574 satırda eksik veri olacak ama onun karşılığında 3229 satıra ek veri getirmiş olacağız.
Ortak birleşme ile gerçekleşen satır ve sütun değişimi;
movies_financials = movies.merge(financials, on='id', how='inner')
print(movies_financials.shape)
(3229, 6)
Ortak kümede olmayan değerleri saf dışı bırakıyor.
2. Sağda Birleşme
Aksiyon ve Bilim Kurgu filmleri olmak üzere iki farklı veri setimiz var. Bunlardan bazı Bilim Kurgu filmleri ayrıca Aksiyon olarak sınıflandırılmış. Bu veri setlerini birleştirip hangisinin sadece Bilim Kurgu olduğunu bulup “movies” veri setiyle birleştirmemiz gerekiyor.
action_movies = pd.read_csv("./action_movies.csv")
scifi_movies= pd.read_csv("./scifi_movies.csv")
Veri setlerine bir göz atalım.
print(action_movies.head())
print(scifi_movies.head())
movie_id genre
3 11 Action
14 18 Action
25 22 Action
26 24 Action
42 58 Action
movie_id genre
2 11 Science Fiction
17 18 Science Fiction
20 19 Science Fiction
38 38 Science Fiction
49 62 Science Fiction
Satır ve sütun sayılarına bakalım.
print(action_movies.shape)
print(scifi_movies.shape)
(1154, 2)
(535, 2)
“movie_id” sütunu üzerinde sağda birleşme yapalım.
action_scifi = action_movies.merge(scifi_movies,
on='movie_id',
how='right',
suffixes=('_act','_sci'))
print(action_scifi.head())
movie_id genre_act genre_sci
0 11 Action Science Fiction
1 18 Action Science Fiction
2 19 NaN Science Fiction
3 38 NaN Science Fiction
4 62 NaN Science Fiction
Satır ve sütun sayısına bakalım.
print(action_scifi.shape)
(535, 3)
Burada sağdaki tabloyu koruyarak sol tablonun sütunları sağ tabloda eşleştiği satırlara gelmiş oldu. Böylece aynı “movie_id”ye sahip filmleri yani hem Aksiyon hem de Bilim Kurgu olan filmleri bulduk.
Fakat burada şöyle bir problem oluştu. Her bir satır için bir yerine birden çok kategori sütunu ekledik. Aksiyon filmlerinde hem aksiyon hem de bilim kurgu kategorisi, bilim kurgu filmlerinde ise hem bilim kurgu hem de aksiyon kategorisi olmuş oldu.
Sadece Aksiyon veya sadece Bilim Kurgu olan filmlerin diğer kategorisi null olarak atanmış oldu.
scifi_only = action_scifi[action_scifi["genre_act"].isnull()]
print(scifi_only)
movie_id genre_act genre_sci
2 19 NaN Science Fiction
3 38 NaN Science Fiction
4 62 NaN Science Fiction
5 68 NaN Science Fiction
6 74 NaN Science Fiction
.. ... ... ...
529 333371 NaN Science Fiction
530 335866 NaN Science Fiction
531 347548 NaN Science Fiction
532 360188 NaN Science Fiction
534 371690 NaN Science Fiction
[258 rows x 3 columns]
DataFrame nesnelerinde “null” değerler “NaN” olarak gösterilmektedir.
3. Ortak Birleşme
Başta belirttiğimiz üzere amacımız sadece Bilim Kurgu olan filmleri bulmaktı. “genre_act” yani Aksiyon kategorisi null olan değerler Bilim Kurgudur varsayımıyla veri setimizi filtreledik. Bunu ortak birleşme ile “movies” veri setine ekleyebiliriz.
movies_and_scifi_only = movies.merge(scifi_only,
left_on="id",
right_on="movie_id",
how="inner")
print(movies_and_scifi_only.head())
print(movies_and_scifi_only.shape)
id title popularity release_date movie_id genre_act genre_sci
0 18841 The Lost Skeleton of Cadavra 1.681 2001-09-12 18841 NaN Science Fiction
1 26672 The Thief and the Cobbler 2.439 1993-09-23 26672 NaN Science Fiction
2 15301 Twilight Zone: The Movie 12.903 1983-06-24 15301 NaN Science Fiction
3 8452 The 6th Day 18.447 2000-11-17 8452 NaN Science Fiction
4 1649 Bill & Ted's Bogus Journey 11.350 1991-07-19 1649 NaN Science Fiction
(258, 7)
3. Ayrık Birleşme
Ayrık Birleşme, ortak kümede olmayan değerlerin birleştirilmesidir. Yani sağ tabloda ve sol tabloda birbiriyle eşleşmeyen satırları birleştirir.
“iron_1_actors” ve “iron_1_actors” adında iki adet veri setimiz var. Bunlar Iron Man 1 ve 2 filmlerinin oyuncu adlarını içeren veri setleridir. Burada hem ilk hem de ikinci filmde oynayan oyuncular olmakla birlikte bizim amacımız sadece tek filmde oynamış oyuncuları bulmak.
iron_1_actors = pd.read_csv("./iron_1_actors.csv")
iron_2_actors = pd.read_csv("./iron_2_actors.csv")
Veri setlerine bir göz atalım.
print(iron_1_actors.head())
print(iron_2_actors.head())
character id name
3 Yinsen 17857 Shaun Toub
4 Virginia "Pepper" Potts 12052 Gwyneth Paltrow
2 Obadiah Stane / Iron Monger 1229 Jeff Bridges
1 War Machine 18288 Terrence Howard
7 Christine Everhart 57451 Leslie Bibb
character id name
4 Ivan Vanko / Whiplash 2295 Mickey Rourke
3 Natalie Rushman / Natasha Romanoff / Black Widow 1245 Scarlett Johansson
5 Justin Hammer 6807 Sam Rockwell
6 Director Nick Fury 2231 Samuel L. Jackson
1 Virginia "Pepper" Potts 12052 Gwyneth Paltrow
Biçimlerine göz atalım.
print(iron_1_actors.shape)
print(iron_2_actors.shape)
(87, 3)
(115, 3)
Veri setlerini birleştirelim.
iron_1_and_2 = iron_1_actors.merge(iron_2_actors,
on="id",
how="outer",
suffixes=("_1", "_2"))
print(iron_1_and_2.head())
print(iron_2_actors.shape)
character_1 id name_1 character_2 name_2
0 Virginia "Pepper" Potts 12052 Gwyneth Paltrow Virginia "Pepper" Potts Gwyneth Paltrow
1 Christine Everhart 57451 Leslie Bibb Christine Everhart Leslie Bibb
2 Tony Stark / Iron Man 3223 Robert Downey Jr. Tony Stark / Iron Man Robert Downey Jr.
3 Agent Phil Coulson 9048 Clark Gregg Agent Phil Coulson Clark Gregg
4 J.A.R.V.I.S. (voice) 6162 Paul Bettany J.A.R.V.I.S. (voice) Paul Bettany
(115, 3)
Sadece tek filmde oynayanları bulmak için en az bir “name” sütununda null değeri olanları filtreleyebiliriz.
m = ((iron_1_and_2['name_1'].isnull()) |
(iron_1_and_2['name_2'].isnull()))
print(iron_1_and_2[m].head())
print(iron_1_and_2[m].shape)
character_1 id name_1 character_2 name_2
0 Yinsen 17857 Shaun Toub NaN NaN
2 Obadiah Stane / Iron Monger 1229 Jeff Bridges NaN NaN
3 War Machine 18288 Terrence Howard NaN NaN
5 Raza 57452 Faran Tahir NaN NaN
8 Abu Bakaar 173810 Sayed Badreya NaN NaN
(180, 5)
4. Yarı Birleşme
Yarı birleşme, tabloyu kendisiyle birleştirmektir.
Veri setimizi içe aktaralım.
crews = pd.read_csv("./crews.csv")
print(crews.head())
print(crews.shape)
id job name
0 19995 Editor Stephen E. Rivkin
2 19995 Sound Designer Christopher Boyes
4 19995 Casting Mali Finn
6 19995 Director James Cameron
7 19995 Writer James Cameron
(42502, 3)
“crews” adında bir veri setimiz var. Set ekibiyle ilgili bilgileri içeriyor. Amacımız her bir film için yönetmeni ve ekibi listeyelen bir tablo oluşturmak.
crews_self_merged = crews.merge(crews, on="id", suffixes=("_dir","_crew"))
print(crews_self_merged.head())
id job_dir name_dir job_crew name_crew
0 19995 Editor Stephen E. Rivkin Editor Stephen E. Rivkin
1 19995 Editor Stephen E. Rivkin Sound Designer Christopher Boyes
2 19995 Editor Stephen E. Rivkin Casting Mali Finn
3 19995 Editor Stephen E. Rivkin Director James Cameron
4 19995 Editor Stephen E. Rivkin Writer James Cameron
Veri setini yönetmen olan ve yönetmen olmayan olarak filtreleyelim.
boolean_filter = ((crews_self_merged['job_dir'] == "Director") &
(crews_self_merged['job_crew'] != "Director"))
direct_crews = crews_self_merged[boolean_filter]
print(direct_crews.head())
id job_dir name_dir job_crew name_crew
156 19995 Director James Cameron Editor Stephen E. Rivkin
157 19995 Director James Cameron Sound Designer Christopher Boyes
158 19995 Director James Cameron Casting Mali Finn
160 19995 Director James Cameron Writer James Cameron
161 19995 Director James Cameron Set Designer Richard F. Mays
Böylece aynı filmde çalışan yönetmen ve set ekiplerini görebiliriz.
5. Endeks’te Birleşme
Varsayılan olarak bir DataFrame nesnesinin endeksleri satırların sıra numarasıdır. “on” değişkenine verdiğimiz sütunu önceden endeks olarak belirleyip daha sonra “on” değişkenine sütunu verirsek endeksimiz verdiğimiz sütun ile değişmiş olur.
Veri setlerini içe aktarırken endeks belirleyebiliriz.
movies = pd.read_csv("./movies.csv", index_col="id")
ratings = pd.read_csv("./ratings.csv", index_col="id")
Tabloları birleştirme;
movies_ratings = movies.merge(ratings, on="id")
print(movies_ratings.head())
title popularity release_date vote_average vote_count
id
257 Oliver Twist 20.416 2005-09-23 6.7 274.0
14290 Better Luck Tomorrow 3.877 2002-01-12 6.5 27.0
38365 Grown Ups 38.864 2010-06-24 6.0 1705.0
9672 Infamous 3.681 2006-11-16 6.4 60.0
12819 Alpha and Omega 12.301 2010-09-17 5.3 124.0
Baktığımız zaman endekste birleşmenin aslında normal bir birleşmeden farkı yok.
Son
Kullanılan Veri Setleri: Movies, Financials, Actors, Crews, Ratings.
Veri Setleri DataCamp üzerinden alınmıştır.