Soru:
"Bakterinin DNA'sına bir görüntü ve GIF yazmak" ne demektir?
PiratePi
2017-07-13 19:24:31 UTC
view on stackexchange narkive permalink

BBC News kısa süre önce bir makale yayınladı:

Bir görüntü ve kısa film DNA'da, saklama aracı olarak kalıtım birimleri kullanılarak kodlandı bilgi ... Ekip, gif ve görüntüyü almak için bakteriyel DNA'yı sıraladı ve mikropların gerçekten de verileri amaçlandığı gibi dahil ettiğini doğruladı.

This is the image:

Haber makalesi bir el resmi (yukarıda gösterilmektedir) ve bir kısa film (burada gösterilmemiştir) göstermektedir "Crispr [sic] olarak bilinen bir genom düzenleme aracı kullanılarak" DNA'ya kodlanmış bir at binicisinin.

Sorum şu, bu ne anlama geliyor? Bilim adamları bir görüntüyü 0'lara ve 1'lere ve (kurdular mı?) Bakterilere mi ayırdı? Bir bilim insanı bir görüntüyü bakterilere nasıl (indirir?) Ve daha sonra (yeniden indirir?)? DNA, (indirilebilen) bir resmin bilgisini nasıl tutar?

Bunu [biology.se] 'ye taşıyacağım, orada daha iyi bir yanıt alacağınıza inanıyorum. Bu arada - BBC makalesi, bu çalışmanın yayınlandığı [Nature dergisi makalesine] (https://doi.org/10.1038/nature23017) bağlantı veriyor. Okumaya başlamanız gereken ilk yer burasıdır (yine de anlamazsanız sizi suçlamazdım).
Kullanılan CRISPR-Cas sisteminin gerçek CRISPR bölümünü görmek ferahlatıcı.
_ "Bilim adamları bir görüntüyü 0'lara ve 1'lere mi ayırdı?" _ Dijital görüntüler zaten 0'lar ve 1'ler. Hiçbir şeyi "parçalamaya" gerek yok.
Sadece konu dışı bir not: "Bir binicilik atının kısa filmi" ni belirtmek Sanırım, aslında birkaç telli resim olan "Yarış Atı" nın muhtemelen tarihteki ilk filmi. https://movies.stackexchange.com/a/42182/20039
üç yanıtlar:
iayork
2017-07-13 20:07:58 UTC
view on stackexchange narkive permalink

Görüntü DNA'da değil, yalnızca kod bilgisinden görüntüye dönüştürülebilecek soyut bir temsil olarak. Kısaca, DNA'nın pikselleri temsil ettiği birkaç farklı strateji kullanarak görüntüyü DNA'ya kodladılar - ya bir pikseli temsil eden tek bir DNA tabanıyla ya da bir pikseli temsil eden bir üçlü ile. Kullandıkları kodu bilerek, bilgiyi çıkarabilir ve tekrar bir görüntüye dönüştürebilirler.

Orijinal makaleden alıntı yaparak, CRISPR - Dijital bir filmin canlı bakteri popülasyonunun genomlarına kodlanması:

Başladık bir nükleotid kodunda bir görüntü ve depolanan piksel değerleri ile ... İlk önce bir insan elinin görüntülerini iki farklı piksel değeri kodlama stratejisi kullanarak kodladık: 4 piksel renginin her birinin farklı bir temel ile belirlendiği bir katı strateji; ve 21 olası piksel renginin dejenere bir nükleotid üçlü tablosu tarafından belirlendiği esnek bir strateji ... Bilgiyi birden çok protospacer arasında dağıtmak için, her protospacer'a hangi piksel setinin ('piksel' olarak ifade edilir) kodlandığını tanımlayan bir barkod verdik. o aralayıcıdaki nükleotidler tarafından. Dört nükleotid, her bir pikseli tanımlar ve belirli bir pikselin pikselleri görüntüye dağıtılır ...

21 renkli stratejileri şu şekilde özetlenmiştir:

enter image description here

Not: Makale açık erişim değildir. Tam erişimli bir sürüm istiyorsanız, Church genellikle makalelerinin ücretsiz olarak erişilebilen sürümlerini web sitesine koyar; Listesindeki 441 numaralı bu makale orada hala "baskıda" olarak gösteriliyor, ancak belirli aralıklarla tekrar kontrol edin ve belki orada bulunacaktır

Açıklığa kavuşturmak için, diyelim ki 9 piksellik (3x3) bir kare resmim olsaydı, her piksele "rastgele" bazlar atardım, diyelim ki satır1: [GAT], satır 2: [TAC] ve satır 3: [AAA ]. Ve bu 3 satırlık taban kodunun bu 9 piksellik resme denk olduğunu belirten keyfi bir kural koyuyorum. Daha sonra bu kodu CRISPR yöntemini kullanarak bakterilere yükledim ve tekrar okudum. Basitçe söylemek gerekirse, bilim adamlarının yaptığı bu mu?
Sadece OP için açık olmak gerekirse, bu kavramsal olarak görüntüleri ikili olarak kodlamaktan farklı değildir, sadece 2 yerine 4 olası durum vardır. Etkili olarak, DNA'daki her bir baz 2 bittir.
@PiratePi kavramsal olarak bu oldukça doğru. Tam bir görüntü için keyfi kodlamayı tanımlıyorsunuz, bunu piksel başına keyfi (ancak tutarlı) kodlama kullanarak yaptılar, ancak tek fark bu.
Sadece net olmayabilecek (ve yararlı bir şekilde yanıta dahil edilebilecek) bir noktanın açıklamasını eklemek için. GIF, 256 kırmızı-yeşil-mavi renge (2 ^ 8) kadar görüntülere izin veren bir renkli görüntü formatıdır. Renk tablosu, 256 sayı değerinin her birine hangi rengin karşılık geldiğini tanımlar. Genetik kod, bir DNA dizisinden en fazla 64 rengin tanımlanmasına izin verecektir. Bu 64 renk, GIF görüntü kodlamasını yorumlayabilen bir yazılım tarafından hala yorumlanabilir - diğer 192 olasılığın kullanılmadığı gerçeği konu dışıdır. Aynı şekilde 64 yerine 21 için.
256 renk elde etmek için 4 tabanlı "kodonlar" kullanmalarını engelleyen hiçbir şey olmamasına rağmen.
@canadianer Gerçekten; bu amaçla, 3 tabanlı kodonları kullanmakla ilgili 8 bit bayt kullanmaktan daha özel bir şey yoktur.
"AAG" nin bir sayı ile eşleşmemesinin bir nedeni var mı?
_ "Görüntü DNA'da olduğu gibi değildi, sadece kod bilgisinden bir görüntüye dönüştürülebilecek soyut bir temsil olarak" _ Doğru, bu da kodlamanın anlamıdır. Görüntü kesinlikle "DNA'nın içindeydi" ... ve sonraki sadık özütleme bunu kanıtlıyor.
@AndrewPiliser Bu harika, ayrı bir soru olurdu. AAG, * E tarafından kullanılan [PAM] (https://en.m.wikipedia.org/wiki/Protospacer_adjacent_motif) 'dir. protospacer edinimi için gerekli olan veya en azından edinim verimliliğini büyük ölçüde artıran coli *.
Protospacer tam olarak nedir?
"Dört nükleotid, her bir pikseli tanımlar ve belirli bir pikselin pikselleri görüntü boyunca dağıtılır" Bu 4 nükleotid, bir üçlü kodonun 1. tabanı mıdır?
Bahsedilen kağıt ücretsiz olarak erişilebilir değildir.
@Konrad Rudolph ikisini de yaptı. "* 4 piksel renginin her birinin farklı bir tabana göre belirlendiği katı bir strateji ve 21 olası piksel renginin dejenere nükleotid üçlü tablosu tarafından belirlendiği esnek bir strateji *"
@Mockingbird Dört nükleotid yaklaşımı, üçlü stratejiden farklı, daha basit ancak daha az esnek bir stratejiydi.
@iayork Açıklama için teşekkürler, [eleştirdiğim yorumun] yanıt verdiği yorumu yanlış okudum.
Burada daha fazla yorum yazmaktan nefret ediyorum, ancak "4 tabanlı kodonları kullanmalarını engelleyen hiçbir şey olmadığı" şeklindeki önceki ifademi düzeltmeliyim. Aslında, yazıda bu oligonükleotitlerin tümünü sentezlemenin maliyeti konusunda endişelendiklerini görüyorum.
@LightnessRacesinOrbit Sanırım eğer görüntü DNA'da kodlanmışsa, o zaman bakteri bu görüntüye benzeyen bir protein oluşturabilirdi. Ne yazık ki, uzaktan bile değildi. Bunun yerine, sadece görüntü verilerinin depolanması için bir araç olarak DNA kullanıldı ki bu çok daha az heyecan verici.
another 'Homo sapien'
2017-07-14 12:34:01 UTC
view on stackexchange narkive permalink

@iayork'un güzel cevabında neyin eksik olabileceğini eklemek için. E'de yapılan kodlamanın daha basit bir resmini vermek istiyorum. coli DNA.

  • 4 piksel renginin her birinin farklı bir baz ile belirtildiği katı strateji için ilk olarak, bir :

    AAGCCCTGGTCAGCT

    İlk AAG'yi göz ardı edin ve C ile başlayın. Şimdi, her bir DNA tabanı 2 basamaklı bir ikili sayıyı temsil edebilir ve her sayı bir renge karşılık gelir, örneğin :

    C = 00

    T = 01

    A = 10

    G = 11

    Bununla strateji akılda tutulursa, CCCT dizisi 00000001 piksel (veya piksel kümesi) verir ve sıra büyüdükçe bu böyle devam eder. Bu piksel, görüntüdeki dört pikselin rengini tanımlar. Böylece, her bir taban görüntüdeki bir piksele karşılık gelir ve taban, 4 renkli bir görüntüdeki pikselin rengini tanımlar.

  • Şimdi, esnek strateji . Başlangıç ​​olarak, tabloya tekrar bakın:

    flexibe strategy table

    Burada standart 3 tabanlı kodonlar kullanıyoruz. Her bir renk için önceden tanımlanmış değerden (1'den 21'e kadar), rengi kodonu kullanarak bulabiliriz. Örneğin, aynı diziden:

    AAGCCCTGGTCAGCT

    AAG'yi tekrar yok sayın ve CCC ile başlayın. Tablodan, CCC 1 değerini kodlar. Bir sonrakine geçin, TGG 16 değerini kodlar, TCA 10'u kodlar ve GCT 7'yi kodlar, vb. Daha uzun diziler için. Böylece şimdi 4 piksel, yani 2 x 2, renk kodu 1, 16, 10, 7 olan pikselli bir görüntü elde ediyoruz. Bu şekilde, her piksel önceden tanımlanmış değerlerden bir renge sahip olabilir. Bu verileri çıkarırken, görüntü şu şekilde çıkar ( gizmodo 'dan):

image

Yukarıdaki bölüm çoğunlukla bir elin tek görüntüsünden bahsetti. Şimdi, binicilik GIF'i hakkında konuşursak, süreç neredeyse aynı. Burada bir yerine 5 görüntü kodlamamız gerekiyor. Bilim adamları bu 5 görüntüyü 5 farklı hücreye kodladılar. Onları bazı nesiller boyunca kültürledikten sonra, tüm görüntülerin bilgilerini (standart biyoinformatik araçları kullanarak) çıkardılar ve GIF'i geri almak için derlediler. İlk ve son GIF'ler şuna benzer ( wired.com 'dan):

GIF

Ne bunlar katı ve esnek anlamına mı geliyor?

Bu teknikte katı ve esnek , kodondan ziyade bireysel bazla ilgilidir. Katı stratejide, her bir tabanın değeri sabittir, yani katıdır. Örneğin, herhangi bir sırada, sonraki veya önceki taban ne olursa olsun, C '00' değerini kodlayacaktır. Bu, hem CCCT hem de GGTC'de C'nin katı değerinin '00' olduğu anlamına gelir. Dolayısıyla, her bir tabanın katı bir şekilde bir pikselin rengine karşılık geldiği 4 renkli bir görüntü için, dizideki tabanlar kadar çok piksel elde ederiz.

Öte yandan, esnek stratejisine bağlı olarak, bireysel tabanların sabit bir değeri yoktur ve bir pikselin genel değeri, o pikseli kodlayan tüm tabanlarla tanımlanır. Örneğin, TCC 6 değerini kodlarken CCC 1'i kodlar. Bireysel bazın değeri dejenere (veya esnek ), dolayısıyla esnek strateji adıdır.

Bu nedenle, kısaca özetlemek gerekirse, bir piksel tek bir temel ile tanımlandığı için (esnek stratejide bir piksel bir kodon tarafından tanımlandığı için) katı strateji daha verimli iken, esnek strateji daha renkli görüntüler elde etmek için daha uygundur çünkü bir kodondaki baz sayısını artırarak daha fazla renk seçeneği elde edersiniz (oysa katı stratejide yalnızca 4 renk elde edersiniz, 4 bazla tanımlanır).

Neden AAG'yi görmezden geliyoruz? güçlü>

@canadianer'ın yanıtında belirttiği gibi, AAG bir PAM , yani Protospacer Bitişik Motiftir. Wikipedia 'ya göre:

Protospacer bitişik motif (PAM), CRISPR bakterisinde Cas9 nükleaz tarafından hedeflenen DNA dizisinin hemen ardından gelen 2-6 baz çiftli bir DNA dizisidir. adaptif bağışıklık sistemi. PAM, istilacı virüsün veya plazmidin bir bileşenidir, ancak bakteriyel CRISPR lokusunun bir bileşeni değildir.

Basit bir ifadeyle (teknik ayrıntılardan kaçınarak), CRISPR'nin çalışması için PAM gereklidir , ancak dizinin kendisinin bir parçası değildir. Bir noktalama işaretine çok benzer şekilde, CRISPR'nin düzgün çalışması için gereklidir, ancak kodlama / kod çözme amacıyla okunmamalıdır. E'de bulunan Cas9 için. coli (ve en popüler olanıdır), AAG dizisi bir PAM olarak hizmet eder ve bu nedenle burada kodlama amacıyla kullanılmaz. Bilim insanları, entegrasyon için birden fazla tanıma sitesi olmaması için piksellerinde AAG kullanmaktan da kaçındı (CRISPR'nin çalıştığının farkında değilseniz bu noktayı göz ardı edin).

Referans : Shipman, S., Nivala, J., Macklis, J. ve Church, G. (2017). CRISPR-Cas, bir dijital filmin canlı bakteri popülasyonunun genomlarına kodlanması. Doğa. http://dx.doi.org/10.1038/nature23017

Sadece bir not: "AAG" dizisi, belirli bir Cas proteini için bir PAM'dir. Farklı bakteri türlerinden Cas proteinleri vardır ve farklı PAM'lere sahiptirler.
CAS9 neden AAG'yi okumuyor?
Güzel bir ek, ancak BL21'de Cas9 yok. Bu yazıda, protospacer edinimi için PAM tanımasına yalnızca heterolog Cas1-Cas2 kompleksi aracılık etmektedir. Entegrasyon için birden fazla tanıma sitesi olmaması için dahili AAG'den kaçınılır.
Makalede tartışılan dejenere bir kodun, özellikle tekrarlardan ve dahili PAM'lardan kaçınmanın faydalarından da bahsedebilirsiniz.
Dijital bir resmin farklı bölümlerinde birçok piksel vardır. Ancak bu yöntemde bir resmin belirli konumunun piksellerini bulmanın herhangi bir yolu var mı? Ya da bilim adamları farklı bölümler için farklı bakteriler belirlediler mi?
@mockingbird AFAIK'in tek yolu saymaktır. Hayır, bilim adamları bir hücrede bir tam görüntüyü kodladılar, farklı hücrelere yalnızca farklı görüntüler dahil edildi. İlk sorunuza gelince, Cas9 AAG'yi okuyor, ancak bu daha çok bir sinyal, bu yüzden onu piksel olarak kullanma riskini almıyoruz. Kanadalı'nın ilk yorumuna bakın.
@Mockingbird Bence tüm CRISPR lokusunu toptan sıraladılar, ki bu gerçekten fazla ilginç değil. Bana göre, bu araştırmanın en güzel kısmı, bilgiyi genoma entegre etmek için CRISPR'yi nasıl kullandıklarıdır.
"Tüm CRISPR lokusunu toptan sıralaması" derken ne demek istediğini anlamıyorum. Tüm CRISPR lokusunun tek bir görüntü için kodlandığını mı söylüyorsunuz? Ancak bir görüntünün birçok pikseli vardır. Düzeni nasıl sağladılar?
@Another Ödeme duvarının gerisinde olmayan bu fenomenle ilgili bir makaleye bağlantı ekleyebilir misiniz?
@another'Homosapien' Evet, şimdi bitti;)
yazarsınız - * Şimdi, her bir DNA tabanı 2 basamaklı bir ikili sayıyı * temsil edebilir. Neden 2 basamaklı? neden 1 veya 3 basamaklı değil?
@user1993 çünkü sadece 4 baz vardır, 1 hane için çok fazla (2) ve 3 hane için çok az (8)
Ancak yanıtta açıklığa kavuşturulmayan şey, "GIF" kelimesinin kullanılmasıydı - araştırmacılar görüntüyü CompuServe Graphics Interchange Formatında mı kodladılar yoksa "GIF" yanlış adlandırma olarak kasıtlı olarak mı kullanılıyordu, çünkü daha tanıdık bir yol "animasyonlu resim" mi diyorsunuz?
@oldmud0 Ben de düşünmeyeceğim. GIF'i (yani bir grup görüntüyü) ayrı ayrı görüntülere böldüler ve kodladılar. Daha sonra, tek tek görüntüler için verileri çıkardılar ve GIF'i geri almak için birleştirdiler. Bu nedenle, ne GIF biçiminde kodlanmıştır, ne de GIF yanlış bir isimdir. Bana çok iyi görünüyor :)
@another'Homosapien' O halde, animasyonlu bir resme GIF olarak değil, animasyonlu bir resim olarak atıfta bulunmak daha profesyonel ve doğru olur, değil mi? Bir GIF'in kendisi DNA'ya yazılmamıştır ve animasyonlu görüntünün formatı deneyde önemli değildir ("grafik değişim ** formatı **").
Açıkçası evet öyle olmalı. Ancak bilgisayarlara ve formatlara pek aşina olmayan insanlar genellikle 'animasyonlu görüntü' terimini anlamıyorlar çünkü 'GIF' terimiyle kastettikleri şey budur (ironik, biliyorum, ama bunu birçok kez gördüm)
@oldmud0 Gazeteyi tekrar okumadan, doğru tanımın bir GIF'i yeni DNA kodlarına dönüştürmeleri olacağını tahmin ediyorum.
canadianer
2017-07-14 16:02:05 UTC
view on stackexchange narkive permalink

Birkaç kişi kodda AAG üçlüsünden neden kaçınıldığını sorduğundan, bunu diğer yanıtların yanı sıra eklemeyi düşündüm. Bu araştırmanın ilginç kısmı, ille de görüntü kodlaması değil, kodlayıcı DNA'yı genoma entegre etmek için CRISPR sistemini nasıl kullandıklarıdır. Görüntünün tek bir uzun dizede kodlanmaması, bunun yerine E'nin tip I CRISPR sisteminin doğası gereği bazılarını şaşırtabilir. E. coli , protospacer olarak adlandırılan 33 baz çifti yığınında (bunların 27'si gerçek kodlama için kullanılır, bu da her boşluk için 9 piksel verir). Bu nedenle, 30x30 piksellik görüntünün tamamı, 100 protospacer'ın kararlı entegrasyonunu gerektiriyordu (tek bir hücrede olması şart olmasa da). Bu protospacerler (oligonükleotidler) kimyasal olarak sentezlendi ve daha sonra elektroporasyon ile hücrelere eklendi.

Bu protospacerların genomik CRISPR lokusuna entegrasyonu, heterolog Cas1 ve Cas2 endonükleazlarının aşırı ifadesini kullandı. Bu proteinler, söz konusu CRISPR sistemi durumunda AAG olan bir protospacer ilişkili motif (PAM) tarafından kuşatıldığında tercihen ekzojen DNA'yı tanır. Kompleks, PAM'ı tanır ve genoma eklenen 33 bp'lik ayırıcıyı oluşturmak için eksojen DNA'yı böler. Basitçe ifade etmek gerekirse, şu şekilde resmedilebilir:

enter image description here

Ancak, bir pikseli kodlamak için AAG'nin kullanıldığı bir durumu düşünün:

enter image description here

Bu, hangi PAM'ın tanındığına bağlı olarak bilgi kaybına yol açabilecek dahili bir PAM oluşturur. Aslında, dejenere bir koda sahip olmanın en büyük faydası, dahili PAM'lara veya dizi tekrarlarına (çoğaltmada hataya açık olan) yol açan belirli üçlü kombinasyonlardan kaçınmaktır.


Referanslar / Daha Fazla Okuma :

Amitai G, Sorek R. 2016. CRISPR-Cas uyarlaması: eylem mekanizmasına ilişkin bilgiler. Nat Rev Microbiol 14: 67-76.

Shipman SL, Nivala J, Macklis JD, Kilise GM. 2017. CRISPR-Cas bir dijital filmin yaşayan bir bakteri popülasyonunun genomlarına kodlanması. Doğa.

Wang J, Li J, Zhao H, Sheng G, Wang M, Yin M, Wang Y. 2015. PAM'a bağlı ara parça ediniminin yapısal ve mekanik temeli CRISPR-Cas sistemleri. Cell 163: 840-853

Not: Önem veren herkes için bu görüntüler teknik olarak doğru değil ama şu anda onları değiştirmek istemiyorum. Gerçekte, PAM işlenmiş aralayıcının bir parçası değildir.

Yeterince iyi, +1! Yine de ikinci paragrafı biraz genişletmen gerektiğini düşünüyorum: P
@another'Homosapien' Çok fazla mekanik ayrıntıdan kaçınmaya çalıştım çünkü bu soruyla ilgilenen pek çok kişinin CRISPR-Cas'ın inceliklerini çok iyi bilmediğini umuyorum (ve bu konuda ben de değilim). Yine de önerilere açığım.
Küçük bir jargon olmadan, güvenilirliği nasıl değerlendirilebilir? ;)


Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...