Stream multi-tenant data with Amazon MSK

Post Syndicated from Emanuele Levi original

Real-time data streaming has become prominent in today’s world of instantaneous digital experiences. Modern software as a service (SaaS) applications across all industries rely more and more on continuously generated data from different data sources such as web and mobile applications, Internet of Things (IoT) devices, social media platforms, and ecommerce sites. Processing these data streams in real time is key to delivering responsive and personalized solutions, and maximizes the value of data by processing it as close to the event time as possible.

AWS helps SaaS vendors by providing the building blocks needed to implement a streaming application with Amazon Kinesis Data Streams and Amazon Managed Streaming for Apache Kafka (Amazon MSK), and real-time processing applications with Amazon Managed Service for Apache Flink.

In this post, we look at implementation patterns a SaaS vendor can adopt when using a streaming platform as a means of integration between internal components, where streaming data is not directly exposed to third parties. In particular, we focus on Amazon MSK.

Streaming multi-tenancy patterns

When building streaming applications, you should take the following dimensions into account:

  • Data partitioning – Event streaming and storage needs to be isolated at the appropriate level, physical or logical, based on tenant ownership
  • Performance fairness – The performance coupling of applications processing streaming data for different tenants must be controlled and limited
  • Tenant isolation – A solid authorization strategy needs to be put in place to make sure tenants can access only their data

Underpinning all interactions with a multi-tenant system is the concept of SaaS identity. For more information, refer to SaaS Architecture Fundamentals.

SaaS deployment models

Tenant isolation is not optional for SaaS providers, and tenant isolation approaches will differ depending on your deployment model. The model is influenced by business requirements, and the models are not mutually exclusive. Trade-offs must be weighed across individual services to achieve a proper balance of isolation, complexity, and cost. There is no universal solution, and a SaaS vendor needs to carefully weigh their business and customer needs against three isolation strategies: silo, pool and bridge (or combinations thereof).

In the following sections, we explore these deployment models across data isolation, performance fairness, and tenant isolation dimensions.

Silo model

The silo model represents the highest level of data segregation, but also the highest running cost. Having a dedicated MSK cluster per tenant increases the risk of overprovisioning and requires duplication of management and monitoring tooling.

Having a dedicated MSK cluster per tenant makes sure tenant data partitioning occurs at the disk level when using an Amazon MSK Provisioned model. Both Amazon MSK Provisioned and Serverless clusters support server-side encryption at rest. Amazon MSK Provisioned further allows you to use a customer managed AWS Key Management Service (AWS KMS) key (see Amazon MSK encryption).

In a silo model, Kafka ACL and quotas is not strictly required unless your business requirements require them. Performance fairness is guaranteed because only a single tenant will be using the resources of the entire MSK cluster and are dedicated to applications producing and consuming events of a single tenant. This means spikes of traffic on a specific tenant can’t impact other tenants, and there is no risk of cross-tenant data access. As a drawback, having a provisioned cluster per tenant requires a right-sizing exercise per tenant, with a higher risk of overprovisioning than in the pool or bridge models.

You can implement tenant isolation the MSK cluster level with AWS Identity and Access Management (IAM) policies, creating per-cluster credentials, depending on the authentication scheme in use.

Pool model

The pool model is the simplest model where tenants share resources. A single MSK cluster is used for all tenants with data split into topics based on the event type (for example, all events related to orders go to the topic orders), and all tenant’s events are sent to the same topic. The following diagram illustrates this architecture.

Image showing a single streaming topic with multiple producers and consumers

This model maximizes operational simplicity, but reduces the tenant isolation options available because the SaaS provider won’t be able to differentiate per-tenant operational parameters and all responsibilities of isolation are delegated to the applications producing and consuming data from Kafka. The pool model also doesn’t provide any mechanism of physical data partitioning, nor performance fairness. A SaaS provider with these requirements should consider either a bridge or silo model. If you don’t have requirements to account for parameters such as per-tenant encryption keys or tenant-specific data operations, a pool model offers reduced complexity and can be a viable option. Let’s dig deeper into the trade-offs.

A common strategy to implement consumer isolation is to identify the tenant within each event using a tenant ID. The options available with Kafka are passing the tenant ID either as event metadata (header) or part of the payload itself as an explicit field. With this approach, the tenant ID will be used as a standardized field across all applications within both the message payload and the event header. This approach can reduce the risk of semantic divergence when components process and forward messages because event headers are handled differently by different processing frameworks and could be stripped when forwarded. Conversely, the event body is often forwarded as a single object and no contained information is lost unless the event is explicitly transformed. Including the tenant ID in the event header as well may simplify the implementation of services allowing you to specify tenants that need to be recovered or migrated without requiring the provider to deserialize the message payload to filter by tenant.

When specifying the tenant ID using either a header or as a field in the event, consumer applications will not be able to selectively subscribe to the events of a specific tenant. With Kafka, a consumer subscribes to a topic and receives all events sent to that topic of all tenants. Only after receiving an event will the consumer will be able to inspect the tenant ID to filter the tenant of interest, making access segregation virtually impossible. This means sensitive data must be encrypted to make sure a tenant can’t read another tenant’s data when viewing these events. In Kafka, server-side encryption can only be set at the cluster level, where all tenants sharing a cluster will share the same server-side encryption key.

In Kafka, data retention can only be set on the topic. In the pool model, events belonging to all tenants are sent to the same topic, so tenant-specific operations like deleting all data for a tenant will not be possible. The immutable, append-only nature of Kafka only allows an entire topic to be deleted, not selective events belonging to a specific tenant. If specific customer data in the stream requires the right to be forgotten, such as for GDPR, a pool model will not work for that data and silo should be considered for that specific data stream.

Bridge model

In the bridge model, a single Kafka cluster is used across all tenants, but events from different tenants are segregated into different topics. With this model, there is a topic for each group of related events per tenant. You can simplify operations by adopting a topic naming convention such as including the tenant ID in the topic name. This will practically create a namespace per tenant, and also allows different administrators to manage different tenants, setting permissions with a prefix ACL, and avoiding naming clashes (for example, events related to orders for tenant 1 go to tenant1.orders and orders of tenant 2 go to tenant2.orders). The following diagram illustrates this architecture.

Image showing multiple producers and consumers each publishing to a stream-per-tenant

With the bridge model, server-side encryption using a per-tenant key is not possible. Data from different tenants is stored in the same MSK cluster, and server-side encryption keys can be specified per cluster only. For the same reason, data segregation can only be achieved at file level, because separate topics are stored in separate files. Amazon MSK stores all topics within the same Amazon Elastic Block Store (Amazon EBS) volume.

The bridge model offers per-tenant customization, such as retention policy or max message size, because Kafka allows you to set these parameters per topic. The bridge model also simplifies segregating and decoupling event processing per tenant, allowing a stronger isolation between separate applications that process data of separate tenants.

To summarize, the bridge model offers the following capabilities:

  • Tenant processing segregation – A consumer application can selectively subscribe to the topics belonging to specific tenants and only receive events for those tenants. A SaaS provider will be able to delete data for specific tenants, selectively deleting the topics belonging to that tenant.
  • Selective scaling of the processing – With Kafka, the maximum number of parallel consumers is determined by the number of partitions of a topic, and the number of partitions can be set per topic, and therefore per tenant.
  • Performance fairness – You can implement performance fairness using Kafka quotas, supported by Amazon MSK, preventing the services processing a particularly busy tenant to consume too many cluster resources, at the expense of other tenants. Refer to the following two-part series for more details on Kafka quotas in Amazon MSK, and an example implementation for IAM authentication.
  • Tenant isolation – You can implement tenant isolation using IAM access control or Apache Kafka ACLs, depending on the authentication scheme that is used with Amazon MSK. Both IAM and Kafka ACLs allow you to control access per topic. You can authorize an application to access only the topics belonging to the tenant it is supposed to process.

Trade-offs in a SaaS environment

Although each model provides different capabilities for data partitioning, performance fairness, and tenant isolation, they also come with different costs and complexities. During planning, it’s important to identify what trade-offs you are willing to make for typical customers, and provide a tier structure to your client subscriptions.

The following table summarizes the supported capabilities of the three models in a streaming application.

. Pool Bridge Silo
Per-tenant encryption at rest No No Yes
Can implement right to be forgotten for single tenant No Yes Yes
Per-tenant retention policies No Yes Yes
Per-tenant event size limit No Yes Yes
Per-tenant replayability Yes (must implement with logic in consumers) Yes Yes


In the bridge model, we discussed tenant segregation by topic. An alternative would be segregating by partition, where all messages of a given type are sent to the same topic (for example, orders), but each tenant has a dedicated partition. This approach has many disadvantages and we strongly discourage it. In Kafka, partitions are the unit of horizontal scaling and balancing of brokers and consumers. Assigning partitions per tenants can introduce unbalancing of the cluster, and operational and performance issues that will be hard to overcome.

Some level of data isolation, such as per-tenant encryption keys, could be achieved using client-side encryption, delegating any encryption or description to the producer and consumer applications. This approach would allow you to use a separate encryption key per tenant. We don’t recommend this approach because it introduces a higher level of complexity in both the consumer and producer applications. It may also prevent you from using most of the standard programming libraries, Kafka tooling, and most Kafka ecosystem services, like Kafka Connect or MSK Connect.


In this post, we explored three patterns that SaaS vendors can use when architecting multi-tenant streaming applications with Amazon MSK: the pool, bridge, and silo models. Each model presents different trade-offs between operational simplicity, tenant isolation level, and cost efficiency.

The silo model dedicates full MSK clusters per tenant, offering a straightforward tenant isolation approach but incurring a higher maintenance and cost per tenant. The pool model offers increased operational and cost-efficiencies by sharing all resources across tenants, but provides limited data partitioning, performance fairness, and tenant isolation capabilities. Finally, the bridge model offers a good compromise between operational and cost-efficiencies while providing a good range of options to create robust tenant isolation and performance fairness strategies.

When architecting your multi-tenant streaming solution, carefully evaluate your requirements around tenant isolation, data privacy, per-tenant customization, and performance guarantees to determine the appropriate model. Combine models if needed to find the right balance for your business. As you scale your application, reassess isolation needs and migrate across models accordingly.

As you’ve seen in this post, there is no one-size-fits-all pattern for streaming data in a multi-tenant architecture. Carefully weighing your streaming outcomes and customer needs will help determine the correct trade-offs you can make while making sure your customer data is secure and auditable. Continue your learning journey on SkillBuilder with our SaaS curriculum, get hands-on with an AWS Serverless SaaS workshop or Amazon EKS SaaS workshop, or dive deep with Amazon MSK Labs.

About the Authors

Emmanuele Levi is a Solutions Architect in the Enterprise Software and SaaS team, based in London. Emanuele helps UK customers on their journey to refactor monolithic applications into modern microservices SaaS architectures. Emanuele is mainly interested in event-driven patterns and designs, especially when applied to analytics and AI, where he has expertise in the fraud-detection industry.

Lorenzo Nicora is a Senior Streaming Solution Architect helping customers across EMEA. He has been building cloud-native, data-intensive systems for over 25 years, working across industries, in consultancies and product companies. He has leveraged open-source technologies extensively and contributed to several projects, including Apache Flink.

Nicholas Tunney is a Senior Partner Solutions Architect for Worldwide Public Sector at AWS. He works with Global SI partners to develop architectures on AWS for clients in the government, nonprofit healthcare, utility, and education sectors.  He is also a core member of the SaaS Technical Field Community where he gets to meet clients from all over the world who are building SaaS on AWS.

За природата на поезията и политиката в думите. Разговор с Линда Грегърсън и Ник Леърд

Post Syndicated from Стефан Иванов original

За природата на поезията и политиката в думите. Разговор с Линда Грегърсън и Ник Леърд

Линда Грегърсън (САЩ) и Ник Леърд (Северна Ирландия) гостуваха на тазгодишния международен фестивал „СтолицаЛитература“, организиран от Фондация „Елизабет Костова“. Двамата поети имаха литературно четене на 13 юни в софийската галерия „Прегърни ме“. Малко преди събитието Стефан Иванов разговаря с тях.

Как виждате ролята на поезията в съвременната политика? Може ли поезията да повлияе на политическия контекст и на общественото мнение?

Линда Грегърсън: Циничният отговор е, че поезията няма роля, поетите нямаме влияние, това е съвсем друга сфера. Но всъщност смятам, че светът на поезията е изключително важен, защото в тези наши разбити общества виждаме как хората вече не могат да си представят другия като човешко същество. Налице са тези дълбоки провали на въображението, на умението да се слуша и да се обръща внимание. И именно поезията е мястото, където можем едновременно да експериментираме с питания за това, което мислим и чувстваме, но и където можем да се вслушаме и да чуем, макар и накъсано, звука на човешкия глас.

Струва ми се, че това трябва да бъде основата за възстановяването на разговора в обществото. В липсата на тази основа има трагедия от световен мащаб. Независимо дали е в класната стая, в семейството, в градчето, на работното място, в държавата. Езикът e изкоренен. Той е толкова съзнателно манипулиран и изпразнен от съдържание съвсем нарочно от политици като нашия Доналд Тръмп, чиято стратегическа нечленоразделност е плашещо ефективен инструмент. Има верига на недобросъвестност в езика, която наистина е отровна. Предполагам, че на това ниво чрез поезията възстановяваме добросъвестността в използването на думите.

Ник Леърд: Мисля, че не, поезията не може да влияе върху политиката, но има странни случаи, в които го прави. Особено в Северна Ирландия, където творчеството на Шеймъс Хийни постоянно се цитира. Когато Бил Клинтън дойде на посещение покрай сключването на Белфасткото споразумение, той обичаше да цитира стихове на Хийни. Така че поезията може да изрази определени чувства по един рекламен начин. 

Не съм сигурен, че съвременната поезия има някаква роля в политиката освен тази, наистина. Според мен политиците обичат да избират определени стихове и да ги използват за свои собствени цели. Но не смятам, че поетите са „непризнатите законодатели на този свят“, както казва Пърси Шели. Не мисля, че е вече вярно. Искам да кажа, че това определено е спорт за малцина. Уинстън Одън например е интересен поет и човек, защото смята, че поезията е най-важното нещо на света – но и че е напълно безсмислена. Това не само е забавно, но е и вярно.

Какво мислите за настоящите културни политики, които засягат изкуствата и литературата? Има ли конкретни политики, които според вас са оказали значително влияние върху поетичната общност?

Линда Грегърсън: Това, разбира се, е различно на различните места, особено заради финансирането и начина, по който то се разпределя. От една страна, ние сме изключително привилегировани в Съединените щати. Съществуват множество източници на финансиране. Има организации като Академията на американските поети например, която има чудесен уебсайт, както и Фондация „Поезия“ с онлайн хранилището си на творби, биографии на поети и образователни материали.

Структурата на Академията на американските поети включва Съвет на ректорите, избирани с шестгодишен мандат, и по този начин организацията винаги се променя и развива. Това, с което се гордеех най-много по време на мандата си там, бяха образователните текстови, видео- и аудиоматериали, които създадохме за деца от детската градина до 12-ти клас. Тези материали бяха достъпни в целите Съединени щати, за всеки учител и всяко училище, което искаше да ги използва. По един проект, наречен „Скъпи поете“, подканихме ученици да пишат писма на поети. На всяко писмо се отговаряше. Започваха се и се продължаваха разговори.

Това са инициативи, които ми вдъхват надежда.

Ник Леърд: Всъщност не знам. Моите издатели „Фейбър енд Фейбър“ имат икономически интереси и печелят много пари от мюзикъла по Т. С. Елиът „Котките“. Той издържа издателството от години. Но знам, че много от издателите на поезия са държавно субсидирани. Това често е начинът, по който се издава поезия. Всяка година съм в жури за награда за дебютна поезия и всеки път се изненадвам от количеството публикувани книги. Може би много от тях са публикувани твърде бързо. Субсидираното от държавата издаване има своите недостатъци. То е несъмнено нещо добро, разбира се, аз не съм срещу държавната политика за влагане на пари в изкуството. Та боже мой, културата печели колкото може, а са нужни повече средства. Но не вярвам, че всяко произведение на изкуството трябва да печели пари. Нужно е да има място и за авангардно изкуство.

Всъщност нямам отговор на този въпрос. Знам, че поетите трябва да правят и други неща, а не само да пишат поезия. Аз съм на 48 години и известно време бях адвокат, а след това пишех романи. Сега пиша сценарии и преподавам в Белфаст. Може би поезията винаги трябва да бъде хоби. Смятам нейното професионализиране за странно. Тя не работи точно по този начин. Мисля, че има добри работни места за поетите, както Тед Хюз говореше за идеята поетите да са нощни пазачи, които могат просто да седят и да четат книги по цели нощи. Това е шега, но не съвсем, защото човек наистина има нужда от работа. Например да бъде градинар или нещо подобно. Алис Осуалд е градинарка. Тя има възможност да мисли през цялото време, но и ръцете ѝ са заети и е навън сред природата. Ако работата ви е да седите по цял ден и да се опитвате да напишете стихотворение, главата ви ще се пръсне. 

Сблъсквали ли сте се някога с цензура или с ограничаване на свободата на словото? Как трябва да се ориентират поетите в този социален климат?

Линда Грегърсън: Ще ми се да знаех. Трябва да започнем с това да бъдем добри един към друг, да бъдем щедри, да се съмняваме в радикалната си правота и да вярваме, че има начини да общуваме. Много често и много лесно войните в културата стават реални войни. Трябва само да се огледаме. Понякога съм благодарна, че съм стара, защото скоро може да бъде още по-ужасяващо. 

Едно от нещата, които най-много ме притесняват през последните десетилетия, е режимът на атака в социалните мрежи, където читатели и поети се цензурират един друг, намират се за виновни за някакви ужасни и понякога недействителни неща. Преподавам поезия на млади хора, които се страхуват да пишат. Това наистина ме тревожи, защото има много неща, които трябва да се изследват смело. Но за младите поети това е като минно поле.

Ник Леърд: Няма да навлизам в подробности, но да, сблъсквал съм се с цензура. Когато излезе първият ми роман в Северна Ирландия, разстроих някои хора, които звъняха на родителите ми и ги тормозеха. Бях говорил за протестантски паравоенни формирования в моя град и подразних някои хора. Но никога не се е стигало до насилие. Казвал съм това, което мисля. 

Живеем обаче в такова време – не бива да пишеш нищо, което може лесно да бъде изтълкувано погрешно или да бъде манипулирано. Сложно време. И глупаво, много глупаво. Живях в Ню Йорк 12 години и накрая бях доста щастлив да го напусна, защото градът се поляризира и стана толкова нелеп. На всичко трябваше да се слага етикет. А аз произхождам от работническата класа. Родителите ми не са завършили университет. Учил съм в държавно училище, а преподавах на много деца, завършили частни училища, и разговорите бяха твърде глупави. В Белфаст е различно. Той е много по-беден в сравнение с Ню Йорк. Хората не плащат по 100 000 долара на година, за да бъдат обучавани. И разговорите са по-скоро за поезия и по-малко за привилегии, което е облекчение. В момента Америка преживява свой собствен спазъм и трябва да видим какво ще се случи, но се радвам, че вече не съм в центъра ѝ. 

Що се отнася до свободата на словото – дадох интервю за Irish Times, в което говорихме за Брекзит и нарекох Борис Джонсън лайно. И той е лайно, разбира се. Помислих си, че ще имам неприятности за това, но на никого не му пукаше, защото всички също смятаха, че той е лайно. Можеш да кажеш много неща и може би ще предизвикаш малък скандал за един ден, но думите вече рядко водят до последствия и реакции. Това не е добро време. Не е добро време за нищо.

Във връзка с това смятате ли, че поетите наистина имат отговорността да се ангажират с политически и социални въпроси в творчеството си?

Линда Грегърсън: Зависи как се тълкува това. Със сигурност не смятам, че поезията може да предложи политически прозрения. Поезията не е добра в аргументираните спорове, защото се превръща в дидактика и агитация, в нещо друго, което просто не е в специалните ѝ правомощия. Поезията според мен е много добра в задаването на въпроси. А въпросите може да се задават и добронамерено. Не реторично и не като атака срещу другите, а като спор със самия себе си, като разпит, при който човекът и съвестта му са в риск, защото това може да бъде и опасен диалог. Мисля, че поезията е много добра в откриването на симптомите – в идентифицирането им, в тревожното им осъзнаване и в събуждането на желание за промяна.

Ник Леърд: Поетите не са длъжни да се занимават с политически и социални теми. Не мисля, че поетите имат по-голяма или по-малка отговорност от всички останали граждани. Те трябва да гласуват и трябва да казват какво мислят. Но не бих искал да казвам на поет, че трябва да пише за определени каузи, отчасти защото поезията не работи по този начин. Трябва просто да седиш и да чакаш нещо да се появи, а след това да го следваш. Стихотворения, в които няма никаква изненада, не представляват интерес за мен. Трябва да е изненада за автора, преди да е изненада за читателя. И мисля, че проблемът с писането на стихотворения за някаква кауза е, че то просто става дидактично и скучно. Поезията, както знаете, е много странно животно и обича свободата.

Как неотдавнашните глобални събития, пандемията, климатичните промени, движенията за социална справедливост повлияха на поезията ви и на нещата, които изследвате по някакъв начин?

Линда Грегърсън: Изключително много. Човек не може да бъде жив и осъзнат, без да му тежат пагубните щети, които сме нанесли на планетата, на климата и един на друг. Мисля, че това трябва да се признае, а не просто да е повод за хленч. Искам да кажа, че има начини поезията да се вълнува от това. Ако предпазваме поезията от всичко, това е просто лошо за нея. Не може да се каже: тази тема е подходяща, а тази – не.

Ник Леърд: Докато растях в Северна Ирландия, течеше кулминацията на т.нар. политика на идентичността, защото всеки гласуваше според това в какво семейство е роден и в какво е приобщен. Като резултат аз се интересувам по-малко от политиката на идентичността. Прекарах дълго време в очакване Северна Ирландия да се превърне в останалата част от света, а вместо това останалата част от света се превърна в Северна Ирландия. И това беше объркващо и болезнено. 

Не мисля, че това ми е повлияло по отношение на климатичните промени, освен че се върнах в Северна Ирландия и наскоро направих документално радиопредаване за унищожаването на най-голямото езеро на Британските острови. То просто е опустошено от замърсяване, от липса на законодателство и надзор. Освен това все още е собственост на потомък на човека, който го е откраднал преди повече от четири века. И това е експлоататорският капитализъм в най-лошия му вид. Той просто взема целия пясък от езерото и го продава. Вече векове в Северна Ирландия се живее с едни и същи проблеми. 

Предполагам, че поезията е начин да се опитаме да мислим за тези неща и да ги изразим. Но тя не е много добър метод за предаване на информация. 

Линда Грегърсън (р. 1950) е авторка на шест стихосбирки, последната от които е Canopy, публикувана през 2022 г. от нюйоркското издателство Ecco. Финалистка и носителка е на множество награди, сред които „Кингзли Тъфтс“, „Ленор Маршал“, Националната литературна награда на САЩ и др. Книгата с нейни избрани стихотворения „Машини за дишане“ в превод на Надежда Радулова е публикувана в България през 2018 г. от Издателство за поезия „ДА“. Грегърсън е член на Американската академия на изкуствата и науките, почетен ректор на Академията на американските поети и професор в Мичиганския университет, където ръководи и писателската програма „Хелън Зел“.

Ник Леърд (р. 1975) е поет, романист, сценарист, критик, автор на детски книги и бивш адвокат. Носител е на множество награди, сред които „Бети Траск“, „Руни“, „Джефри Фабер“, „Форуард“, „Съмърсет Моъм“. Преподавал е в Колумбийския, Принстънския и Нюйоркския университет, а в момента е професор по поезия в Университета „Куинс“ в Белфаст. Последната му стихосбирка Up Late е публикувана през 2023-та, а тази година предстои издаването на новата му детска книга със заглавие Weirdo Goes Wild. Съпруг е на писателката Зейди Смит.

A Recap of the Data Engineering Open Forum at Netflix

Post Syndicated from Netflix Technology Blog original

A summary of sessions at the first Data Engineering Open Forum at Netflix on April 18th, 2024

The Data Engineering Open Forum at Netflix on April 18th, 2024.

At Netflix, we aspire to entertain the world, and our data engineering teams play a crucial role in this mission by enabling data-driven decision-making at scale. Netflix is not the only place where data engineers are solving challenging problems with creative solutions. On April 18th, 2024, we hosted the inaugural Data Engineering Open Forum at our Los Gatos office, bringing together data engineers from various industries to share, learn, and connect.

At the conference, our speakers share their unique perspectives on modern developments, immediate challenges, and future prospects of data engineering. We are excited to share the recordings of talks from the conference with the rest of the world.

Opening Remarks


Speaker: Max Schmeiser (Vice President of Studio and Content Data Science & Engineering)

Summary: Max Schmeiser extends a warm welcome to all attendees, marking the beginning of our inaugural Data Engineering Open Forum.

Evolving from Rule-based Classifier: Machine Learning Powered Auto Remediation in Netflix Data Platform



Summary: At Netflix, hundreds of thousands of workflows and millions of jobs are running every day on our big data platform, but diagnosing and remediating job failures can impose considerable operational burdens. To handle errors efficiently, Netflix developed a rule-based classifier for error classification called “Pensive.” However, as the system has increased in scale and complexity, Pensive has been facing challenges due to its limited support for operational automation, especially for handling memory configuration errors and unclassified errors. To address these challenges, we have developed a new feature called “Auto Remediation,” which integrates the rules-based classifier with an ML service.

Automating the Data Architect: Generative AI for Enterprise Data Modeling


Speaker: Jide Ogunjobi (Founder & CTO at Context Data)

Summary: As organizations accumulate ever-larger stores of data across disparate systems, efficiently querying and gaining insights from enterprise data remain ongoing challenges. To address this, we propose developing an intelligent agent that can automatically discover, map, and query all data within an enterprise. This “Enterprise Data Model/Architect Agent” employs generative AI techniques for autonomous enterprise data modeling and architecture.

Tulika Bhatt, Senior Data Engineer at Netflix, shared how her team manages impression data at scale.

Real-Time Delivery of Impressions at Scale


Speaker: Tulika Bhatt (Senior Data Engineer at Netflix)

Summary: Netflix generates approximately 18 billion impressions daily. These impressions significantly influence a viewer’s browsing experience, as they are essential for powering video ranker algorithms and computing adaptive pages, With the evolution of user interfaces to be more responsive to in-session interactions, coupled with the growing demand for real-time adaptive recommendations, it has become highly imperative that these impressions are provided on a near real-time basis. This talk will delve into the creative solutions Netflix deploys to manage this high-volume, real-time data requirement while balancing scalability and cost.

Reflections on Building a Data Platform From the Ground Up in a Post-GDPR World


Speaker: Jessica Larson (Data Engineer & Author of “Snowflake Access Control”)

Summary: The requirements for creating a new data warehouse in the post-GDPR world are significantly different from those of the pre-GDPR world, such as the need to prioritize sensitive data protection and regulatory compliance over performance and cost. In this talk, Jessica Larson shares her takeaways from building a new data platform post-GDPR.

Unbundling the Data Warehouse: The Case for Independent Storage


Speaker: Jason Reid (Co-founder & Head of Product at Tabular)

Summary: Unbundling a data warehouse means splitting it into constituent and modular components that interact via open standard interfaces. In this talk, Jason Reid discusses the pros and cons of both data warehouse bundling and unbundling in terms of performance, governance, and flexibility, and he examines how the trend of data warehouse unbundling will impact the data engineering landscape in the next 5 years.

Clark Wright, Staff Analytics Engineer at Airbnb, talked about the concept of Data Quality Score at Airbnb.

Data Quality Score: How We Evolved the Data Quality Strategy at Airbnb


Speaker: Clark Wright (Staff Analytics Engineer at Airbnb)

Summary: Recently, Airbnb published a post to their Tech Blog called Data Quality Score: The next chapter of data quality at Airbnb. In this talk, Clark Wright shares the narrative of how data practitioners at Airbnb recognized the need for higher-quality data and then proposed, conceptualized, and launched Airbnb’s first Data Quality Score.

Data Productivity at Scale


Speaker: Iaroslav Zeigerman (Co-Founder and Chief Architect at Tobiko Data)

Summary: The development and evolution of data pipelines are hindered by outdated tooling compared to software development. Creating new development environments is cumbersome: Populating them with data is compute-intensive, and the deployment process is error-prone, leading to higher costs, slower iteration, and unreliable data. SQLMesh, an open-source project born from our collective experience at companies like Airbnb, Apple, Google, and Netflix, is designed to handle the complexities of evolving data pipelines at an internet scale. In this talk, Iaroslav Zeigerman discusses challenges faced by data practitioners today and how core SQLMesh concepts solve them.

Last but not least, thank you to the organizers of the Data Engineering Open Forum: Chris Colburn, Xinran Waibel, Jai Balani, Rashmi Shamprasad, and Patricia Ho.

Until next time!

If you are interested in attending a future Data Engineering Open Forum, we highly recommend you join our Google Group to stay tuned to event announcements.

A Recap of the Data Engineering Open Forum at Netflix was originally published in Netflix TechBlog on Medium, where people are continuing the conversation by highlighting and responding to this story.

Дискусия на Центъра за изследване на демокрацията Незаконни са ½ от сечите у нас. Бизнесът обвинява политиците

Post Syndicated from Николай Марченко original

четвъртък 20 юни 2024

Около или малко над 50% от дърводобива в България представлява незаконната или “узаконената” по всякакви начини сеч. Това констатира председателят на Асоциацията на парковете в България и бивш зам.-министър на…

CISPE Data Protection Code of Conduct Public Register now has 113 compliant AWS services

Post Syndicated from Gokhan Akyuz original

We continue to expand the scope of our assurance programs at Amazon Web Services (AWS) and are pleased to announce that 113 services are now certified as compliant with the Cloud Infrastructure Services Providers in Europe (CISPE) Data Protection Code of Conduct. This alignment with the CISPE requirements demonstrates our ongoing commitment to adhere to the heightened expectations for data protection by cloud service providers. AWS customers who use AWS certified services can be confident that their data is processed in adherence with the European Union’s General Data Protection Regulation (GDPR).

The CISPE Code of Conduct is the first pan-European, sector-specific code for cloud infrastructure service providers, which received a favorable opinion that it complies with the GDPR. It helps organizations across Europe accelerate the development of GDPR compliant, cloud-based services for consumers, businesses, and institutions.

The accredited monitoring body EY CertifyPoint evaluated AWS on May 16, 2024, and successfully audited 104 certified services. AWS added nine additional services to the current scope in May 2024. As of the date of this blog post, 113 services are in scope of this certification. The Certificate of Compliance that illustrates AWS compliance status is available on the CISPE Public Register. For up-to-date information, including when additional services are added, search the CISPE Public Register by entering AWS as the Seller of Record; or see the AWS CISPE Data Protection Code of Conduct page.

AWS strives to bring additional services into the scope of its compliance programs to help you meet your architectural and regulatory needs. If you have questions or feedback about AWS compliance with CISPE, reach out to your AWS account team.

To learn more about our compliance and security programs, see AWS Compliance ProgramsAWS General Data Protection Regulation (GDPR) Center, and the EU data protection section of the AWS Cloud Security website. As always, we value your feedback and questions; reach out to the AWS Compliance team through the Contact Us page.

If you have feedback about this post, submit comments in the Comments section below.

Gokhan Akyuz

Gokhan Akyuz

Gokhan is a Security Audit Program Manager at AWS, based in Amsterdam. He leads security audits, attestations, and certification programs across Europe and the Middle East. He has 17 years of experience in IT and cybersecurity audits, IT risk management, and controls implementation in a wide range of industries.

Patrick Finn: why I joined Cloudflare as VP Sales for the Americas

Post Syndicated from Patrick S. Finn original

I’m delighted to be joining Cloudflare as Vice President of Sales in the US, Canada, and Latin America.

I’ve had the privilege of leading sales for some of the world’s most iconic tech companies, including IBM and Cisco. During my career I’ve led international teams numbering in the thousands and driving revenue in the billions of dollars while serving some of the world’s largest enterprise customers. I’ve seen first-hand the evolution of technology and what it can achieve for businesses, from robotics, automation, and data analytics, to cloud computing, cybersecurity, and AI.

I firmly believe Cloudflare is well on its way to being one of the next iconic tech companies.

Why Cloudflare

Cloudflare has a unique opportunity to help businesses navigate an enduring wave of technological change. There are few companies in the world that operate in the three most exciting fields of innovation that will continue to shape our world in the coming years: cloud computing, AI, and cybersecurity. Cloudflare is one of those companies. When I was approached for this role, I spoke to a wide range of connections across the financial sector, private companies, and government. The feedback was unanimous that Cloudflare is poised on the edge of exhilarating growth.

Driving predictable, profitable revenue

I was fortunate to join Cisco two years after its annual revenue passed the $1 billion mark and had the privilege of helping scale the business to more than $49 billion in revenue the year I left. Cloudflare passed the $1 billion milestone just last year, and I see the same potential for growth here as I saw at Cisco.

Cloudflare’s global sales organization is growing. I’m excited to help accelerate that process in a way that delivers recurring revenue for the business while ensuring we retain a very high bar in terms of the talent we bring onto the team. My experience leading complex, cross-functional sales organizations within large global companies has taught me a great deal about the common traits among highly effective sales functions.

The groups of individuals that come together to make true teams are the ones that successfully focus on a unifying goal and develop skills like communication, attitude, process, organization, consistency, collaboration, partnership, and accountability.  These teams embrace diversity and bring out of each other the best expertise, creativity, and skills, making the team stronger and keeping the goal in focus.

Making our customers our north star

We will achieve the opportunity ahead of us only as long as we have our customers as our north star. Today, the Americas represent more than half of Cloudflare’s revenue worldwide and are home to some of our largest and most strategic customers – both in the private and public sectors – including 30% of the Fortune 1000. Brands from Zendesk to Shopify and from Colgate-Palmolive to Mars rely on Cloudflare to operate their businesses in a fast, secure, and reliable way.

Whatever the technology, there are three common fundamentals I’ve found essential to creating value for customers: being the expert on their challenges, understanding how to pick the right combination of products, services, and solutions from those available, and knowing your competition.

Cloudflare already has an incredible and growing range of products and services that are helping millions of individuals and organizations maximize the opportunities presented by cloud computing and generative AI, all while staying safe from the threat of cyberattacks.

What helping to build a better Internet means to me

If it were needed, one additional deciding factor behind my excitement in joining Cloudflare is its ambitious mission to help build a better Internet. As a father, I want the Internet to be a safe and valuable resource for my family and friends and for generations to come. I don’t want my daughter to have to worry about her personal data and privacy as she’s buying Billie Eilish concert tickets online (and, yes, I’m going too).

Today Cloudflare’s connectivity cloud protects nearly 20% of all websites online and stops 209 billion cyber attacks daily. In addition to its growing customer base, Cloudflare is living up to its mission by offering its services for free to millions more individuals and small businesses, including the most vulnerable voices online through its Project Galileo initiative.

The combination of a strong mission, genuine values, a great team, and incredible technology isn’t a given in every company, but is evident at Cloudflare. I’m excited to play a part as Cloudflare continues to scale its business and help build a better Internet for everyone.

If you’re interested in learning more about what Cloudflare can do for your organization, please get in touch here. If you’re an ambitious, talented sales professional looking for your next challenging and rewarding career move, check out our open positions here.

Introducing Stream Generated Captions, powered by Workers AI

Post Syndicated from Mickie Betz original

With one click, customers can now generate video captions effortlessly using Stream’s newest feature: AI-generated captions for on-demand videos and recordings of live streams. As part of Cloudflare’s mission to help build a better Internet, this feature is available to all Stream customers at no additional cost.

This solution is designed for simplicity, eliminating the need for third-party transcription services and complex workflows. For videos lacking accessibility features like captions, manual transcription can be time-consuming and impractical, especially for large video libraries. Traditionally, it has involved specialized services, sometimes even dedicated teams, to transcribe audio and deliver the text along with video, so it can be displayed during playback. As captions become more widely expected for a variety of reasons, including ethical obligation, legal compliance, and changing audience preferences, we wanted to relieve this burden.

With Stream’s integrated solution, the caption generation process is seamlessly integrated into your existing video management workflow, saving time and resources. Regardless of when you uploaded a video, you can easily add automatic captions to enhance accessibility. Captions can now be generated within the Cloudflare Dashboard or via an API request, all within the familiar and unified Stream platform.

This feature is designed with utmost consideration for privacy and data protection. Unlike other third-party transcription services that may share content with external entities, your data remains securely within Cloudflare’s ecosystem throughout the caption generation process. Cloudflare does not utilize your content for model training purposes. For more information about data protection, review Your Data and Workers AI.

Getting Started

Starting June 20th, 2024, this beta is available for all Stream customers as well as subscribers of the Professional and Business plans, which include 100 minutes of video storage.

To get started, upload a video to Stream (from the Cloudflare Dashboard or via API).

Next, navigate to the “Captions” tab on the video, click “Add Captions,” then select the language and “Generate captions with AI.” Finally, click save and within a few minutes, the new captions will be visible in the captions manager and automatically available in the player, too. Captions can also be generated via the API.

Captions are usually generated in a few minutes. When captions are ready, the Stream player will automatically be updated to offer them to users. The HLS and DASH manifests are also updated so third party players that support text tracks can display them as well.

On-demand videos and recordings of live streams, regardless of when they were created, are supported. While in beta, only English captions can be generated, and videos must be shorter than 2 hours. The quality of the transcription is best on videos with clear speech and minimal background noise.

We’ve been pleased with how well the AI model transcribes different types of content during our tests. That said, there are times when the results aren’t perfect, and another method might work better for some use cases. It’s important to check if the accuracy of the generated captions are right for your needs.

Technical Details

Built using Workers AI

The Stream engineering team built this new feature using Workers AI, allowing us to access the Whisper model – an open source Automatic Speech Recognition model – with a single API call. Using Workers AI radically simplified the AI model deployment, integration, and scaling with an out-of-the-box solution. We eliminated the need for our team to handle infrastructure complexities, enabling us to focus solely on building the automated captions feature.

Writing software that utilizes an AI model can involve several challenges. First, there’s the difficulty of configuring the appropriate hardware infrastructure. AI models require substantial computational resources to run efficiently and require specialized hardware, like GPUs, which can be expensive and complex to manage. There’s also the daunting task of deploying AI models at scale, which involve the complexities of balancing workload distribution, minimizing latency, optimizing throughput, and maintaining high availability. Not only does Workers AI solve the pain of managing underlying infrastructure, it also automatically scales as needed.

Using Workers AI transformed a daunting task into a Worker that transcribes audio files with less than 30 lines of code.

import { Ai } from '@cloudflare/ai'

export interface Env {
 AI: any

export type AiVTTOutput = {
 vtt?: string

export default {
 async fetch(request: Request, env: Env) {
   const blob = await request.arrayBuffer()

   const ai = new Ai(env.AI)
   const input = {
     audio: [ Uint8Array(blob)],

   try {
     const response: AiVTTOutput = (await
     )) as any
     return Response.json({ vtt: response.vtt })
   } catch (e) {
     const errMsg =
       e instanceof Error
         ? `${}\n${e.message}\n${e.stack}`
         : 'unknown error type'
     return new Response(`${errMsg}`, {
       status: 500,
       statusText: 'Internal error',

Quickly captioning videos at scale

The Stream team wanted to ensure this feature is fast and performant at scale,   which required engineering work to process a high volume of videos regardless of duration.

First, our team needed to pre-process the audio prior to running AI inference to ensure the input is compatible with Whisper’s input format and requirements.

There is a wide spectrum of variability in video content, from a short grainy video filmed on a phone to a multi-hour high-quality Hollywood-produced movie. Videos may be silent or contain an action-driven cacophony. Also, Stream’s on-demand videos include recordings of live streams which are packaged differently from videos uploaded as whole files. With this variability, the audio inputs are stored in an array of different container formats, with different durations, and different file sizes. We ensured our audio files were properly formatted to be compatible with Whisper’s requirements.

One aspect for pre-processing is ensuring files are a sensible duration for optimized inference.  Whisper has an “sweet spot” of 30 seconds for the duration of audio files for transcription. As they note in this Github discussion: “Too short, and you’d lack surrounding context. You’d cut sentences more often. A lot of sentences would cease to make sense. Too long, and you’ll need larger and larger models to contain the complexity of the meaning you want the model to keep track of.” Fortunately, Stream already splits videos into smaller segments to ensure fast delivery during playback on the web. We wrote functionality to concatenate those small segments into 30-second batches prior to sending to Workers AI.

To optimize processing speed, our team parallelized as many operations as possible. By concurrently creating the 30-second audio batches and sending requests to Workers AI, we take full advantage of the scalability of the Workers AI platform. Doing this greatly reduces the time it takes to generate captions, but adds some additional complexity. Because we are sending requests to Workers AI in parallel, transcription responses may arrive out-of-order. For example, if a video is one minute in duration, the request to generate captions for the second 30 seconds of a video may complete before the request for the first 30 seconds of the video. The captions need to be sequential to align with the video, so our team had to maintain an understanding of the audio batch order to ensure our final combined WebVTT caption file is properly synced with the video. We sort the incoming Workers AI responses and re-order timestamps for a final accurate transcript.

The end result is the ability to generate captions for longer videos quickly and efficiently at scale.

Try it now

We are excited to bring this feature to open beta for all of our subscribers as well as Pro and Business plan customers today! Get started by uploading a video to Stream. Review our documentation for tutorials and current beta limitations. Up next, we will be focused on adding more languages and supporting longer videos.

Recovering Public Keys from Signatures

Post Syndicated from Bruce Schneier original

Interesting summary of various ways to derive the public key from digitally signed files.

Normally, with a signature scheme, you have the public key and want to know whether a given signature is valid. But what if we instead have a message and a signature, assume the signature is valid, and want to know which public key signed it? A rather delightful property if you want to attack anonymity in some proposed “everybody just uses cryptographic signatures for everything” scheme.

Introducing a computing curriculum in Odisha

Post Syndicated from Author original

We are working with two partner organisations in Odisha, India, to develop and roll out the IT & Coding Curriculum (Kaushali), a computing curriculum for government high schools. Last year we launched the first part of the curriculum and rolled out teacher training. Read on to find out what we have learned from this work.

A group of teachers is standing outside a school building.

Supporting government schools in Odisha to teach computing

Previously we shared an insight into how we established Code Clubs in Odisha to bring computing education to young people. Now we are partnering with two Indian civil society organisations to develop high school curriculum resources for computing and support teachers to deliver this content.

With our two partners, we trained 311 master teachers during July and August 2023. The master teachers, most often mathematics or science teachers, were in turn tasked with training teachers from around 8000 government schools. The aim of the training was to enable the 8000 teachers to deliver the curriculum to grades 9 and 10 in the June 2023 – April 2024 academic year.

A master teacher is delivering a training session to a group of teachers.

At the Foundation, we have been responsible for providing ongoing support to 1898 teachers from 10 districts throughout the academic year, including through webinars and other online and in-person support.

To evaluate the impact our work in Odisha is having, we gathered data using a mixed-methods approach that included gathering feedback from teachers via surveys and interviews, visiting schools, capturing reflections from our trainers, and reviewing a sample of students’ projects.

Positive impact on teachers and students

In our teacher survey, respondents were generally positive about the curriculum resources:

  • 87% of the 385 respondents agreed that the curriculum resources were both high quality and useful for their teaching
  • 91% agreed that they felt more confident to teach students IT & Coding as a result of the curriculum resources

Teachers also tended to agree that the initial training had helped improve their understanding and confidence, and they appreciated our ongoing support webinars.

“The curriculum resources are very useful for students.” – Teacher in Odisha

“The webinar is very useful to acquire practical knowledge regarding the specific topics.”  – Teacher in Odisha

Teachers who responded to our survey observed a positive impact on students:

  • 93% agreed their students’ digital literacy skills had improved
  • 90% agreed that their students’ coding knowledge had improved

Students’ skills were also demonstrated by the Scratch projects we reviewed. And students from Odisha shared 314 projects in Coolest Projects — our online technology showcase for young people — including the project ‘We’ll build a new Odisha’ and an apple catching game.

A master teacher is delivering a training session to a group of teachers.

Feedback and observations about teacher training

On school visits, our team observed that the teachers adopted and implemented the practical elements of the initial training quite well. However, survey responses and interviews showed that often teachers were not yet using all the elements of the curriculum as intended.

In their feedback, many teachers expressed a need for further regular training and support, and some reported additional challenges, such as other demands on their time and access to equipment.

A master teacher is delivering a training session to a group of teachers.

When we observed training sessions master teachers delivered to teachers, we saw that, in some cases, information was lost within the training cascade (from our trainers, to master teachers, to teachers), including details about the intended pedagogical approach. It can be difficult to introduce experienced teachers to new pedagogical methods within a short training session, and teachers’ lack of computing knowledge also presents a challenge.

We will use all this data to shape how we support teachers going forward. Some teachers didn’t share feedback, and so in our further evaluation work, we will focus on making sure we hear a broad and representative range of teachers’ views and experiences.

What’s new this year?

In the current academic year, we are rolling out more advanced curriculum content for grade 10 students, including AI literacy resources developed at the Foundation. We’re currently training master teachers on this content, and they will pass on their knowledge to other teachers in the coming months. Based on teachers’ feedback, the grade 10 curriculum and the training also include a recap of some key points from the grade 9 curriculum.

Two master teachers are delivering a presentation to teachers.

A State Resource Group (SRG) has also been set up, consisting of 30 teachers who will support us with planning and providing ongoing support to master teachers and other teachers in Odisha. We have already trained the SRG members on the new curriculum content to enable them to best support teachers across the state. In addition to this, our local team in Odisha plans to conduct more visits and reach out directly to teachers more often. 

Our plans for the future

The long-term vision for our work in India is to enable any school in India to teach students about computing and creating with digital technologies. A critical part of achieving this vision is the development of a comprehensive computing curriculum for grade 6 to 12, specifically tailored for government schools in India. Thanks to our work in Odisha, we are in a better position to understand the unique challenges and limitations of government schools. We’re designing our curriculum to address these challenges and ensure that every Indian student has the opportunity to thrive in the 21st century. If you would like to know more about our work and impact in India, please reach out to us via [email protected].

We take evaluation of our work seriously and are always looking to understand how we can improve and increase the impact we have on the lives of young people. To find out more about our approach to impact, you can read about our recently updated theory of change, which supports how we evaluate what we do.

The post Introducing a computing curriculum in Odisha appeared first on Raspberry Pi Foundation.

Слуховете за смъртта на американската мечта са силно преувеличени

Post Syndicated from Александър Детев original

Слуховете за смъртта на американската мечта са силно преувеличени

Часът е 19:10 и температурата на въздуха е близо 30 градуса. Въпреки това упорито стоя на верандата, преди да потеглим за вечеря, а не в климатизираната къща. Защо? Ами защото съм в Америка и къщата, където спя, има предна веранда – точно като тези, които съм гледал стотици пъти по филмите и за които съм чел в още десетки книги. 

Отляво съседите обсъждат омара, който са купили и трябва да сготвят, докато котката Лесли се катери по парапета, после пада от него и набързо бива прибрана вътре. Отдясно майката явно приключва работния ден, затваря лаптопа и привиква мъжа си и сина си от съседите, за да сядат да вечерят. 

Всичко наоколо продължава да ми се струва сюрреалистично, въпреки че вече сме тук от два дни. Ако кажа още веднъж, че нещо е „като по филмите“, приятелите ми вероятно ще спрат да се забавляват с тази тъпа фраза и ще вземат бейзболната бухалка… като по филмите. 


Америка е такава, каквото си я представях. Дори столицата Вашингтон, която, както ще се убедя по-късно, е всичко друго, но не и типичният американски град. Обликът, атмосферата, външният вид и облеклото на хората могат да се сменят през две преки. От съседите ни, които толкова се вписват в стереотипа за живеещата „мечтата“ средна класа, че чак е банално, до отрупания с боклуци паркинг на няколко преки от къщата ни, където виждаш онези развалени зъби, петна по кожата и неадекватно поведение, които недвусмислено ти говорят за проблема с наркотиците в САЩ, ставащ все по-драматичен с всяка изминала година. 

Но да погледнем малко по-ведро. „Добре че сте дошли първо на Източния бряг, защото вие в Европа сте свикнали да се разхождате“, ми казва Кайл*, с когото се запознаваме в един бар същата тази вечер. Американец, който знае къде е Пловдив. Да, не се шегувам! Бил в Гърция и оттогава му станало любопитно, затова четял за Балканите. 

Стереотипите са тъпи. Мисля, че съм напълно убеден в това, но с всяко следващо пътуване се убеждавам все повече. И все пак между Европа и САЩ има разлики. Дори между Европа и доста европейски изглеждащия Вашингтон. 

Да започнем с цените. „Едно от най-неудобните неща тук е, че цената, която виждаш в менюто, не отговаря на финалната“, обяснява Младен Петков, български журналист, който от години живее и работи в САЩ. Да вземем например една бира. Според менюто или дъската, закачена над бара, тя струва 9 долара. Скъпо, но поносимо. Само че в сметката ти далеч не е толкова. Първо добавяш данъка, който не е калкулиран, след това слагаш и задължителния или незаобиколимо препоръчителния бакшиш, който в последните години е 18, 20 или дори 22%. И така цената на една бира в заведение в САЩ задминава драстично и най-скъпите европейски градове, като Лондон, Стокхолм и Созопол**. Темата за храната изобщо няма да я повдигам – фастфуд или плащаш със затворени очи. 

Вашингтон няма някакви емблематични ястия, но предвид размера и статута му това е по-скоро обяснимо. Столицата на най-великата сила в света всъщност изобщо не е голям град. Целият център се обхожда пеша, задръстванията са само в час пик, и то напълно приемливи, а вечер в делничен ден навън няма особено много хора. 

Като говорим за емблематични ястия обаче, е време да се насочим към следващата точка – дома на чийзстейка – Филаделфия, щата Пенсилвания. И съвсем закономерно барманката във Вашингтон се оказва именно оттам. „Как се разбирате изобщо в Пенсилвания?“, питам я аз. Все пак това е един от най-разделените щати, един от тези, които определят изхода от изборите в последните години. „Ами хората, които живеем в града, и тези, които живеят в селата, сме много различни – обяснява тя. – И сме си свикнали така. Иначе аз не се притеснявам за ноември – живели сме го веднъж, ще го преживеем пак.“

И в този момент за последен път някой ми спомена Тръмп по време на пътуването ни. Хората по крайбрежията предпочитат да го игнорират. Явно защото „веднъж са го живели, ще го преживеят пак“. 


„Във Филаделфия винаги е слънчево“, гласи заглавието на онзи безсрамно неполиткоректен, но и неприлично смешен сериал. И наистина, слънцето на 4 юни го доказва. Термометрите показват над 30 градуса. Чао, Вашингтон, здравей, Америка! 

Филаделфия представлява амалгама от стари небостъргачи, чисто нови небостъргачи, квартали с ниски къщички, графити, симпатични веранди и гета, в които е силно препоръчително да не стъпваш, както ни информира таксиметровият шофьор, при когото се качваме от гарата. Той е от Таджикистан, тук е от две години. Какво може да препоръча във Фили? „Ами то тук няма много неща за правене, само работа, работа, работа.“ 

30 минути по-късно: абсолютен контраст. Запознаваме се с Джейми и Шарън, които пият бира на рууфтоп бара на сградата, в която сме отседнали. Тя живее в Ирландия, но се е прибрала в родната Пенсилвания за няколко седмици. „Ама защо сте само един ден тук, няма да ви стигне изобщо! Фили е супер, ей сега ще ви кажем къде да отидете.“ Два свята – една мечта. 

Фили не само ти разказва историята на САЩ от генезиса на американската държава и краткия период, в който градът е бил столица, но ти я и показва – през улиците, за които пее и Брус Спрингстийн, и през усещането, че този симпатичен и цветен град в същото време е далеч от своя зенит и от прогреса, на който се е радвал преди десетилетия.

Ню Йорк 

И тъй като споменах истории – следващата ни дестинация е вдъхновила повече истории от всяка друга. Start spreading the news, взимаме автобуса и потегляме към Empire State of Mind

Какво има неказано за Ню Йорк? И как да опиша динамиката и необятността му по-добре от Били Джоел, Франк Синатра и Нас? Трудно, затова нека опитаме с един маршрут за разходка: слезте от влака или от автобуса сред тълпите в Централен Манхатън, вземете си метрото до Чайнатаун, минавайки през няколкото останали улици на Малката Италия. Оттам тръгнете по Уолстрийт и се разходете пеша до пристанището, от което потеглят корабчетата за Статуята на Свободата. След като акостирате обратно, минете пеша по Бруклинския мост и си вземете метрото, за да отидете да поплажувате на Кони Айлънд. 

Ню Йорк не е град, Ню Йорк е свят. И в този свят блясъкът на небостъргачите и умовете съжителства със сенките на престъпността и плъховете по улиците. 

Ню Йорк е град, в който всеки си е на мястото, но никой не е у дома. Освен Фран Лебовиц, разбира се. С всяка изминала година Голямата ябълка става все по-скъпа и по-населена, а свързването на двата края – все по-сериозно предизвикателство. Но това не спира хора от цялата страна и от всяка точка на земното кълбо да пристигат тук, решени да успеят. Защото ако успеят тук, ще успеят навсякъде, както ни напомнят Алиша Кийс и Джей Зи

Сред тях са също Кирим от Лондон и Матрик, който е в Ню Йорк заедно с майка си Ема. Матрик свири на чело, и то виртуозно. Кирим пък е брилянтен пианист. Срещаме ги в Сентръл парк, където Матрик изпълнява всяка музикална поръчка – от Бритни Спиърс до „Лед Цепелин“. Кирим си търси пиано. Чувал е, че някакъв човек обикаля с пиано на колела из парка, но още не го е срещал. Докато не го срещне, можем да се наслаждаваме на творчеството му само в социалните мрежи. Или когато му отидем на гости в Лондон. Но засега тримата остават в Сентръл парк, заобиколени от случайни минувачи, катерички и врабчета, които щъкат и прелитат наоколо, и миризма на джойнт и свобода във въздуха. 

Само на няколко метра оттук са едни от най-големите и емблематични сцени в света. Да, за Бродуей става въпрос. Лин-Мануел Миранда е създал помоему първия пост-Андрю Лойд Уебър мюзикъл – „Хамилтън“ няма нищо общо с класическите мюзикъли на Бродуей, нито пък с начина, по който сме свикнали да бъде разказвана историята на САЩ. Но има много общо с една от най-важните спойки на обществото тук, градяща мостове между различни хора, общности и етноси – музиката. В „Хамилтън“ тя е толкова великолепна, хореографията – толкова безупречна, а диалозите така балансирани между фактите и хумора, че не отделяш очи и уши от сцената в продължение на два часа и половина. 

След като видиш мюзикъл на Бродуей, няма как да пропуснеш и друг стожер на поп културата – вечерната (late night) телевизия. Американската телевизия не е като европейската. Знам, че не откривам топлата вода, но заснемането на едночасово шоу за час и двайсет минути с такъв синхрон между седемте камери, операторите, публиката и стейдждиректора е впечатляващо. А Стивън Колбер е точно такъв пич извън ефир, какъвто е и на екрана. Да живее Стивън, да живее Late Show, да живее и театър „Ед Съливан“! 

Ню Йорк едновременно те зарежда както никой друг град и те изморява както никое друго място на планетата. Ню Йорк се преживява, не се разказва. Затова спирам дотук. И ви прехвърлям на север към държавата, от която Ниагарските водопади се виждат по-добре. 


Торонто е симпатичен град, но бледнее пред Ню Йорк. 

(Дали не съм обречен да казвам това за всеки град, който посетя занапред?)

Иначе разликата между САЩ и Канада в динамиката на живота, усещането за сигурност и спокойствие, както и в цените е голяма. А и стереотипът е верен (въпреки че стереотипите по принцип са тъпи, както вече споменах) – канадците наистина са изключително отзивчиви и мили. И как да не са – един от най-високите стандарти на живот, безплатно здравеопазване и изключително ниско ниво на престъпност, особено в сравнение със Съединените щати. 

„Живея в Канада, защото съм по-лява“, казва Ели, дошла тук преди 31 години. Гостува ѝ нейната приятелка Лили, която живее в Калифорния – „едно от малкото места в САЩ, където има вкусни зеленчуци“. Двете приятелки са завършили заедно във Враца, а в началото на 90-те успяват да емигрират в Канада по точкова система.

Сега се срещат в Торонто, за да отидат заедно на българския фестивал „Фолклорен водопад“, който се провежда на Ниагара. „Не показност, демонстрация или фалшив патриотизъм, а истинска любов към българския фолклор, приятелите и Родината“, написаха през 2023-та организаторите. Не фалшив патриотизъм, а точно любов към родината блести в погледа на българите в чужбина, когато говорят за спорадичните си прибирания в България. 

Иначе Канада си е една леко вълшебна държава, в която животът си върви по свой чак дебилно спокоен и оптимистичен начин. Дори когато хората се натъкват на трудности.

Историята на Тери Фокс го доказва. „Извинявайте, че няма да мога да продължа да тичам“, казва той само месеци преди кончината си през 1981 г. Тери се сблъсква с диагнозата рак през 1977 г., когато е само на 19. Скоро губи и крака си. Ракът обаче не го спира да се изправи и да изтича 5373 километра с протеза, за да събере пари за борбата с онкологичните заболявания. Той тича 143 дни, преди коварната болест да го спре и впоследствие да отнеме живота му едва на 22. В последното си публично изказване, типично по канадски, Тери Фокс се извинява, че няма да може да продължи да извършва нечовешките си подвизи. В тази вълшебна по свой си начин държава всички се извиняват. И живеят добре. 


Жителите на Масачузетс, от друга страна, имат славата на едни от най-грубите американци. На посетителите от Източна Европа ни е малко трудно да го забележим, честно казано, а и в средата на юни властва такава еуфория покрай мача на „Селтикс“, че място за негативни емоции няма. Масачузетс, подобно на Мейн и повечето щати по Североизточното крайбрежие, е известен със своята морска кухня и по-конкретно с омарите. Така нареченият lobster roll е най-популярната бърза храна в Бостън и околията от десетилетия. 

Приятелка, която е учила в първия град на САЩ, ми препоръчва къде да пробваме прословутите сандвичи. По нейно време – тоест преди има-няма 10 години – той е струвал 8 долара. Днес е… 40. Пък едно време затворниците в Бостън са протестирали, защото са ги хранили само с омари, „тези огромни хлебарки от океана“, както ги нарича Джеремая. Той е гид в един от най-старите градове в САЩ. 

От него научаваме повече и за прословутото преследване на вещици в Сейлъм през XVII век. Покрай няколкостотин невинни жени, пострадали от поредната човешка лудост, са си заминали и две кучета, които също са били обвинени и осъдени за вещерство. 37 котки също са били обвинени, но след това са оправдани… Че кой би се отварял на котка? 

И така в шеги и закачки нашето пътуване върви към своя край. Америка днес е изправена пред много трудности и предизвикателства, но слуховете за смъртта на американската мечта са силно преувеличени. Емпайър Стейт Билдинг все така блести отвисоко, а хората вярват в по-доброто утре.

* Поради вродена невъзможност за запомняне на имена и високоалкохолните бири, които консумират в САЩ, някои имена в този разказ са налучквани, тъй като авторът е забравил истинските. 

** Алтернативното заглавие на този текст беше „Почти като Созопол, ама малко по-скъпо“. Следващ пътепис – Созопол!

Палеогеномиката и тайните на античната ДНК

Post Syndicated from original

Палеогеномиката и тайните на античната ДНК

Усъвършенстването на методите за извличане и разчитане на ДНК от фосилни останки е голям пробив в областта на еволюционната генетика. Новите открития дават повече яснота за произхода на човешката популация, за историческия поглед върху миграционните движения и степента на смесване между хората и античните, вече изчезнали Hominini¹, като неандерталците, както и между съвременните човешки популации. 

Палеогеномиката излиза от границите на антропологията и се очаква да даде отговор на множествено неизяснени въпроси с ключово значение в съвременната медицина.

Тя ни предлага поглед към човешкото здраве през различни периоди, разкривайки включително и наличието на предишни епидемии. Тези научни изследвания позволяват да обогатим знанията си за връзката между настоящото генетично разнообразие и болестите; да изясним генетичните основи на съвременните заболявания, в това число и вродени грешки на имунитета, които пречат на адекватния отговор на инфекции; да разработим нови лекарства и терапии. 

Палеогеномиката като машина на времето

Палеогеномиката е наука за реконструирането и анализа на геномите на организми, които вече не съществуват. Тези анализи могат да предоставят информация кога и как са се изменили определени характеристики на даден вид и как изчезналите видове са свързани с живите в настоящето организми и популации. 

Това е сравнително нова научна област, която не би могла да съществува без напредъка в технологиите за възстановяване на антична ДНК (аДНК) от запазени останки, както и без анализа на аДНК с подходи като секвениране от ново поколение и реконструиране на целия геном чрез правилното подреждане на множеството къси, често увредени фрагменти от аДНК. Палеогеномните анализи може да се възприемат като добавка към съвременните изследвания, фокусирани върху човешката физиология. Чрез проучването на части от човешкия геном с установени примеси от неандерталски материал се откриват гени с важно физиологично значение. 

Приносите на палеогеномиката обаче не свършват с това. С нарастващия брой аДНК проби става възможен отговорът на множество въпроси, свързани с човешкото здраве – например как човечеството е успяло да оцелее след излагането на патогени в миналото.

На базата на изследвания на модерния човек е известно, че определени мутации в ДНК променят механизмите ни за защита от патогени, което от своя страна обяснява защо са налице най-разнообразни реакции на дадена инфекция. От фосилни останки могат да се изследват промените в честотата на дадени генетични варианти, които влияят върху риска от развитие на инфекциозни заболявания. Това е, един вид, постоянен и безсрочен експеримент с ясно доказателство за стойността на палеогеномиката в медицината.

Първият пълен човешки палеогеном

Най-старият изследван геном от род Homo е от останки на неандерталец на приблизителна възраст 430 000 години, а най-новите налични антични геноми са на не повече от 10 000 години. Античната ДНК е извлечена от проби по целия свят, предимно от северното полукълбо, поради което в геномните изследвания са включени основно останки от европейски предшественици на съвременните хора.

През 2010 г. екипът на Rasmussen публикува данни от първия човешки палеогеном, извлечен от изключително добре запазена проба от коса на палеоескимос. Учените успяват да възстановят 79% от генома и да затвърдят връзката между палеоескимосите и настоящите човешки популации чрез сравняване на митохондриалния геном. Геномът, получен от тази проба, издава също, че собственикът му е с кръвна група А+, че очите му са били кафяви (носител е на вариант в HERC2-OCA2 региона², свързан с този цвят на очите), както и че е бил добре адаптиран към студения климат (на базата на генетични варианти, имащи връзка с метаболизма).

Античната ДНК и съвременните проблеми с нейното анализиране

Античната ДНК е изложена на редица неблагоприятни фактори на околната среда. В резултат тя се разгражда и не може да оцелее повече от един милион години дори и в идеални условия, като ниски температури и ниска влажност. Голяма част от наличната днес аДНК е извлечена от перманентно замразена среда (например арктически лед). 

Друг проблем, който затруднява анализирането на аДНК, е контаминацията с друга ДНК. аДНК често може да се открие в почви заедно с други източници на ДНК, като растения, гъби и бактерии. Например първият неандерталски палеогеном съдържа само 5% истинска неандерталска ДНК. При най-успешните опити за извличане на аДНК тя варира между 70 и 95%. 

Друг източник на замърсяване с външна ДНК би могъл да бъде начинът на съхраняване и обработка на аДНК.

Най-голямото предизвикателство пред успешния анализ на аДНК е разграничаването ѝ от външната ДНК, независимо от източника ѝ. Заради тези трудности в началото са направени грешки, които сега се преодоляват със следването на протоколи за работа, специално разработени за анализ на аДНК в специализирана стерилна работна среда.

Палеогеномика и медицина – настояще и бъдеще

С увеличаването на пробите с висококачествена аДНК се увеличават и очакванията за приноса на палеогеномиката в медицинските научни изследвания. Но тук възниква следващата пречка, а именно т.нар. плейотропия – когато един и същ ген е отговорен за различни фенотипни изяви).

Изследване на повече от 2000 антични европейски генома сочи, че през последните хилядолетия са естествено селектирани генетични варианти, отговорни за промени при риска от инфекция и едновременно с това свързани с автоимунни прояви. 

Преобладаващите генетични варианти, свързани с риск от развитие на автоимунитет, най-вероятно са резултат от позитивна селекция след взаимодействието с патогени от околната среда, тъй като тези варианти отговарят и за понижаване на риска от протичане на инфекциозно заболяване. 

Позитивният селективен натиск настъпва поради естествения подбор на определени генетични варианти. Вследствие на отговор на фактори от околната среда честотата на даден генетичен вариант се увеличава в популацията. Пример за такъв естествен селективен натиск е защитата от развитие на маларийна инфекция при хора със сърповидноклетъчна анемия. Маларията е най-разпространена в Африка, където е повишена и честотата на хора, носители на едно здраво копие и едно мутантно копие за гена, произвеждащ хемоглобин. Паразитите, които маларийният комар пренася, инфектират червените кръвни клетки, но при сърповидноклетъчна анемия те са с променена структура и не могат да пренасят кислород. Паразитът се развива по-бавно в тази среда и дава време на имунната система да реагира и да го унищожи.

Откритието на такива плейотропни варианти с помощта на палеогеномиката би могло да спомогне за разработването на лекарства с по-малко странични ефекти. Анализът на чревни микробиоми от древността също може да даде информация как да се справим с антибиотичната резистентност, като изследва еволюцията и разпространението ѝ. Еволюцията на човешкия имунитет също може да се изследва с помощта на антични протеини като антитела и през взаимодействието им с патогените.

1 Hominini са член на подсемейството Homininae, което включва видове от рода Homo, като модерния човек (Homo sapiens), Неандерталеца (Homo neanderthalensis) и Денисовия човек (Denisova hominin).
2 HERC2 е доста голям ген, локализиран на дългото рамо на 15-тата хромозома (локализация: 15q13). Той може да потиска експресията на гена OCA2, който също е локализиран на дългото рамо на същата хромозома (локализация: 15q13.1).
OCA2 е отговорен за продукцията на меланин в ириса. Мутации в HERC2, който е съседен на OCA2, оказват влияние върху експресията на OCA2 и резултатът е сини очи при хората. Нарича се „HERC2-OCA2 регион“, защото тези гени са точно един до друг и са свързани с пигментацията.

New Blog Moderation Policy

Post Syndicated from Bruce Schneier original

There has been a lot of toxicity in the comments section of this blog. Recently, we’re having to delete more and more comments. Not just spam and off-topic comments, but also sniping and personal attacks. It’s gotten so bad that I need to do something.

My options are limited because I’m just one person, and this website is free, ad-free, and anonymous. I pay for a part-time moderator out of pocket; he isn’t able to constantly monitor comments. And I’m unwilling to require verified accounts.

So starting now, we will be pre-screening comments and letting through only those that 1) are on topic, 2) contribute to the discussion, and 3) don’t attack or insult anyone. The standard is not going to be “well, I guess this doesn’t technically quite break a rule,” but “is this actually contributing.”

Obviously, this is a subjective standard; sometimes good comments will accidentally get thrown out. And the delayed nature of the screening will result in less conversation and more disjointed comments. Those are costs, and they’re significant ones. But something has to be done, and I would like to try this before turning off all comments.

I am going to disable comments on the weekly squid posts. Topicality is too murky on an open thread, and these posts are especially hard to keep on top of.

Comments will be reviewed and published when possible, usually in the morning and evening. Sometimes it will take longer. Again, the moderator is part time, so please be patient.

I apologize to all those who have just kept commenting reasonably all along. But I’ve received three e-mails in the past couple of months about people who have given up on comments because of the toxicity.

So let’s see if this works. I’ve been able to maintain an anonymous comment section on this blog for almost twenty years. It’s kind of astounding that it’s worked as long as it has. Maybe its time is up.

The collective thoughts of the interwebz

By continuing to use the site, you agree to the use of cookies. more information

The cookie settings on this website are set to "allow cookies" to give you the best browsing experience possible. If you continue to use this website without changing your cookie settings or you click "Accept" below then you are consenting to this.