Kyle is available for hire

Kyle Chakos

Verified Expert in Engineering

Data Engineer and Developer

Location

Madrid, Spain

Toptal Member Since

February 28, 2023

Kyle在数据和机器学习工程方面拥有10多年的经验. He has worked at companies of various sizes, but primarily startups, 与几乎没有数据基础设施的团队协作，并帮助他们扩展或更新其体系结构，使其具有可伸缩性. With a background in mathematics and engineering, Kyle的独特设置还可以帮助数据科学家以可扩展的方式将他们的项目投入生产，同时确保准确性和有效性.

Data Analysis Data Engineering Python ETL Amazon Web Services (AWS)Agile Redshift Amazon S3 (AWS S3)Data Pipelines SQL PostgreSQL MySQL Apache Airflow MongoDB Docker CCPA Full-Stack Python AWS Data Pipelines OneTrust

Portfolio

Appex Group, Inc.

雪花，商业智能，数据仓库，查询优化...

Sweetgreen

亚马逊网络服务(AWS)， Python, Apache气流，Docker, CircleCI, EMR, Spark...

Ticketmaster

Apache Kafka, Kafka Streams, Java, Python, Amazon Web Services (AWS)， Scala...

Experience

SQL - 10 years Data Engineering - 10 years Data Pipelines - 10 years Data Analysis - 10 years Amazon Web Services (AWS) - 10 years Python - 10 years Apache Airflow - 5 years Snowflake - 4 years

Availability

Part-time

Preferred Environment

Amazon Web Services (AWS), Python

The most amazing...

...thing I've accomplished was a 1,利用快速傅里叶变换取代内置的Pandas方法，将机器学习模型的时间提高了000x.

Work Experience

Snowflake Data Engineer

2023 - PRESENT

Appex Group, Inc.

重写代码以更健壮地处理错误，同时降低代码库的复杂性.
升级了Airflow实例，以便更无缝地与AWS集成.
编写新的摄取管道，并与分析人员合作，确保数据符合他们的需求.

Technologies: 雪花，商业智能，数据仓库，查询优化, Python, Redshift, Data Warehouse Design

Senior Data Engineer

2020 - 2023

Sweetgreen

自动数据摄取从各种来源与气流, Amazon EMR, AWS Kinesis, AWS Lambda, Python, and Snowflake.
重新架构历史数据管道，以利用更现代的方法并提供适当的警报, moving from Java, Scala, and Redshift to Python, Airflow, and Snowflake.
管理顾问团队，完成CCPA数据管道的自动化和重新设计.
监控、维护和设计AWS S3、EC2、EMR和ECR中的数据基础设施.
协助数据发现和实现机器学习算法.

Technologies: 亚马逊网络服务(AWS)， Python, Apache气流，Docker, CircleCI, EMR, Spark, AWS Lambda, Redshift, PostgreSQL, Snowflake, Amazon S3 (AWS S3), Scala, Java, California Consumer Privacy Act (CCPA), ETL, Statistical Analysis, MySQL, CI/CD Pipelines, Agile, Amazon SageMaker, Data Pipelines, SQL, Data Engineering, Amazon DynamoDB

Senior Software Engineer, Database

2019 - 2020

Ticketmaster

使用Scala和Python自动化新训练模型的质量测试.
创建了一个框架，用Java、Kafka和AWS将模型启动到生产环境中.
架构和实现反馈循环，以减轻对Python的第三方依赖.
设计和编程工具，使用Python提供对模型输出的可见性, AWS, and Slack.

Technologies: Apache Kafka, Kafka Streams, Java, Python, Amazon Web Services (AWS)， Scala, Amazon SageMaker, ETL, Statistical Modeling, Machine Learning, Snowflake, PostgreSQL, CI/CD Pipelines, Agile, Docker, Amazon S3 (AWS S3), California Consumer Privacy Act (CCPA), Data Pipelines, SQL, Data Engineering

Data Engineer

2018 - 2019

Creative Artists Agency

使用Python、Azure Data Factory、MongoDB和MySQL设计和实现ETL进程.
使用Python将批量处理系统转换为流模型.
在MySQL中为数据科学家和业务分析师创建各种视图.
将数据科学模型投入生产，并协助识别和调试R中的错误.

Technologies: Azure, Python, MongoDB, MySQL, R, Statistical Modeling, ETL, JavaScript, PostgreSQL, CI/CD Pipelines, Agile, Docker, California Consumer Privacy Act (CCPA), Data Pipelines, SQL, Data Engineering, Amazon DynamoDB

Data Engineer

2017 - 2018

Glo

使用Flask和Python的机器学习开发个性化推荐.
与业务分析师合作，使用Redshift和Python研究用户留存的kpi.
通过Rancher、New Relic、Scalr和AWS管理和监控发布到生产环境.
架构和管理Redshift, PostgreSQL, MySQL和Airflow中的表和ETL进程.

Technologies: Python, Redshift, Amazon Web Services (AWS), PostgreSQL, MySQL, Apache Airflow, Statistical Analysis, Statistical Modeling, Machine Learning, ETL, CI/CD Pipelines, Agile, Docker, Amazon S3 (AWS S3), California Consumer Privacy Act (CCPA), Data Pipelines, SQL, Data Engineering

Data Engineer

2013 - 2014

UberMedia

分析数据集的相关趋势和潜力，以增加利润.
Sorted users into audiences based on application usage.
根据从社交媒体收集的数据推断应用程序和受众关联.
通过提高运行时间和点击准确性改进了机器学习投标系统.

Technologies: Data Analysis, Python, Amazon Web Services (AWS), EMR, Statistical Analysis, Statistical Modeling, Machine Learning, ETL, PostgreSQL, Agile, Docker, Redshift, Amazon S3 (AWS S3), Data Pipelines, SQL, Data Engineering

Experience

Senior Capstone Project

Worked with Shell International Exploration & 生产和其他老年人提高他们的钻井技术. We devised a machine learning model that analyzed data in real time and compared it with previous drilling data; we identified the type of rock being drilled through and provided recommendations on how to dig through the rock faster and safer.

我们利用混合高斯模型来识别岩石，并将识别的聚类与其他类似的聚类进行统计比较，以提供更好的建议. All of the code for this project was written in Python.

Fraud Detection

该机器学习模型用于检测0.5 seconds of the request for purchase. 此外，我们为模型部署添加了A/B测试，使其能够持续改进.

我负责设置和架构这个服务的后端, 它主要使用Kafka和Java来确保一切都能快速运行. 我们的机器学习模型是使用Amazon SageMaker部署的.

Automation of CCPA Deletion and Access Pipeline

在收到请求后30天内迅速处理所有CCPA删除和访问请求的流程. 这个过程之前是托管在Google Sheet上的，需要三个人来完成. 我们使用OneTrust来收集和跟踪请求，并将其与API集成. 这使我们能够成功地删除所有用户数据并在请求时检索它，而无需人工干预.

Skills

Languages

Python, SQL, Snowflake, Java, JavaScript, Scala, R

Tools

Apache Airflow, CircleCI, Kafka Streams, Amazon SageMaker

Paradigms

ETL, Agile, Business Intelligence (BI)

Platforms

Amazon Web Services (AWS)、Docker、AWS Lambda、Apache Kafka、Azure

Storage

PostgreSQL, MySQL, Redshift, Amazon S3 (AWS S3)， Data Pipelines, MongoDB, Amazon DynamoDB

Other

California Consumer Privacy Act (CCPA), Data Analysis, Data Engineering, CI/CD Pipelines, Statistical Analysis, Statistical Modeling, Machine Learning, EMR, Data Build Tool (dbt), Data Warehousing, Query Optimization, Data Warehouse Design

Frameworks

Spark

Education

2009 - 2013

Bachelor's Degree in Mathematics

Harvey Mudd College - Clarmont, CA, USA

Collaboration That Works

How to Work with Toptal

在数小时内，而不是数周或数月，我们的网络将为您直接匹配全球行业专家.

Share your needs

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.

Choose your talent

在24小时内获得专业匹配人才的简短列表，以进行审查，面试和选择.

Start your risk-free talent trial

与你选择的人才一起工作，试用最多两周. Pay only if you decide to hire them.

Top talent is in high demand.

Start hiring