
作者:Anthony Sarkis著
页数:22,306页
出版社:东南大学出版社
出版日期:2024
ISBN:9787576612028
高清校对版pdf(带目录)
前往页尾底部查看PDF电子书
内容简介
训练数据与算法本身一样关系到数据项目的成败,因为大多数AI系统的失败都与训练数据有关。尽管训练数据是AI和机器学习成功的基础,但却很少有全面的资源能帮助你掌握这一过程。
在这本实践指南中,作者Anthony Sarkis(Diffgram AI数据训练软件的首席工程师)向技术专业人员、管理人员、主题专家展示了如何使用和扩展训练数据,同时阐明了监督机器的人性化一面。工程领导者、数据工程师、数据科学专业人士都将深入了解使用训练数据取得成功所需的概念、工具和流程。
通过本书,你将学习如何:
有效地使用包括模式、原始数据、注释在内的训练数据;
改造你的工作、团队或组织,使其更加以AI,ML数据为中心;
向其他员工、团队成员、利益相关者清晰地解释训练数据概念;
为生产级AI应用设计、部署、交付训练数据;
识别并纠正新的基于训练数据的故障模式,如数据偏差;
自信地使用自动化技术来更有效地创建训练数据;
成功维护、操作、改进训练数据记录系统。
作者简介
安东尼·萨尔基斯(Anthony Sarkis),是Diffgram AI数据训练软件的首席工程师,也是Diffgram公司的首席技术官和创始人。在此之前,他是Skidmore.Owings&Merrill公司的研发软件工程师,并与他人共同创办了DriveCarma.ca。
本书特色
通过本书,你将学习如何:
·有效地使用包括模式、原始数据、注释在内的训练数据;
·改造你的工作、团队或组织,使其更加以AI/ML数据为中心;
·向其他员工、团队成员、利益相关者清晰地解释训练数据概念;
·为生产级AI应用设计、部署、交付训练数据;
·识别并纠正新的基于训练数据的故障模式,如数据偏差;
·自信地使用自动化技术来更有效地创建训练数据;
·成功维护、操作、改进训练数据记录系统。
“本书360度地全面介绍了如何生成高质量的
训练数据并启动新项目。”
——Anirudh Koul
Pinterest数据科学及机器学习主管
“做好机器学习需要人们学习训练数据。这本
书价值连城。”
——Neal Linson
InCite Logix和LLM Superstar
首席数据和分析官
目录
1. Training Data Introduction
Training Data Intents
What Can You Do With Training Data?
What Is Training Data Most Concerned With?
Training Data Opportunities
Business Transformation
Training Data Efficiency
Tooling Proficiency
Process Improvement Opportunities
Why Training Data Matters
ML Applications Are Becoming Mainstream
The Foundation of Successful AI
Training Data Is Here to Stay
Training Data Controls the ML Program
New Types of Users
Training Data in the Wild
What Makes Training Data Difficult?
The Art of Supervising Machines
A New Thing for Data Science
ML Program Ecosystem
Data-Centric Machine Learning
Failures
History of Development Affects Training Data Too
What Training Data Is Not
Generative AI
Human Alignment Is Human Supervision
Summary
2. Getting Up and Running
Introduction
Getting Up and Running
Installation
Tasks Setup
Annotator Setup
Data Setup
Workflow Setup
Data Catalog Setup
Initial Usage
Optimization
Tools Overview
Training Data for Machine Learning
Growing Selection of Tools
People, Process, and Data
Embedded Supervision
Human Computer Supervision
Separation of End Concerns
Standards
Many Personas
A Paradigm to Deliver Machine Learning Software
Trade-Offs
Costs
Installed Versus Software as a Service
Development System
Scale
Installation Options
Annotation Interfaces
Modeling Integration
Multi-User versus Single-User Systems
Integrations
Scope
Hidden Assumptions
Security
Open Source and Closed Source
History
Open Source Standards
……
3.Schema
4.Data Engineering
5.Workflow
6.Theories, Concepts, and Maintenance
7.AI Transformation and Use Cases
8.Automation
9.Case Studies and Stories
非特殊说明,本博所有文章均为博主原创。
如若转载,请注明出处:https://www.xiazainiu.com/Wd1qk_5_17913.html