Сергей алексеев обучение

  • 1099 доли
Вопросы интервью машинного обучения являются неотъемлемой частью интервью по науке о данных и пути к тому . Чтобы стать специалистом по данным . Инженероммашинного обученияили инженером по данным.

Springboard создала бесплатное руководство по интервью в области науки о данных, где мы узнали. Как именно эти интервью предназначены для того. Чтобы сбить кандидатов с толку! В этом блоге мы подготовили список из 51 ключевых вопросов интервью машинного обучения. С которыми вы можете столкнуться в интервью машинного обучения.

Мы также предоставили несколько удобных ответов. Чтобы вы могли пройти собеседование по машинному обучению (или стажировку по машинному обучению).

Если вы ищете более полное представление о вариантах карьеры в области машинного обучения. Ознакомьтесь с нашими руководствами о том, как стать специалистом по данным и как стать инженером данных.

Наконец, не забудьте проверить Трек карьеры инженера машинного обучения Springboard, который поставляется в комплекте с шестимесячной гарантией работы.

Вопросы Интервью Машинного Обучения: 4 Категории

Мы традиционно видели. Что вопросы интервью машинного обучения появляются в нескольких категориях.

  1. Первый действительно связан с алгоритмами и теорией машинного обучения. Вам придется продемонстрировать понимание того. Как алгоритмы сравниваются друг с другом и как правильно измерить их эффективность и точность.
  2. Вторая категория имеет отношение к вашим навыкам программирования и вашей способности выполнять поверх этих алгоритмов и теории.
  3. Третья причина связана с вашим общим интересом к машинному обучению. Вас спросят о том. Что происходит в отрасли и как вы идете в ногу с последними тенденциями машинного обучения.

  4. Наконец, существуют вопросы. Относящиеся к конкретной компании или отрасли, которые проверяют вашу способность использовать общие знания в области машинного обучения и превращать их в действенные моменты для продвижения вперед.

Мы разделили это руководство по вопросам интервью с машинным обучением на категории. Упомянутые выше. Чтобы вам было легче получить необходимую информацию. Когда дело доходит до вопросов интервью с машинным обучением.

Вопросы интервью машинного обучения: Алгоритмы/Теория

Вопросы интервью машинного обучения об алгоритмах ML проверят ваше понимание теории машинного обучения.

Q1: Каков компромисс между bias и дисперсией?

Ответ: Смещение-это ошибка из-за ошибочных или чрезмерно упрощенных предположений в используемом вами алгоритме обучения. Это может привести к тому. Что модель будет недостаточно соответствовать вашим данным. Что затруднит для нее высокую точность прогнозирования и для вас. Чтобы обобщить свои знания от обучающего набора к тестовому набору.

Дисперсия-это ошибка. Вызванная слишком большой сложностью используемого вами алгоритма обучения. Это приводит к тому. Что алгоритм очень чувствителен к высоким степеням вариации ваших обучающих данных. Что может привести к тому. Что ваша модель

будет слишком соответствовать этим данным. Вы будете нести слишком много шума от ваших обучающих данных. Чтобы ваша модель была очень полезна для ваших тестовых данных.

Декомпозиция смещения-дисперсии по существу декомпозирует ошибку обучения из любого алгоритма. Добавляя смещение. Дисперсию и немного неприводимой ошибки из-за шума в базовом наборе данных. По сути, если вы сделаете модель более сложной и добавите больше переменных. Вы потеряете смещение. Но получите некоторую дисперсию — чтобы получить оптимально уменьшенную величину ошибки. Вам придется

найти компромисс между смещением и дисперсией. Вы не хотите ни высокой предвзятости. Ни высокой дисперсии в вашей модели.

Подробнее: Компромисс смещения-дисперсии (Википедия)

Q2: В чем разница между контролируемым и неконтролируемым машинным обучением?

Ответ: Контролируемое обучение требует обучения с маркировкой данных. Например, чтобы выполнить классификацию (обучающая задача под наблюдением). Вам нужно сначала пометить данные. Которые вы будете использовать для обучения модели классификации данных в помеченные группы. Неконтролируемое обучение, напротив. Не требует явной маркировки данных.

Подробнее: Классические примеры контролируемого и бесконтрольного обучения (Трамплин)

Q3: Чем KNN отличается от кластеризации k-средних?

Ответ: K-Ближайшие соседи-это алгоритм контролируемой классификации, в то время как кластеризация k-средних-это алгоритм неконтролируемой кластеризации. Хотя на первый взгляд механизмы могут показаться похожими. На самом деле это означает. Что для работы K-ближайших соседей вам нужны помеченные данные. В которые вы хотите классифицировать немеченую точку (таким образом. Ближайшую соседнюю часть).

Кластеризация K-means требует только набора немаркированных точек и порога: алгоритм будет брать немаркированные точки и постепенно учиться группировать их в группы. Вычисляя среднее расстояние между разными точками.

Критическое различие здесь заключается в том. Что KNN нуждается в маркированных точках и. Таким образом. Является контролируемым обучением. В то время как k-means этого не делает—и. Таким образом. Является неконтролируемым обучением.

Подробнее читайте: Чем алгоритм k-ближайшего соседа отличается от кластеризации k-средних? (Quora)

Q4: Объясните, как работает кривая ROC.

Ответ: Кривая ROC — это графическое представление контраста между истинно положительными показателями и ложноположительными показателями при различных пороговых значениях.

Он часто используется в качестве посредника для определения компромисса между чувствительностью модели (истинные срабатывания) и вероятностью возникновения ложной тревоги (ложные срабатывания).

Подробнее читайте: Рабочая характеристика приемника (Википедия)

Q5: Определите точность и отзыв.

Ответ: Отзыв также известен как истинный положительный коэффициент: количество положительных результатов. Заявленных вашей моделью. По сравнению с фактическим количеством положительных результатов. Имеющихся во всех данных.

Точность также известна как положительная прогностическая ценность. И она является мерой количества точных положительных результатов. На которые претендует ваша модель. По сравнению с количеством положительных результатов. На которые она фактически претендует. Может быть, проще думать о припоминании и точности в контексте случая. Когда вы предсказали. Что в случае 10 яблок было 10 яблок и 5 апельсинов. У вас будет идеальная память (на самом деле есть 10 яблок. И вы предсказали. Что их будет 10). Но точность 66,7%. Потому что из 15 событий. Которые вы предсказали. Только 10 (яблоки) верны.

Подробнее: Точность и отзыв (Википедия)

Q6: Что такое теорема Байеса? Как это полезно в контексте машинного обучения?

Ответ: Теорема Байеса дает вам апостериорную вероятность события. Заданного тем. Что известно как априорное знание.

Математически это выражается как истинная положительная частота выборки состояний. Деленная на сумму ложноположительной частоты популяции и истинной положительной частоты состояния. Допустим, у вас было 60% шансов на то. Что вы действительно заболеете гриппом после теста на грипп. Но из людей. Которые заболели гриппом. Тест будет ложным в 50% случаев. А общая популяция имеет только 5% шансов заболеть гриппом. Будет ли у вас на самом деле 60% шансов заболеть гриппом после положительного теста?

Теорема Байеса говорит нет. Он говорит, что у вас есть (.6 * 0.05) (Истинно положительный показатель выборки состояний) / (.6*0.05)(Истинно положительный показатель выборки состояний) + (.5*0.95) (Ложноположительный показатель популяции) = 0.0594 или 5.94% шансов заболеть гриппом.

Теорема Байеса лежит в основе ветви машинного обучения. Которая. В частности. Включает в себя Наивный байесовский классификатор. Это очень важно учитывать. Когда вы сталкиваетесь с вопросами интервью по машинному обучению.

Подробнее читайте: Интуитивное (и краткое) объяснение теоремы Байеса (BetterExplained)

Q7: Почему “Наивный” Байес наивен?

Ответ: Несмотря на свое практическое применение. Особенно в текстовом майнинге. Наивный Байес считается “Наивным”. Потому что он делает предположение. Которое практически невозможно увидеть в реальных данных: условная вероятность вычисляется как чистое произведение отдельных вероятностей компонентов. Это подразумевает абсолютную независимость признаков — условие, вероятно. Никогда не встречавшееся в реальной жизни.

Как капризно выразился комментатор Quora. Наивный классификатор Байеса. Который выяснил. Что вам нравятся соленые огурцы и мороженое, вероятно. Наивно порекомендует вам соленое мороженое.

Подробнее читайте: Почему “наивный Байес” наивен? (Quora)

В8: Объясните разницу между регуляризацией L1 и L2.

Ответ: Регуляризация L2 имеет тенденцию распространять ошибку среди всех членов, в то время как L1 является более двоичной/разреженной, причем многим переменным присваивается либо 1, либо 0 при взвешивании. L1 соответствует установке априора Лапласа на члены. В то время как L2 соответствует априору Гаусса.

Еще одно чтение: В чем разница между регуляризацией L1 и L2? (Квора)

Q9: Какой ваш любимый алгоритм. И можете ли вы объяснить его мне менее чем за минуту?

Ответ: Интервьюеры задают такие вопросы для машинного обучения. Чтобы проверить ваше понимание того. Как сообщать сложные и технические нюансы с уравновешенностью и способностью быстро и эффективно подводить итоги. Отвечая на такие вопросы, убедитесь. Что у вас есть выбор. И убедитесь. Что вы можете объяснить различные алгоритмы так просто и эффективно. Чтобы пятилетний ребенок мог понять основы!

Q10: В чем разница между ошибкой типа I и ошибкой типа II?

Ответ: Не думайте, что это вопрос с подвохом! Многие вопросы интервью машинного обучения будут попыткой задать вам основные вопросы. Чтобы убедиться. Что вы на вершине своей игры. И вы подготовили все свои базы.

Ошибка типа I является ложноположительной. А ошибка типа II-ложноотрицательной. Короче говоря. Ошибка типа I означает утверждение. Что что-то произошло. Когда этого не произошло. В то время как Ошибка типа II означает. Что вы утверждаете. Что ничего не происходит. Когда на самом деле что-то происходит.

Разумный способ думать об этом-думать об ошибке типа I как о том. Что вы говорите мужчине. Что он беременен. В то время как Ошибка типа II означает. Что вы говорите беременной женщине. Что она не носит ребенка.

Подробнее читайте: Ошибки типа I и типа II (Википедия)

Q11: Что такое преобразование Фурье?

Ответ: Преобразование Фурье-это общий метод разложения общих функций на суперпозицию симметричных функций. Или, как говорится в этом более интуитивном учебнике, учитывая смузи. Именно так мы находим рецепт. Преобразование Фурье находит набор циклических скоростей. Амплитуд и фаз. Соответствующих любому временному сигналу. Преобразование Фурье преобразует сигнал из временной области в частотную—это очень распространенный способ извлечения признаков из звуковых сигналов или других временных рядов. Таких как данные датчиков.

Подробнее читайте: Преобразование Фурье (Википедия)

В12: В чем разница между вероятностью и правдоподобием?

Подробнее читайте: В чем разница между “вероятностью” и “вероятностью”? (Перекрестная проверка)

Q13: Что такое глубокое обучение и как оно отличается от других алгоритмов машинного обучения?

Ответ: Глубокое обучение-это подмножество машинного обучения. Которое связано с нейронными сетями: как использовать обратное распространение и некоторые принципы нейробиологии для более точного моделирования больших наборов немеченых или полуструктурированных данных. В этом смысле глубокое обучение представляет собой неконтролируемый алгоритм обучения. Который изучает представления данных с помощью нейронных сетей.

Подробнее читайте: Глубокое обучение (Википедия)

Q14: В чем разница между генеративной и дискриминационной моделью?

Ответ: Генеративная модель будет изучать категории данных. В то время как дискриминативная модель будет просто изучать различие между различными категориями данных. Дискриминативные модели. Как правило. Превосходят генеративные модели по задачам классификации.

Подробнее читайте: В чем разница между Генеративным и Дискриминационным алгоритмами? (Переполнение стека)

Q15: Какой метод перекрестной проверки вы бы использовали для набора данных временных рядов?

Ответ: Вместо того чтобы использовать стандартную кросс-валидацию k-складок. Вы должны обратить внимание на тот факт. Что временной ряд—это не случайно распределенные данные-он изначально упорядочен в хронологическом порядке. Например. Если паттерн возникает в более поздние периоды времени. Ваша модель все равно может уловить его. Даже если этот эффект не сохранялся в более ранние годы!

Вы захотите сделать что-то вроде прямой цепочки. Где вы сможете моделировать прошлые данные. А затем смотреть на данные. Обращенные вперед.

  • Складка 1 : тренировка [1], тест [2]
  • Складка 2 : тренировка [1 2], тест [3]
  • Складка 3 : тренировка [1 2 3], тест [4]
  • Складка 4 : тренировка [1 2 3 4], тест [5]
  • Складка 5 : тренировка [1 2 3 4 5], тест [6]

Подробнее читайте: Использование k-кратной перекрестной проверки для выбора модели временного ряда (CrossValidated)

Вопрос 16: Как обрезается дерево решений?

Ответ: Обрезка-это то. Что происходит в деревьях решений. Когда ветви. Обладающие слабой предсказательной способностью, удаляются. Чтобы уменьшить сложность модели и повысить точность прогнозирования модели дерева решений. Обрезка может происходить снизу вверх и сверху вниз. С такими подходами. Как сокращение ошибок обрезки и сокращение затрат.

Сокращенная обрезка ошибок, пожалуй. Самая простая версия: замените каждый узел. Если это не снижает предсказательную точность. Держите ее подрезанной. Несмотря на простоту. Эта эвристика на самом деле довольно близка к подходу. Который оптимизировал бы для максимальной точности.

Подробнее читайте: Обрезка (деревья решений)

Q17: Что для вас важнее: точность модели или производительность модели?

Ответ: Такие вопросы интервью с машинным обучением проверяют ваше понимание нюансов производительности модели машинного обучения! Вопросы интервью с машинным обучением часто обращены к деталям. Есть модели с более высокой точностью. Которые могут работать хуже в предсказательной способности—как это имеет смысл?

Ну, это все связано с тем. Что точность модели-это только подмножество производительности модели. И при этом иногда вводящее в заблуждение. Например. Если вы хотите обнаружить мошенничество в массивном наборе данных с миллионной выборкой. Более точная модель. Скорее всего. Не предсказала бы никакого мошенничества вообще. Если бы только подавляющее меньшинство случаев было мошенничеством. Однако это было бы бесполезно для предсказательной модели—модели. Предназначенной для поиска мошенничества. Которая утверждала. Что никакого мошенничества вообще не было! Вопросы. Подобные этому. Помогут вам продемонстрировать. Что вы понимаете. Что точность модели-это не все и не вся производительность модели.

Подробнее читайте: Парадокс точности (Википедия)

Q18: Каков результат F1? Как бы вы его использовали?

Ответ: Оценка F1-это показатель эффективности модели. Это средневзвешенное значение точности и отзывчивости модели, причем результаты, стремящиеся к 1, являются лучшими, а результаты, стремящиеся к 0, — худшими. Вы бы использовали его в классификационных тестах. Где истинные негативы не имеют большого значения.

Подробнее читайте: Оценка F1 (Википедия)

Вопрос 19: Как бы вы справились с несбалансированным набором данных?

Ответ: Несбалансированный набор данных-это когда у вас есть, например. Классификационный тест и 90% данных относятся к одному классу. Это приводит к проблемам: точность в 90% может быть искажена. Если у вас нет возможности предсказывать другую категорию данных! Вот несколько тактик. Чтобы преодолеть этот горб:

  1. Соберите больше данных. Чтобы выровнять дисбаланс в наборе данных.
  2. Перепроверьте набор данных. Чтобы исправить дисбалансы.
  3. Попробуйте применить к набору данных другой алгоритм.

Здесь важно иметь четкое представление о том. Какой ущерб может нанести несбалансированный набор данных и как его сбалансировать.

Подробнее читайте: 8 Тактик борьбы с несбалансированными классами в вашем наборе данных машинного обучения (Machine Learning Mastery)

Q20: Когда следует использовать классификацию вместо регрессии?

Ответ: Классификация дает дискретные значения и набор данных по строгим категориям. В то время как регрессия дает вам непрерывные результаты. Которые позволяют вам лучше различать различия между отдельными точками. Вы бы использовали классификацию вместо регрессии. Если бы хотели. Чтобы ваши результаты отражали принадлежность точек данных в вашем наборе данных к определенным явным категориям (например. Если бы вы хотели знать. Является ли имя мужским или женским. А не просто насколько они коррелируют с мужскими и женскими именами.)

Подробнее: Регрессия против классификации (Math StackExchange)

Q21: Назовите пример. Где могут быть полезны методы ансамбля.

Ответ: Методы ансамбля используют комбинацию алгоритмов обучения для оптимизации лучшей предсказательной производительности. Они, как правило. Уменьшают перенапряжение в моделях и делают модель более надежной (маловероятно. Что на нее повлияют небольшие изменения в обучающих данных).

Вы можете перечислить некоторые примеры ансамблевых методов (bagging, boosting. Метод “ведро моделей”) и продемонстрировать. Как они могут увеличить предсказательную силу.

Подробнее: Ансамблевое обучение (Википедия)

Q22: Как вы гарантируете. Что не переоснащаете модель?

Ответ: Это простое переформулирование фундаментальной проблемы машинного обучения: возможность переобучения обучающих данных и переноса шума этих данных в тестовый набор. Тем самым обеспечивая неточные обобщения.

Существует три основных способа избежать переобучения:

  1. Сделайте модель проще: уменьшите дисперсию. Приняв во внимание меньшее количество переменных и параметров. Тем самым устранив часть шума в обучающих данных.
  2. Используйте методы кросс-валидации. Такие как кросс-валидация k-складок.
  3. Используйте методы регуляризации. Такие как ЛАССО. Которые наказывают определенные параметры модели. Если они могут привести к переобучению.

Подробнее читайте: Как я могу избежать переобучения? (Квора)

Q23: Какие подходы к оценке вы бы использовали для оценки эффективности модели машинного обучения?

Ответ: Сначала вы разделите набор данных на обучающие и тестовые наборы или, возможно. Используете методы перекрестной проверки для дальнейшего сегментирования набора данных на составные наборы обучающих и тестовых наборов внутри данных. Затем вы должны реализовать выбор метрик производительности: вот довольно полный список. Вы можете использовать такие показатели, как оценка F1, точность и матрица путаницы. Здесь важно продемонстрировать. Что вы понимаете нюансы того. Как измеряется модель, и как выбрать правильные показатели эффективности для нужных ситуаций.

Другое значение: как оценить алгоритмы машинного обучения (машинного обучения овладение)

Q24: Как бы вы оценили модель логистической регрессии?

Ответ: Подраздел вопроса выше. Вы должны продемонстрировать понимание того. Каковы типичные цели логистической регрессии (классификация. Прогнозирование и т. Д.), И Привести несколько примеров и примеров использования.

Подробнее читайте: Оценка логистической регрессии (CrossValidated), Логистическая регрессия на простом английском языке

Подробнее читайте: Как алгоритм машинного обучения Помог сделать Оценку ущерба От ураганов Более Безопасной. Дешевой и эффективной

Q25: Что такое “трюк ядра” и чем он полезен?

Ответ: Трюк с ядром включает в себя функции ядра. Которые могут включать в пространствах более высокой размерности без явного вычисления координат точек в этом измерении: вместо этого функции ядра вычисляют внутренние продукты между изображениями всех пар данных в пространстве признаков. Это позволяет им очень полезный атрибут вычисления координат более высоких измерений. Будучи при этом вычислительно дешевле. Чем явный расчет этих координат. Многие алгоритмы могут быть выражены в терминах внутренних продуктов. Использование трюка с ядром позволяет нам эффективно запускать алгоритмы в многомерном пространстве с низкоразмерными данными.

Подробнее читайте: Метод ядра (Википедия)

Вопросы Интервью по машинному обучению: Программирование

Эти вопросы интервью с машинным обучением проверяют ваши знания принципов программирования. Необходимых для реализации принципов машинного обучения на практике. Вопросы интервью с машинным обучением. Как правило. Являются техническими вопросами. Которые проверяют ваши логические и программные навыки: в этом разделе больше внимания уделяется последним.

Q26: Как вы обрабатываете отсутствующие или поврежденные данные в наборе данных?

Ответ: Вы можете найти отсутствующие/поврежденные данные в наборе данных и либо удалить эти строки или столбцы. Либо решить заменить их другим значением.

В Pandas есть два очень полезных метода: isnull() и dropna (). Которые помогут вам найти столбцы данных с отсутствующими или поврежденными данными и отбросить эти значения. Если вы хотите заполнить недопустимые значения значением-заполнителем (например. 0)ожете использовать метод fillna ().

Подробнее читайте: Обработка недостающих данных (O’Reilly)

Q27: Есть ли у вас опыт работы с инструментами Spark или big data для машинного обучения?

Ответ: Вы захотите ознакомиться со значением больших данных для разных компаний и различными инструментами. Которые им понадобятся. Spark-это наиболее востребованный сейчас инструмент больших данных. Способный быстро обрабатывать огромные наборы данных. Будьте честны. Если у вас нет опыта работы с требуемыми инструментами. Но также взгляните на должностные инструкции и посмотрите. Какие инструменты появляются: вы захотите инвестировать в ознакомление с ними.

Подробнее читайте: 50 Лучших Инструментов с открытым исходным кодом для больших данных (Datamation)

Q28: Выберите алгоритм. Напишите псевдокод для параллельной реализации.

Ответ: Этот вопрос демонстрирует вашу способность мыслить параллельно и то. Как вы могли бы справиться с параллелизмом в реализациях программирования. Имеющих дело с большими данными. Взгляните на фреймворки псевдокода. Такие как Peril-L, и инструменты визуализации. Такие как Диаграммы веб-последовательностей, чтобы продемонстрировать свою способность писать код. Отражающий параллелизм.

Подробнее читайте: Написание псевдокода для параллельного программирования (Переполнение стека)

Q29: Каковы некоторые различия между связанным списком и массивом?

Ответ: Массив-это упорядоченная коллекция объектов. Связанный список-это последовательность объектов с указателями. Указывающими. Как их обрабатывать последовательно. Массив предполагает. Что каждый элемент имеет одинаковый размер. В отличие от связанного списка. Связанный список может легче расти органически: массив должен быть предварительно определен или переопределен для органического роста. Перетасовка связанного списка включает в себя изменение того. Какие точки куда направляются—между тем перетасовка массива более сложна и занимает больше памяти.

Подробнее читайте: Массив против связанного списка (Переполнение стека)

Q30: Опишите хэш-таблицу.

Ответ: Хэш-таблица-это структура данных. Которая создает ассоциативный массив. Ключ сопоставляется с определенными значениями с помощью хэш — функции. Они часто используются для таких задач. Как индексация базы данных.

Подробнее читайте: Хэш-таблица (Википедия)

Q31: Какие библиотеки визуализации данных вы используете? Что вы думаете о лучших инструментах визуализации данных?

Ответ: Здесь важно определить ваши взгляды на то. Как правильно визуализировать данные. И ваши личные предпочтения. Когда дело доходит до инструментов. Популярные инструменты включают R ggplot. Python seaborn и matplotlib. А также такие инструменты. Как Plot.ly и Tableau.

Подробнее читайте: 31 Бесплатный Инструмент визуализации данных (Springboard)

По теме: 20 Вопросов интервью Python

Q32: Учитывая две строки. A и B. Одинаковой длины n, найдите. Можно ли разрезать обе строки в общей точке так. Чтобы первая часть A и вторая часть B образовывали палиндром.

Ответ: Вы часто будете получать стандартные алгоритмы и структуры данных вопросов как часть вашего процесса интервью как инженер по машинному обучению. Это может быть сродни собеседованию по разработке программного обеспечения. В данном случае это происходит из процесса интервью Google. Есть несколько способов проверить наличие палиндромов—один из способов сделать это. Если вы используете язык программирования. Такой как Python. — это перевернуть строку и проверить. Равна ли она по-прежнему исходной строке, например. Здесь следует обратить внимание на категорию вопросов. Которые вы можете ожидать. Которые будут сродни вопросам разработки программного обеспечения. Которые детализируют ваши знания алгоритмов и структур данных Убедитесь. Что вы полностью освоились с языком. Выбранным вами для выражения этой логики.

Подробнее читайте: Glassdoor ML interview questions

Q33: Как связаны первичные и внешние ключи в SQL?

Ответ: Большинство инженеров машинного обучения должны быть знакомы с большим количеством различных форматов данных. SQL по-прежнему является одним из ключевых используемых языков. Ваша способность понимать. Как манипулировать базами данных SQL. Будет тем. Что вам. Скорее всего. Нужно будет продемонстрировать. В этом примере вы можете рассказать о том. Как внешние ключи позволяют сопоставлять и соединять таблицы вместе по первичному ключу соответствующей таблицы. Но столь же полезно рассказать о том. Как вы думаете о настройке таблиц SQL и их запросе. 

Подробнее читайте: В чем разница между первичным и внешним ключом в SQL?

Q34: Как соотносятся XML и CSV с точки зрения размера?

Ответ: На практике XML гораздо более многословен, чем CSV. И занимает гораздо больше места. CSV используют некоторые разделители для категоризации и организации данных в аккуратные столбцы. XML использует теги для определения древовидной структуры пар ключ-значение. Вы часто получаете XML обратно как способ полуструктурирования данных из API или HTTP-ответов. На практике вы захотите проглотить XML-данные и попытаться обработать их в пригодный для использования CSV-файл. Такого рода вопросы проверяют ваше знакомство с данными. Спорящими иногда о грязных форматах данных.

Подробнее читайте: Как Можно Использовать XML?

Q35: Какие типы данных поддерживаются JSON?

Ответ: Это проверяет ваши знания о JSON. Еще одном популярном формате файлов. Который обертывается с помощью JavaScript. Существует шесть основных типов данных JSON. Которыми можно манипулировать: строки, числа. Объекты, массивы. Логические значения и нулевые значения.

Подробнее читайте: Типы данных JSON

Q36: Как бы вы построили конвейер данных?

Ответ: Конвейеры данных-это хлеб с маслом инженеров машинного обучения. Которые берут модели науки о данных и находят способы их автоматизации и масштабирования. Убедитесь. Что вы знакомы с инструментами для построения конвейеров данных (например. Apache Airflow) и платформами. На которых можно размещать модели и конвейеры (например. Google Cloud. AWS или Azure). Объясните шаги. Необходимые в функционирующем конвейере данных. И расскажите о своем фактическом накоплении опыта и его масштабировании в производстве.

Подробнее читайте: 10 минут на Создание Конвейера Машинного Обучения С Помощью Apache Airflow

Вопросы интервью с Машинным обучением: Специфика Компании/Отрасли

Эти вопросы интервью по машинному обучению касаются того. Как реализовать ваши общие знания в области машинного обучения в соответствии с требованиями конкретной компании. Вам будет предложено создать тематические исследования и расширить свои знания о компании и отрасли. В которую вы претендуете. С помощью навыков машинного обучения.

Q37: Как вы думаете. Какие данные являются наиболее ценными в нашем бизнесе? 

Ответ: Этот вопрос или вопросы. Подобные ему. Действительно пытаются проверить вас в двух измерениях. Первое-это ваше знание бизнеса и самой отрасли. А также ваше понимание бизнес-модели. Второй вопрос заключается в том. Сможете ли вы определить. Насколько данные коррелируют с результатами бизнеса в целом. А затем применить это мышление к контексту вашей компании. Вы захотите изучить бизнес—модель и задать хорошие вопросы своему рекрутеру-и начать думать о том. Какие бизнес-проблемы он, вероятно. Больше всего хочет решить с помощью своих данных.

Подробнее читайте: Три Рекомендации Для Получения Наиболее Ценных Данных

Q38: Как бы вы внедрили систему рекомендаций для пользователей нашей компании?

Ответ: Многие вопросы интервью машинного обучения такого типа будут включать реализацию моделей машинного обучения для решения проблем компании. Вам придется глубоко изучить компанию и ее отрасль. Особенно факторы дохода. Которые есть у компании. И типы пользователей. Которых компания принимает в контексте отрасли. В которой она находится.

Подробнее читайте: Как реализовать Систему Рекомендаций? (Переполнение стека)

Q39: Как мы можем использовать ваши навыки машинного обучения для получения дохода?

Ответ: Это сложный вопрос. Идеальный ответ продемонстрировал бы знание того. Что движет бизнесом и как ваши навыки могут быть связаны. Например. Если бы вы брали интервью для музыкального стримингового стартапа Spotify. Вы могли бы заметить. Что ваши навыки в разработке лучшей модели рекомендаций увеличат удержание пользователей. Что в конечном итоге увеличит доход.

Слайд-шоу startup metrics Slideshare. Приведенное выше. Поможет вам точно понять. Какие показатели эффективности важны для стартапов и технологических компаний. Когда они думают о доходах и росте.

Подробнее читайте: Метрики стартапов для стартапов (500 стартапов)

Q40: Что вы думаете о нашем текущем процессе обработки данных?

вопросы для интервью с машинным обучением

Ответ: Такого рода вопросы требуют. Чтобы вы внимательно слушали и передавали обратную связь конструктивным и проницательным образом. Ваш интервьюер пытается оценить. Являетесь ли вы ценным членом его команды и понимаете ли вы нюансы того. Почему определенные вещи задаются так. Как они задаются в процессе обработки данных компании. Исходя из конкретных условий компании или отрасли. Они пытаются понять. Можешь ли ты быть интеллектуальным пэром. Действуйте соответственно.

Подробнее читайте: Курс электронной почты Data Science Process (Springboard)

Вопросы Интервью по Машинному обучению: Общий интерес к машинному обучению

Эта серия вопросов для интервью по машинному обучению пытается оценить вашу страсть и интерес к машинному обучению. Правильные ответы послужат доказательством вашей приверженности быть пожизненным учеником в области машинного обучения.

Q41: Какие последние статьи машинного обучения вы читали?

Ответ: Идти в ногу с новейшей научной литературой по машинному обучению необходимо. Если вы хотите продемонстрировать интерес к позиции машинного обучения. Этот обзор глубокого обучения в природе самими потомками глубокого обучения (от Хинтона до Бенгио и Лекуна) может быть хорошим справочным документом и обзором того. Что происходит в глубоком обучении — и видом бумаги. Которую вы можете захотеть процитировать.

Больше чтения: Каковы некоторые из лучших научных работ/книг для машинного обучения?

Q42: Есть ли у вас опыт исследований в области машинного обучения?

Ответ: Что касается последнего пункта. Большинство организаций. Нанимающих на должности машинного обучения. Будут искать ваш формальный опыт в этой области. Исследовательские работы. Написанные в соавторстве или под руководством лидеров в этой области. Могут сделать разницу между тем. Нанимаете вы или нет. Убедитесь. Что у вас есть краткое изложение вашего исследовательского опыта и статей. А также объяснение вашего прошлого и отсутствия формального исследовательского опыта. Если вы этого не сделаете.

Q43: Каковы ваши любимые примеры использования моделей машинного обучения?

Ответ: Приведенная ниже тема Quora содержит несколько примеров. Таких как деревья решений. Которые классифицируют людей на различные уровни интеллекта на основе показателей IQ. Запомните несколько примеров и опишите то. Что резонировало с вами. Очень важно. Чтобы вы проявили интерес к тому. Как реализуется машинное обучение.

Подробнее читайте: Каковы типичные варианты использования различных алгоритмов машинного обучения? (Квора)

Q44: Как бы вы подошли к конкурсу “Netflix Prize”?

Ответ: Премия Netflix Prize была знаменитым конкурсом. Где Netflix предложила 1 000 000 долларов за лучший алгоритм совместной фильтрации. Победившая команда под названием BellKor имела улучшение на 10% и использовала целый ансамбль различных методов для победы. Некоторое знакомство с этим случаем и его решением поможет продемонстрировать. Что вы уже некоторое время уделяете внимание машинному обучению.

Подробнее читайте: Премия Netflix Prize (Википедия)

Q45: Где вы обычно исходите из наборов данных?

Ответ: Вопросы интервью по машинному обучению. Подобные этим. Пытаются проникнуть в суть вашего интереса к машинному обучению. Кто-то, кто действительно увлечен машинным обучением. Уйдет и сделает сайд-проекты самостоятельно и будет иметь хорошее представление о том. Какие замечательные наборы данных существуют. Если вы что-то упустили. Проверьте Quandl для получения экономических и финансовых данных и коллекцию наборов данных Kaggle для получения еще одного замечательного списка.

Подробнее читайте: 19 Бесплатных Общедоступных Наборов Данных Для Вашего Первого Проекта Data Science (Springboard)

Q46: Как вы думаете. Google обучает данные для самоуправляемых автомобилей?

Ответ: Вопросы интервью машинного обучения. Подобные этому. Действительно проверяют ваши знания различных методов машинного обучения и вашу изобретательность. Если вы не знаете ответа. В настоящее время Google использует recaptcha для получения маркированных данных на витринах магазинов и дорожных знаках. Они также основываются на учебных данных. Собранных Себастьяном Траном в GoogleX—некоторые из них были получены его аспирантами. Водящими багги по пустынным дюнам!

Подробнее: Waymo Tech

Q47: Как бы вы смоделировали подход AlphaGo. Чтобы победить Ли Седола на Go?

Ответ: Победа AlphaGo над Ли Седолом. Лучшим игроком-человеком в Go. В серии best of five стала поистине знаменательным событием в истории машинного обучения и глубокого обучения. В вышеприведенной статье Nature описано. Как это было достигнуто с помощью “поиска дерева Монте-Карло с помощью глубоких нейронных сетей. Которые были обучены контролируемым обучением. Играми с человеческими экспертами и обучением подкреплению из игр самоигры.”

Подробнее читайте: Освоение игры Go с глубокими нейронными сетями и поиском деревьев (Nature)

Q48: Что вы думаете о GPT-3 и модели OpenAI?

Ответ: GPT-3-это модель нового поколения языков. Разработанная OpenAI. Он был отмечен как захватывающий. Потому что с очень небольшим изменением в архитектуре и большим количеством данных GPT-3 мог генерировать то. Что казалось похожим на человеческие разговорные фрагменты. Вплоть до произведений нового размера и способности создавать код на естественном языке. Есть много точек зрения на GPT-3 по всему Интернету — если он появляется в обстановке интервью. Будьте готовы обратиться к этой теме (и таким же актуальным темам) разумно. Чтобы продемонстрировать. Что вы следуете последним достижениям в области машинного обучения.

Подробнее читайте: Языковые модели-это Малоизученные учащиеся

Q49: Какие модели вы тренируете для удовольствия. И какой GPU/аппаратное обеспечение вы используете?

Ответ: Такие вопросы интервью машинного обучения проверяют. Работали ли вы над проектами машинного обучения вне корпоративной роли и понимаете ли вы основы того. Как эффективно распределять ресурсы проектов и GPU-время. Ожидайте, что такие вопросы будут исходить от менеджеров по найму. Которые заинтересованы в том. Чтобы получить больше смысла за вашим портфелем и что вы сделали самостоятельно.

Подробнее: Где получить бесплатные облачные часы GPU для машинного обучения

Q50: Каковы некоторые из ваших любимых API для изучения?

Ответ: Если вы работали с внешними источниками данных. Тоорее всего. У вас есть несколько любимых API. Через которые вы прошли. Здесь вы можете вдумчиво рассказать о тех экспериментах и конвейерах. Которые вы проводили в прошлом. А также о том. Как вы думаете об API. Которые использовали раньше.

Подробнее читайте: Awesome APIs

Q51: Как вы думаете. Как квантовые вычисления повлияют на машинное обучение?

Ответ: С недавним объявлением о новых прорывах в квантовых вычислениях вопрос о том. Как этот новый формат и способ мышления с помощью аппаратного обеспечения служат полезным прокси-сервером для объяснения классических вычислений и машинного обучения. А также некоторых нюансов аппаратного обеспечения. Которые могут значительно облегчить выполнение некоторых алгоритмов на квантовой машине. Демонстрация некоторых знаний в этой области помогает показать. Что вы заинтересованы в машинном обучении на гораздо более высоком уровне. Чем просто детали реализации.

Подробнее читайте: Квантовое машинное обучение 

Мы надеемся. Что список вопросов интервью машинного обучения из этого блога поможет вам подготовиться к следующему интервью машинного обучения. Если вы рассматриваете возможность обучения машинному обучению. Возьмите трек карьеры машинного обучения Springboard: Станьте инженером ML за шесть месяцев, который поставляется с подходом. Основанным на наставничестве и проекте 1:1. Подайте заявку прямо сейчас!

Этот пост был впервые опубликован в 2017 году. Он был обновлен. Чтобы включить более актуальную информацию.

MEC Завершение