1. A: Срочно пишите в Slack. Произойдёт одно из двух: или уже во время написания вы поймёте, как лучше сделать, или мы подскажем. А может, просто поменяемся заданиями. Главное правило -- никогда не стоять на месте: или что-то делаете, или пишете в Slack.
2. A: Одно во многом зависит от другого, но датасеты для них часто различаются
3. 2) Прикиньте ваши возможности и добавьте к нему ожидаемый срок выполнения.
3.1. а) Допишите к пункту ваш никнейм
3.2. Если не можете в течении получаса оценить срок выполнения той или иной задачи, пишите в Slack, попробуем вместе.
4. Q: Не получается сделать таск, или не знаю, как лучше сделать
5. Vectors
5.1. Vectors from another project #1
5.1.1. Find datasets
5.1.2. Choose a source project
5.1.3. Write pipeline which will preprocess words to match the source project style
5.1.4. Copy vectors
5.1.5. Evaluate results
5.1.6. Share results
5.2. Own vectors #1
5.2.1. Choose dataset
5.2.2. Train dataset
5.2.3. Evaluate results
5.2.4. Share results
5.2.4.1. (А если я назначаю вам задачку, то я отмечаю её звёздочкой.)
5.2.5. Compare with other projects
6. How to
6.1. 1) Выберите лист дерева в качестве вашей задачи
6.1.1. б) Добавьте к пункту флажок вашего уникального цвета (доп цвета доступны по кнопочке "Icons")
6.2. 3) Действуйте. Не забывайте про fun!
6.3. 4) Готово! Уберите ваши отметки и пометьте пункт как выполненный (бело-зелёной галочкой в кружочке)
7. Идеи и примечания
7.1. Q: Надо ли делать Syntax и POS отдельно?
7.2. Q: Ой, тут ошибка/недоделка/неудобно сделано, как вам об этом сказать?
7.2.1. A: Просто исправьте это сами.
7.3. Q: У меня поменялась оценка сроков
7.3.1. A: Ну поменяйте в документе
7.4. Ожидаемая длина итерации по каждому из белых пунктов -- 1-2 недели. Не бойтесь упрощать задачи, не старайтесь усложнять задачи. Просто отложите более сложную версию на следующую итерацию (и напишите о вашей идее улучшения, когда будете делиться результатами).
7.4.1. Вы можете добавить подзадачи к пункту, который вы делаете. Тогда подпункт, над которым вы сейчас работаете, тоже отметьте вашим флажком.
7.4.2. Полученное качество работы подпроектов отмечаем смайликами. Смайлики показывают, на какие улучшения нужно обратить внимание в первую очередь
8. Morphology
8.1. Try switching to Mystem
8.2. Improve pymorphy2
9. Анализ качества работы пайплайнов
10. NER Iter #1
10.1. Find datasets: buriy @ Jun 12
10.2. Train one dataset
10.3. Evaluate results
10.4. Share results
10.5. Compare with other projects
11. POS Iter #1
11.1. Find datasets: buriy
11.2. Train dataset: buriy
11.3. Evaluate results: buriy
11.4. Share results: buriy
11.5. Compare with other projects
12. Syntax Iter #1
12.1. Find datasets: buriy
12.2. Train dataset: buriy
12.3. Evaluate results: buriy
12.4. Share results: buriy
12.5. Compare with other projects
13. Общие улучшения spaCy для русского языка
13.1. Примеры готовых пайплайнов для русского языка, штук 5
13.1.1. Токенизация текста: buriy
13.1.2. Улучшенная токенизация текста: drodionova
13.1.3. Задача Sentiment analysis
13.1.4. Задача классификации текстов: Anton
13.1.5. Sense2vec-RU
13.1.6. Много-классовая классификация текста. Реализация примера классификатора textcat в ноутбуке: @Anton ~ Aug 30
13.1.7. (добавьте вашу задачу)
13.2. Ускорение работы пайплайнов
14. Оценка качества (для каждого подпроекта)
14.1. Write quality evaluation pipeline (bash or python code)
14.1.1. POS: dshubenok
14.2. Write instructions to reproduce evaluation
14.2.1. POS: dshubenok