Advertisement
chevengur

СПРИНТ № 2 | Пары и кортежи | Урок 7: Вещественные числа и задача о задачах 1/2

Oct 18th, 2023 (edited)
314
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
C++ 7.82 KB | None | 0 0
  1. #include <algorithm>
  2. #include <cmath>
  3. #include <iostream>
  4. #include <map>
  5. #include <set>
  6. #include <string>
  7. #include <utility>
  8. #include <vector>
  9. #include <tuple>
  10.  
  11. using namespace std;
  12.  
  13. const int MAX_RESULT_DOCUMENT_COUNT = 5;
  14. const double EPSILON = 1e-6;
  15.  
  16. string ReadLine() {
  17.     string s;
  18.     getline(cin, s);
  19.     return s;
  20. }
  21.  
  22. int ReadLineWithNumber() {
  23.     int result;
  24.     cin >> result;
  25.     ReadLine();
  26.     return result;
  27. }
  28.  
  29. vector<string> SplitIntoWords(const string& text) {
  30.     vector<string> words;
  31.     string word;
  32.     for (const char c : text) {
  33.         if (c == ' ') {
  34.             if (!word.empty()) {
  35.                 words.push_back(word);
  36.                 word.clear();
  37.             }
  38.         }
  39.         else {
  40.             word += c;
  41.         }
  42.     }
  43.     if (!word.empty()) {
  44.         words.push_back(word);
  45.     }
  46.  
  47.     return words;
  48. }
  49.  
  50. struct Document {
  51.     int id;
  52.     double relevance;
  53.     int rating;
  54. };
  55.  
  56. enum class DocumentStatus {
  57.     ACTUAL,
  58.     IRRELEVANT,
  59.     BANNED,
  60.     REMOVED,
  61. };
  62.  
  63. class SearchServer {
  64. public:
  65.     void SetStopWords(const string& text) {
  66.         for (const string& word : SplitIntoWords(text)) {
  67.             stop_words_.insert(word);
  68.         }
  69.     }
  70.  
  71.     void AddDocument(int document_id, const string& document, DocumentStatus status,
  72.         const vector<int>& ratings) {
  73.         const vector<string> words = SplitIntoWordsNoStop(document);
  74.         const double inv_word_count = 1.0 / words.size();
  75.         for (const string& word : words) {
  76.             word_to_document_freqs_[word][document_id] += inv_word_count;
  77.         }
  78.         documents_.emplace(document_id, DocumentData{ ComputeAverageRating(ratings), status });
  79.     }
  80.  
  81.     int GetDocumentCount() const {
  82.         return documents_.size();
  83.     };
  84.  
  85.  
  86.  
  87.     vector<Document> FindTopDocuments(const string& raw_query,
  88.         DocumentStatus status = DocumentStatus::ACTUAL) const {
  89.         const Query query = ParseQuery(raw_query);
  90.         auto matched_documents = FindAllDocuments(query, status);
  91.  
  92.         sort(matched_documents.begin(), matched_documents.end(),
  93.             [](const Document& lhs, const Document& rhs) {
  94.                 return (abs(lhs.relevance - rhs.relevance) < EPSILON)
  95.                 ? rhs.rating < lhs.rating
  96.                 : lhs.relevance > rhs.relevance;
  97.             });
  98.         if (matched_documents.size() > MAX_RESULT_DOCUMENT_COUNT) {
  99.             matched_documents.resize(MAX_RESULT_DOCUMENT_COUNT);
  100.         }
  101.         return matched_documents;
  102.     }
  103.  
  104.     tuple<vector<string>, DocumentStatus> MatchDocument(const string& raw_query, int document_id) const
  105.     {
  106.         vector<string> query_useful_words = {};
  107.         const Query query = ParseQuery(raw_query);
  108.  
  109.         for(const auto & word : query.minus_words)
  110.         {
  111.             if(word_to_document_freqs_.count(word) > 0)
  112.             {
  113.                 if(word_to_document_freqs_.at(word).count(document_id) > 0)
  114.                 {
  115.                     return tie(query_useful_words, documents_.at(document_id).status);
  116.                 }
  117.             }
  118.         }
  119.  
  120.         for(const auto & word : query.plus_words)
  121.         {
  122.             if(word_to_document_freqs_.count(word) > 0)
  123.             {
  124.                 if(word_to_document_freqs_.at(word).count(document_id) > 0)
  125.                 {
  126.                     query_useful_words.push_back(word);
  127.                 }
  128.             }
  129.         }
  130.         return make_tuple(query_useful_words, documents_.at(document_id).status);
  131.     }
  132.  
  133.  
  134. private:
  135.     struct DocumentData {
  136.         int rating;
  137.         DocumentStatus status;
  138.     };
  139.  
  140.     set<string> stop_words_;
  141.     map<string, map<int, double>> word_to_document_freqs_;
  142.     map<int, DocumentData> documents_;
  143.  
  144.     bool IsStopWord(const string& word) const {
  145.         return stop_words_.count(word) > 0;
  146.     }
  147.  
  148.     vector<string> SplitIntoWordsNoStop(const string& text) const {
  149.         vector<string> words;
  150.         for (const string& word : SplitIntoWords(text)) {
  151.             if (!IsStopWord(word)) {
  152.                 words.push_back(word);
  153.             }
  154.         }
  155.         return words;
  156.     }
  157.  
  158.     static int ComputeAverageRating(const vector<int>& ratings) {
  159.         if (ratings.empty()) {
  160.             return 0;
  161.         }
  162.         int rating_sum = 0;
  163.         for (const int rating : ratings) {
  164.             rating_sum += rating;
  165.         }
  166.         return rating_sum / static_cast<int>(ratings.size());
  167.     }
  168.  
  169.     struct QueryWord {
  170.         string data;
  171.         bool is_minus;
  172.         bool is_stop;
  173.     };
  174.  
  175.     QueryWord ParseQueryWord(string text) const {
  176.         bool is_minus = false;
  177.         // Word shouldn't be empty
  178.         if (text[0] == '-') {
  179.             is_minus = true;
  180.             text = text.substr(1);
  181.         }
  182.         return { text, is_minus, IsStopWord(text) };
  183.     }
  184.  
  185.     struct Query {
  186.         set<string> plus_words;
  187.         set<string> minus_words;
  188.     };
  189.  
  190.     Query ParseQuery(const string& text) const {
  191.         Query query;
  192.         for (const string& word : SplitIntoWords(text)) {
  193.             const QueryWord query_word = ParseQueryWord(word);
  194.             if (!query_word.is_stop) {
  195.                 if (query_word.is_minus) {
  196.                     query.minus_words.insert(query_word.data);
  197.                 }
  198.                 else {
  199.                     query.plus_words.insert(query_word.data);
  200.                 }
  201.             }
  202.         }
  203.         return query;
  204.     }
  205.  
  206.     // Existence required
  207.     double ComputeWordInverseDocumentFreq(const string& word) const {
  208.         return log(documents_.size() * 1.0 / word_to_document_freqs_.at(word).size());
  209.     }
  210.  
  211.     vector<Document> FindAllDocuments(const Query& query, DocumentStatus status) const {
  212.         map<int, double> document_to_relevance;
  213.         for (const string& word : query.plus_words) {
  214.             if (word_to_document_freqs_.count(word) == 0) {
  215.                 continue;
  216.             }
  217.             const double inverse_document_freq = ComputeWordInverseDocumentFreq(word);
  218.             for (const auto [document_id, term_freq] : word_to_document_freqs_.at(word)) {
  219.                 if (documents_.at(document_id).status == status) {
  220.                     document_to_relevance[document_id] += term_freq * inverse_document_freq;
  221.                 }
  222.             }
  223.         }
  224.  
  225.         for (const string& word : query.minus_words) {
  226.             if (word_to_document_freqs_.count(word) == 0) {
  227.                 continue;
  228.             }
  229.             for (const auto [document_id, _] : word_to_document_freqs_.at(word)) {
  230.                 document_to_relevance.erase(document_id);
  231.             }
  232.         }
  233.  
  234.         vector<Document> matched_documents;
  235.         for (const auto [document_id, relevance] : document_to_relevance) {
  236.             matched_documents.push_back(
  237.                 { document_id, relevance, documents_.at(document_id).rating });
  238.         }
  239.         return matched_documents;
  240.     }
  241. };
  242.  
  243. void PrintDocument(const Document& document) {
  244.     cout << "{ "s
  245.          << "document_id = "s << document.id << ", "s
  246.          << "relevance = "s << document.relevance << ", "s
  247.          << "rating = "s << document.rating
  248.          << " }"s << endl;
  249. }
  250.  
  251. int main() {
  252.     SearchServer search_server;
  253.     search_server.SetStopWords("и в на"s);
  254.  
  255.     search_server.AddDocument(0, "белый кот и модный ошейник"s,        DocumentStatus::ACTUAL, {8, -3});
  256.     search_server.AddDocument(1, "пушистый кот пушистый хвост"s,       DocumentStatus::ACTUAL, {7, 2, 7});
  257.     search_server.AddDocument(2, "ухоженный пёс выразительные глаза"s, DocumentStatus::ACTUAL, {5, -12, 2, 1});
  258.  
  259.     for (const Document& document : search_server.FindTopDocuments("ухоженный кот"s)) {
  260.         PrintDocument(document);
  261.     }
  262. }
  263.  
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement